Русский
Русский
English
Статистика
Реклама

Deep Learning как это работает? Часть 4

Часть 1
Часть 2
Часть 3

В этой статье вы узнаете:
-О том, что такое transfer learning и как это работает

-О том, что такое semantic/instance segmentation и как это работает

-О том, что такое object detection и как это работает

Введение


Для задач обнаружения объектов выделяют два метода (источник и подробнее тут):

Двухэтапные методы (англ. two-stage methods), они же методы, основанные на регионах (англ. region-based methods) подход, разделённый на два этапа. На первом этапе селективным поиском или с помощью специального слоя нейронной сети выделяются регионы интереса (англ. regions of interest, RoI) области, с высокой вероятностью содержащие внутри себя объекты. На втором этапе выбранные регионы рассматриваются классификатором для определения принадлежности исходным классам и регрессором, уточняющим местоположение ограничивающих рамок.

Одноэтапные методы (англ. one-stage methods) подход, не использующий отдельный алгоритм для генерации регионов, вместо этого предсказывая координаты определённого количества ограничивающих рамок с различными характеристиками, такими, как результаты классификации и степень уверенности и в дальнейшем корректируя местоположение рамок.

В данной статье рассматриваются одноэтапные методы.

Transfer learning


Transfer learning это метод обучения нейронных сетей, при котором мы берем уже обученную на каких-то данных модель для дальнейшего дообучения для решения другой задачи. Например, у нас есть модель EfficientNet-B5, которая обучена на ImageNet-датасете (1000 классов). Теперь, в самом простом случае, мы изменяем ее последний classifier-слой (скажем, для классификации объектов 10-ти классов).

Взгляните на картинку ниже:



Encoder это слои subsampling'а (свертки и пулинги).

Замена последнего слоя в коде выглядит так (фреймворк pytorch, среда google colab):

Загружаем обученную модель EfficientNet-b5 и смотрим на ее classifier-слой:



Изменяем этот слой на другой:



Decoder нужен, в частности, в задаче сегментации (об этом далее).

Стратегии transfer learning


Стоит добавить, что по умолчанию все слои модели, которые мы хотим обучать дальше, обучаемы. Мы можем заморозить веса некоторых слоев.

Для заморозки всех слоев:



Чем меньше слоев мы обучаем тем меньше нам нужно вычислительных ресурсов для обучения модели. Всегда ли эта техника оправданна?

В зависимости от количества данных, на которых мы хотим обучить сеть, и от данных, на которых была обучена сеть, есть 4 варианта развития событий для transfer learning'а (под мало и много можно принять условную величину 10k):

У Вас мало данных, и они похожи на данные, на которых была обучена сеть до этого. Можно попробовать обучать только несколько последних слоев.

У Вас мало данных, и они не похожи на данные, на которых была обучена сеть до этого. Самый печальный случай. Тут уже, скорее всего, придется просто подбирать модель под объем данных, т.к. даже обучение всех слоев может не помочь.

У Вас много данных, и они похожи на данные, на которых была обучена сеть до этого. Можно попробовать не обучать всю сеть целиком, а обойтись лишь обучением нескольких последний слоев.

У Вас много данных, и они не похожи на данные, на которых была обучена сеть до этого. Лучше обучать практически всю сеть.

Semantic segmentation


Семантическая сегментация это когда мы на вход подаем изображение, а на выходе хотим получить что-то в духе:



Выражаясь более формально, мы хотим классифицировать каждый пиксель нашего входного изображения понять, к какому классу он принадлежит.

Подходов и нюансов здесь очень много. Чего стоит только архитектура сети ResNeSt-269 :)

Интуиция на входе изображение (h, w, c), на выходе хотим получить маску (h, w) или (h, w, c), где c количество классов (зависит от данных и модели). Давайте теперь после нашего encoder'а добавим decoder и обучим их.

Decoder будет состоять, в частности, из слоев upsampling'а (повышения размерности). Повышать размерность можно просто вытягивая по высоте и ширине наш feature map на том или ином шаге. При вытягивании можно использовать билинейную интерполяцию (в коде это будет просто один из параметров метода).

Архитектура сети deeplabv3+:



Если не углубляться в детали, то можно заметить, что сеть использует архитектуру encoder-decoder.

Более классический вариант, архитектура сети U-net:



Что это за серые стрелочки? Это, так называемые, skip connections. Дело в том, что encoder кодирует наше входное изображение с потерями. Для того, чтобы минимизировать такие потери как раз и используют skip connections.

В этой задаче мы можем применить transfer learning например, можем взять сеть с уже обученным encoder'ом, дописать decoder и обучить его.

На каких данных и какие модели показывают себя лучше всего в этой задаче на данный момент можно посмотреть тут.

Instance segmentation


Более сложный вариант задачи сегментации. Его суть в том, что мы хотим не только классифицировать каждый пиксель входного изображения, а еще и как-то выделять различные объекты одного класса:



Бывает так, что классы слипшиеся или между ними нет видимой границы, но мы хотим разграничить объекты одного класса друг от друга.

Подходов здесь тоже несколько. Самый простой и интуитивный состоит в том, что мы обучаем две разные сети. Первую мы обучаем классифицировать пиксели для каких-то классов (semantic segmentation), а вторую для классификации пикселей между объектами классов. Мы получаем две маски. Теперь мы можем вычесть из первой вторую и получить то, что хотели :)

На каких данных и какие модели показывают себя лучше всего в этой задаче на данный момент можно посмотреть тут.

Object detection


Подаем на вход изображение, а на выходе хотим увидеть что-то в духе:



Самое интуитивное, что можно сделать бегать по изображению различными прямоугольниками и, используя уже обученный классификатор, определять есть ли на данном участке интересующий нас объект. Такая схема имеет место быть, но она, очевидно, не самая лучшая. У нас ведь есть сверточные слои, которые каким-то образом иначе интерпретируют feature map до(А) в feature map после(Б). При этом мы знаем размерности фильтров свертки => знаем какие пиксели из А в какие пиксели Б преобразовались.

Давайте взглянем на YOLO v3:



YOLO v3 использует разные размерности feature map'ов. Это делается, в частности, для того, чтобы корректно детектировать объекты разного размера.

Далее происходит конкатенация всех трех scale'ов:



Выход сети, при входном изображении 416х416, 13х13х(B * (5 + С)), где С количество классов, B количество боксов для каждого региона (у YOLO v3 их 3). 5 это такие параметры, как: Px, Py координаты центра объекта, Ph, Pw высота и ширина объекта, Pobj вероятность того, что объект находится в этом регионе.

Давайте посмотрим на картинку, так будет чуть более понятно:



YOLO отсеивает данные предсказания изначально по objectness score по какому-то значению (обычно 0.5-0.6), а затем по non-maximum suppression.

На каких данных и какие модели показывают себя лучше всего в этой задаче на данный момент можно посмотреть тут.

Заключение


Различных моделей и подходов к задачам сегментации и локализации объектов в наши дни очень много. Существуют определенные идеи, поняв которые, станет легче разбирать тот зоопарк моделей и подходов. Эти идеи я попытался выразить в данной статье.

В следующих статьях поговорим про style transfer и GAN'ы.
Источник: habr.com
К списку статей
Опубликовано: 02.08.2020 04:18:04
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Искусственный интеллект

Машинное обучение

Глубокое обучение

Категории

Последние комментарии

  • Имя: Murshin
    13.06.2024 | 14:01
    Нейросеть-это мозг вселенной.Если к ней подключиться,то можно получить все знания,накопленные Вселенной,но этому препятствуют аннуннаки.Аннуннаки нас от неё отгородили,установив в головах барьер. Подр Подробнее..
  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru