Обучаем качественные модели без DensePose разметки

Возможно ли обучить качественную модель, которая предсказывает 3D координаты поверхности тела животного по фотографии, без соответствующей DensePose разметки?

Исследователи из Facebook Artificial Intelligence Research затронули этот вопрос на конференции по машинному зрению CVPR 2020.

Источник: https://www.facebook.com/watch/?v=678774242681114

О задаче DensePose

Ранее эти исследователи представили научному сообществу новый датасет DensePose-COCO и архитектуру нейронной сети, которая работает с этими данными (статья). Этот датасет состоит из собранной особым образом разметки людей на картинках из COCO 2014.

Подробнее одатасете

Данные включают в себя:

bounding boxes людей на фото,
pixel-perfect foreground-background маски,
сегментацию 32х частей тела, внутри вышеупомянутой маски,
и большой набор троек (c, u, v) для каждой фотографии, где cэто индекс части тела, u, vэто геодезические координаты в пределах части тела.

Собирались они следующим образом:

Разметчикам ставили задачу определить соответствие между случайно брошенными на изображение человека точками (в пределах маски сегментации) и точками на шести пререндеренных изображениях 3D модели человека, т.е. на шести 2D проекциях модели SMPL под разными углами. Получив такую разметку исследователи восстановили (c, u, v) координаты для этих точек на поверхности человека.

По этому принципу было собрано 5 миллионов точек для 50 тысяч изображений людей внутри датасета COCO 2014.

Такого рода данные позволили построить Mask-RCNN подобную модель для предсказания масок с 3D координатами по снимкам.

Это решение было примечательно фоллоу-апами с переодеванием. Поскольку нейронная сеть позволяет получить модель человека, то можно поместить поверх этой модели модель одежды. Примеры ниже:

Визуализации в формате видео можно увидеть здесь.

Теперь об обезьянах

В новой статье исследователи предлагают воспользоваться разметками из DensePose-COCO и COCO Dataset для того, чтобы решить схожую задачу предсказания 3D координат поверхности животных. При этом предлагается не размечать изображения животных по описанному выше алгоритму. Утверждается, что можно воспользоваться существующей разметкой не только для шимпанзе, но и для любых других животных, которые менее похожи на человека с точки зрения анатомии.

Таким способом исследователям удалось достичь качества по метрике DensePose Average Precision = 34.9. Имея размеченные данные для класса людей, модель из первой статьи показывала результат = 46.8. Это при том, что метрика варьируется от 0 до 100. Неплохой результат knowledge transferring?

Чтобы измерить качество новой модели, потребовалось разметить некоторый объем фотографий шимпанзе (по образу того, как это делалось для человека). Для этого был предложен метод восстановления соответствия между точками SMPL модели человека и очень детальной 3D модели шимпанзе.

Это позволило не только собрать необходимую разметку для эвалюации, но и значительно не менять код, который измеряет качество модели.

Show me thecode!

Как это обычно бывает со статьями, которые выпускают именитые научные группы по типу FAIRони сопровождаются кодом. Для обеих статей он доступен внутри официального репозитория detectron2 на GitHub.

Ранний код из первой статьи, написанную с использованием detectron первой версии, в основе которого лежит Caffe2, можно так же найти на GitHub.

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Фиксация различных нарушений, контроль доступа, розыск и отслеживание автомобилей лишь часть задач, для которых требуется по фотографии определить номер автомобиля (государственный регистрационный знак или ГРЗ).

В этой статье мы рассмотрим создание модели для распознавания с помощью Catalyst одного из самых популярных высокоуровневых фрейм

Исследователи из Facebook Artificial Intelligence Research затронули этот вопрос на конференции по машинному зрению CVPR 2020.

В 1998 году выпускник ННГУ им. Лобачевского Вадим Писаревский устроился на работу в небольшую IT-компанию и получил задание начать работать над технологией, о которой ничего не знал. В то время он и не предполагал, что эта работа затянется на десятилетия, а на основе созданных с его участием разработок в мире будет изготовлено несколько миллиардов гаджетов, и жизнь людей на планете Земля существенно изменится.

Как малая ком

Глубокое обучение интересная тема и моя любимая область исследований. Мне очень нравится играть с новыми исследовательскими разработками специалистов по глубокому обучению. Я только что наткнулся на удивительный репозиторий GitHub одного из моих товарищей по группе компьютерно

Привет, Хабр!

Осмелюсь сегодня рассказать, как мне довелось извлекать данные прямо из видеозаписей турнирных игр по игре League of Legends с помощью глубоких нейронных сетей: зачем это нужно, какие архитектуры и приёмы использовались, и с какими сложностями я столкнулс

Представлюсь

Всем привет! Меня зовут Влад Виноградов, я руководитель отдела компьютерного зрения в компании EORA.AI. Мы занимаемся глубоким обучением уже более трех лет и за это время реализовали множество проектов для российских и международных клиентов в которые входила исследовательская часть и обучение моделей. В последнее время мы фокусируемся на решении задач поиска похожих изображений и на текущий момент создали сис

В этой статье я расскажу об одном из методов для устранения дисбаланса предсказываемых классов. Важно уточнить, что многие методы, которые строят вероятностные модели, прекрасно работают и без устранения несбалансированности. Однако, когда мы переходим к построению невероятно

Исследователи из Facebook Artificial Intelligence Research затронули этот вопрос на конференции по машинному зрению CVPR 2020.

В один прекрасный день в конце 2020 года мы решили сделать еще один агрегатор удаленных вакансий, начав с исключительно IT-позиций. Логично спросить: зачем? Мол, на ры

Анализ данных и базоваямодель

Вступление

Эта статья основана на данных конкурса, который компания Driven Data опубликовала для решения проблем с источниками воды в Танзании.

Информация для конкурса была получена Министерством водных ресурсов Танзании с исполь

Чего уж только на Хабре не было, и DOOM на осциллографе, тесте на беременности и калькуляторе запускали, даже сервер Minecraftна зеркалке Canon 200D поднимали. Сегодня же, специально к старту нового потока курса по

Рис. 1. Реактор TRIGA на полной мощности.

На Хабре часто выкладывают туториалы по разным областям знаний. Сегодня, к старту нового потока курса по

Обучаем качественные модели без DensePose разметки

О задаче DensePose

Подробнее одатасете

Теперь об обезьянах

Show me thecode!

Сейчас читают

Python

Автоматизация машинного обучения

Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Jupyter в Visual Studio Code июньский релиз

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Компьютерное зрение

Распознаем номера автомобилей. Разработка multihead-модели в Catalyst