Как посмотреть плоские фильмы в 3D

Это расширенная версия моей публикации на Medium

Недавно я сидел в баре с другом зашел разговор о том, в каких задачах в принципе может быть эффективен нейросетевой подход, а где они совершенно излишни. Один класс примеров, где нейросети часто наголову превосходят классические алгоритмы - обработка изображений. Точность решения задачи распознования объектов на изображении может даже превосходить человеческое восприятие. Кроме того, интересны и задачи переноса стиля, генерации реалистичных изображений, superresolution итд. Нейросети могут быть очень эффективны также в задачах типа pixtopix, когда происходит генерация одного изображения из другого. Тогда у меня и возникла идея попробовать применить данные алгоритмы для преобразования 2d фильмов в 3d.

О задаче

Технология создания стереоскопических 3д фильмов насчитывает около 100 лет - больше чем истории записи совмещенных звуковых и видео дорожек. Однако из-за требований к оборудованию для воспроизведения и наличия специальных очков для просмотра, стереоскопические фильмы до сих пор не являются стандартом для съемок. С появлением дешевых очков виртуальной реальности может возникнуть соблазн пересмотреть любимые фильмы в 3д. Однако для создания стереоскопического фильма используются 2 видеокамеры, расположенные на расстоянии около 6.5 см снимающие 2 видео одновременно. Для качественной конвертации старых фильмов в 3д и показа их в кинотеатре необходима ручная работа большого количества художников для разметки сцены и ручной отрисовки большинства кадров для другого глаза.

Данная задача до недавнего времени плохо поддавалась автоматизации из-за отсутствия однозначного решения при восстановлении стереоскопического изображения из монокулярного. Существует несколько проблем, которые плохо поддаются программному алгоритмическому решению. В идеальном случае, для генерации (рендеринга) изображения для глаза необходимо знание о пространственном расположении всех объектов, видимых глазом. Задача определить расстояние до объекта при помощи одного глаза является невыполнимой из-за недостатка данных. Преимущество бинокулярного зрения именно в том, что параллакс можно использовать для оценки дальности до объекта. Тем не менее, если человек закроет глаз, он может легко сказать, далеко или близко находится какой-либо объект. Определение дальности до объекта при монокулярном зрении возможно при получении информации о фокусном расстоянии и напряжению мышц, управляющих хрусталиком (глаз всегда сфокусирован либо на объектах вблизи, либо вдали). У близоруких и дальнозорких людей нарушена способность фокусироваться на далеких и близких объектах. Если же человеку дать фото , снятое при помощи фотоаппарата с фиксированным, но неизвестным фокусным расстоянием, принципиально невозможно определить далеко или близко находится изображенный объект от камеры. Съемка фото при помощи фото с большой глубиной резкости позволяет обмануть наш мозг относительно расстояния и размеров объектов или даже об относительных размерах объектов.

Однако если человека не пытаются намеренно обмануть, то можно оценить дальность и относительные расстояния исходя из нашего опыта и представления о стандартных размерах видимых объектов и перспективе. Человеческий мозг сам определяет, что если видимый размер дерева меньше, чем человек то скорее всего мы имеем дело с человеком вдали. Именно эта способность необходима для создания кадров для второго глаза из монокулярных изображений.

Вторая существенная проблема при создании кадра часто нужна отсутствующая информация.

Даже если мы получим информацию, что видит правый глаз на картинке, из нее нельзя восстановить, что видит левый глаз в изображении доски нет никакой информации о том, что же за забором. В большинстве случаев, тем не менее, картинки бывают схожими и единственная неопределенность возникает, когда близко расположенные объекты закрывают различные части фона для правого и левого глаза. Художникам необходимо догадываться, что находится в некоторых областях, невидимых одним глазом. К счастью, в фильмах обычно все важное и существенное показывают а закрытые части от заднего плана мало отличаются от фона.Две задачи определение расстояния до видимых объектов и отрисовка невидимых областей затрудняют автоматизацию. Однако обе эти задачи выглядят достаточно простыми для решения при помощи сверточных нейросетей. Задача определения дальности объектов из монокулярных изображений нужна для разработки беспилотных автомобилей, поэтому существуют готовые решения и нейросети, приемлемо ее решающие.

Так как построение карты глубин, а это важная часть задачи генерации изображения для левого глаза из изображения для правого глаза решена, можно использовать вышеназванную предобученную сеть как часть своего решения (такой подход называется transfer learning)

Я приобрел дешевые 3d очки системы google cardboard для небольших экспериментов с vr. Одна из возможностей их использования мне показалась особенно привлекательной - смотреть стереоскопические изображения и видео.

Подготовка датасета

В качестве обучающего и валидационного датасета были использованы кадры из пары десятков ~~скачанных с торрентов~~ легально приобретенных 3D фильмов и мультфильмов. Для предотвращения переобучения модели использовался каждый 200й кадр, что исключало почти идентичные кадры из рассмотрения. Часто стереоскопические фильмы храняться в том же формате, что и обычные фильмы с особой меткой в метаданных и изображением, состоящим из 2х частей - для правого и левого глаза. Форматы стереовидео называются OverUnder, Side-by-Side. Чаще всего в видео OverUnder изображения для левого глаза находится над изображением для правого глаза, хотя редко встречается и противоположная ситуация. В некоторых вариантах формата изображение сжато в два раза по одной из осей. Такого типа видео легко интерпретируются большинством видеопроигрывателей. Подготовим нарезку верхних и нижних кадров для обучения и положим их в папки Uf и Df:

После конвертации нескольких фильмов в папке Uf находятся кадры для правого глаза, Df для левого глаза. Также для такого рода задач важна информация о геометрическом положении пикселей. Учет положения пикселей может быть реализован в слое CoordConv - слое, добавляющем координаты пикселя. Идея CoordConv может также быть реализована путем генерации input - канала, содержащего координаты атомов (корректно заставить работать CoordConv на фреймворке keras оказалось трудозатратно). Создадим генератор изображений для обучения:

Архитектура используемой сети

Я использовал end-to-end модель без добавления знаний о геометрии мира и расположении глаз. После нескольких попыток, была выбрана следующая архитектура (очень постарался, чтоб нарисовать,но многие детали все равно не очень подробны):

Из особенностей, специфичных для задачи можно выделить

1. Использование предобученной сети для определения дальности до объектов (отличные результаты были получены тут https://github.com/ialhashim/DenseDepth ). Выход нейросети был нормированы для более быстрого дальнейшего обучения.

2. Использования Skip-connections кадр для правого глаза должен быть похож на кадр для левого глаза

3. Использование информации о геометрическом положении пикселя (обычно бывает реализовано в виде CoordConv слоя [https://arxiv.org/pdf/1807.03247.pdf ], я просто добавил 2 входных канала с использованием numpy, что эквивалентно)

4. Использование фильтров, в свертках последних Residual блоков вытянутых горизонтально связано с тем, что основные искажения горизонтальные смещения некоторых объектов.

Эксперименты показали, что использование в качестве функции потерь попиксельного среденеквадратичного или среднемодульного отклонения приводит к размыванию и низкому качеству изображения. Поэтому в качестве функции потерь использовалась линейная комбинация mse, structural similarity loss (это функция оценки схожести изображений, включающая в себя схожесть контрастности изображений) и loss, основанный на низкоуровневых признаках, извлеченных при помощи нейросети VGG16.

Загрузим предобученную DenseDepth модель и добавим слои для генерации изображения для другого глаза: (что лежит в custom_objects можно посмотреть на гитхабе или kaggle). Предобученная модель nyu.h5 взята отсюда

Обучение

Сохраняем промежуточные результаты в чекпоинт и запустим обучение (делал это в облаке kaggle):

В результате была получена нейросеть, генерирующая изображение из монокулярного. Для проверки качества работы удобно создавать гифки, подобные той, что в заголовке - периодически меняем 2 изображения и видим, что возникает ощущение взгляда "под другим углом". Для этого создадим функцию создания анимированных gif из картинки:

Результат:

Видим, что на gif изображениях ощущения объема достаточно реалистичное. Попробуем перекодировать фильм, изначально выпущенный в 2d. Для этого сконвертируем каждый кадр и добавим его в новом видео (к сожалению ютуб только формат side-by-side):

К сожалению, скорость конвертации дялека от реального времени (на моем ноутбуке с gtx1060 3gb) 1 кадр кодируется от 100мс до 1 с в зависимости от разрешения. Есть надежда, что более мощные gpu позволят сделать 3d- аидеоплеер с конвертацией в реальном времени.

К сохраненному видео можно добавить звук и флаги метаинформации при помощи утилиты ffmpeg:

ffmpeg -i output.mp4 -i inputvideo.mp4 -map 0:v -metadata stereo_mode=1 output.mkv

Загрузка нейросети в облако GoogleColab

Так как GPU есть не у всех, готовую предобученную сеть можно запустить в googleColab, выделяющей каждому юзеру виртуальную машину с gpu ускорителем . Я попытался сделать относительно простой интерфейс. Для запуска следует нажать run и загрузить ваше видео. Конвертация обычно занимает около 1 с на 1 кадр при разрешении по умолчанию. После нее видео скачается на ваш компьютер.

Для того, чтобы оценить работу сети по конвертации фильмов, я сконвертировал несколько из них и приобрел недорогие 3d очки для смартфона. Для просмотра использовалось приложение1 приложение2 и приложение3. По результатам субъективного опыта могу сказать, что эффект объема действительно присутствует и серьезных артефактов, мешающих просмотру не наблюдается. Однако сгенерированное изображение для левого глаза оказывается немного размытым, поэтому при просмотре может возникнуть ощущение, что просело зрение на одном глазу (сказано другом, который проверял видео и немного испугался, что глаз стал хуже видеть).

К сожалению, youtube плохо отображает стереоскопические видео на различных устройствах. Поэтому примеры некоторые конвертированные видео показаны в режиме стереопары для красно-синих очков. Для примера также одно видео конвертировано без добавления метаданных о типе стереопары (отображается в youtube как Sidebyside видео)

Заключение

Спасибо всем, кто дочитал досюда. Вот ссылка на googleColab для преобразования ваших 2D-видео в 3D. Также буду рад вашим предложениям по повышению качества конвертера (не хотелось бы сильно усложнять модель при этом). Конвертированные видео можно просматривать с помощью любых 3d мониторов/TV и VR-шлемов в том числе GoogleCardboard

В предыдущей статье, мы вспомнили, что такое WebRTC CDN, как эта технология помогает обеспечивать минимальную задержку в WebRTC трансляциях и почему для CDN не лишним будет использовать балансировку нагрузки и автоматическое масштабирование.

Кратко напомним осно

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос

Автор статьи, перевод которой мы сегодня публикуем, говорит, что стриминг видео не должен быть такой задачей, с которой у кого-либо возникают сложности. Всё дело в правильном подборе инструментов, среди которых можно отметить пакет Akka Streams. Использование этого пакета позволяет эффективно разрабатывать приложения для потоковой передачи видео.

Подавляющее большинство IT специалистов разных направлений стремится как можно меньше действий выполнять руками. Не побоюсь громких слов - то что может быть автоматизировано, должно быть автоматизировано!

Представим ситуацию: нужно разворачивать много однотипных сервер

Как известно, у YouTube отсутствует фича захвата RTSP потока. Возможно, это сделано не случайно, а исходя из голой прагматики, чтобы люди не повесили на YouTube статическое видеонаблюдение за своими подъездами и не утилизировали его каналы, которые, как оказалось в пандемию,

Продолжаю рассказывать о своём необычном увлечении. Моё хобби заключается в алгоритмическом преобразовании древнего черно-белого видео в материал, который выглядит современно. Про мою первую работу написано в этой статье. Прошло время, мои навыки улучшились, и теперь я не смеюсь над мемом Zoom and enhance

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Это расширенная версия моей публикации на Medium

Недавно я сидел в баре с другом зашел разговор о том, в каких задачах в принципе

Часть 1
Часть 2

Позиционирование, трэкинг. Full body tracking. Решения и цены

Основное, что нужно знать.

Всё, что вы можете получить, используя Oculus Go, Google Dream, Samsung Gear или мобильный телефон вложенный в шлем это 3DoF, вращение головой. То есть вы не сможете перемещаться в пространстве, двигаясь вперед, в шлеме вроде Oculus Go. У полноценных шлемов ти

Продолжение, первая часть тут

А что кроме игр?

Прежде всего я сфокусирован на играх, но для меня мой шлем должен стать ещё и персональным кинотеатром у меня трое детей, и редко когда получается уединиться, чтобы посмотреть ужасы, например. Я ещё не смотрел кино в VR, но огромное окно в YouTube мне нравится. Тем более, сейчас есть приложения, которые позволяют смотреть кино в VR вмес

Виртуальная и дополненная реальность вовсе не изобретение нового века. Попытки прорубить окно в VR предпринимались десятки лет назад. Oculus Rift и HTC Vive это, конечно, хорошо, но первые реально работающие VR-очки появились в 1995 году. Это была модель от Nintendo, Virt

В полуфинал $10M ANA Avatar XPRIZE прошли 38 команд из 16 стран мира, в том числе одна команда из России. В сентябре 2021 команды продемонстрируют возможности своих систем на отборочных тестах в США. Лучшие команды пройдут в финал, намеченный на лето 2022 года. Призовой фонд конкурса $10M ANA Avatar XPRIZE составляет 10 млн. долларов.

$10M ANA Avatar XPRIZE - четырехлетнее международное соревнование, которое стартовало в 201

Компания Dragon Tree Labs объединяет индивидуальных разработчиков и команды робототехников для общей цели создать робота-аватара, который стал бы продолжением человека, который им управляет, расширил бы возможности телеприсутствия и дистанционного физического взаимодействия с объектами реального мира.

Это совпадает с целями международного конкурса

Армия как институт часто вносит решающий вклад в появление и развитие новых технологий. Появление устройств виртуальной и дополненной реальности и систем, которые работают на их основе, тоже одна из заслуг военно-промышленного комплекса. Более того, сегодня армия становится для многих производителей AR/VR-устройств крупнейшим заказчиком. Контракт Microsoft и Министерства обороны США на поставку 100 тысяч шлемов виртуал

В 80-ые интернет и цифровые миры были чем-то загадочным и мистическим, а техно-энтузиасты уже задумывались о трехмерности видеоигровых миров.

Я большой фанат видеоигр, работаю в 3D уже 15 лет, но ни разу не встречал последовательно написанной истории развития 3D-г

В своей работе мы много общаемся с клиентами, и в результате у нас собрался целый пул часто задаваемых вопросов по линейке SOLIDWORKS. Тогда мы решили записать серию коротких видеороликов с ответами. Новые вопросы поступали, количество роликов росло В итоге мы решили организовать свой YouTube-канал Школа SOLIDWORKS, чтобы пользова

Травма

В 2008 году Шульц подписал контракт с новой командой. Во второй гонке Международной серии чемпионов (ISOC) по снокроссу он засиделся на старте и решил приложить все усилия, чтобы наверстать упущенное. Не рассчитав траекторию на пересеченной местности, Шульц пот

А вы знаете, что многофункциональный модуль Simulation может решать задачи термического исследования? Он не только позволяет увидеть, как температура распространяется по деталям, но и дает возможность узнать, за какое время деталь нагревается. Обо всем этом и многом другом в н

Пресс форма для одной из деталей Flipper Zero

_Flipper
Zero _про

Автор статьи Maciej Hernik и главный редактор портала 80.lv Kirill Tokarev любезно позволили нам сделать этот перевод.

Maciej Hernik обсудил с нами детали его стилизованной сцены Парящие Острова: шейдеры для травы, деревьев и воды, Volume Overrides, текстурир

Автор: Eugenio Culurciello, оригинальное название: The fall of RNN / LSTM

Перевод: Давыдов А.Н.

Ссылка на оригинал

Мы полюбили RNN (рекуррентные нейронные сети), LSTM (Long-short term memory), и все их варианты. А теперь пора от них отказаться!

В 2014 году LSTM и RNN,

Управляемые складки одежды и морщины, фотореалистичные симуляции вождения, естественное освещение объектов при смене фона, китайский аналог DALL-E и многое другое: встречайте подборку самых интересных исследований и нейросетевых моделей, которые появились в прошедшем месяце.

Представляем вам версию 0.2 библиотеки глубокого обучения KotlinDL.

KotlinDL 0.2 теперь доступен на Maven Central (до этого он лежал на bintray, но закатилось солнышко земли опенсорсной). Появилось столько всего нового: нов

Low-precision inference в TensorRT сегодня - мастхэв, бест практис и прочие иностранные. Сконвертить из TensorFlow легко, запустить легко, использовать fp16 легко. Да и КПД выше, чем у pruning или distillation. На первый взгляд всё работает идеально. Но на самом деле всё ли та

Кадр из аниме "Жрица и медведь"

До появления YOLO большинство способов обнаружения объектов пытались адаптировать классификаторы для детекции. В YOLO же, обнаружение объектов было сформулировано как

Недавно, в нашем Google Cloud блоге, мы анонсировали, что в сервисе Compute Engine появились виртуальные машины A2 на базе графических процессоров NVIDIA Ampere A100 с тензорными ядрами. С их помощью пользоват

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко

Компьютерное зрение это область компьютерных наук, которая фокусируется на воспроизведении частей сложной системы зрения человека и позволяет компьютерам идентифицировать и обрабатывать объекты на изображениях и видео, а также людей. Ранние эксперименты в области компьютерного зрения начались в 1950-х годах и впервые были коммерчески использованы для различения печатного и рукописного текста в 1970-х годах. Сегодня приложения компь

Одно из самых известных, наиболее интересное и совсем не изученное свойство человеческого разума с давних пор привлекавшее исследователей это интуиция.

Со времен древности философы и математики пытались хоть как как то понять и определить смысл этого могучего нашего свойства.
Еще Платон разделял и выделял нелогическое познание,
Декарт, например, утверждал: Под интуицией я разумею не веру в шаткое свиде

Ранее нам попадались относительно простые капчи:
Как обойти капчу, используя распознавание звука
Как обойти капчу: нейросеть на Tensorflow,Keras,python v числовая зашумленная капча
В этот раз поработаем над чем-то более серьезным и давно знакомым:

Итак задача: обойти капчу, желател

Сегодня я хочу рассказать вам о своем опыте использования нейронной сети для поиска похожих товаров для рекомендательной системы интернет-магазина. Говорить буду в основном о технических вещах. Написать эту статью на Хабре решил потому, что когда только начинал делать этот проект, то на Хабре нашел одно подходящее решение, но как оказалось, оно уже было устаревшим и пришлось его модифицировать. А поэтому решил обновить материал для

Привет, Хабр! Сегодня специально к старту нового потока курса по

Привет, Хабр!

Я работаю Computer Vision Engineer в Everypixel и сегодня расскажу вам, как мы учили генеративно-состязательную сеть создавать тени на изображении.

Разрабатывать GAN не так трудно, как кажется на первый взгля

Это расширенная версия моей публикации на Medium

Недавно я сидел в баре с другом зашел разговор о том, в каких задачах в принципе

	Русский
	English

Как посмотреть плоские фильмы в 3D

О задаче

Подготовка датасета

Архитектура используемой сети

Обучение

Загрузка нейросети в облако GoogleColab

Заключение

Сейчас читают

Работа с видео

WebRTC CDN на Google Cloud Platform с балансировкой и автоматическим масштабированием

Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Перевод Стриминг видео с помощью Akka Streams

Автоматизируй это, или Контейнерные перевозки Docker для WebRTC

Стриминг множества RTSP IP камер на YouTube иили Facebook

Балет и роботы

Python

Автоматизация машинного обучения

Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Jupyter в Visual Studio Code июньский релиз

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Сверточные нейросети