Камера, мотор, панорама как создаются 3D-фото автомобилей в приложении Авто.ру

Чем лучше удастся рассмотреть потенциальную покупку перед оплатой, тем меньше шансов столкнуться с неприятными сюрпризами после, вопреки недобросовестным продавцам и недостаточно подробным описаниям. Чтобы ожидания пользователей чаще совпадали с реальностью, всё больше онлайн-магазинов внедряют 3D-фото на карточки своих товаров: одежда, электроника и даже маркетплейсы. Спрос на панорамные фото автомобилей был только делом времени и технологий, ведь в отличие от обуви или телефона, съёмка машины требует намного больше места и усилий.

Привет, на связи Антон Тимофеев, продуктовый менеджер в Авто.ру, и Александр Сапатов, разработчик команды компьютерного зрения Яндекса. Под катом расскажем о том, что происходит под капотом нашего приложения, после того как вы нажимаете кнопку Панорама, и почему для создания хорошего снимка теперь достаточно обычного смартфона.

Что было до

Крупные автодилеры начали массово использовать панорамы где-то в 2017 году. Строго говоря, это были не совсем панорамы: вокруг автомобиля строили целые съёмочные павильоны или замкнутые рельсы, по которым толкали камеру, пока она не возвращалась на место старта, на выходе видео, где машина видна со всех сторон. В 2018 мы поддержали этот формат на Авто.ру и наблюдали процесс подготовки: дилеры закупают оборудование ценой в сотни тысяч рублей, возводят вспомогательные приспособления камера, мотор! Красивые фото и видео приятно рассматривать даже если не собираешься приобретать автомобиль. Неудивительно, что частные продавцы стали интересоваться, можно ли повторить такое в домашних условиях.

Технологии развивались, процесс упрощался, но для создания качественной панорамы всё ещё требовалась если не профессиональная камера, то, как минимум, топовый смартфон. К 2019 году мы поставили себе амбициозную цель сделать панорамную съёмку авто доступной почти каждому владельцу смартфона: простой и быстрой, не требующей дополнительных затрат, специального оборудования и профессиональных навыков.

И сделали.

Как это работает

В двух словах так: пользователь снимает видео в нашем приложении, а оно обрабатывает полученные кадры с использованием технологий компьютерного зрения и машинного обучения очищает от шумов, выравнивает изображение, склеивает панораму. Звучит просто, но если представить, каким образом человек идёт с телефоном вокруг автомобиля, удерживая его в кадре, задача начнёт обрастать подробностями: например, телефон шатается из стороны в сторону, несмотря на оптическую стабилизацию. На пути могут возникнуть препятствия столбы, деревья, заборы и объект съёмки пропадёт из кадра. А походка или скорость шага могут привести к неравномерности съёмки ниже ещё вернёмся к тому, как боремся с этими и подобными шумами.

Итак, вы открыли приложение, нажали кнопку Панорама в форме редактирования объявления, обошли автомобиль с включённой камерой, тщательно следуя всем инструкциям. Что дальше?

Шаг 0. Снятое видео отправляется к нам на сервера: во-первых, зачем экспериментировать, справится ли ваше устройство с не самыми лёгкими расчётами, если можем взять это на себя. Во-вторых, чем больше вычислительных мощностей, тем быстрее сгенерируется панорама. Запускается классический для задач Structure from Motion алгоритм обработки видео, который умеет одновременно делать всё, что потребуется для моделирования: позиционировать камеру в пространстве, понимать, где находился объект, и оценивать его размеры.

Шаг 1. От реальной картины мира к математической модели. По доступным кадрам видео алгоритм вычисляет облако подозрительных точек для проверки на совпадение и определяет какие из них на самом деле одна и та же точка, снятая с разных ракурсов. Ещё не известно, что из этого действительно машина, а что фон. Выбираются опорные кадры включающие много подозрительных точек. Пока идёт работа с облаком, реальные, абсолютные расстояния не понадобятся, важны именно взаимное расположение камеры и объекта, то есть модель проекция реального мира в некотором масштабе. По небольшому количеству кадров выполняется грубая оценка позиций камеры в пространстве: чем точнее известно, где она находилась, тем качественнее получится ограничить интересующие нас объекты.

Можно было бы попробовать определить позицию камеры с помощью гироскопа и других встроенных в телефон датчиков, но они накапливают ошибку измерения с течением времени: чем дольше видео тем больше ошибка. Поэтому мы пытаемся восстановить точки в трёхмерном пространстве: сравнивая соседние кадры, собираем общую трёхмерную модель траектории движения камеры. Опытные читатели могут возразить почему не попробовать делать сегментацию на разных кадрах? маска может получиться разная, возникнет дрожание объекта.

Шаг 2. Для опорных кадров алгоритм ищет соседние: выбирает таким образом, чтобы они равномерно (по углу обхода), покрывали панораму. То есть точки, существующие в реальном 3D-мире, не рассчитываются для каждого нового кадра, а ищутся на соседних.

Параллельно алгоритм* подбирает параметры камеры: после нахождения опорных точек оптимизирует систему линейных уравнений (минимизирует ошибку определения положения), по которым эти точки проецируются на кадры, где были найдены. Решая такую систему уравнений, требуем, чтобы параметры камеры на каждом кадре были одинаковы, позиция от кадра к кадру разная, а точка в 3D-профайле тоже опять-таки на всех кадрах должна быть одинаковая. Для кадров, где опорных точек не было, соответственно, определяются только позиции камеры.

*Мы уже ссылались на эту статью выше: больше деталей, математические подробности.

Шаг 3. Облако точек есть: как понять, какие из них относятся к машине? Технология, помогающая по кадрам создавать облако точек и находить позицию камеры, довольно известна. Мы для решения этой задачи используем opensfm. Однако следом отрабатывает наша собственная технология, позволяющая сделать фильтрацию облака точек и выравнивание позиции камеры. Эвристика следующая:

Объект должен быть вытянут: машина в любом сечении больше длинная, чем высокая.
Облако точек плотное: автомобиль едва ли просвечивает.
Всё, что вне траектории камеры (а она теперь известна) шум.
Машина обычно стоит на земле плотное скопление точек в нижней части кадра также обычно имеет характерную форму.

Итого: ищем некий параллелепипедообразный (bbox) объект, в который входит как можно больше точек из облака. Если таких объектов оказалось более одного (в кадр попал столб или что-то ещё), сегментация оставит только центральный.

Кстати, развеем популярный миф. Неоднородный фон самый лучший:

Для нас потому что алгоритму проще отличить, какие точки относятся к машине, а какие к фону. Кирпичная стена, сетка-рабица и другие повторяющиеся текстуры исключения алгоритм может неправильно определить, какие точки совпадают.
Для вас потому что машины на живом фоне, по статистике, находят больший отклик у покупателей, чем салонные интерьеры и правильная подсветка.

Шаг 4. Избавиться от шумов. Основные вызванные матрицей телефона, расфокус и motion blur. Из-за них на разных кадрах нельзя точно определить одинаковую точку например, из-за блюра 3 пикселя в разную сторону накапливается ошибка нахождения этой точки в трёхмерном пространстве.

Когда не получается найти точное положение точки на фотографиях, трёхмерная модель начинает напоминать ежа: пиксельное дрожание на кадрах переносится в такое же дрожание, но с большими расстояниями. Обязательно сглаживаем поверхность, боремся с выбросами: если возникают далёкие точки, рядом с которыми нет никакого облака выкидываем их, так как скорее всего шум.

Лучше один раз увидеть:

Шаг 5. От облака точек возвращаемся к понятной человеческому глазу картинке: панораме.

Когда мы саппроксимировали bounding box машины, можно оценить, насколько много именно её попало на разные кадры и отбраковать неудачные. Если известно местоположение объекта, все нужные точки легко спроецировать на каждый кадр, обрезать его до нужных размеров. Параллельно алгоритм восстанавливал параметры камеры: он знает, когда картинку нужно отмасштабировать (приблизить/удалить) или повернуть.

Для безопасности продавца не забываем скрыть номера: в России мы были одними из первых, кто реализовал эту опцию. Тут тоже есть нюанс: если искать номер на каждом сыром кадре возникнет дрожание, и есть шанс, что где-то что-то упустим. Поэтому наш алгоритм ищет номер на готовой 3D-модели и проецирует его на панораму.

Конечно, если подходящих кадров недостаточно, придётся переснять видео, но мы очень стараемся извлечь максимум из исходников.

Шаг 6. Готовая панорама отправляется в объявление.

Немного цифр для масштаба

Сейчас для создания панорамы используется около 60 опорных кадров, приклеиваются к ним ещё около 120. Для этого выбирается по 15 соседних кадров, для них вычисляются позиции камеры и облако совпавших точек. Количества кадров не случайны: так не страдает ни качество панорамы, ни скорость сборки. Первые панорамы, где мы ещё не нащупали баланс, собирались по 40 минут, что, конечно, недопустимо.
Обычно съёмка панорамы автомобиля происходит где-то за минуту. На смартфонах видео такой длительности после съёмки занимает от 100 до 300 МБ, что с условием загрузки на наши сервера было бы серьёзным стопором для пользователя. Поэтому в рамках проекта мы стали на лету менять битрейт и формат съёмки, тем самым сократив размер файла видео до приемлемых 2040 мегабайт, без потерь в размере картинки или качества для компьютерного зрения.
С другой стороны, нам пришлось провести адаптацию выдачи объявлений с панорамами, т.к. пользователи не готовы ждать загрузки 56 мегабайт на каждое, учитывая, что за сессию поиска автомобиля они просматривают десятки и даже сотни объявлений. Для решения этой проблемы мы перекодируем полученный результат под разные разрешения и форматы файлов от простого сета .jpeg до достаточно редкого .webm, в некоторых случаях сокращая размер скачиваемой панорамы до 150 КБ.
На данный момент у нас на сайте можно встретить больше 3000 панорам автомобилей, созданных как дилерами (мы не забыли и про них), так и обычными продавцами.
Будущие покупатели видят в выдаче живые объявления с панорамами и залипают на них до 30% дольше. Конверсия звонков продавцу для автомобиля с панорамой также растёт.

Панорама позволяет увидеть товар со всех сторон, скрыть дефекты практически невозможно. Дополнительно затрудняет возможность сжульничать и то, что картинка собирается на наших серверах, нельзя вмешаться и, например, отретушировать дефекты. В будущем, кстати, планируем предоставить продавцам возможность отмечать на панорамах проблемные зоны и прикреплять к ним фото с подробностями.

Товар != автомобиль. Надеемся, что наш опыт окажется полезным и для других сфер ритейла: простое, быстрое и бесплатное создание 3D-модели для объявления облегчит жизнь продавцам, возможность тщательно осмотреть предмет сделки поможет покупателям.

Всем привет! Меня зовут Рома, я фронтендер в Я.Учебнике. Сегодня расскажу, как избежать дублирования кода и писать качественные переиспользуемые компоненты. Статья написана по мотивам (но только по мотивам!) доклада с Я.Субботника видео есть в конце поста. Если вам интересно разобраться в этой теме, добро пожаловать под кат.

Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) это схема Звезда или Снежинка. Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, мы

Давайте поговорим о микрофронтендах и о встраиваемых виджетах, которые, по сути, были предшественниками концепции микрофронтендов. В докладе я рассказал о способах встраивать виджеты на страницу, об их плюсах и минусах с точки зрения изоляции и производительности кода, а также о способах применять виджеты в микрофронтендной архитектуре.

Дженерики, или параметризованные типы, позволяют писать более гибкие функции и интерфейсы. Чтобы зайти дальше, чем параметризация одним типом, нужно понять лишь несколько общих принципов составления дженериков и TypeScript раскроется перед вами, как шкатулка с секретом. AlexandrNikolaichev объяснил, как не бояться вкладывать дженерики друг в друга и использовать автоматический вывод типов в ва

Всем привет, меня зовут Алексей Остриков, я руковожу разработкой в Яндекс.Маркете. Когда-то я много-много писал код, затем полтора года руководил группой бэкенда одного из сервисов Маркета, а сейчас отвечаю за разработку курьерской платформы Маркета.

Сегодня я расскажу, почему доставка на аутсорсе это не всегда хорошо, для чего нужна прозрачность процессов и как мы за полтора года написали платформу, которая п

Задеплоил сервис-воркер нужно покупать новый домен, известная шутка о том, как сложно писать собственную логику кеширования. С приходом шестой версии библиотеки Workbox для прогрессивных веб-приложений (PWA) больше не нужен компромисс между гибкостью и удобством автоматизации сетевых задач. Максим Сальников рассказал, как начать работу с Workbox 6, реализовать типовую функциональность для офлайнового веб-приложения и п

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Изображения, используемые на веб-страницах, привлекают пользователей, пользователи довольно-таки охотно щёлкают по ним мышью. Изображения делают веб-страницы лучше во всём кроме скорости работы страниц. Изображения это огромные куски байтов, которые обычно являются теми частями сайтов, которые загружаются медленнее всего. В этом материале я собрал всё, что нужно знать в 2021 году об улучшении скорости работы веб-страни

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

В прошлом году я развлекался треккингом волейбольного мяча, используя удаление фона OpenCV с анализом траекторий и даже сделал сервис, который на основе этой информации вырезает скучные моменты из игры.

Основным фидбеком было - что за каменный век использовать олдскульные технологии, обучаешь нейр

Введение

Возможно ли превратить координаты на изображении в конкретные географические координаты? Несмотря на то, что это звучит несколько необычно, такая конвертация вполне возможна.

Сегодня я расск

Фиксация различных нарушений, контроль доступа, розыск и отслеживание автомобилей лишь часть задач, для которых требуется по фотографии определить номер автомобиля (государственный регистрационный знак или ГРЗ).

В этой статье мы рассмотрим создание модели для распознавания с помощью Catalyst одного из самых популярных высокоуровневых фрейм

Пятничный рабочий день на удалёнке уже подходил к концу, как в дверь постучали, чтобы сообщить об установке нового домофона. Узнав, что новый домофон имеет мобильное приложение, позволяющее отвечать на звонки не находясь дома, я заинтересовался и сразу же загрузил его на свой телефон. Залогинившись, я обнаружил интересную особенность этого приложения даже без активного вызова в мою квартиру я мог смотреть в камеру домофона и открыв

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

App Store самая строгая площадка для размещения приложений. Ревью проходит дольше и строже, чем у Google Play и Huawei App Gallery. В 2020 году AppStore отклонил миллион приложений, которые публиковались впервые, и миллион апдейтов.

С одной стороны, такая строгая политика это хорошо: пользователям легче выбрать приложение и быть уверенным, что оно безопасно. Однако для разработчиков это настоящая головная боль.

Наприм

Тестировать рекламные механики не так просто, как может показаться. Главные действующие лица здесь сторонние SDK, которые не особо подконтрольны команде разработки. А так как рекламные интеграции важная часть наших мобильных приложений, то ниже вместе с

Сталкивались ли вы с такой ошибкой? Пытались ее решить? Пробовали найти решение в сети и ничего не находили? Обычно, данная проблема решается простой перезагрузкой страницы.

Около года назад в Techgoise я получил возможность поработать с

В этом дайджесте обсуждаем конференцию WWDC и ее последствия, быстрые обновления Android и ответственность команд, автоматизацию с помощью таблиц, применение КММ, цвета, элементы управления и многое другое.

Этот дайджест доступен в виде еженедельной

Мы знаем, что ожидание заказа часто бывает утомительным, особенно когда очень хочется кушать. Мы пристально следим за пользовательским опытом, но над временем не властны и сократить ожидание ниже объективного минимума не можем.

В декабре у нашего разработчика Александра Верестникова возникла идея

Всем привет, меня зовут Виктор и я frontend разработчик. Хочу поделиться тем, как я решил стать программистом и попал на стажировку в компанию Яндекс в 27 лет без высшего образования.

Сначала моя история о том, как я заинтересовался it сферой и в частности web разработк

Каин послеубийства своего брата Авелявзгляда на российское айти в 2020 коллаж автора

Эт

"Яндекс" с каждым днем делает все более интересные (заметьте, мы не рискуем говорить - уверенные) шаги в сторону развития своих торговых платформ. И все чаще напоминает собой российский Amazon замедленного действия.

А еще "Яндекс" как настоящий родитель. Холит, лелеет и

Вступление

Привет, Хабр. Недавно я получил оффер от Яндекса за один день и, не буду скрывать, я этому очень рад. Поэтому мне захотелось поделиться с сообществом своим опытом и мыслями относительно One Day Offer от Яндекса (в дальнейшем ОДО).

Начну с того, что название сия мероприятия вполне описывает его суть. За один день ты проходишь два собеседования и несколько финалов (о них поговорим позже) и в тот же день, ес

Хороший товар, не надо брать. Этой фразой, кажется, можно охарактеризовать весь спектр претензий к одном маленькому, но важному нововведению Яндекс.Маркета отзывам, написанным искусственным интеллектом. Хотя лучше будет звучать классическое "хотели как лучше". Мы, конечно, н

Yandex self driving car (беспилотные автомобили Яндекс)

Яндекс тестирует на улицах Москвы идею self driving car.

Теперь эти машины

Чем лучше удастся рассмотреть потенциальную покупку перед оплатой, тем меньше шансов столкнуться с неприятными сюрпризами после, вопреки недобросовест

	Русский
	English

Камера, мотор, панорама как создаются 3D-фото автомобилей в приложении Авто.ру

Что было до

Как это работает

Немного цифр для масштаба

Сейчас читают

Блог компании яндекс

Пишем переиспользуемые компоненты, соблюдая SOLID

Как мы внедрили свою модель хранения данных highly Normalized hybrid Model. Доклад Яндекса

Микрофронтенды и виджеты в 2021-м. Доклад Яндекса

Продвинутые дженерики в TypeScript. Доклад Яндекса

Как и зачем мы создаём собственную курьерскую платформу. Три истории Яндекс.Маркета

Автоматизируем сервис-воркер с Workbox 6. Доклад в Яндексе

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Обработка изображений

Перевод Оптимизация веб-графики в 2021 году

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Распознавание волейбольного мяча на видео с дрона

Проецирование положения объектов с камеры видеонаблюдения на карту, используя лишь школьную геометрию

Введение

Распознаем номера автомобилей. Разработка multihead-модели в Catalyst

Сим-сим откройся как я научил дверь своего подъезда узнавать меня в лицо

Разработка мобильных приложений

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

За что App Store может отклонить приложение чек-лист

Гайд по тестированию рекламы для мобильных приложений

Перевод Десятикратное улучшение производительности React-приложения

Дайджест интересных материалов для мобильного разработчика 397 (7 13 июня)

We need to go deeper как пасхалка в приложении Delivery Club сократила субъективное время ожидания еды

Яндекс

Как я попал на стажировку в Яндекс

Recovery mode IT-стыд 2020

Яндекс научил Алису принимать платежи за онлайн-покупки. Девочка созрела?

Приключение в один день или One Day Offer от Яндекса

Вступление

Новый ИИ Яндекс.Маркета портит мнение о товарах, создавая противоречивы отзывы

Recovery mode Беспилотный автомобиль Яндекс создаёт пробки и провоцирует опасные ситуации на дорогах

Yandex self driving car (беспилотные автомобили Яндекс)

Авто.ру