Русский
Русский
English
Статистика
Реклама

Говорящая голова

Лайфхаки по видео-съемке говорящей головы на беззеркалки Sony

20.12.2020 20:21:03 | Автор: admin
Говорящая голова это когда в кадре один человек спикер, который что-то рассказывает. Это может быть как учебный материал, так и новости или обзор чего-либо.

Обычно съемка говорящей головы осуществляется с помощью камеры, закрепленной на штативе, что лишает видеоролик какой-либо динамики. Кажется, что выручить могут только действия руками, актерская игра, мимика и харизма спикера. В статье я расскажу про несколько лайфхаков, как сделать видеоролики с говорящей головой более качественными и интересными, даже если у спикера нет харизмы и актерского мастерства.

Продукция Sony упоминается в заголовке статьи только потому, что я пользуюсь камерами Sony и рассказываю про некоторые аксессуары для камер Sony. Многие приемы могут быть применимы к съемке техникой других производителей.

На каком фоне снимать?


Фон и постановка света выбираются в зависимости от контента. Если предполагается потом при монтаже накладывать на видео титры, текст или всплывающие анимированные элементы, то стоит предусмотреть место в кадре для них. В этом случае уместен однотонный фон светлый или темный.

Если же на протяжении всего ролика зритель будет видеть и слышать только диктора, то лучше выбрать более разнообразный фон интересный интерьер или живописное место на улице.
При съемке на улице обычно бывает гораздо больше света и можно использовать не слишком светосильную оптику. Однако на улице обычно больше шума и найти подходящее место для съемки бывает непросто.

Какой микрофон лучше использовать?


Лучше использовать внешний микрофон. С типами и моделями микрофонов можно и нужно экспериментировать. Недорогой и всегда приемлемо работающий вариант это петличный микрофон. Если снимаете человека по пояс или в полный рост то лучше использовать радиосистему. Если бюджет на оборудование ограничен и вы снимаете в помещении или с близкого расстояния, то вполне можно обойтись проводным петличным микрофоном.

Направленные микрофоны (пушки) тоже подходят, но в помещении они часто ловят эхо и посторонние шумы, если помещение не звукоизолировано должным образом (например, публичное пространство, а не не специальная студия).

На микрофон, встроенный в камеру звук лучше вообще не записывать. Почти любой внешний микрофон стоимостью 1000 рублей и более даст звук лучше, чем микрофон, встроенный в камеру. Современные беззеркальные камеры Sony, как правило, имеют вход для подключения внешнего микрофона. Это обычный jack 3.5 мм.

Дешевые и достаточно качественные микрофоны в большом ассортименте производит китайская фирма Boya, любой из них стоит своих денег. Прочую китайскую продукцию нужно изучать конкретно по моделям, есть как хорошие образцы, так и плохие. Если интересны модели, которые использовал я спросите в комментариях и я отвечу. Микрофоны Rode считаются более качественными, чем китайские, но и цена у них в разы выше.

Какой объектив лучше использовать?


Фикс или зум это личное дело каждого. Обычно зумы уступают фиксам в резкости и светосиле. Как я уже говорил выше, на улице вполне комфортно можно снимать на прикрытой диафрагме, света обычно бывает достаточно. Разрешение видео-роликов в разы меньше типичного фотокадра, поэтому резкости зумов вполне достаточно. На улице можно снимать видео на зумы с превосходным качеством картинки. В помещении вам, возможно, захочется сильнее размывать фон и света у вас будет гораздо меньше, а искусственный свет еще нужно правильно поставить, поэтому светосильный объектив (неважно фикс или зум) при съемке в помещении будет более уместным. Светосильные фиксы по цене гораздо доступнее светосильных зумов, поэтому имеет смысл для съемки в помещении приобрести светосильный фикс.

На каком фокусном расстоянии снимать?


Я обычно использую для видеосъемки говорящей головы объективы в диапазоне эквивалентных фокусных расстояний (ЭФР) 35-50 мм. Считается, что при эквивалентном фокусном расстоянии 50 мм угол зрения объектива близок к типичному среднему углу зрения человеческого глаза.

Чем меньше фокусное расстояние, тем ближе к спикеру может быть расположена камера, но и искажения перспективы будут больше. При ЭФР менее 35 мм искажения перспективы уже хорошо заметны, черты лица становятся более выпуклыми, пухлыми и это не всегда уместно.

Ставить камеру ближе к спикеру есть смысл по следующим причинам.

Во-первых, если вы снимаете себя и используете проводные аксессуары петличные микрофоны, пульты, то у них ограничена длина провода.

Во-вторых, наверняка вы будете использовать какие-либо приспособления для отображения текста или подсказок (суфлер). Чем ближе камера, тем легче спикеру читать подсказки с монитора или планшета, не попадающего в кадр.

Я предпочитаю снимать говорящую голову на различные объективы 50 мм и Zeiss Batis 2/40.

Ручной или авто фокус?


Говорящую голову обычно снимают средним или крупным планом. Это значит, что глубина резко- изображаемого пространства (ГРИП) будет скорее всего небольшая. При этом непопадание в фокус обычно бывает хорошо заметно. Когда человек что-то рассказывает, он немного шевелится приближается к камере, наклоняется корпусом и головой. Глаза как основной объект фокусировки постоянно движутся. Система автофокуса обычно пытается поймать эти шевеления и постоянно происходит перефокусировка и автофокус не всегда ведет себя корректно.

Если ваша ситуация позволяет, то можно увеличить ГРИП то есть прикрыть диафрагму или использовать более короткое фокусное расстояние. Если же вы непременно хотите сильно размыть фон или у вас проблема с достаточным количеством света, а результаты съемки на автофокусе вас не устраивают, то можно попробовать снимать на ручном фокусе. При этом все равно придется попросить спикера не слишком сильно перемещаться вперед-назад.

Лично я предпочитаю всегда снимать говорящую голову на ручном фокусе при любой диафрагме. Тогда гарантированно фокус не дышит, не рыскает и в целом картинка получается более адекватной.

Какие возможности для съемки на ручном фокусе у нас есть для камер Sony?

Во-первых, можно перевести автофокусный объектив в режим ручного фокуса. Удобно для этого назначить одну из функциональных кнопок и перед съемкой сфокусироваться в автоматическом режиме, а затем сразу переключиться в ручной фокус. Нужно только не забывать перефокусироваться при съемке очередного дубля.

Во-вторых, можно снимать на неавтофокусный объектив. В продаже есть огромный выбор неавтофокусной оптики как специально для видео, так и универсальной. Кроме того, на камеры Sony можно ставить старые объективы через переходники. Старые советские объективы обычно сильно уступают современным объективам по контрасту, гораздо хуже переносят боковой и контровый свет. То есть на улице они часто показывают себя заметно хуже, чем современные объективы. Но для съемки в помещении они вполне применимы.

Среди старых советских объективов лично я выделяю Зенитар-М 1.7/50 мм и Индустар-61 2.8/50 мм. Зенитар-М дает приятную и качественную картинку, как на фото, так и на видео. По цветам, резкости и контрастности при благоприятных условиях Зенитар-М может соперничать с современными объективами в 10-20 раз большей стоимости. Зенитар-М хорош для съемки как в помещении, так и на улице, главное не снимать им против солнца. А Индустар интересен формой диафрагмы и звездными эффектами размытия заднего плана. На прикрытой диафрагме (f5.6-f8) отверстие принимает форму шестиугольной звезды. При съемке на улице можно получить интересные звездные блики на заднем плане.

В-третьих, можно использовать автофокусные объективы для байонета Minolta/Sony A через через переходник LA-EA3(или EA1 для кроп-камер) в режиме автофокуса. При этом мы получаем такой эффект: объектив нормально фокусируется автоматически в режиме фотосъемки, но при съемке видео автофокус не работает. Получается как в первом варианте, только не нужно постоянно включать-выключать автофокус. Перед съемкой дубля полу-нажимаем кнопку съемки фото, происходит автофокусировка, а затем включаем видеозапись. Среди недорогих и качественных объективов для байонета Minolta/Sony A я хочу выделить Sigma 1.4/50mm EX DG HSM. Это б/у стекло стоит в 3-4 дешевле аналога Sony/Zeiss Planar 1.4/50 и дает прекрасную воздушную картинку с отличной резкостью и контрастностью, приятными цветами, более эффективно подавляет хроматические аберрации на открытой диафрагме, чем Zeiss. Но многие экземпляры Сигмы страдают небольшим люфтом автофокусировки (фронт или бэк фокус), заметной на фото. Найти идеально точный объектив трудно. На видео даже в формате 4K эти погрешности автофокуса обычно не сильно заметны. Поэтому Sigma 1.4/50mm EX DG HSM заслуживает внимания.

Как управлять камерой, когда снимаешь себя сам?


Ответ прост с помощью пульта дистанционного управления. Есть проводные и Bluetooth модели. На AliExpress можно заказать недорогие (до 2000 руб.) китайские пульты очень приличного качества. Я использую модели Fotga RM-VS1 (проводной) и JJC RMT-P1BT (беспроводной). Эти пульты позволяют управлять как фото, так и видео-съемкой. Рекомендую их всем пользователям беззеркалок Sony.

Как добавить динамики при съемке говорящей головы?


Давно известно, что зритель теряет интерес, когда в кадре ничего не двигается. Это связано с нашими древними инстинктами охотника и рыболова. Наше внимание легко удерживается на движущихся предметах и быстро выключается, когда нет движения в кадре. Чтобы зритель не заскучал и продолжал просмотр, в ролик нужно добавлять динамику.

Проще всего это сделать за счет резких и плавных смен планов (наезд и отъезд камеры). А также можно использовать эффект плавного движения камеры из стороны в сторону или вверх-вниз. Для того, чтобы реализовать такие эффекты вовсе не обязательно перемещать камеру во время съемки.

Современные камеры позволяют снимать в разрешении 4K, а готовые ролики обычно публикуются в разрешении Full-HD, потому что именно это разрешение нормально просматривается на всех устройствах и при этом видео весит не слишком много.

Если снимать видеоролики в 4K, то у вас на монтаже будет достаточно большое пространство для цифрового зума, всевозможного кадрирования, наездов и эффектов движения без ухудшения качества при выводе в Full-HD. То есть снимаем все с одной точки в 4K, а затем на монтаже добавляются эффекты как бы движения камеры для динамики и драматизма.

Если спикер что-то объясняет, то вполне уместно сделать вставки схем, таблиц или других презентационных слайдов. Это делает обучающий видеоролик более понятным и динамичным.

Как организовать для спикера подсказки по тексту (суфлер)?


Читать подсказки с телефона в руке это полнейшая дичь, несмотря на то, что многие блогеры так делают. Это выглядит плохо. Гораздо лучше смотрится, когда спикер смотрит в камеру и говорит уверенно. Такой эффект достижим, если подсказки транслируются на экран расположенный непосредственно возле объектива камеры.

Можно воспользоваться как простым монитором или планшетом, разместив его возле камеры, так и специальными приспособлениями.

Существуют и продаются на том же AliExpress специальные устройства суфлеры. Это крепежная система для камеры с прозрачным зеркалом перед объективом. Камера крепится за таким зеркалом и снимает сквозь него. А на зеркале отражается экран планшета или телефона, лежащего перед зеркалом горизонтально. Таким образом подсказки расположены практически в объективе камеры. Чтобы методика работала нужно не только иметь это устройство, но и специальным образом готовить подсказки, так как они будут отражены в зеркале. В Microsoft PowerPoint и других презентационных приложениях есть возможности делать отражения надписей на слайдах.

На этом все. Дорогой читатель, надеюсь, что эта статья была для вас полезна и интересна.
Подробнее..

Лаборатория Тинькофф как студенты разрабатывают визуального робота

22.09.2020 20:11:13 | Автор: admin

image


В Тинькофф есть образовательный проект Лаборатория Финансовые технологии. Мы отбираем студентов и магистров московских технических вузов, которые хотят работать с ИТ-проектами банка. Оформляем их на работу в штат на 20, 30 или 40 часов в неделю, даем задачи, ментора и помогаем расти профессионально. Мы работаем в партнерстве с МФТИ: преподаватели и старшекурсники вуза выступают менторами для студентов.


Лаборант может выбрать, в какой из пяти команд работать:


  • Computer Vision;
  • Speech-to-Tech;
  • Аналитика;
  • Обработка естественного языка;
  • Рекомендательные системы.

У каждой команды свои задачи и специфика. Но принцип общий: учим решать сложные академические задачи на реальных кейсах.


Рассказываем о внутренней кухне Лаборатории на примере работы команды Computer Vision весной-летом 2020 года.


Проект команды Computer Vision: Говорящие головы


Куратор проекта: Константин Осминин, Тинькофф
Ментор: Аркадий Ильин, Лаборатория гибридных интеллектуальных систем МФТИ
Лаборанты: Кирилл Рыжиков (2 курс) и Дмитрий Гадецкий (1 курс магистратуры)


В Лаборатории мы решаем наукоемкие задачи, которые в перспективе можно применить на практике в работе банка. В команде Computer Vision в этом году работали над задачей audio-to-video. Это генерация реалистичного видео с человеком на основе его речи на русском языке.
Изначально тут был не только бизнес, но в значительной степени исследовательский интерес. Если кратко: нужно было обучить компьютерную модель генерировать видеоизображение на основе только фото человека и аудиодорожки. То есть мы даем модели аудио и картинку, а на выходе получаем видео с говорящим человеком.


Такая технология впервые появилась в Китае, а в России представлена сервисом по генерации виртуальных ведущих в Мейл.ру. У Сбербанка робот-ведущий Елена читает 30-секундные новости.


Потенциально такую технологию можно применить для реализации виртуальных ведущих, помощников, визуализации образовательных курсов или даже генерации изображения собеседника при звонках, чтобы не гонять трафик видео, а значит, снизить стоимость звонка.


Константин Осминин, куратор команды Computer Vision в Тинькофф
Область виртуальных аватаров сейчас очень востребована в индустрии. Лаборатория это больше образовательный проект, для нас важно поработать с самой технологией, проверить уже существующие решения и придумать что-то свое.
Сначала мы работали над исследовательской частью, а потом поняли, как можно применить технологию в бизнесе. Теперь мы разрабатываем свой прототип ориентированного на бизнес сервиса, визуально общающегося с пользователем.

Задача: разработать говорящую голову


У нас было два этапа работы. Первый провести исследование в области Neural Voice Puppetry, выяснить, что уже сделано другими исследователями и разработчиками. Потом реализация.
Работа над ней делилась на два больших блока:


  • создание правдоподобной мимики лица на основе аудио (сгенерировать движение глаз, губ, бровей);
  • рендеринг видео.

Первый челлендж: исследовать чужие наработки


Сначала нам нужно было глубоко разобраться в области. Некоторые компании уже работали над этой задачей, например Samsung AI Center, Сбербанк. Но код у них закрытый и получить доступ к нему нельзя. Поэтому мы работали с открытыми источниками, они все в основном на английском. Больше всего информации нашли на агрегаторе Arxiv.


image
Пример статьи c arxiv.org


Это не научный журнал, а агрегатор статей в открытом доступе. Поэтому каждую статью и все, что там написано, нужно проверять. То есть посмотреть, насколько рабочий код приложен в статье.
Обычно код к статьям выкладывают на Гитхабе. Если авторы не выложили код, команда искала имплементации на том же Гитхабе, но уже от простых пользователей-энтузиастов.


image
Пример неофициальной имплементации архитектуры генератора говорящих голов из статьи Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (Egor Zakharov et al.)


Дмитрий Гадецкий, лаборант Тинькофф, студент 1 курса магистратуры
В первый месяц мы почти все время читали статьи на Arxiv и проверяли разные подходы. По опыту скажу: чтобы разобраться в вопросе, нужно вдумчиво изучить около десяти статей и проверить их код на работоспособность. Только когда понимаешь архитектуру кода, появляется возможность применить описанные принципы к конкретным задачам.
У нас был случай, когда мы проверяли подход к генерации из статьи китайских коллег. Мы не могли запустить код несколько дней. Пришлось писать авторам статьи с просьбой о помощи. В итоге они ответили, дописали код, чтобы все заработало.

Второй челлендж: датасет, лэндмарки и моргание


Дальше мы перешли к поиску собственных решений, как сгенерировать реалистичное видео говорящего человека только по фото и аудио.


Теоретически можно было использовать наработки зарубежных разработчиков и код их нейронной сети, как, например, на Гитхабе.


Но возникла серьезная проблема. Нейросети, которые уже решали задачу генерации видео по аудио, не работали с русским языком. Все они были заточены под английский язык. А значит, нужно было разработать сеть и обучить ее на собственном датасете.


Встал вопрос, на каких данных обучать свой комплекс нейросетей. Готовых данных у нас не было. В сети датасетов с видео на английском языке тысячи часов (например, voxceleb, voxceleb2), а на русском их просто нет.


Нужно было собрать свой датасет:


  • видео на русском языке;
  • где четко видно лицо;
  • без шумов.

Изначально для парсинга мы выбрали лекции на Курсере. У них есть API, которая позволяет скачивать видео. Мы скачали видео с ресурса и приступили к его обработке.


Для этого написали программный модуль: он нарезал видео на отдельные кусочки, проверял, что на этом кусочке речь одного человека. Еще он искал в кадре того человека, кто говорил. Вырезанные куски с головой говорящего человека в кадре складывали в датасет.


С Курсеры мы собрали 20 часов видео. Но качество видео этого датасета было не очень. Лицо получалось в плохом разрешении. Поэтому нам пришлось собирать второй датасет уже с Ютуба. Оттуда скачали видео, которые больше соответствовали нашим требованиям: лицо говорящего человека занимало не меньше 40% экрана, смотрело в камеру. Этот датасет был в 60 часов.


image
Параметры датасета


На собранной базе видео мы запустили работу модели по разметке лиц. Мы прогнали одну модель (FaceAlign), которая искала на лице определенные ключевые точки лэндмарки. Всего их 68.


image
Сеть извлекает на каждом кадре видео эти точки и переводит их вот в такое представление:


image


Данные о точках описывали движение челюстей, губ, подвижность бровей и синхронное движение носа.


На этих данных о ключевых точках обучался пререндер, построенный и обученный нами с оглядкой на архитектуру, предложенную Захаровым (a.k.a. Samsung)). Ему подавалась входная аудиодорожка, а он должен был сгенерировать видео. Сначала модуль генерировал абсолютное положение точек, но модель на таком подходе генерировала неправдоподобное изображение.


image
Итерации обучения генератора абсолютных положений лэндмарок. На последних итерациях видно, что рот перестает полностью закрываться, а брови приобретают статичное положение и присутствует общая деградация выразительности мимики


Кирилл Рыжиков, лаборант
Чтобы наша сеть генерировала правдоподобное изображение, мы искали другой подход. Попробовали генерировать не абсолютное положение ключевых точек, а отклонение от их положения на нейтральном лице, когда человек смотрит на вас прямо с закрытым ртом и спокойными бровями. И эврика! сеть сгенерировала правдоподобную мимику. Мы поняли, что идем в правильном направлении, и начали работать именно с этим подходом.
Отдельно мы решали задачу генерации моргания, чтобы лицо на видео выглядело реалистично. Без моргания говорящее лицо смотрится жутко. Выяснилось, что моргание не синхронизировано с речью. Поэтому наша модель его просто сэмплировала.

Третий челлендж: пререндеринг и рендеринг


Когда мы обучили сеть генерить правдоподобную мимику, пришла очередь работать над пререндером и рендером, то есть переводом данных в видео. Лаборанты использовали технологии First Order Modu и Samsung. После двух-трех этапов рендера получилось сгенерировать более проработанную мимику, более качественное изображение и приятную текстуру лица.


В качестве пострендера использовали LipGAN, чтобы уточнить движение губ.



Где готовый продукт


Ребята показали результат в июле этого года. На общей презентации было 60 сотрудников Тинькофф, что необычно для Лаборатории. Как правило, проекты защищаются перед меньшей аудиторией.


Результат команды понравился куратору, коллеги решили продолжить работу над проектом и перевести его в практическую плоскость.


Готовый результат ждем к концу этого года. Скорее всего, это будет 3D-модель, как тут:



Встречались вживую только один раз


Лаборанты с ментором и куратором встречались вживую только один раз, на собеседовании. Остальное время общались в Телеграме и Зуме. Это принцип Лаборатории: удаленная работа в удобное участникам время.


Аркадий Ильин, ментор
Каждый работает в комфортное ему время, в комфортной для себя обстановке. Например, вчера Кирилл прислал мне ответ в час ночи и, пока он спал до обеда, я его прочитал. Думаю, такой подход только повышает эффективность работы.

Три раза в неделю рабочие созвоны, где обсуждают текущие задачи, гипотезы, методы решений.


Два раза в месяц отчетные созвоны с куратором Тинькофф, на которых лаборанты рассказывают о проделанной работе.


image
Обычный рабочий созвон с обсуждением найденной архитектуры генератора мимики


Лаборанты готовые R&D-специалисты


Так как работа в Лаборатории идет на стыке науки и практики, ее результаты публикуют и в академических кругах. Например, первые результаты работы в проекте Говорящие головы ментор и студенты готовят для доклада на 63-ю научную конференцию в МФТИ в ноябре этого года.


Аркадий Ильин, ментор
То, что делаем мы, мало кто делает в бизнес-сообществе. Поэтому хотим донести результаты и до академической среды.

До 27 сентября открыт прием заявок в лабораторию, подробнее об открытых проектах и сроках

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru