Обзор технологии шумоподавления Nvidia RTX Voice

В конце апреля компания Nvidia представила технологию шумоподавления RTX Voice, призванную улучшить качество звука во время голосового общения в разного рода мессенджерах. По сообщениям разработчиков, новый продукт использует искусственный интеллект для борьбы с различными фоновыми шумами — от щелчков клавиатуры до гула офиса, шума машин за окном и прочего. Звучит многообещающе, презентации и промо-материалы выглядят отлично — посмотрим, насколько эффективно система работает на самом деле.

Установка и настройка

Дистрибутив можно скачать с сайта Nvidia, там же есть очень подробная инструкция по установке и настройке, поэтому мы сегодня остановимся лишь на ключевых моментах. Сразу заметим, что утилита работает под Windows 10 и изначально предназначена исключительно для взаимодействия с видеокартами серии GeForce RTX. Однако пользователям очень быстро удалось добиться ее работы с другими моделями видеокарт Nvidia — поиск соответствующей инструкции в сети занимает пару минут. Разработчики пока не торопятся закрыть эту лазейку — вероятно, дают пользователям вдоволь поиграться с новинкой и сформировать у себя желание использовать ее в дальнейшем.

После запуска программы видим весьма лаконичный интерфейс. В двух выпадающих меню нам предлагается выбрать устройства, которые будут использоваться для записи и воспроизведения через RTX Voice — технология может работать с обоими, о чем мы еще поговорим.

Параллельно в системе появляются два новых аудиоустройства: микрофон и динамики Nvidia RTX Voice. Можно поставить их как устройства по умолчанию, в таком случае действие системы распространится на звук во всех используемых приложениях.

Но, скорее всего, гораздо удобнее будет использовать шумоподавление лишь в некоторых программах. В таком случае системные настройки не трогаем, а виртуальные устройства RTX Voice выбираем в нужных нам программах. Например, в Skype.

Skype в качестве примера был выбран совершенно случайно — просто оказался под рукой. На сайте компании также заявлена поддержка OBS Studio, XSplit Broadcaster, XSplit Gamecaster, Twitch Studio, Discord, Google Chrome, WebEx, Skype, Zoom и Slack. Но «виртуальное устройство» Nvidia RTX Voice можно без проблем выбрать и в любой другой программе — к примеру, в ходе тестирования оно прекрасно работало с Audacity и Adobe Audition.

Тестирование шумоподавления

Как уже упоминалось выше, система может подавлять шумы как исходящие от пользователя через микрофон, так и входящие — идущие из колонок/наушников. Чтобы пропустить входящий сигнал через Nvidia RTX Voice, просто выбираем его в качестве источника воспроизведения. Функция крайне удобная: часто бывает, что собеседник находится в шумной обстановке, да еще и микрофон использует слабенький — и вот вы вынуждены терпеть плохое качество звука, но ничего поделать с этим не можете. Теперь можете.

Ну и просторы для тестирования открываются безграничные: достаточно, например, открыть любое видео на YouTube, включить шумоподавление и посмотреть на результат. Этим и займемся. Для примера мы выбрали три видео с нашего YouTube-канала, записанные в крайне шумной обстановке — на выставках. Со звуком в наших роликах все очень даже неплохо — пришлось покопаться и найти что-нибудь пошумнее. Кстати, если вы еще не подписаны на наш канал — самое время это сделать, у нас там много всего интересного. На этом минутку саморекламы будем считать оконченной, вернемся к тесту.

В целом, для демонстрации работы системы можно было просто записать звук на выходе RTX Voice, выбрав ее в любом аудиоредакторе. Но получился бы совсем уж сферический конь в вакууме. Для несколько более полной симуляции реального пользовательского опыта мы решили подавлять шумы в гарнитуре, звук из которой записать с помощью стенда MiniDSP E.A.R.S. Естественно, наушники для таких целей стоит выбрать качественные. Мы использовали Audeze Mobius, которые тестировали чуть меньше года назад.

Первое видео с IFA 2019 не особо-то и шумное. Но шум есть, плюс присутствует негромкая фоновая музыка, которую RTX Voice успешно убирает. Голос при этом продолжает звучать более-менее натурально, хотя некоторые изменения ощущаются. С помощью ползунка в утилите можно регулировать степень шумоподавления и подобрать режим, в котором и шум уже не раздражает, и голос звучит в достаточной степени разборчиво.

Второе видео, на котором Стюарт Эштон рассказывает о продуктах Blackmagic Design, содержит типичный фоновый шум большого скопления людей, причем весьма ярко выраженный. С ним система справилась очень неплохо. На третьем видео — просто праздник: голоса, гул, фоновая музыка… И вот только тут RTX Voice немного спасовала: голос пару раз прерывался, появился «металлический» призвук, ни о какой естественности звучания говорить уже не приходится. Но с учетом сложности поставленной задачи — все равно очень впечатляет.

Ну и для еще большей наглядности приведем пару картинок. На первой — спектрограмма небольшого фрагмента аудиодорожки среднего видео без шумоподавления, на второй — с шумоподавлением. Разница очевидна, особенно хорошо заметно, насколько эффективно RTX Voice отрабатывает паузы между словами. При этом часть дорожки, содержащая речь, остается практически без изменений.

С подавлением шума на выходе более-менее разобрались, настало время попробовать подавлять его на входе. Для этого мы использовали микрофон все той же Audeze Mobius, в который были прочитаны несколько строф из «Евгения Онегина» (качество чтения — в меру скромных возможностей автора, который не читатель, а писатель). Из стоящей поблизости акустической системы были запущены четыре вида шума: гул города и офиса, звуки ремонта и, конечно, его величество перфоратор.

Микрофон у Audeze Mobius, как и у ряда других качественных игровых решений, устойчив к посторонним шумам сам по себе, пришлось довольно основательно поднять громкость, чтобы сделать эффект максимально заметным. В нижней части кадра расположена генерируемая с небольшой задержкой, но не менее от этого интересная спектрограмма. В общем, все можно услышать и увидеть.

Некоторые пользователи Nvidia RTX Voice отмечают довольно высокую прожорливость системы — мол, программа может «стоить» до 10 fps в играх. Мы попробовали поиграть в ряд игр со средними для сегодняшнего дня системными требованиями, параллельно ведя разговор с использованием шумоподавления. Никаких серьезных изменений в производительности, достойных обсуждения, отмечено не было. Возможно, в более требовательных играх ситуация может оказаться чуть иной.

Итог

Пока RTX Voice официально находится в стадии бета-тестирования, но работает уже весьма впечатляюще. Учитывая, что возможность воспользоваться системой (пока пусть и не совсем официальная) есть у широкого круга обладателей видеокарт Nvidia, имеет смысл хотя бы попробовать. По словам разработчиков, приложение функционирует на основе ИИ, а значит, со временем «научится» работать еще более эффективно. Будем ждать с нетерпением.

А живую демонстрацию работы технологии Nvidia RTX Voice можно увидеть (и услышать) в видео Виталия Казунова на канале iXBT.Games:

21 мая 2020 Г.