Русский

	Русский
	English

Авторизация

Ip-адрес

Восстановление пароля

Регистрация

Статистика

Мы Опубликовали Современные STT Модели Сравнимые по Качеству с Google

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:

Английский;
Немецкий;
Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.

	PyTorch	ONNX	TensorFlow	Качество	Colab
Английский (en_v1)				ссылка
Немецкий (de_v1)				ссылка
Испанский (es_v1)				ссылка

Почему это Важно

Распознавание речи традиционно имело высокие барьеры на вход по ряду причин:

Данные сложно собирать;
Разметка на сравнимую единицу данных стоит сильно дороже чем в компьютерном зрении;
Высокие требования по вычислительной мощности и устаревшие технологии;

Вот перечень типовых проблем, с которыми сталкивались существующие решения для распознавания речи до нашего релиза:

Исследования в этой сфере обычно делаются на огромных вычислительных мощностях;
Пре-тренированные модели и готовые рецепты обычно имеют сильные проблемы с генерализацией, их тяжело использовать "как есть", много зависимостей от устаревших технологий;
До недавнего времени сообщество не имело доступа к простым в использовании, но качественным пре-тренированным моделям для распознавания речи;

Для начала мы попробовали решить какие-то из этих проблем, опубликовав самый большой в мире речевой корпус для русского языка (смотрите наш пост на Хабре тут). В этот раз мы делаем свой вклад в решение этих проблем следующим образом:

Мы публикуем набор высококачественных пре-тренированных моделей для популярных языков;
Наши модели быстрые и могут работать на обычном железе;
Наши модели легко использовать;
Наши модели пре-тренированы на огромных и разнообразных речевых корпусах;
Мы строили наши модели так, чтобы они были устойчивы к разным доменам, насколько это возможно;

Сделать Просто Сложно

Нам кажется, что современные технологии должны быть безумно простыми в использовании. В нашей работе мы следуем следующим принципам:

Скорость и компактность;
Генерализация между разными доменами. Должно существовать одно общее решение, которое незначительными усилиями настраивается на конкретные домены, а не наоборот;
Максимальная простота в использовании ("1 строка кода");

Дальнейшие Планы

Сейчас наименьший размер, до которого мы смогли ужать наши модели в районе 50 мегабайт.
В среднесрочной перспективе планка сжатия до 10-20 мегабайт без потери качества кажется нам выполнимой.
Также мы планируем добавлять другие популярные языки.

Ссылки

Источник: habr.com

К списку статей

admin

Опубликовано: 17.09.2020 20:15:16

Сейчас читают

Комментариев (0)

Имя

Электронная почта

Big data

Стоит ли смотреть в сторону Data science?

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта
Как мы весь интернет сканировали

Всем привет! Меня зовут Александр и я пишу код для 2ip.ru. За добрую половину сервисов можно пинать меня, готов отбиваться. Cегодня я хочу немного рассказать про переделку одного нашего старого сервиса. Это конечно не "big data", но всё равно довольно большие объемы информации, поэтому думаю будет интересно.

Речь пойдет про
RamblerMeetupampUsermodel

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная
Что нам стоит загрузить JSON в Data Platform

Всем привет!

В недавней статье мы рассказали, как мы шли к построению нашей Data Platform. Сегодня хотелось бы глубже погрузиться в желудок нашей платформы и попутно рассказать вам о том, как мы решали одну из задач, которая возникла в связи с ростом разнообразия интегрируемых источников данных.

То есть, если возвращаться к финальной картинке из упомянутой выше статьи (специально дублирую ее, чтобы уважаемым чи
Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба
Перевод Линейная алгебра для исследователей данных

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно

Звук

Стимул для изменений как борьба с яблочниками отразилась на крупнейшей стриминговой платформе

Недавно мы писали о противостоянии Apple и Spotify, в рамках которого компании продолжают мериться размерами роялти для музыкантов. Сегодня продолжим тему на повестке антимонопольное разбирательство и новые платные продукты.
Мы сделали наш публичный синтез речи еще лучше

Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.

Мы достигли существенного прогр
Музыка операционных систем как стандартные звуки и код превращают в полноценные композиции

Ранее мы уже рассказывали о музыке зашитой в разных версиях ОС Windows: вспоминали композицию CANYON.MID, на которую сегодня существует огромное количество каверов, и трек Beautiful Way, демонстрировавший возможности мультимедийного формата ASF.

Сегодня мы продолжим тему, но поговорим о немного другой ее стороне музыке, кот
Компактная колонка Sony SRS-XB10 из линейки Extra Bass

Колонка, которая отличается компактным размером и чистым звучанием. С её помощью можно насладиться чистыми, глубокими и насыщенными басами.

Привет!

Согласитесь практически у всех нас есть какая либо колонка, неважно профессиональная ли это акустика или дедов магнитофон, каждый из нас слушает музыку, но очень часто бывает так что у нас не оказывается под рукой любимого динамика, и им
Лонгбоксы, битва за стриминг и вендор-лок для аудиоконтента в подборке материалов из Мира Hi-Fi

Продолжаем [раз, два] делиться с вами примечательными заметками об истории и происходящем в музыкальной индустрии, работе со звуком и аудиоинтерфейсами. В этой подборке фокусируемся на парочке разборов и аналитике рынка стриминговых сервисов.
Hi-перевод Обзор беспроводных наушников Bowers amp Wilkins PI7

Портал о Hi-Fi, Hi-End технике(и не только) - hifiNews.ru подготовил перевод теста новых наушников британской компании Bowers & Wilkins (B&W).
Bowers & Wilkins PI7
Bowers & Wilkins P

Машинное обучение

Стоит ли смотреть в сторону Data science?

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта
Перевод Учимся понимать таблицы на меньшем объеме данных

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст
Распознавание эмоций в записях телефонных разговоров

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн
БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Мне давно нравятся Байесовские сети доверия
Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку
Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Развитие стартапа

Пароль для стартапа

Недавно администрация США объявила о возобновлении программы Internationa
Перевод Перевод Курса по стартапам и бизнесу от Стэнфордского Университета. Лекция 2. Команда и реализация стартапа

Почему Курс по стартапам и бизнесу от Стэнфордского Университета, является одним из самых лучших в мире для стартаперов? Дело в том, что лекторами данного курса являются лучшие из лучших стартап-предприниматели, такие как: Сем Альтман президент самого известного венчурного фонда Y Combinator, Дастин Мо
IOS интервью в Vivid

Возможно, вы знаете про Vivid, где-то слышали или же видите впервые. Мы делаем один из самых быстрорастущих и многообещающих финансовых сервисов в Европе. Чтобы не быть голословным, вот некоторые из наших показателей:
Перевод Как Replit отжимает мой open-source проект

Я думаю, вам следует закрыть проект и прекратить работать над ним. Я привлеку наших адвокатов в понедельник, если к тому времени вы не выполнитте условия. [...] Мы были крошечной компанией, когда вы стажировались у нас [...] К счастью, сейчас мы намного больше, и, что очень важно, у нас есть много денег, чтобы заплатить за лучших юристов, если мы будем вынуждены пойти по этому пути.
из переписки с C
Перевод Brex будущее бизнес-банкинга и управления денежными средствами

Когда Энрике Дубуграс и Педро Франчески присоединились к группе YC W17 с идеей VR-стартапа, они быстро столкнулись с проблемой. Они подали заявку на получение кредитной карты для бизнеса, предназначенной для финансирования программного обеспечения и других расходов, но им было отказано. Бизнес-
Из столицы в провинцию. Как мы открывали первый бар. Часть 1

Посленеудачного опыта с попыткой открыть сеть крафтовых кафе-мороженыхв Минске, мы искали более стабильную бизнес-модель и решили открывать бар.
Что этот материал делает на Хабре?

Проведя тысячи часов в офисной рутине невольно задумываешься, можно ли применить свои опыт и знания для создания бизнеса в реальном секторе.

Чего стоят тысячи часов офи

Stt

Ультимативное сравнение систем распознавания речи Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

Какое-то время назад мы писали цикл статей про то, как правильно измерять качество систем распознавания речи, и собственно снимали метрики с
Мы опубликовали современный Voice Activity Detector и не только

Всегда при работе с речью встает несколько очень "простых" вопросов, для решения которых нет большого количества удобных, открытых и простых инструментов: детекция наличия голоса (или музыки), детекция наличия цифр и классификация языков.
Насколько Быстрой Можно Сделать Систему STT?

Нам приходилось слышать абсолютно разные оценки скорости (ну или наоборот оценки потребности в железе) систем распознавания речи, отличающиеся даже на порядок. Особенно радует, когда указаны системные требования из которых следует, что метрики сильно лучше, чем лучшие state
Мы Опубликовали Современные STT Модели Сравнимые по Качеству с Google

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с

Speech-to-text

Насколько Быстрой Можно Сделать Систему STT?

Нам приходилось слышать абсолютно разные оценки скорости (ну или наоборот оценки потребности в железе) систем распознавания речи, отличающиеся даже на порядок. Особенно радует, когда указаны системные требования из которых следует, что метрики сильно лучше, чем лучшие state
Мы Опубликовали Современные STT Модели Сравнимые по Качеству с Google

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с

Последние комментарии

Имя: Макс

24.08.2022 | 11:28

Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
Имя: 9055410337

20.08.2022 | 17:41

поможем пишите в телеграм Подробнее..
Имя: sabbat

17.08.2022 | 20:42

Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
Имя: Мария

09.08.2022 | 14:44

Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..

Контакты
Обнаружили ошибку

Мы Опубликовали Современные STT Модели Сравнимые по Качеству с Google

Почему это Важно

Сделать Просто Сложно

Дальнейшие Планы

Ссылки

Сейчас читают

Big data

Стоит ли смотреть в сторону Data science?

Как мы весь интернет сканировали

RamblerMeetupampUsermodel

Что нам стоит загрузить JSON в Data Platform

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Перевод Линейная алгебра для исследователей данных

Звук

Стимул для изменений как борьба с яблочниками отразилась на крупнейшей стриминговой платформе

Мы сделали наш публичный синтез речи еще лучше

Музыка операционных систем как стандартные звуки и код превращают в полноценные композиции

Компактная колонка Sony SRS-XB10 из линейки Extra Bass

Лонгбоксы, битва за стриминг и вендор-лок для аудиоконтента в подборке материалов из Мира Hi-Fi

Hi-перевод Обзор беспроводных наушников Bowers amp Wilkins PI7

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Развитие стартапа

Пароль для стартапа

Перевод Перевод Курса по стартапам и бизнесу от Стэнфордского Университета. Лекция 2. Команда и реализация стартапа

IOS интервью в Vivid

Перевод Как Replit отжимает мой open-source проект

Перевод Brex будущее бизнес-банкинга и управления денежными средствами

Из столицы в провинцию. Как мы открывали первый бар. Часть 1

Stt

Ультимативное сравнение систем распознавания речи Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

Мы опубликовали современный Voice Activity Detector и не только

Насколько Быстрой Можно Сделать Систему STT?