Русский
Русский
English
Статистика
Реклама

Мы Опубликовали Современные STT Модели Сравнимые по Качеству с Google


Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:


  • Английский;
  • Немецкий;
  • Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.


PyTorch ONNX TensorFlow Качество Colab
Английский (en_v1) ссылка Открыть в Colab
Немецкий (de_v1) ссылка Открыть в Colab
Испанский (es_v1) ссылка Открыть в Colab

Почему это Важно


Распознавание речи традиционно имело высокие барьеры на вход по ряду причин:


  • Данные сложно собирать;
  • Разметка на сравнимую единицу данных стоит сильно дороже чем в компьютерном зрении;
  • Высокие требования по вычислительной мощности и устаревшие технологии;

Вот перечень типовых проблем, с которыми сталкивались существующие решения для распознавания речи до нашего релиза:


  • Исследования в этой сфере обычно делаются на огромных вычислительных мощностях;
  • Пре-тренированные модели и готовые рецепты обычно имеют сильные проблемы с генерализацией, их тяжело использовать "как есть", много зависимостей от устаревших технологий;
  • До недавнего времени сообщество не имело доступа к простым в использовании, но качественным пре-тренированным моделям для распознавания речи;

Для начала мы попробовали решить какие-то из этих проблем, опубликовав самый большой в мире речевой корпус для русского языка (смотрите наш пост на Хабре тут). В этот раз мы делаем свой вклад в решение этих проблем следующим образом:


  • Мы публикуем набор высококачественных пре-тренированных моделей для популярных языков;
  • Наши модели быстрые и могут работать на обычном железе;
  • Наши модели легко использовать;
  • Наши модели пре-тренированы на огромных и разнообразных речевых корпусах;
  • Мы строили наши модели так, чтобы они были устойчивы к разным доменам, насколько это возможно;

Сделать Просто Сложно


Нам кажется, что современные технологии должны быть безумно простыми в использовании. В нашей работе мы следуем следующим принципам:


  • Скорость и компактность;
  • Генерализация между разными доменами. Должно существовать одно общее решение, которое незначительными усилиями настраивается на конкретные домены, а не наоборот;
  • Максимальная простота в использовании ("1 строка кода");

Дальнейшие Планы


Сейчас наименьший размер, до которого мы смогли ужать наши модели в районе 50 мегабайт.
В среднесрочной перспективе планка сжатия до 10-20 мегабайт без потери качества кажется нам выполнимой.
Также мы планируем добавлять другие популярные языки.


Ссылки


Источник: habr.com
К списку статей
Опубликовано: 17.09.2020 20:15:16
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Big data

Звук

Машинное обучение

Развитие стартапа

Stt

Speech-to-text

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru