Русский
Русский
English
Статистика
Реклама

Синтез

Как укротить термоядерный синтез и зачем он нам нужен?

19.11.2020 16:18:00 | Автор: admin


Мы уже писали о неожиданных и примечательных идеях и разработках в области получения энергии от ядерного распада. А также о том, что приходится делать, когда с ядерными реакторами что-то идёт не так. Свобода, как известно, лучше несвободы, а синтез лучше распада. Именно так подумали учёные ещё сто лет назад, когда сделали первые шаги по укрощению термоядерного синтеза. В этой статье мы кратко расскажем, что такое термоядерный синтез, на каком этапе находятся научные разработки и когда стоит ждать внедрения нового способа добычи энергии. В конце концов, именно за этим он и нужен человечеству.

Staring at the Sun: история открытия термоядерного синтеза


С развитием науки человечество начало задаваться вопросом о том, как работает Солнце, почему не гаснет и продолжает выделять тепло и свет. Ещё в двадцатых годах прошлого века почти сто лет назад британский учёный Артур Стэнли Эддингтон выступал с идеями протон-протонного цикла, то есть совокупности термоядерных реакций, в ходе которых водород в звёздах превращается в гелий. И сопутствует этой реакции выделение колоссальных объёмов энергии, что легко можно ощутить, просто выйдя на улицу в солнечный день.

Чуть позже, уже в тридцатые годы, учёные из Кембриджского университета под руководством австралийца Марка Олифанта в результате ряда экспериментов обнаружили нуклоны (общее название составляющих атомное ядро протонов и нейтронов) гелия-3 и трития, принимающие участие в этих реакциях, а их немецкий коллега, Ханс Бете, получил Нобелевскую премию по физике за вклад в теорию ядерных реакций и, особенно, за открытия, касающиеся источников энергии звёзд. Уже в 1946 году сэр Джордж Паджет Томсон и Моисей Блэкман описали и запатентовали идею Z-pinch, то есть системы удержания плазмы при помощи магнитного поля или магнитной ловушки, которая легла в основу дальнейших экспериментов по созданию первых устройств управляемого термоядерного синтеза.


Лабораторная магнитная ловушка, фото: Sandpiper / Wikimedia Commons

Бесконечная мощь: преимущества, недостатки и препятствия для реализации


От истории перейдём к общей теории. Управляемый термоядерный синтез это процесс получения более тяжёлых атомных ядер из более лёгких с целью (в теории) использования выделяемой энергии для добычи электричества. По своей сути он противоположен реакции распада, которая применяется в традиционной ядерной энергетике. В основном для проведения реакции термоядерного синтеза используются дейтерий и тритий (так называемая реакция D-T), хотя также возможны варианты с дейтерием и гелием-3, между ядрами дейтерия (D-D) и другими сочетаниями изотопов.

Сами по себе атомные ядра взаимодействуют не особо охотно из-за кулоновского барьера, то есть силы электростатического отталкивания между ними. Чтобы преодолеть её и начать реакцию в земных условиях, вещество необходимо нагреть до достаточно высокой температуры, причём речь в данном случае идёт о сотнях миллионов градусов. Именно от этого процесса термоядерный синтез и получил своё название. Сочетание дейтерия и трития в данном случае требует минимальной температуры для начала реакции (тех самых 100 млн градусов), поэтому в экспериментальных установках оно используется чаще всего.


Реакция термоядерного синтеза D-T. Источник: Toshiba Energy Systems &Solutions Corporation

Также в ходе реакции появляется большое количество нейтронов, но об их значении поговорим чуть ниже, а сперва постараемся пояснить, почему коммерческое применение этого процесса вообще будоражит умы человечества последние 70 лет. Итак, преимущества управляемого термоядерного синтеза:

  1. Сравнительная доступность изотопов для реакции. Дейтерий достаточно легко можно получить из морской воды, запасов которой на Земле более чем достаточно. Тритий в природе не встречается, так как имеет период полураспада всего в 12,3 года, но его получают из лития-6 и тяжёлой воды ядерных реакторов, от использования которых мы в ближайшие годы отказаться не готовы.
  2. Колоссальная энергоэффективность реакции при сжигании, например, 1 грамма угля выделяется 34 тысячи джоулей энергии, а газа или нефти 44 тысячи. Слияние атомов дейтерия и трития даёт 17,6 МэВ (мегаэлектронвольт), то есть около 170 млрд джоулей тепла в пересчёте на 1 грамм массы вещества.
  3. Электростанции на базе управляемой термоядерной реакции из-за особенностей конструкции не должны способствовать увеличению парникового эффекта, то есть производить парниковые газы, угарный газ и пылевые облака выгодное отличие от, например, ТЭС.
  4. Так же выгодно эти электростанции должны отличаться от АЭС, так как термоядерный реактор намного безопаснее. Реакция синтеза требует огромных затрат энергии и в земных условиях не может бесконечно длиться без подпитки извне. Это значит, что даже в случае аварии и повреждения оболочки мы не столкнёмся с расплавлением, радиоактивным заражением всего и вся на многие километры вокруг, а также с цепной реакцией или взрывом.

К тому же, при термоядерном синтезе не выделяются вещества, которые впоследствии возможно использовать для изготовления грязного оружия.


Токамак JET, фото: EFDA JET / Wikimedia Commons

Но почему же тогда сам принцип управляемого термоядерного синтеза, разработанный в середине прошлого века, до сих пор не реализован на практике либо реализован только в качестве экспериментальных установок, которые так и не начали производить электроэнергию? Давайте рассмотрим недостатки и ограничения этого процесса.

Сперва вернёмся к нашим нейтронам. В процессе реакции с применением D-T образуется нейтронный поток, который бомбардирует стенки защитной оболочки реактора. В результате мы имеем дело с так называемой наведённой радиацией, которая сильно усложняет обслуживание оборудования и, вполне возможно, приведёт к необходимости его периодической замены, так как со временем от бомбардировки нейтронами материалы становятся не только радиоактивными, но и хрупкими. Для решения этой проблемы предлагается использовать малочувствительные к радиации материалы, которые прослужат дольше, но их применение увеличит и без того колоссальные расходы на постройку электростанций термоядерного синтеза. Также рассматривается применение других действующих веществ, чтобы получить безнейтронные реакции, но о требованиях к плотности и температуре реакции для них мы уже говорили выше.

Ещё при текущем уровне развития технологий учёные и инженеры не могут добиться того, чтобы расход энергии на нагрев и доведение вещества в реакторе до состояния плазмы, а затем на поддержание его в этом состоянии, несмотря на постоянную потерю тепла (а также на охлаждение системы, работу электромагнитов и других подсистем), упал ниже, чем количество выделяемой в ходе реакции энергии. Например, британский токамак JET достиг соотношения между поступающей и отдаваемой энергией всего в 67%, то есть 0,67 Q. Q показатель, который выражает отношение количеств затраченной и полученной в такой системе энергии, и для того, чтобы реакция термоядерного синтеза считалась самоподдерживающейся, он должен быть равен хотя бы 5, а для выработки полезных мощностей намного выше. На сегодняшний день реакторов с таким значением в мире не существует.

Финальным вопросом, конечно, является окупаемость и стоимость. Чтобы добиться точной имитации реакций внутри Солнца, недостаточно просто взять тритий и дейтерий и поднести к ним условную спичку. Реактор термоядерного синтеза это невероятно сложная, громоздкая и дорогая конструкция, в которой нашлось место массивной системе охлаждения, огромному количеству электромагнитов разных типов и даже собственным электростанциям.

По оценкам, расходы на строительство экспериментального токамака ITER (о нём ниже), которое ещё не завершено, могут превысить 20 млрд долларов. При этом реактор вообще не рассчитан на производство электроэнергии, то есть единственной прибылью от эксплуатации ITER будет опыт совместной работы учёных и экспериментальные данные.

Практическая магия: основные типы конструкции и вехи их развития


Условно установки для управляемого термоядерного синтеза можно разделить на четыре типа: токамаки, стеллараторы, зеркальные ловушки и импульсные системы. На их примере мы предлагаем рассмотреть как развитие идей, которые в дальнейшем могут привести к производству электроэнергии при помощи термоядерного синтеза, так и тупиковые ветви, которые по тем или иным причинам в ближайшие годы (или никогда) не выйдут за рамки теории и экспериментов.

Токамак это сокращение от тороидальная камера с магнитными катушками, каковая камера главный элемент реактора, который служит для удержания плазмы. Намотанные вокруг камеры реактора магнитные катушки в данном случае применяются для того, чтобы создать специальное поле, удерживающее плазму от соприкосновения с её стенками, чего современные теплоизолирующие материалы просто не выдержали бы. В то же время через саму плазму также пропускается ток, который служит и для её нагрева, и для создания полоидального магнитного поля. В современных условиях это поле не может существовать дольше нескольких секунд, а без него плазма теряет свою стабильность, поэтому говорить о применении токамаков для постоянного производства электроэнергии ещё рано, хотя поддерживать ток более длительное время можно при помощи микроволнового излучения или введения в плазму нейтральных атомов дейтерия/трития.


Токамак KSTAR, Южная Корея, фото: Michel Maccagnan / Wikimedia Commons

Идеи токамаков впервые описали в Советском Союзе ещё в 50-х годах прошлого века, а первый такой реактор был построен в Курчатовском институте в 1954 году. Долгое время токамаки оставались чисто советской разработкой, но в 1970-х британские учёные подтвердили рекордные результаты разогрева плазмы, достигнутые на советском токамаке Т-3, и технологией заинтересовались по всему миру.

На сегодняшний день токамаки считаются наиболее перспективной разработкой, и в мире их количество превышает количество установок других типов. Среди достижений в этой сфере стоит отметить китайский EAST (Experimental Advanced Superconducting Tokamak, построен при поддержке РФ), который достиг в 2018 году температуры плазмы в 100 млн градусов, европейский JET (Joint European Toru), который находится в Великобритании и считается крупнейшим токамаком в мире, а также уже упомянутый выше ITER, на котором остановимся более подробно.


Схема токамака ITER. Источник: Oak Ridge National Laboratory ITER Tokamak and Plant Systems (2016) / Wikimedia Commons

Идея постройки ITER (International Thermonuclear Experimental Reactor, международный термоядерный экспериментальный реактор) обсуждалась ещё в 1985 году, на встрече Рональда Рейгана и Михаила Горбачева, но реальное строительство началось только в 2010 году. В работе над реактором принимают участие множество стран, включая Японию, государства ЕС, Россию, США, Южную Корею, Китай и Индию. Итогом совместного проекта станет гигантское сооружение весом в 23 000 тонн, которое сместит JET с пьедестала самого крупного токамака на планете и теоретически будет способно довести показатель Q до 30, хотя создатели ITER не ставят перед собой цель добиться выработки электроэнергии задача токамака окончательно доказать саму возможность использования термоядерного синтеза в этой сфере и проложить путь (именно так переводится с латыни сокращённое название реактора) для DEMO, первого токамака с положительным балансом, который запустится не раньше середины XXI века.

На долю Японии в проекте ITER выпали разработка и производство одного из важнейших элементов сверхпроводящих катушек, необходимых для формирования магнитного поля вокруг камеры реактора. В частности, компания Toshiba занимается разработкой конструкции гигантских 16,5-метровых катушек для тороидального поля, которые весят около 300 тонн. При этом необходимо соблюдать крайне строгие допуски на размеры каждой детали всего в несколько миллиметров поэтому большим подспорьем становятся технологии и методы, изобретённые во время работы над японскими экспериментальными токамаками, JT-60 и JT-60SA.

Стеллараторы (от лат. stella звезда) получили своё название из-за схожести процессов в реакторе с теми, что происходят внутри звёзд. Первый образец был построен в 1951 году в США под руководством его изобретателя, Лаймана Спитцера. Основное отличие стеллараторов от токамаков заключается в конструкции магнитной ловушки: в стеллараторах для удержания плазмы в камере применяется только внешние катушки, которые создают силовые линии, вращающиеся вокруг камеры. Такая конструкция теоретически позволяет использовать магнитную ловушку в непрерывном режиме. В стеллараторах, как и в токамаках практически всегда применяется смесь дейтерия и трития, которая вводится в вакуумный сосуд камеры. В современных вариантах конструкции отказались от камеры в форме обычного тора в пользу сложных моделей, созданных с применением компьютерного моделирования. Их цель добиться максимальной эффективности удержания плазмы.


Стелларатор Wendelstein 7-X. Источник: Max-Planck-Institut fr Plasmaphysik, Tino Schulz / Wikimedia Commons

Несмотря на возможность непрерывного воздействия на плазму и изменённую конструкцию камеры стеллараторы не получили такого широкого распространения, как токамаки. В первую очередь это связано с большей сложностью конструкции и меньшей их эффективностью в современных условиях. Wendelstein 7-X, построенный в г. Грайфсвальд в Германии в 2015 году стал крупнейшим стелларатором в мире и своеобразной эпитафией этой разработке. По расчётам учёных он должен был довести время непрерывного воздействия электромагнитов на плазму до 30 минут, чтобы продемонстрировать возможность использования стеллараторов для долгосрочной генерации электроэнергии. При этом в 2018 году в ходе эксперимента температуру плазмы удалось поднять только до 40 000 градусов Цельсия, а время работы довести до 100 секунд. Следующие испытания запланированы на 2021 год.

Импульсные системы этот тип установок для управляемого термоядерного синтеза остаётся по большей части теоретической разработкой. Ещё академик Андрей Сахаров в 1960 году доказал, что термоядерный синтез возможен без использования магнитных ловушек, предложив противоположный классическому подход. В данном случае речь идёт не о сверхразреженной плазме, которую электромагнитные поля удерживают на месте долгое время, а о сверхплотном (и крайне недолговечном) её варианте. Миниатюрные мишени с замороженным D-T составом в импульсных системах предлагается взрывать при помощи мощных лазеров или пучков излучения, чтобы добиться своеобразного аналога взрывов топлива в бензиновых двигателях, только на уровне термоядерных реакций. Такая система с периодическими взрывами может обеспечить почти непрерывную цепочку из термоядерных реакций, вырабатывающих энергию, при этом (в теории) не повреждая оболочку реактора.


Лазерный ангар NIF/ Источник: Lawrence Livermore National Laboratory, Lawrence Livermore National Security, LLC, and the Department of Energy National Ignition Facility / Wikimedia Commons

Из существующих разработок в этой сфере стоит упомянуть проект MagLIF и установки NIF (National Ignition Facility, или Национальный комплекс лазерных термоядерных реакций) Ливерморской национальной лаборатории имени Лоуренса в Калифорнии. Несмотря на сохраняющийся потенциал этой идеи в 2012 году правительство США планировало прекратить финансирование программы из-за мизерных практических результатов. По состоянию на сегодняшний день эксперименты продолжаются, но сложность самих мишеней и необходимость регулярной доставки их в камеру, в которой затем происходит взрыв, эквивалентный тонне тротила, оставляют этот тип установок далеко позади токамаков и стеллараторов по уровню практичности.

Зеркальные ловушки первый эксперимент с использованием открытых магнитных ловушек был проведен ещё в 1955 году во всё той же Ливерморской национальной лаборатории имени Лоуренса. Идея ловушек заключалась в том, чтобы использовать не закрытый тор, а магнитный сосуд вытянутой формы, открытый с двух противоположных концов. Новая плазма в этом случае должна была разогреваться до нужной температуры, отдавать энергию и выходить через боковые отверстия (либо отбиваться магнитным полем обратно, как от зеркал отсюда и название). Благодаря такой форме и механизму их стоимость оказалась намного ниже, чем у конкурирующих разработок, так что какое-то время зеркальные ловушки казались крайне перспективной разработкой. Но со временем экспериментаторы столкнулись с нестабильностью плазмы, плохо изученной на момент начала разработок, что привело к проблемам и невозможности достичь необходимых для термоядерного синтеза температур. В дальнейшем в конструкцию неоднократно вносились изменения, но амбициозная американская установка MFTF, например, была закрыта ещё до начала пробных запусков, так как токамаки в итоге оказались проще, мощнее и дешевле.

Из интересных разработок этого типа стоит отметить российский ГДЛ (газодинамическая ловушка) из Новосибирска, который создаётся на базе советского проекта 50-х годов, открытой ловушки пробкотрон Будкера. По состоянию на 2018 год учёным Новосибирского Института ядерной физики СО РАН удалось достичь температуры в 10 млн градусов, а в 2020 году они получили грант от Минобрнауки РФ на закупку нового оборудования для продолжения экспериментов.

Красивое завтра: вместо выводов


Среди учёных, занимающихся проблемами термоядерного синтеза, ходит шутливое высказывание, что до успеха исследований и начала коммерческого применения реакторов осталось всего-то лет 30, причём отвечают они так уже далеко не первый десяток лет (стабильность!). Тем не менее, технологии продолжат развиваться, а человечество искать способы приручить термоядерный синтез и создать миниатюрное искусственное Солнце, которое обеспечит наши потребности в электроэнергии без риска повторить Чернобыльскую катастрофу и без постоянного вреда для экологии планеты. Прямое влияние на эти исследования могут оказать такие разработки, как ITER, и мы рады, что Япония и корпорация Toshiba принимают в них непосредственное участие. А что будет дальше посмотрим через 30 лет.
Подробнее..

Перевод Применение машинного обучения к кинетике ядерных реакторов

16.04.2021 20:09:46 | Автор: admin
Рис. 1. Реактор TRIGA на полной мощности.Рис. 1. Реактор TRIGA на полной мощности.

На Хабре часто выкладывают туториалы по разным областям знаний. Сегодня, к старту нового потока курса по machine learning, поделимся с вами туториалом.... по ядерной физике, работе реакторов и прогнозной аналитике с использованием Python.

По данным Комиссии по ядерному регулированию, в США находится 31 исследовательский ядерный реактор. У автора есть лицензия на эксплуатацию одного из них, и в этой статье он продемонстрирует, как применил методы машинного обучения и общего анализа данных для прогнозирования уровней мощности импульсов и повышения показателя воспроизводимости наших экспериментов.


Предпосылки

Реактор ядерного синтеза работает на энергии расщепления атомов. Когда уран-235 поглощает нейтрон, появляется шанс расщепления и распада, высвобождаются продукты деления, нейтроны и кинетическая энергия. Эта энергия нагревает теплоноситель, который обычно подаётся в теплообменник, а затем в вырабатывающую электричество паровую турбину. На моем объекте находится реактор TRIGA, который не производит никакого электричества он используется исключительно для исследований и экспериментов.

Забавный факт: один килограмм Урана-235 содержит примерно в 3 миллиона раз больше энергии, чем один килограмм угля. Ах да, реакция деления не приводит к выбросам углерода. (Я вовсе не предвзят.)

В сравнении с коммерческим реактором TRIGA уникален во многих отношениях, например, он может выполнять импульс. Большой отрицательный коэффициент реактивности топлива означает, что с повышением температуры реактивность и, следовательно, скорость цепных реакций деления уменьшается. Это означает, что реактор ограничивает сам себя в смысле уровня мощности и, благодаря идее топлива, после импульса отключается физически без участия оператора. Вот почему они позволяют таким людям, как я, им управлять!

Импульс работает путём пневматического (с использованием сжатого воздуха) выталкивания одного из стержней управления из активной зоны реактора, что вызывает быстрое увеличение уровня мощности. Следующие события происходит за нескольких миллисекунд:

  • Стержень управления выдвигается из сердечника вертикально вверх.

  • Уровень мощности увеличивается примерно с 50 Вт до 2000 МВт.

  • При таком высоком уровне мощности быстрый эффект отрицательной обратной связи топлива обеспечивает отрицательную реактивность активной зоны, которая отключается.

В этот момент стержень управления всё ещё может находиться на пути из ядра, но впоследствии из-за силы тяжести упадёт обратно. В итоге вы получаете функцию отклика мощности P(t), которая выглядит, примерно как показано на втором рисунке по мере выталкивания управляющего стержня мощность увеличивается, а затем быстро уменьшается с добавлением отрицательной реактивности.

Рис. 2. Мощность реактора, реактивность и энергия в зависимости от времени во время повышения импульсной характеристики.Рис. 2. Мощность реактора, реактивность и энергия в зависимости от времени во время повышения импульсной характеристики.

Хотя пульсация имеет множество исследовательских применений, она особенно хорошо работает в имитации испускаемого ядерным взрывом сильного излучения.

В частности, мы наблюдаем, как на атомном уровне нейтроны и гамма-лучи взаимодействуют с электроникой. Допустим, вы разрабатываете новый электронный компонент, который будет использоваться, чтобы работать в некоей части системы ядерного оружия.

  • Насколько вы уверены, что в близости от ядерного взрыва ваша электроника выживет?

  • Какие повреждения имеет интегральная схема, 10 лет простоявшая рядом с радиоактивной боеголовкой? Как это повреждение повлияет на функциональность вашего компонента?

  • Или что, если вы разрабатываете процессор,который будет работать в новом истребителе.

  • Может ли включённая вашим процессором система управления полётом при воздействии определённого количества радиации выйти из строя?

Понятна серьёзность этих вопросов. Соедините это с тем фактом, что истинная ядерная детонация своего рода испытание и она имеет ряд проблем (не говоря уже о том, что она запрещена Договором о всеобъемлющем запрещении ядерных испытаний), и вы скоро согласитесь, что импульс реактора это его ключевая характеристика.

Стоит пояснить, что этот импульс генерирует только излучение. В эксперимента такого типа ничего не взрывается. Мы просто подвергаем образец высокому уровню радиации в чрезвычайно контролируемой и предназначенной для этой задачи среде.

Максимальный достигаемый импульсом уровень мощности исходя из стоимости реактивности стержней управления может выбрать оператор. Для многих ядерных реакторов эта стоимость измеряется в долларах, и поскольку это выходит за рамки данной статьи, чтобы объяснить, почему мы используем этот, казалось бы, странный блок, вы можете прочитать все об этом здесь, если хотите.

В зависимости от эксперимента может потребоваться определённый уровень импульсной мощности. Положение стержней управления в сердечнике определяет уровень мощности в любой момент времени. Собранный из данных моей работы на реакторе набор состоит из этих значений, а также нескольких других, которые описываются ниже:

  • Дата. Конкретная дата в формате datetime, когда произошёл импульс.

  • Расчётная реактивность. Оценочная импульса реактивности в долларах. Эта оценка определяется обращением к объединённой стоимости определённого стержня управления. Пример: экспериментатор запрашивает импульс стоимостью $2,00. Оператор найдёт позицию для контрольного стержня на основе общей стоимости.

  • Позиции стержня. В сердечнике находятся четыре управляющих стержня переходный, шайба 1, шайба 2 и управляющий стержень. Метки "Trans, S1, S2, Reg" в моем наборе это связанные с физическим расположением управляющих стержней в ядре значения. Они варьируются от 0 до 960, где 0 это полностью вставленный сердечник, а 960 полностью удалённый.

  • Пиковая мощность. Измерения в мегаваттах.

  • Общая энергия Измеряется в мегаваттах-секундах.

  • Пиковая температура. Измеряется в градусах Цельсия: это пиковая температура, достигаемая в измерительном топливном элементе (IFE). Чтобы контролировать температуру сердечника, внутри нескольких топливных стержней встроены термопары.

  • Расчетная реактивность. Это "истинное" значение реактивности, обычно оно на определенную величину отличается от расчётной. Оно автоматически рассчитывается консолью реактора.

В оставшейся части статьи я проанализирую набор данных, чтобы понять, какие возможны инсайты. Кроме того, чтобы прогнозировать расчётную реактивность на основе предполагаемой реактивности и положений стержней, я применю модель машинного обучения линейную регрессию. Эта модель поможет нам быть точнее с нашими импульсами (в определённой степени больше размышлений об этом позже), также модель повысит эффективность и достоверность экспериментов. Моя конечная цель сделать наши импульсы более точными и повторяемыми с точки зрения полученного конкретным образцом количества облучения.

Исследовательский анализ данных (EDA)

Я очистил данные заранее, избавлю вас от этих деталей. В большинстве случаев очистка набора данных это удаление ошибочных или неполных записей. Было много ошибок ручного ввода (опечаток), которые я должен был обнаружить и исправить, не хватало точек данных, их я либо полностью удалил, либо заменил средними значениями.

Как только у меня будут чистые данные, первое, что я сделаю, импортирую соответствующие библиотеки и загружу свой фрейм данных:

import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn import metricsfrom sklearn.metrics import r2_scoredf = pd.read_excel('Pulse_Data_2021_NO_NULL.xlsx', )

После этого я всегда использую три основные функции, чтобы изучить общие характеристики моих данных .head(), .info() и .describe().

.head() просто показывает несколько верхних строк фрейма данных, так можно увидеть, как данные структурированы в целом:

Рисунок 3. вывод df.head()Рисунок 3. вывод df.head()

.info() выводит количество записей во фрейме, имена столбцов, количество нулевых записей в каждом столбце и тип данных для каждого столбца:

Рисунок 4. Вывод df.info()Рисунок 4. Вывод df.info()

И .describe() предоставляет некоторый сводный анализ самих данных среднее значение, стандартное отклонение, квартили и так далее от каждого столбца. Мне нравиться транспонировать столбец, чтобы удобно читать его:

Рисунок 5. Вывод df.describe()Рисунок 5. Вывод df.describe()

Следующий шаг моего EDA просто начать строить графики того, что может иметь смысл. Например, я подумал, что было бы интересно увидеть связь между расчётной реактивностью и пиковой мощностью, поэтому сделал простую диаграмму рассеяния:

Рисунок 6. Диаграмма рассеяния расчётной реактивности в зависимости от пиковой мощности.Рисунок 6. Диаграмма рассеяния расчётной реактивности в зависимости от пиковой мощности.

Между двумя переменными существует четкая экспоненциальная зависимость, она согласуется с принципами управляющей этой реакцией реакторной кинетики. График также полезен тем, что выявляет потенциальные точки выброса либо странное поведение реактора, либо, что более вероятно, ошибочные записи. Из этого графика я нашел дополнительные записи с опечатками, которые нужно было исправить или убрать.

Корреляционная тепловая карта это ещё один полезный инструмент, который может применяться к большинству числовых наборов данных. На рисунке 7 ниже показано, какие столбцы со значениями в диапазоне от -1 до 1 тесно коррелируют друг с другом.

Я пытаюсь сделать прогнозы предполагаемой реактивности точнее, мой следующий шаг сравнить его распределение с расчётной реактивностью. Для этого я накладываю две гистограммы и придаю им приятный вид:

Рисунок 8. Гистограммы реактивности.Рисунок 8. Гистограммы реактивности.

Существуют дискретные значения импульсной реактивности, которые мы обычно используем, когда решаем, насколько большой импульс мы хотим. Рисунок 8 наглядно отражает это, показывая, что 1.50, 2.00, 2.50 и 3.00 это общие оценочные значения. Можно было бы ожидать нормального распределения расчётных значений реактивности вокруг каждого из её расчётных значений, что показано (хотя и слабо) синим графиком.

Если ещё раз взглянуть на рис. 8, оказывается, что оценочная реактивность несколько выше рассчитанной. Это означает, что, вообще говоря, если вы запросите импульс стоимостью в $2,00, вы на самом деле получите реактивность немного меньше. Я могу количественно оценить его: нужно вычесть один столбец из другого и найти среднее значение:

Средняя разница между расчётной и оценочной предполагаемой реактивностью.Средняя разница между расчётной и оценочной предполагаемой реактивностью.

Выше показано, что в среднем истинная, рассчитанная реактивность на 16 центов дешевле расчётной реактивности.

Наконец, я сгенерировал график, который служит интересным представлением работы реактора во времени. Этот реактор впервые запустили (то есть вывели в критичесоке состояние) в 1992 году, и график количества импульсов в год с тех пор показывает несколько периодов сильно сниженной активности:

Рисунок 10. Количество импульсов в год.Рисунок 10. Количество импульсов в год.

Глядя на рисунок 10, вы можете задаться вопросами:

  • Почему в 1994-1996 годах и в 2013-2014 годах импульсов было так мало?

  • Были ли повлиявшие на тип экспериментов на объекте административные изменения, которые повлияли на тип экспериментов на этом объекте?

  • Были ли какие-либо новые национальные или университетские исследовательские разработки, требующие дополнительных импульсов?

  • Какие эксперименты проводились в 2000 и 2020-20201 годах (сейчас), которые требовали столько импульсов, и почему в этот период не было таких экспериментов?

Удивительно, как много инсайтов можно получить из нескольких маленьких графиков.

Прогнозное моделирование

Задача прогнозирования расчётной реактивности подходит для модели линейной регрессии. Это считается моделью обучения с учителем, поскольку данные уже помечены (дл обучения модели даны значения x и y). Технически это модель множественной регрессии (определение которой включает в себя линейную регрессию), потому что она использует несколько независимых переменных (Est_Reactivity, Trans, S1, S2, Reg), чтобы спрогнозировать значение зависимой переменной (Calc_Reactivity).

Сначала я разбил данные на обучающий и тестовый наборы, чтобы дать модели объективную оценку. Затем я инстанцирую модель и обучаю её на данных:

Рисунок 11 демонстрирует разделение данных на тестовые и обучающие, а также обучение модели.Рисунок 11 демонстрирует разделение данных на тестовые и обучающие, а также обучение модели.

Как только модель обучена, чтобы сравнить выводы модели с ожидаемыми значениями, я использую данные для тестирования. Абсолютно прямая линия означала бы идеальную модель:

Рисунок 12. Диаграмма рассеяния демонстрирует выводы модели в сравнении с истинными значениями.Рисунок 12. Диаграмма рассеяния демонстрирует выводы модели в сравнении с истинными значениями.

С несколькими заметными отклонениями, модель делает большую работу по точному прогнозированию. В зависимости от того, для чего применяется модель, возможно, стоит изучить данные ещё глубже, чтобы определить, откуда исходят эти отклонения и как их можно смягчить, чтобы повысить точность модели. В моем случае этой модели достаточно. Я даже могу количественно оценить качество обучения, вычислив для моей модели значение коэффициента детерминации:

Рисунок 13. Коэффициент детерминации 0.91Рисунок 13. Коэффициент детерминации 0.91Рисунок 14: График остатковРисунок 14: График остатков

Коэффициент детерминации это доля дисперсии в зависимой переменной, которая прогнозируема исходя из независимой переменной. Выраженный в процентах, 91% дисперсии в оценочной реактивности любого данного импульса можно объяснить с помощью наших входных значений. Вывод: это отличная модель для наших целей. Тем не менее, есть ещё одна проверка, которую я могу сделать, чтобы больше узнать о модели.

Рисунок 14 это гистограмма остатков, или расстояние между любой заданной точкой данных и линией наиболее подходящей регрессии. График показывает, что нормальное распределение случайной ошибки около нуля. Это хорошо. Если бы это было не так, то у нас могли возникнуть проблемы с нашей моделью и/или набором данных. Опять же, есть заметные отклонения, но не о чем беспокоиться, когда мы подкреплены впечатляющей дисперсией зависимой переменной.

Рисунок 15. Импульс, записанный в режиме медленного движения (изначально 240 кадров в секунду).Рисунок 15. Импульс, записанный в режиме медленного движения (изначально 240 кадров в секунду).

Выводы (и ограничения)

С помощью этой модели теперь я могу точно предсказать значение импульсной реактивности, основываясь на таких параметрах реактора, как положение управляющих стержней и импульс в долларах. Ясность важна во всех экспериментах, и эта модель поможет подтянуть значения импульсов и обеспечить одинаковое облучение радиацией для каждого облучаемого компонента.

Примечание. Модель имеет ряд ограничений, которые могут быть очевидны для тех, у кого есть знания о кинетике реактора и о его работе. А именно, модель не знает о предыдущих операциях и чрезвычайно важном накоплении продуктов распада. Ксенон-135 образуется (и сгорает) с течением времени по мере работы реактора, существенно влияя на поглощение нейтронов и поведение реактора.

Хотите научиться использовать машинное обучение как и автор статьи можете обратить внимание на наш курс по Machine Learning, или на его расширенную версию, в которой рассматривается и глубокое обучение "Machine Learning и Deep Learning".

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Синтез речи виртуальных ассистентов Салют как мы отошли от классических научных статей, чтобы сделать его человеческим

25.03.2021 10:19:47 | Автор: admin
Автор исходного изображения: Blue Flourishes/Shutterstock.comАвтор исходного изображения: Blue Flourishes/Shutterstock.com

Всем привет! В этом посте мы расскажем про синтез голосов Сбера, Афины и Джой виртуальных ассистентов семейства Салют. О том, как мы в SberDevices обучали модели, чтобы сделать синтез живым и специфичным для каждого персонажа, а также с какими проблемами столкнулись и как их решали.

Согласно нашей библии ассистентов, Сбер энергичный гик, Афина взрослая и деловая, а Джой дружелюбная и веселая. Они отличаются не только уникальными характерами, обращением на ты/вы и предпочтениями в шутках. Мы попытались сделать так, чтобы их личности отражались и в голосах, которыми они разговаривают.

Персонажей озвучили телеведущая Анастасия Чернобровина (Афина) и актёры дубляжа Даниил Щебланов и Татьяна Ермилова (Сбер и Джой). Виртуальных ассистентов можно услышать в приложениях Сбер Салют, СберБанк Онлайн, нашем колл-центре по номеру 900, а также в устройствах SberBox и SberPortal. Всё, что вы услышите, это синтез речи, реализованный с помощью нейросетей. Он работает на связке Tacotron 2 и LPCNet.

Но, чтобы было понятно, что, зачем и почему, немного теории и истории.

1. Теория

Автор изображения: ioat/Shutterstock.comАвтор изображения: ioat/Shutterstock.com

Звук это волна, распространяющаяся в упругой среде воздухе. Человеческое ухо воспринимает её примерно так: волна, прошедшая через ушную раковину, колеблет барабанную перепонку среднего уха, с которой связаны органы молоточек и наковальня. Они передают колебания во внутреннее ухо с улиточкой и нервами.

1 височная кость; 2 слуховой канал; 3 ушная раковина; 4 барабанная перепонка; 6 молоточек; 7 наковальня; 8 стремечко; 5 овальное окно; 9 полукружные каналы; 10 улитка; 11 нервы; 12 евстахиева труба.1 височная кость; 2 слуховой канал; 3 ушная раковина; 4 барабанная перепонка; 6 молоточек; 7 наковальня; 8 стремечко; 5 овальное окно; 9 полукружные каналы; 10 улитка; 11 нервы; 12 евстахиева труба.

Источник изображения.

Похожим образом работают цифровые устройства для записи звука: обычно в микрофонах есть мембрана, которая колеблется от звуковых волн. Отклонения мембраны от первоначального положения записываются микрофоном несколько тысяч раз в секунду (обычно от 8000 до 48000, чаще всего 24000). Получается дискретизованный аудиосигнал, так называемое time domain-представление звука. Синтезировать звук в таком виде значит авторегрессионно, шаг за шагом, предсказывать 24 тысячи чисел в секунду. Единственный успешный (и революционный) проект, работающий в time domain, WaveNet от DeepMind, но добиться realtime-синтеза в нём можно только ухищрениями в ущерб качеству.

В задачах speech processing лучше пользоваться time-frequency-представлением звука с помощью спектрограмм (short time Fourier transform, STFT). Математически это временная последовательность модулей преобразования Фурье от коротких (10-20 мс) отрезков звука, внутри которых сигнал можно считать стационарным, то есть его спектральные характеристики почти не меняются за это время. Причины того, почему такой подход работает, тоже можно найти в биологии речевого тракта.

Речевой тракт человекаРечевой тракт человека

Источник изображения.

Человек разговаривает с помощью голосовых связок и других органов речи. Воздух выдыхается из легких, колеблет мембраны голосовых связок, получается периодический сигнал. Затем он резонирует, проходит через несколько фильтров (горло, нёбо, язык, зубы, губы), обрастает дополнительными гармониками (модулируется) и выходит изо рта в таком виде, в каком мы его слышим. Голосовые связки это не главный орган речи человека. Например, они никак не участвуют при произнесении глухих согласных с, п, к, . На спектрограмме они выглядят как высокочастотные равномерно раскрашенные области, а вокализованные звуки (все гласные и звонкие согласные) как несколько ярких полос, с наибольшей амплитудой в низкочастотной области (в нижней части спектрограммы). Самая первая (нижняя) полоса называется fundamental frequency (частота основного тона, F0) это и есть частота колебаний голосовых связок. Следующие гармоники (полосы F1, F2, ...) могут иметь бльшую амплитуду, но кратны F0.

Мел-спектрограмма 4-секундного аудио.Мел-спектрограмма 4-секундного аудио.

На мел-спектрограммах каждый столбец на ней представляет собой rFFT от короткого фрагмента аудио. По оси X отложено время, по Y номер мел-фильтра. Мел-шкала это такой способ снизить разрешение спектрограмм по частоте с 2000 до 128 (или даже 80) без особенной потери информации. Он основан на психоакустике: восприятие человеком высоты и громкости звука логарифмическое. То есть нам кажется, что звук стал выше на какую-то величину, когда в действительности высота звука выросла в какое-то количество раз. Более подробно про процессинг мел-спектрограмм можно почитать тут.

Несмотря на то, что голосовые связки работают не всегда, они являются очень важной частью речевого тракта человека. Мы управляем их натяжением, что для слушателя звучит как проявление интонаций. Попробуйте шепотом, когда связки не включаются, сказать что-нибудь эмоционально это будет намного сложнее, чем обычным голосом. Так что, если мы хотим делать интонационно богатый синтез речи, то необходимо каким-то образом контролировать F0.

2. История

Синтезировать речь значит озвучить заданный текст человеческим голосом. Исторически первый способ решить эту задачу так называемый concatenative text-to-speech (иногда его называют unit selection). Как текст состоит из букв, так и звук здесь рассматривается как склейка коротких фрагментов аудио фонем. В русском языке около 47 звуков, но современные concatenative-системы синтеза требуют огромных речевых корпусов (около нескольких гигабайт, это сотни тысяч аудио длиной от нескольких десятков миллисекунд). Это связано с тем, что звучание конкретной фонемы зависит от многих факторов, особенно от её соседей. Синтезированная речь получается монотонной, а артефактов на стыках фрагментов всё равно не удаётся избежать.

Более перспективным выглядит параметрический синтез речи. Это целый класс методов, которые могут быть совсем не похожими друг на друга. Их объединяет то, что синтез происходит в два этапа: сначала одна модель предсказывает параметры речи, а затем вторая по этим параметрам синтезирует нужный звук. Обе модели не обязаны быть нейросетями. Долгое время использовались скрытые марковские модели (HMM) и преобразование Griffin-Lim.

О Griffin-Lim преобразовании

Преобразование Фурье в общем случае комплекснозначное, но для звука физический смысл имеют только вещественные амплитуды, а не фазы (тут комплексные числа представляют в экспоненциальном виде), которые обычно отбрасывают. Поэтому задача восстановления звука из спектрограммы не решается обычным обратным преобразованием Фурье, и приходится делать это приближённо. Например, с помощью алгоритма Гриффина-Лима. Он итеративно применяется к вещественной спектрограмме, чтобы восстановить фазы для обратного преобразования Фурье.

До эпохи нейросетей такой подход проигрывал concatenative-синтезу со всеми его недостатками так ужасно он звучал. Что-то похожее вы уже слышали в фантастических фильмах роботы звучат очень механически, железно, и точно также долгое время звучал параметрический синтез. Возможно, тогда появились стереотипы, что синтезированная речь может звучать только так.

В 2017 году Google представил архитектуру нейросети Tacotron, а через полгода Tacotron 2. Это далеко не первый параметрический синтез с помощью нейросетей, но впервые удалось добиться качества, сравнимого с естественной человеческой речью. Авторы предложили авторегрессионно генерировать по тексту столбцы на мел-спектрограмме. Обучающая выборка это десятки тысяч пар из текстов и соответствующих им аудиодорожек.

Модель состоит из нескольких модулей. Сначала эмбеддинги букв проходят через энкодер, состоящий из нескольких сверточных слоев и bidirectional LSTM. Так получаются 512-мерные представления букв с учётом контекста. Затем включается авторегрессионный декодер. На каждом его шаге в предсказании участвуют предыдущий сгенерированный столбец на спектрограмме (прошедший через prenet, играющий роль bottleneck) и текст. Attention-механизм смотрит на все буквы в предложении, но показывает декодеру, какую из них мы сейчас синтезируем.

Последняя часть такотрона Postnet. Она немного сглаживает предсказания и улучшает конечное качество. Сам модуль состоит всего из пяти 1d-сверток по времени.

Схема Tacotron 2.Схема Tacotron 2.

Затем, когда спектрограмма сгенерировалась целиком, её нужно перевести из time-frequency domain обратно во временное представление. Это делается с помощью отдельной модели вокодера. Авторы оригинального Tacotron-2 использовали WaveNet, но с тех пор появились более быстрые архитектуры, работающие почти так же качественно. Мы используем LPCNet.

Пример работы первой версии Tacotron. Интонации приятные, но звук звучит железно из-за Griffin-Lim вокодера.

Тот же текст, озвученный Tacotron-2 с вокодером WaveNet. Распознать, что это говорит робот, почти невозможно.

3. Из коробки всё работает плохо

Опыт использование такотрона показывает, что он хорош только в тепличных условиях. Недостатки оригинальной архитектуры проявляются в корнер-кейсах, когда синтез делает явные ошибки. Наиболее частые из них это неправильно расставленные паузы и ошибки в интонациях. Последнее особенно заметно в вопросительных предложениях: иногда нужной интонации вообще нет, или неправильно выделено вопросительное слово (интонационное ударение на слово называется эмфазой). На слух это звучит неестественно, сразу становится понятно, что говорит робот, а не человек.

Обе проблемы возникают из-за того, что такотрон ничего не знает о смысле слов, которые озвучивает. Причём, даже если он и выучит что-то о языке из обучающей выборки, то что делать со словами, которых он не видел?

GST попытка хоть каким-то образом контролировать интонацию в такотроне. В статье описано, как их модель обучалась на корпусе из детских книжек, где автор озвучила персонажей разными голосами, а на инференсе хотелось указать персонажа и сгенерировать аудио его голосом. Модуль GST работает так: на обучении спектрограмма всего аудио проходит через bottleneck (несколько свёрточных слоев и один GRU, затем multihead attention на обучаемых токенах), выучивая стиль всего аудио. Под стилем понимается то, как был произнесен текст. Style embedding кодируется 128-мерным вектором, который используется дальше декодером. C одной стороны это позволяет делать перенос стиля, хотя на практике это работает не всегда качественно. А с другой помогает такотрону лучше выучиться, ведь capacity модели не будет тратиться на предсказание громкости, скорости и тембра каждого слова за это отвечает стилевой вектор.

Схемы работы модуля GST из оригинальной статьи на этапах обучения и инференса.Схемы работы модуля GST из оригинальной статьи на этапах обучения и инференса.Задача style transfer

Перенос стиля задача style transfer. В ней мы хотим скопировать стиль речи (тембр, скорость, громкость и т.д.) от имеющегося референсного аудио и озвучить заданный текст с этим стилем.

На инференсе нам доступны несколько стратегий: скопировать стиль от референсного аудио, сэмплировать случайный стиль из распределения или попробовать предсказать стилевой вектор по тексту. Последнюю идею авторы предложили в отдельной статье (TP-GST). В ней предлагается предсказывать style embedding по выходу текстового энкодера такотрона.

4. Улучшаем такотрон

Очень хочется использовать в синтезе какую-нибудь языковую модель. Например, самую известную из них BERT от Google. Мы используем его сразу в нескольких местах: для расстановки пауз, в модуле TP-GST и для предсказания формы контура F0 каждого слова.

О нашем BERT мы уже писали это текстовый энкодер, обученный на очень большом корпусе русского языка. Модель для каждого слова в предложении (в более строгом смысле не слова, а bpe-токена) возвращает 768-мерный вектор, кодирующий его смысл с учётом контекста. В наших экспериментах общее качество синтеза растёт, если в предсказании TP-GST использовать не только выход энкодера такотрона, но и эмбеддинг предложения от BERT. А можно ли по таким данным предсказать, в каких местах предложения синтезу стоит сделать паузу?

Оказывается, точность расстановки пауз при генерации речи можно повысить, если предсказывать их с помощью отдельной модели. Для этого нужно обучить такотрон на текстах, в которых в нужных местах стоит специальный символ пауза. На тех же данных мы обучаем паузную сетку предсказывать, после каких слов нужно поставить этот символ. Простая модель из нескольких слоев над эмбеддингами от BERT прекрасно справляется с такой задачей.

В первом аудио паузы предсказываются текст-энкодером такотрона, во втором синтез звучит с автоматической расстановкой пауз с помощью отдельной модели. Причём она иногда ошибается: в третьем примере есть пропущенная пауза.

Похожим образом мы контролируем интонации в синтезе. В естественной речи экспрессия выражается в повышении-понижении высоты звука, громкости, скорости (это на уровне слов) и восходящей-нисходящей интонацией всего предложения. Эти характеристики легко формализовать числами существуют простые алгоритмы для их подсчёта.

На картинке буквы примерно соотнесены с вейвформой (синий цвет), оранжевым нарисован контур F0, а капсом выделено слово с эмфазой. Чаще всего оно характеризуется растущим или просто высоким F0, и это слышно ушами.

В нашем такотроне используются квантизованные признаки, посчитанные для слов, вместо настоящих (непрерывных) значений. Под квантизацией имеется ввиду, что всё множество значений признака разбивается на несколько бинов, и для конкретного слова смотрится, в какие бины попали его фичи. Это играет роль бутылочного горлышка при обучении такотрона, мешая ему переобучиться, а также упрощает их предсказание.

Благодаря квантизации можно контролировать эмфазу: либо вручную задавать вопросительное слово, либо предсказывать его автоматически.

На инференсе набор меток для каждого слова предсказывает отдельная модель. Её дизайн похож на паузную сетку используются эмбеддинги от BERT и несколько простых слоёв. Это работает неплохо, но квантизация открывает ещё одну приятную возможность контролировать интонации вручную, несмотря на предсказания модели. Автор текстов для синтеза может вручную указывать, какое слово произнести громче или быстрее, но есть более интересный юзкейс. В русском языке существует не так много интонационных паттернов в вопросительных предложениях. Например, почти всегда есть вопросительное слово, которое мы выделяем особенной восходящей интонацией. Этого легко добиться, назначив нужным словам метки, отвечающие за восходящий контур F0 (наклон контура, наряду с самим значением фундаментальной частоты, очень информативная фича). Интересно, что простые rule-based-алгоритмы справляются с автоматическим поиском таких слов в вопросительных предложениях лучше нейросетей, которые работают в остальных случаях.

В вопросительных предложениях правильные интонации особенно важны. Обычный такотрон часто ошибается, и общее качество синтеза сильно вырастет, если управлять интонацией с помощью простой модели, использующей знания о русском языке.

Обычно корпусы обучающих текстов собираются из разных источников. У нас были например, новости, анекдоты, редакторские реплики ассистентов и книги. Мы просили наших дикторов прочитать каждое предложение выразительно и максимально естественно. Но сухие выдержки из новостей и Всем салют! разумно читать с совершенно разным настроением. Так мы получили довольно разнообразную выборку, а синтез говорил с неестественно усредненной интонацией. Чтобы решить эту проблему, каждое предложение в обучении мы пометили one-hot-меткой, из какого источника оно взято, и добавили дополнительный вектор (topic embedding) к энкодеру. Это позволило такотрону более качественно обучиться, а нам выбирать более подходящий стиль голоса для разных текстов.

О влиянии текста на качество синтеза. Оба примера озвучены одной и той же моделью, но во втором используется метка assistant. При обучении в этот topic попали тексты ассистента (их писали редакторы), а в other остальные (новости, книги, ...).

Топология q-Tacotron.Топология q-Tacotron.

Увеличить схему

Все эти модули можно собрать в одну модель. Мы назвали ее q-Tacotron. Каждый из модулей по отдельности улучшает качество, что видно по росту метрик качества. К сожалению, их никак не измерить автоматически, приходится привлекать сервисы crowdsourcing.

5. Меряем качество

В статьях про синтез речи в качестве основной метрики обычно используется MOS mean opinion score. Респондентам предлагается оценить качество аудио по шкале от 1 до 5. Затем их голоса усредняются, и получается число, обычно около 3.8-4.5. Метрика показывает общее впечатление от синтеза. У нее есть несколько недостатков, поэтому мы разработали другие метрики оценки качества.

Сравнивая 2 похожие модели, по MOS сложно увидеть статистически значимую разницу: результаты получаются одинаковыми в пределах погрешности. Для этих целей разумнее использовать side-by-side тест, или SBS. Он похож на упрощенный до 2 моделей тест MUSHRA. Здесь респондентам даётся выбрать более понравившееся из двух аудио, где один и тот же текст озвучен двумя системами синтеза. Тут становится понятно преимущество этой метрики по сравнению с MOS: если обе модели хорошие, но одна всегда чуть лучше другой, то в SBS будет 100/0, а MOS будут похожими величинами.

Также MOS не говорит ничего конкретного об ошибках модели. Они могут быть нескольких типов: ошибки в произношении (читает мягко модель вместо модэль), в расстановке пауз, в интонациях, а также артефакты аудио (посторонний шум, нечётко выговоренные слова). Помимо SBS с бейзлайном мы меряем также PSER pronunciation sentence error rate. Эта метрика показывает процент аудио, в которых синтез допускает ошибки. У наших дикторов это число обычно около 5-10% то есть всего 90-95% предложений человек говорит правильно. Ошибки возникают в основном в корнер-кейсах: мы специально стараемся делать наши тестовые сеты сложными, чтобы видеть узкие места. Оригинальный Tacotron 2 с TP-GST ошибался на нём в более чем 50% предложений. У нашего q-Tacotron 14% ошибок.

Пример синтеза, когда модель не делает ошибок.

Одним из признаков хорошего синтеза является такой уровень качества, когда на слух невозможно распознать, перед нами искусственная речь или речь живого человека. Для этого мы используем четвёртую метрику robotness. Для её измерения мы в пропорции 50/50 смешиваем реальные записи от диктора и синтез, и просим респондентов угадать, какое аудио откуда. Затем для искусственных аудио считаем разницу между голосами за синтез и за человека. Если у нас получился идеальный синтез, который говорит неотличимо от человека, то мы должны получить 50/50, то есть метрика robotness будет 0%. Значение метрики в 50% соответствует 25% синтезированным аудио, которые респонденты посчитали произнесёнными человеком. Not great, not terrible.

Примеры синтеза голоса Татьяны Ермиловой (Джой), которые респонденты посчитали произнесёнными человеком (распределение голосов: 3 за синтез, 7 за человека).

Сравнение q-Tacotron (кандидат на внедрение в production) с прошлой архитектурой (актуальный на момент измерений production, prod), в которой квантизация каждой фичи была заменена на кластеризацию по всем фичам. She синтез голоса персонажа Сбер в озвучке Даниила Щебланова.Сравнение q-Tacotron (кандидат на внедрение в production) с прошлой архитектурой (актуальный на момент измерений production, prod), в которой квантизация каждой фичи была заменена на кластеризацию по всем фичам. She синтез голоса персонажа Сбер в озвучке Даниила Щебланова.SBS-тест самой первой версии Tacotron 2 + TPGST против q-Tacotron, который оказался почти в 3 раза лучше. Che голос Анастасии Чернобровиной. На нём наиболее заметен прирост качества от использования паузной модели: диктор делала много лишних пауз, Tacotron-2 это выучил, и синтез звучал хужеSBS-тест самой первой версии Tacotron 2 + TPGST против q-Tacotron, который оказался почти в 3 раза лучше. Che голос Анастасии Чернобровиной. На нём наиболее заметен прирост качества от использования паузной модели: диктор делала много лишних пауз, Tacotron-2 это выучил, и синтез звучал хуже

Одно из аудио в тестовом сете, на котором заметно, как сильно выросло качество синтеза.

6. Заключение

У нас получился крутой синтез речи. Это видно по метрикам: по PSER мы по чуть-чуть подбираемся к пределу человеческим 90-95%. А значение MOS 4.59 сравнимо с 4.526, которое авторы из DeepMind сообщили для оригинального Tacotron 2. В то же время разница между метрикой robotness и идеальным значением 0% пока остаётся большой. То есть синтез разговаривает приятно, но всего 25% синтезированных фраз звучат неотличимо от человека. Помимо очевидных случаев с характерными для синтеза ошибками, на эту метрику влияет общее качество аудио. Оно напрямую зависит от вокодера, который используется для озвучивания предсказанных такотроном спектрограмм. В нашем стеке используется LPCNet, он позволил нашему синтезу работать всего на 2 ядрах CPU в потоковом режиме. Но об этом вокодере мы расскажем в отдельном посте, там много всего интересного.

На самом деле работа над нашим синтезом только начинается. Каждую из метрик можно и дальше оптимизировать, делая синтез ещё лучше. Для этого мы продолжаем записывать дикторов и проводим research в области синтеза речи, NLP и около. Приходите к нам решать интересные задачи :)

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru