Письменность

Ронго-ронго нерасшифрованная письменность острова Пасхи

31.08.2020 00:13:55 |

Автор: admin

Изобретатели

Письменность один из столпов, на которых стоит современная цивилизация. Хотя мы и воспринимаем её как естественную часть нашей повседневной жизни, когда-то она была изобретена. Такое случалось всего несколько раз, в статье речь пойдет как раз про один из таких случаев письменность острова Пасхи, также называемого Рапа Нуи. Это маленький уединенный остров длиной 24 километра, до ближайшего населенного острова плыть от него 1600 километров по прямой. Полинезийские мореходы попали туда примерно в 1200 году, а европейцам он стал известен в 1722. Европейцев впечатлили сотни каменных статуй, созданных островитянами, до 10 метров высотой и до 80 тонн веса каждая. Этим Рапа Нуи отличался ото всех прочих полинезийских островов, на которых если и делали каменные статуи, то весьма скромных размеров. Несмотря на это, европейцы обращались с местным населением как с дикарями: ловили их и продавали в рабство, захватили их землю, превратили весь остров в пастбище и, наконец, выживших обратили в христианство, запрещав говорить на родном языке и воспроизводить местную культуру.

Открытие

В 1864 году миссионер Эйро сделал удивительной открытие: чуть ли не в каждой хижине хранились небольшие дощечки, покрытые мелкой резьбой, которые как будто бы можно было читать до того, пока все грамотные островитяне не умерли в рабстве. Мы точно не знаем, что именно произошло, по-видимому, Эйро объявил таблички запретными, препятствующими попаданию в рай и призвал их сжигать. Помимо христианства Эйро привез на остров туберкулёз, эпидемия которого за несколько лет выкосила четверть населения. После его смерти в 1868 другой священник, пришедший на смену Эйро, всё же решил рассказать о табличках начальству. Епископ Жоссан на Таити тут же понял, каково значение находки, но к тому моменту осталось всего две дюжины артефактов с надписями. Так мир узнал про ронго-ронго письменность острова Пасхи.

Оставшееся

Таблички сохранились по случайности: часть из них местные не выдали Эйро, а часть была погребена в сырых пещерах с семейными ценностями, откуда их вытащили впоследствии для продажи. Из-за сырости многие из них сильно повреждены и археологи, скорее всего, уже никогда не найдут других табличек, они просто сгнили в пещерах. Всего нам известно о 28 текстах, некоторая часть из которых могут быть подделками. Всего на них удалось опознать порядка 14 000 знаков. В наши дни таблички хранятся в музеях по всему миру, в России две из них можно увидеть в Кунсткамере.

Тексты вырезались на дощечках, корягах, статуэтках и деревянных украшениях с помощью обсидианового лезвия и акульего зуба. По результатам анализа донных отложений озёр, до 1200 года Рапа Нуи был покрыт густым лесом, но с приходом человека деревья стали уступать, так что к моменту визита европейцев уже не было ни одного растения выше нескольких метров. Похоже, что рапануйцы срубили все свои деревья, не смогли построить большое океанское каноэ, чтобы сплавать за помощью на другие острова и остались в изоляции, погрузившись в междоусобные войны, голод и каннибализм. Так что таблички вырезали на чём придётся: запасах старой древесины, европейских вёслах, крестах, воздвигнутых в 1770 году испанцами и даже на обломках, прибитых волнами к побережью. Радиоуглеродный анализ показывает, что часть табличек вырезана на древесине, росшей на острове до контакта с европейцами, но мы не знаем, когда именно была нанесена резьба.

Изучение

Неизвестная письменность в XIX веке не могла не привлечь внимания ученых, попытки прочесть тексты начались тут же после их обнаружения. Естественно было предположить, что кто-то всё ещё мог читать ронго-ронго или хотя бы видел как это делалось. Епископ Жоссан нашел на Таити эмигранта с острова Пасхи и попытался с его помощью прочесть их и составить каталог знаков. В ответ он получил несколько песнопений, воспроизведенных по памяти, а в качестве чтений знаков их описание как если бы они были просто картинками: вот черепаха, вот растение, вот человечек, а это птица Информатор Жоссана на самом деле не знал, как читать тексты. Потом было ещё несколько попыток найти других информаторов, но время шло, поколение, заставшее времена до рейдов рабовладельцев, состарилось и доживало свой век в лепрозории. Вместе с последними из них были исчерпаны возможности узнать что-то о чтении ронго-ронго из уст очевидцев. Поняв, что европейцы интересуются ронго-ронго, рапануйцы стали делать поддельные таблички, а также создавать мистификации в виде тайных манускриптов, якобы содержащих ключи к расшифровке. К сожалению, ни одного реального ключа или билингвы среди них не оказалось, так что настало время применять другие подходы к расшифровке.

Параллельные фрагменты

Первый серьезный результат был получен ленинградскими школьниками Борисом Кудрявцевым, Валерием Байтманом и Александром Жамойда в 1938 году. Они обнаружили, что на обеих табличках в Кунсткамере написан примерно одинаковый текст. Позже Кудрявцев обнаружил, что на двух табличках из других музеев есть другой повторяющийся фрагмент. Также он составил собственный каталог знаков ронго-ронго. Кудрявцев погиб на войне, но спустя годы его дело было продолжено Юрием Кнорозовым, к тому моменту уже расшифровавшим письменность Майя. Им была создана особая группа по расшифровке ронго-ронго, подошедшая к вопросу с размахом, создавшая новые каталоги знаков и даже использовавшая компьютеры, но результатов все эти усилия принесли мало. Сейчас сложно судить о том, что именно стало причиной провала, но, по-видимому, можно выделить три фактора:
1. Кнорозов работал в основном с фотографиями, а не с оригиналами текстов, потому его группа не смогла составить адекватного каталога знаков.
2. Успех Кнорозова в расшифровке письменности Майя, принципы которой он всецело перенес на ронго-ронго.
3. Никто из его группы в то время не знал рапануйского или хотя бы какого-то родственного ему полинезийского языка.
Ронго-ронго было объявлено не настоящей письменностью, а мнемоническим ребусом, в котором пропускались служебные части речи, оставляя широчайший простор для творчества. Сейчас мы знаем, например, что в рапануйском языке нет даже частей речи в привычном нам понимании, большинство слов могут быть существительными либо глаголами в зависимости от служебных частей речи вокруг них, так что без этих маленьких слов-суффиксов и слов-приставок ничего наверняка прочитать бы не получилось.

Каталог знаков

Примерно в те же годы Томас Бартель ездит по миру, делает копии всех известных табличек с помощью карандаша и папиросной бумаги и по ним создает собственный каталог символов ронго-ронго. Им исследователи пользуются до сих пор. В отличие от группы Кнорозова, Бартель обратил внимание на то, что отдельные знаки имеют повторяющиеся в разных комбинациях элементы, это наблюдение легло в основу классификации. У него получилось выделить порядка 700 уникальных знаков, сгруппированных по форме тел, голов, рук, ног и прочих элементов. Каталог Бартеля позволил другим ученым перейти от чисто словесных описаний знаков человечек с поднятой ручкой к надежным цифровым кодам. Последователь Бартеля Стивен Фишер заново сделал копии табличек и исправил найденные ошибки, в дальнейшем исправлять каталог продолжило объединение CEIPP им можно написать и попросить прислать текстовый файл, в котором закодирован весь корпус текстов.

Элементы

В 1980-90х годах Гай, Макри и Поздняков, изучая параллельные фрагменты текстов, расширяют наше понимание внутреннего устройства отдельных знаков. Оказывается, что многие из элементов являются как будто бы аллографами разными вариантами написания. Каталог составных элементов всё уменьшается и появляется гипотеза о слоговом характере ронго-ронго. В рапануйском языке 55 слогов и 55 элементов с аллографами как будто бы хватает для того, чтобы закодировать почти весь корпус имеющихся надписей.
Вот таблица базовых элементов Позднякова:

Появление персональных компьютеров позволило установить сотни параллельных фрагментов разной длины, а так же перечислений и других структурированных частей на некоторые из статей, описывающие отдельные результаты, я дам ссылки ниже. Вот какова структура текстов некоторых табличек друг относительно друга:

Хорли также предложил собственный каталог составных элементов знаков.

Дешифровки

До сих пор могло сложиться впечатление, что попыток предложить расшифровки не было, а вместо этого ученые скрупулезно исследовали тексты и делали осторожные выводы. Всё было иначе, расшифровки предлагались самые разнообразные! Предлагались чтения на языках американских индейцев, заявлялось, что ронго-ронго это письменность долины Инда, что рапануйцы инки или даже арийцы. Ирина Константиновна Фёдорова, бывшая членом группы Кнорозова, в 1990-х предложила свою трактовку, по которой тексты рассказывают о сельском хозяйстве: как кто какой сорт картошки сеял и пожинал. У Дэ Лаат все тексты про мужчину, убившего свою жену. У Рябчикова про астрономию. У Фишера о появлении вещей из других вещей

Современность

Итак, с гипотезой о слоговом характере письма и большим количеством параллельных фрагментов мы вроде бы пришли к задаче о расшифровке омофонической замены. Нужно перевести коды Бартеля в новую кодировку с меньшим количеством составных элементов знаков, корпус сохранившихся рапануйских легенд и преданий разобрать по слогам и дальше применить один из алгоритмов, появившихся в последние годы. Что мешает?

1. Мы не знаем, как именно корректно разделить символы каталога Бартеля на составные части. Обратите внимание, что у Позднякова и Хорли существенно разные наборы составных элементов и ни один из них никогда не публиковал кодирование тектов в собственные системы. Алгоритмы расшифровки омофонической замены позволяют нам оставить порядка 150 омофонов (втрое больше количества слогов в рапануйском языке), но мы не можем сказать, что значимо, а что нет.

2. Малая доступность корпусов и словарей языка. Самый полный словарь Фуэнтеса, судя по всему, пока ни разу не утекал в открытый доступ. В бумажном виде это библиографическая редкость. Записи легенд, сделанные такими антропологами, как Метро или Рутледж, не были опубликованы и до сих пор хранятся в архивах их экспедиций в виде рукописей.

3. Некорректная орфография большинства источников. В рапануйском есть одна фонема, гортанная смычка, звук на месте - в русском не-а. Её впервые расслышали через двести с лишним лет после первого контакта. Фуэнтес и Энглерт кое-где отмечали её, но сейчас мы знаем, что далеко не везде. Абсурдно, но известная советская исследовательница Ирина Федорова в своих публикациях вообще её пропускала, по соображениям удобства при наборе текстов, что для русского языка было бы равнозначно пропуску букв т и с. Это важно, потому что алгоритмы расшифровки омофонической замены используют частоты отдельных элементов, как правило, n-грамм.

4. Рапануйский язык после рейдов работорговцев подвергся очень сильному влиянию других полинезийских языков, прежде всего таитянского и мангаревского. К рапануйскому они примерно так же близки, как сербский к русскому, что привело к обширным заимствованиям. Первые хоть сколь-нибудь большие словари составлены уже после того, как произошла волна заимствований. И, хотя это не означает, что рапануйцы говорили на каком-то совсем уж другом языке, не учитывать изменения нельзя.

Что почитать

Об истории острова:
Современное представление
О контактах с американскими индейцами

О ронго-ронго:
Бартель: 1, 2
Давлетшин: 1, 2, 3, 4, 5, 6
Гай: 1, 2, 3, 4
Харрис: 1
Хорли: 1, 2, 3, 4, 5, 6, 7
Кнорозов: 1
Макри: 1
Мелка: 1, 2, 3, 4, 5, 6
Поздняков: 1, 2, 3, 4, 5, 6
Фёдорова: 1, 2
Ветшорек: 1, 2

Об алгоритмах расшифровки омофонической замены:
Kopal: Cryptanalysis of Homophonic Substitution Ciphers Using Simulated Annealing with Fixed Temperature
Dhavari: Efficient Cryptanalysis of Homophonic Substitution Ciphers
Magnuson: Homophonic Cipher Attack
Campos: Genetic Algorithms and Mathematical Programming to Crack the Spanish Strip Cipher
Sanguino: Analyzing the Spanish Strip Cipher by Combining Combinatorial and Statistical Methods
Oranchak: Evolutionary Algorithm for Decryption of Monoalphabetic Homophonic Substitution Ciphers Encoded as Constraint Satisfaction Problems
Ravi: Bayesian Inference for Zodiac and other Homophonic Ciphers
King: An algorithmic solution of sequential homophonic ciphers немного про другой вид шифров, но с интересной идеей
AZdecrypt
Zhong: Cryptanalysis of Homophonic Substitution Cipher Using Hidden Markov Models
Nuhn: Beam Search for Solving Substitution Ciphers
Nuhn: Improved Decipherment of Homophonic Ciphers
Kambhatla: Decipherment of Substitution Ciphers with Neural Language Models

О рапануйском языке:
Грамматика Ду Феу
Грамматика Киевиета самая подробная
Словарь Энглерта
Сравнительный словарь полинезийских языков
Корпус рапануйских текстов Козьмина, скоропостижно скончавшегося и не успевшего завершить работу над ним
Второй корпус Козьмина сотоварищи
Третий корпус Козьмина

Вдохновляющее, на русском:
Аку-аку Тура Хейердала
Мифы и легенды острова Пасхи Фёдоровой
Мифы, предания и легенды острова Пасхи Фёдоровой это другая книга, хотя названия похожи

Послесловие

Культура острова Пасхи заинтересовала меня в 11 лет, когда я прочел книгу Тура Хейердала Аку-аку. Тогда остров казался неимоверно далёким и необычным, на противоположном конце света. Сейчас расстояния сократились, вы можете прочитать десятки книг и статей про остров, поговорить с современными рапануйцами, но ронго-ронго по-прежнему остается загадкой. Задача ждет своего решения!

Подробнее..

Категории: Научно-популярное , Алгоритмы , Криптография , Natural language processing , Занимательные задачки , Шифр , Ронго-ронго , Ронгоронго , Письменность , Остров пасхи , Омофоническая замена , Дешифровка

Перевод Как машинное обучение помогает открыть мир Древней Японии

16.02.2021 18:22:34 |

Автор: admin

Богатая история человечества оставила после себя огромное количество исторических документов и артефактов. Однако практически все документы, содержащие рассказы и записанный опыт, имеющие существенное значение для нашего культурного наследия, понятны только специалистам по причине языковых и письменных изменений, происходящими со временем. Специально к старту нового потока курса по Машинному Обучению делимся статьёй Алекса Лэмба аспиранта Монреальского университета и Монреальского института алгоритмов обучения (MILA), посвящённой использованию ML для распознавания древних рукописных текстов.

Относительно недавно были обнаружены десятки тысяч глиняных таблеток из Древнего Вавилона [1], но только несколько сотен учёных могут их перевести. Подавляющее большинство этих документов никогда не были прочитаны, даже если они были обнаружены в XIX веке. В качестве дополнительной иллюстрации задачи такого масштаба: в 1851 году в ходе экспедиции была собрана табличка из Повести о Гильгамеше, но о её значении стало известно лишь в 1872 году. Эта табличка содержит добиблейское повествование о потопе, имеющее огромное культурное значение как предвестник повествования о Ноевом ковчеге. Это глобальная проблема, но одним из наиболее ярких примеров является случай Японии.

С 800 до 1900 года нашей эры в Японии использовалась система письма под названием кудзусидзи, которую исключили из учебной программы в 1900 году, когда было реформировано начальное школьное образование. В настоящее время подавляющее большинство говорящих на японском языке не умеют читать тексты, которым более 150 лет. Объём этих текстов, состоящий из более чем трёх миллионов книг, но читаемый лишь горсткой учёных, прошедших специальное обучение, поражает. Только в одной библиотеке оцифровано 20 миллионов страниц таких документов. Общее количество (включая письма и личные дневники, но не ограничиваясь ими) оценивается более чем в миллиард документов. Учитывая, что очень немногие люди могут понять эти тексты (в основном имеющие докторскую степень по классической японской литературе и японской истории), было бы очень дорого и затратно в смысле времени финансировать учёных для перевода этих документов на современный японский язык. Это мотивировало использовать машинное обучение, чтобы разобраться в таких текстах автоматически.

Это трудная задача. Кудзусидзи пишется шрифтом, который существенно отличается от современного японского, что для современного японца затрудняет даже элементарное распознавание. Однако, как только кудзусидзи был преобразован в современный шрифт, он читается большинством людей, свободно владеющих японским языком. Тем не менее некоторые трудности остаются из-за изменений в грамматике и в лексике.

Учитывая значение кудзусидзи для японской культуры, задачу использования компьютеров для содействия распознаванию кудзусидзи тщательно изучили в [2] посредством использования различных методов в глубоком обучении и компьютерного зрения. Однако эти модели не смогли достичь высоких показателей распознавания кудсусидзи. Это было вызвано недостаточным пониманием японской исторической литературы в сообществе оптического распознавания символов (OCR) и отсутствием стандартизированных наборов данных высокого качества.

Для решения этой проблемы Национальный институт японской литературы (NIJL) создал и выпустил набор данных кудзусидзи, курируемый Центром открытых данных в области гуманитарных наук (CODH). В настоящее время набор данных содержит более 4000 классов символов и миллион символьных изображений. До выхода этого набора данных кудзусидзи исследователи OCR пытались создавать наборы данных самостоятельно. Однако количество символов было очень ограниченным, что заставляло их модели работать плохо, когда они оценивались по всему спектру данных. NIJL-CODH решил эту проблему, предоставив большой и полный набор данных кудзусидзи для обучения и оценки модели.

Есть несколько причин, по которым распознавание кузусидзи является сложной задачей:

Большое значение имеет учёт как локального, так и глобального контекста. В связи с тем, что некоторые символы написаны в зависимости от контекста, при классификации важно учитывать несколько символов, а не рассматривать каждый символ в отдельности.
Общее количество символов в словаре очень велико. В частности, набор данных NIJL-CODH содержит более 4300 символов, на самом же деле их гораздо больше. Более того, набор данных следует распределению длинный хвост, поэтому в наборе данных, содержащем 44 книги, много символов, которые появляются лишь несколько раз или даже один раз.
Многие символы могут быть написаны несколькими способами на основе хентайганы. Хэнтайгана это старый способ написания хираганы или японских фонетических иероглифов с такой спецификой, что сегодня многие иероглифы могут быть нанесены на один иероглиф. Для современных японских читателей принципы хэнтайганы представляются сложными для понимания.
Тексты кудзусидзи часто пишутся вместе с иллюстрациями и замысловатыми фонами, которые трудно чисто отделить от текста. Они распространены потому, что самой популярной системой печати в современной Японии была печать на ксилографии, которая включает в себя резьбу по целому куску дерева вместе с иллюстрациями. Поэтому макет страницы может быть сложным и художественным, и не всегда его легко представить в виде последовательности.

Техника печати по дереву с использованием чернил и кисти

Текст кудзусидзи, вырезанный на ксилографическом брусе для печати

Чирасигаки был техникой написания, популярной в досовременном японском языке благодаря эстетической привлекательности текста. Этот стиль письма был распространён в личных письмах и стихах. Когда люди читают эти документы, они решают, с чего начать чтение, исходя из размера символов и темноты чернил. Это одна из причин, по которой обычные модели последовательности не имеют возможности хорошо работать со многими документами кудзусидзи.

Образец стиля письма Чирасигаки в документе кудзусидзи

KuroNet

KuroNet это транскрипционная модель кудзусидзи, которую я разработал совместно с моими коллегами Тарином Клануватом и Асанобу Китамото из Центра открытых данных в гуманитарных науках ROIS-DS при Национальном институте информатики в Японии. Метод KuroNet мотивирован идеей обработки всей страницы текста целиком с целью захвата как большого диапазона, так и локальных зависимостей. KuroNet передаёт изображения, содержащие целую страницу текста, через остаточную архитектуру U-Net (FusionNet) для получения представления признака. Однако общее количество классов символов в нашем наборе данных относительно велико и насчитывает более 4300. Поэтому мы обнаружили, что прогнозирование точного символа в каждой позиции было слишком дорогостоящим с вычислительной точки зрения, и в надежде решить эту проблему ввели аппроксимацию, которая изначально оценивает, содержит ли некая пространственная позиция символ. Оттуда KuroNet рассчитывает только относительно дорогой классификатор символов в позициях, которые содержат символы, в соответствии с наблюдаемой истиной. Эта методика, являющаяся примером Teacher Forcing [обучения с принуждением], помогает значительно снизить использование памяти и сократить вычисления.

Мы также рассмотрели использование аугментации данных для повышения эффективности обобщения, что, как известно, особенно важно в глубоком обучении, когда количество помеченных данных ограничено. Мы исследовали вариант регулятора Mixup.

Работа [3], в которой интерполировали небольшое количество в направлении случайных различных примеров, сохраняя при этом исходную метку. Многие книги написаны на относительно тонкой бумаге, поэтому содержание соседней страницы часто слабо просматривается через бумагу. Изображения, создаваемые Mixup, выглядят несколько похожими на изображения, где слабо просматривается содержимое соседней страницы. Таким образом, Mixup может иметь дополнительное преимущество, помогая побудить модель игнорировать соседнюю страницу.

Для получения дополнительной информации о KuroNet, пожалуйста, ознакомьтесь с нашей работой KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning, которая была принята на Международной конференции по анализу и распознаванию документов (ICDAR) в 2019 году. [4].

Примеры транскрипции KuroNet на страницах со значением F1 выше 0,9

KuroNet может транскрибировать целую страницу кудзусидзи со средним временем 1,2 секунды на страницу, включая конвейер постобработки, который не оптимизировался тщательно. Несмотря на то что производительность всё ещё сильно различается на разных книгах, мы обнаружили, что ксилографические печатные книги периода Эдо (XVIIXIX веков) это те книги, на которых KuroNet показывает хорошие результаты. Мы обнаружили, что модель борется с необычными размерами и редкими символами. Кроме того, мы оценили модель на контрольном наборе страниц из различных книг и обнаружили, что худшими книгами оказались словари, содержащие много необычных символов, и кулинарная книга с множеством иллюстраций и необычных макетов.

Конкурс по распознаванию кудзусидзи на Kaggle

В то время как KuroNet достигла передовых результатов на момент своей разработки и была опубликована на конференции высшего уровня по анализу и распознаванию документов, мы хотели открыть это исследование для более широкого сообщества. Мы сделали это отчасти для того, чтобы стимулировать дальнейшие исследования по кудзусидзи и найти условия, при которых KuroNet недостаточно.

В конечном счёте после трёх месяцев соревнований, в которых приняли участие 293 команды, 338 участников и 2652 заявки, победитель получил оценку F1 в 0,950 баллов. Когда мы оценивали KuroNet в тех же обстоятельствах, то обнаружили, что она получила оценку F1 0,902, с ней нейросеть оказалась бы на двенадцатом месте, что, хотя и приемлемо, намного ниже лучших решений.

Финал конкурса Распознавание кудзусидзи на Kaggle (топ-10)

Есть несколько важных уроков, которые мы извлекли из этого конкурса:

Некоторые существующие алгоритмы обнаружения объектов достаточно хорошо работают над этой задачей, даже когда применяются как есть, из коробки. Например, Faster R-CNN и Cascade R-CNN дали отличные результаты без модификаций или каких-либо специфических для кудзусидзи приёмов. Учитывая то, насколько распознавание со страниц с кудзусидзи отличаются от обычных задач по обнаружению объектов, было довольно удивительно, что эти нейросети справляются так хорошо.
В то же время другие методы без модификации работают плохо. Например, You Only Look Once (YOLO) выполнил задачу довольно плохо, несмотря на значительные усилия. Другие методики, использующие CenterNet, работали хорошо, но требовали больших усилий и специфической для домена настройки, чтобы заставить их работать.
Несколько ведущих подходов имели модели, которые выполняли обнаружение и классификацию совместно. Которые не использовали искусные методы включения окружающих символов в своём классификационном конвейере.
Лишь немногие из лучших решений использовали языковые модели или пытались трактовать символы как последовательность.

Будущие исследования

Работа, проделанная CODH, уже привела к значительному прогрессу в транскрибировании документов кудзусидзи, однако общая проблема открытия знаний об исторических документах далека от решения.

Даже в области расшифровки кудзусидзи всё ещё существуют значительные открытые проблемы. Одна из проблем заключается в том, что размеченные данные обучения, как правило, поступают с целых страниц текста, с акцентом на документы из определённого периода (в основном позднего периода Эдо, XVIIXIX веков). Однако есть много других типов текста кудзусидзи, которые человек может захотеть расшифровать. Некоторые документы написаны от руки, а другие напечатаны (обычно с использованием ксилографии). Некоторые типы страниц имеют нетипичное содержание, которое редко встречается, например титульные страницы книг. В Японии я встретил человека, который путешествовал по горам и нашёл каменный указатель пути, написанный на кудзусидзи, и хотел, чтобы его расшифровали. Обобщение этих очень разных типов данных, особенно при изменении носителя записи, может быть довольно трудным, хотя привлекает всё большее внимание как область исследований в машинном обучении (методика минимизации инвариантного риска).

Работа [5] фокусируется именно на этой проблеме.

Ещё одна интересная открытая проблема возникает из-за того, что все предложенные методы только конвертируют документы кудзусидзи в современный японский шрифт. Это делает отдельные символы узнаваемыми, но весь текст по-прежнему довольно трудно читать. Из разговоров с носителями японского языка у меня сложилось впечатление, что обычный японец сможет читать, но это умеренно труднее, чем для современных англоговорящих людей читать Шекспира. Таким образом, захватывающей и самой открытой проблемой машинного обучения будет преобразование старого языка в лексику и грамматику современного японского. Эту проблему можно решить, так как часто устаревшее слово можно заменить более современным, но также эта проблема очень глубокая, поскольку правильно перевести поэзию и красивую прозу с её многочисленными нюансами может быть почти невозможно. Кроме того, отсутствие (или небольшой объем) чётко согласованных парных данных из классического и современного японского может мотивировать воспользоваться недавними исследованиями неконтролируемого машинного перевода с низким уровнем ресурсов.

Я считаю, что это одно из самых эффективных приложений для машинного обучения сегодня, и для достижения прогресса потребуется сотрудничество как между теми, кто имеет опыт работы с историческими документами в конкретной предметной области, так и исследователями прикладного машинного обучения, а также исследователями базовых алгоритмов ML. Это требует междисциплинарных усилий. Историки могут помочь определить наиболее важные подзадачи и интуитивно судить о том, действительно ли полезны метрики. Исследователи прикладного машинного обучения могут создавать модели для оптимизации этих показателей и выявления недостатков современных алгоритмов. Исследователи базового машинного обучения могут помочь улучшить алгоритмы. Например, наша работа по японскому языку требует более совершенных алгоритмов для Few-shot Learning, а также лучшего обобщения для меняющейся среды, и обе эти проблемы всё более широко изучаются в сообществе исследователей ML.

В то же время усилия должны быть международными. Неприступные документы представляют собой проблему для исторических языков во всём мире, и только привлекая исследователей со всего мира, мы можем надеяться добиться прогресса. Также важно взаимодействовать с общинами коренных народов, которые имеют большое историческое наследие, но в определённых областях исследований могут быть представлены недостаточно.

Значение историко-литературного образования сильно недооценивается во многих местах по всему миру. В современном мире всё большего обмана и фейковых новостей как никогда важно более глубокое знание истории. Если сделать исторический документ более доступным и понятным, это может помочь повысить осведомленность о важности такого рода образования, позволяя учащимся взаимодействовать с гораздо более обширным объемом содержимого в более органичной и доступной форме. Что касается Японии, я надеюсь, что наша работа позволит студентам и широкой публике читать исторические рассказы так, как они были задуманы, наряду с богатыми иллюстрациями и доступным стилем письма. Я также надеюсь, что это позволит им выбирать в гораздо большим разнообразии, включая боевики, комедии и приключения, что сделает исследования приятнее и доступнее.

Список литературы и ссылка на видео [1]

Другие профессии и курсы

ПРОФЕССИИ

КУРС