Русский
Русский
English
Статистика
Реклама

Блог компании московский физико-технический институт (мфти)

Продолжается набор в олимпиадные школы МФТИ

18.06.2020 20:20:38 | Автор: admin
Олимпиадные школы МФТИ продолжают набор на вторую и третью смены для школьников 7-11 классов. Успейте написать тестирование по выбранному направлению до 23 июня!

Олимпиадные школы МФТИ это университетский лагерь для школьников, где школьники ежедневно посещают пары, как настоящие студенты, слушают научно-популярные лекции от действующих учёных, разработчиков, сотрудников крупных российских IT-компаний, а также участвуют в интеллектуальных играх, творческих конкурсах, кинопросмотрах, спортивных турнирах и многом другом.



Занятия проводят опытные преподаватели, члены жюри Всероссийской олимпиады школьников, преподаватели и выпускники ведущих российских и зарубежных вузов: МФТИ, МГУ им. Ломоносова, НИУ ВШЭ, СПбГУ, КФУ, Ecole Polytechnique и Института Vedecom (Франция), Северо-Восточного университета Бостона (США), Университета имени Бар-Илана (Израиль).

Направления второй онлайн-смены (12-23 июля): Математика, Физика, Химия, Биомедицина, Информатика, Компьютерное зрение, Информационная безопасность, Машинное обучение и анализ данных.

Направления третьей, предварительно очной, смены (26 июля 7 августа): Математика, Физика, Информатика.

Если вы хотите участвовать:

  1. Зарегистрируйтесь на сайте и заполните анкету
  2. Пройдите тестирование по выбранному предмету до 23 июня
  3. Ждите от нас письмо с подтверждением.

Подробности на нашем сайте и в группе ВКонтакте.
Подробнее..

Победители соревнований Dialogue Evaluation о задачах, языковых моделях, ML и о себе

06.07.2020 16:22:04 | Автор: admin
Недавно завершился Диалог 2020, международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям. Традиционно одно из ключевых событий конференции это Dialogue Evaluation, соревнования между разработчиками автоматических систем лингвистического анализа текстов. Мы уже рассказывали на Хабре о задачах, которые участники состязаний решали в прошлом году, например, о генерации заголовков и поиске пропущенных слов в тексте. Сегодня мы поговорили с победителями двух дорожек Dialogue Evaluation этого года Владиславом Корзуном и Даниилом Анастасьевым о том, почему они решили участвовать в технологических соревнованиях, какие задачи и какими способами решали, чем ребята интересуются, где учились и чем планируют заниматься в будущем. Добро пожаловать под кат!

Владислав Корзун, победитель дорожки Dialogue Evaluation RuREBus-2020



Чем ты занимаешься?


Я разработчик в NLP Advanced Research Group в ABBYY. В данный момент мы решаем задачу one shot learning для извлечения сущностей. Т. е. имея небольшую обучающую выборку (5-10 документов), надо научиться извлекать специфические сущности из похожих документов. Для этого мы собираемся использовать выходы обученной на стандартных типах сущностей (Персоны, Локации, Организации) NER-модели в качестве признаков для решения этой задачи. Также мы планируем использовать специальную языковую модель, которая обучалась на документах, схожих по тематике с нашей задачей.

Какие задачи ты решал на Dialogue Evaluation?


На Диалоге я участвовал в соревновании RuREBus, посвященном извлечению сущностей и отношений из специфических документов корпуса Минэкономразвития. Данный корпус сильно отличался от корпусов, используемых, например, в соревновании Conll. Во-первых, сами типы сущностей были не стандартные (Персоны, Локации, Организации), среди них были даже неименованные и субстантивы действий. Во-вторых, сами тексты представляли собой не наборы выверенных предложений, а реальные документы, из-за чего в них попадались различные списки, заголовки и даже таблицы. В итоге основные трудности возникали именно с обработкой данных, а не с решением задачи, т.к. по сути это классические задачи Named Entity Recognition и Relation Extraction.

В самом соревновании было 3 дорожки: NER, RE с заданными сущностями и end-to-end RE. Я пытался решить первые две. В первой задаче я использовал классические подходы. Сперва я попробовал в качестве модели использовать рекуррентную сеть, а в качестве признаков словные эмбеддинги fasttext, шаблоны капитализации, символьные эмбеддинги и POS-тэги[1]. Затем я уже использовал различные предобученные BERT-ы [2], которые довольно сильно превзошли предыдущий мой подход. Однако этого не хватило, чтобы занять первое место в этой дорожке.


А вот во второй дорожке мне это удалось. Для решения задачи извлечения отношений я свел её к задаче классификации отношений, схожей с SemEval 2010 Task 8. В данной задаче для каждого предложения дана одна пара сущностей, для которой нужно классифицировать отношение. А в дорожке в каждом предложении может быть сколько угодно сущностей, однако она просто сводится к предыдущей путем сэмплирования предложения для каждой пары сущностей. Также при обучении я брал отрицательные примеры случайно для каждого предложения в размере, не большем удвоенного числа положительных, чтобы сократить обучающую выборку.

В качестве подходов к решению задачи классификации отношений я использовал две модели, основанные на BERT-e. В первой я просто конкатенировал выходы BERT с NER-эмбеддингами и затем усреднял признаки по каждому токену с помощью Self-attention[3]. В качестве второй модели была взята одна из лучших для решения SemEval 2010 Task 8 R-BERT[4]. Суть данного подхода в следующем: вставить специальные токены до и после каждой сущности, усреднить выходы BERT для токенов каждой сущности, объединить полученные вектора с выходом, соответствующим CLS-токену и классифицировать полученный вектор признаков. В итоге данная модель заняла первое место в дорожке. Результаты соревнования доступны здесь.


[4] Wu, S., He, Y. (2019, November). Enriching pre-trained language model with entity information for relation classification. In Proceedings of the 28th ACM International Conference on Information and Knowledge Management (pp. 2361-2364).

Что показалось тебе наиболее сложным в этих задачах?


Самым проблемным оказалась обработка корпуса. Сами задачи максимально классические, для их решения уже есть готовые фреймворки, например AllenNLP. Но ответ нужно выдавать с сохранением спанов токенов, поэтому я не мог просто использовать готовый пайплайн, не написав множество дополнительного кода. Поэтому я решил писать весь пайплайн на чистом PyTorch, чтобы ничего не упустить. Хотя некоторые модули из AllenNLP я все-таки использовал.

Еще в корпусе было много довольно длинных предложений, которые доставляли неудобства при обучении больших трансформеров, например BERT-а, т.к. они становятся требовательны к видеопамяти с увеличением длины предложений. Однако большинство таких предложений перечисления, разделенные точкой с запятой, и их можно было разделить по этому символу. Оставшиеся предложения я просто делил по максимальному числу токенов.

Ты раньше участвовал в Диалоге и дорожках?


В прошлом году выступал со своим магистерским дипломом на студенческой сессии.

А почему в этом году решил участвовать в соревнованиях?


В это время я как раз решал задачу извлечения отношений, но для другого корпуса. Я пытался использовать другой подход, основанный на деревьях синтаксического разбора. В качестве входных данных использовался путь в дереве от одной сущности к другой. Но такой подход, к сожалению, не показал сильных результатов, хоть и был на уровне с подходом, основанном на рекуррентных сетях, использующих в качестве признаков эмбеддинги токенов и другие признаки, такие как длина пути от токена к руту или одной из сущностей в дереве синтаксического разбора, а также относительное положение от сущностей.

В данном соревновании я решил участвовать, т. к. у меня уже были некоторые наработки для решения подобных задач. И почему их не применить в соревновании и не получить публикацию? Получилось не так просто, как я думал, но это, скорее, из-за проблем с взаимодействием с корпусами. В итоге для меня это, скорее, была инженерная задача, чем исследовательская.

А в других соревнованиях ты участвовал?


В это же время наша команда участвовала в SemEval. В основном задачей занимался Илья Димов, я лишь предложил пару идей. Там была задача классификации пропаганды: выделен спан текста и нужно его классифицировать. Я предложил использовать подход R-BERT, то есть выделять в токенах эту сущность, перед ней и после нее вставлять специальный токен и усреднять выходы. В итоге это дало небольшой прирост. Вот и научная ценность: для решения задачи мы использовали модель, предназначенную совсем для другого.

Еще участвовал в ABBYY-шном хакатоне, в ACM icpc соревнованиях по спортивному программированию на первых курсах. Мы тогда особо далеко не прошли, но было весело. Подобные соревнования сильно отличаются от представленных на Диалоге, где есть достаточно много времени, чтобы спокойно реализовать и проверить несколько подходов. В хакатонах же нужно все делать быстро, времени расслабиться, попить чай нет. Но в этом и вся прелесть подобных мероприятий в них царит специфическая атмосфера.

Какие самые интересные задачи ты решал на соревнованиях либо на работе?


Скоро будет соревнование по генерации жестов GENEA, и я собираюсь туда пойти. Мне кажется, это будет интересно. Это воркшоп на ACM International Conference on Intelligent Virtual Agents. В данном соревновании предлагается генерировать жесты для 3D-модели человека на основе голоса. Я выступал в этом году на Диалоге с похожей темой, делал небольшой обзор подходов для задачи автоматической генерации мимики и жестов по голосу. Нужно набираться опыта, ведь мне еще диссертацию защищать по схожей теме. Я хочу попробовать создать читающего виртуального агента, с мимикой, жестами, и конечно, голосом. Текущие подходы синтеза речи позволяют генерировать довольно реалистичную речь по тексту, а подходы генерации жестов жесты по голосу. Так почему бы не объединить эти подходы.

Кстати, где ты сейчас учишься?


Я учусь в аспирантуре кафедры компьютерной лингвистики ABBYY в МФТИ. Через два года буду защищать диссертацию.

Какие знания и навыки, полученные в вузе, тебе помогают сейчас?


Как ни странно, математика. Пусть я и не интегрирую каждый день и не перемножаю матрицы в уме, но математика учит аналитическому мышлению и умению разобраться в чем угодно. Ведь любой экзамен включает в себя доказательство теорем, и пытаться их выучить бесполезно, а понять и доказать самому, помня только идею, возможно. Также у нас были неплохие курсы по программированию, где мы с низкого уровня учились понимать, как все устроено, разбирали различные алгоритмы и структуры данных. И теперь разобраться с новым фреймворком или даже языком программирования не составит проблем. Да, конечно, у нас были курсы и по машинному обучению, и по NLP, в частности, но все-таки, как мне кажется, базовые навыки важнее.

Даниил Анастасьев, победитель дорожки Dialogue Evaluation GramEval-2020



Чем ты занимаешься?


Я занимаюсь разработкой голосового помощника Алиса, работаю в группе поиска смысла. Мы анализируем запросы, которые приходят в Алису. Стандартный пример запроса Какая завтра погода в Москве?. Нужно понять, что это запрос про погоду, что в запросе спрашивается про локацию (Москва) и есть указание времени (завтра).

Расскажи про задачу, которую ты решал в этом году на одном из треков Dialogue Evaluation.


Я занимался задачей, очень близкой тому, чем занимаются в ABBYY. Нужно было построить модель, которая проанализирует предложение, сделает морфологический и синтаксический разбор, определит леммы. Это очень похоже на то, что делают в школе. Построение модели заняло примерно 5 моих выходных дней.

image

Модель училась на нормальном русском языке, но, как видите, она работает и на таком языке, который был в задаче.

А похоже ли это на то, чем ты занимаешься на работе?


Скорее, нет. Тут надо понимать, что эта задача сама по себе особого смысла не несет её решают как подзадачу в рамках решения некоторой важной для бизнеса задачи. Так, например, в компании ABBYY, где я работал когда-то, морфо-синтаксический разбор это начальный этап в рамках решения задачи извлечения информации. В рамках моих текущих задач у меня не возникает необходимости в таких разборах. Однако сам по себе дополнительный опыт работы с предобученными языковыми моделями типа BERT, по ощущениям, безусловно полезен для моей работы. В целом, это и было основной мотивацией для участия я хотел не выиграть, а попрактиковаться и получить какие-то полезные навыки. К тому же, мой диплом был частично связан с темой задачи.

Участвовал ли ты в Dialogue Evaluation до этого?


Участвовал в дорожке MorphoRuEval-2017 на 5 курсе и тоже тогда занял 1 место. Тогда нужно было определить только морфологию и леммы, без синтаксических отношений.

Реально ли применять твою модель для других задач уже сейчас?


Да, мою модель можно использовать для других задач я выложил весь исходный код. Планирую выложить код с применением более легковесной и быстрой, но менее точной модели. Теоретически, если кому-то захочется, можно использовать текущую модель. Проблема в том, что она будет слишком большая и медленная для большинства. В соревновании никого не волнует скорость, интересно добиться как можно более высокого качества, а вот в практическом применении всё обычно наоборот. Поэтому основная польза от таких вот больших моделей это знание, какое качество максимально достижимо, чтобы понимать, чем жертвуешь.

А для чего ты участвуешь в Dialogue Evaluation и других подобных соревнованиях?


Хакатоны и такие соревнования напрямую не связаны с моей деятельностью, но это все равно полезный опыт. Например, когда я участвовал в хакатоне AI Journey в прошлом году, я научился каким-то вещам, которые потом использовал в работе. Задача была научиться проходить ЕГЭ по русскому языку, то есть решать тесты и писать сочинение. Понятно, что это всё слабо связано с работой. А вот умение быстро придумать и обучить модель, которая решает какую-то задачу очень даже полезно. Мы тогда с командой, кстати, заняли первое место.

Расскажи, какое образование ты получил и чем занимался после университета?


Окончил бакалавриат и магистратуру кафедры компьютерной лингвистики ABBYY в МФТИ, выпустился в 2018 году. Также учился в Школе анализа данных (ШАД). Когда пришло время выбирать базовую кафедру на 2 курсе, у нас большая часть группы пошла на кафедры ABBYY компьютерной лингвистики или распознавания изображений и обработки текста. В бакалавриате нас хорошо учили программировать были очень полезные курсы. Я с 4 курса работал в ABBYY на протяжении 2,5 лет. Сначала в группе морфологии, затем занимался задачами, связанными с языковыми моделями для улучшения распознавания текста в ABBYY FineReader. Я писал код, обучал модели, сейчас я занимаюсь тем же, но для совсем другого продукта.

А как проводишь свободное время?


Люблю читать книги. В завиcимости от времени года стараюсь бегать или ходить на лыжах. Увлекаюсь фотографией во время путешествий.

Есть ли у тебя планы или цели на ближайшие, допустим, 5 лет?


5 лет слишком далекий горизонт планирования. У меня ведь даже нет 5-летнего опыта работы. За последние 5 лет многое поменялось, сейчас явно другое ощущение от жизни. С трудом представляю, что еще может измениться, но есть мысли получить PhD за границей.

Что можешь посоветовать молодым разработчикам, которые занимаются компьютерной лингвистикой и находятся в начале пути?


Лучше всего практиковаться, пробовать и участвовать в соревнованиях. Совсем начинающие могут пройти один из множества курсов: например, от ШАДа, DeepPavlov или даже мой собственный, который я когда-то провел в ABBYY.


Кстати, мы продолжаем набор в магистратуру на кафедры ABBYY в МФТИ: распознавания изображений и обработки текста (РИОТ) и компьютерной лингвистики (КЛ). До 15 июля включительно присылайте на brains@abbyy.com мотивационное письмо с указанием кафедры, на которую хотели бы поступить, и резюме с указанием среднего балла GPA по 5- или 10-балльной шкале.

Подробности о магистратуре можно посмотреть на видео, а о кафедрах ABBYY прочитать здесь.
Подробнее..

Итоговые проекты курса Deep Learning in Natural Language Processing (by DeepPavlov Lab)

07.08.2020 14:13:35 | Автор: admin
Недавно завершился Deep Learning in Natural Language Processing, открытый образовательный курс по обработке естественного языка. По традиции кураторы курса сотрудники проекта DeepPavlov, открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Курс проводился при информационной поддержке сообщества Open Data Science. Если нужно больше деталей по формату курса, то вам сюда. Один из ключевых элементов DL in NLP это возможность почувствовать себя исследователем и реализовать собственный проект.

Периодически мы рассказываем на Medium о проектах, которые участники создают в рамках наших образовательных программ, например о том, как построить разговорного оракула. Сегодня мы готовы поделиться итогами весеннего семестрового курса 2020 года.



Немного данных и аналитики


В этом году мы побили все рекорды по численности курса: в начале февраля записавшихся было около 800 человек. Скажем честно, мы не были готовы к такому количеству участников, поэтому многие моменты придумывали на ходу вместе с ними. Но об этом мы напишем в следующий раз.

Вернемся к участникам. Неужели все окончили курс? Ответ, конечно, очевиден. С каждым новым заданием желающих становилось все меньше и меньше. Как итог то ли из-за карантина, то ли по другим причинам, но к середине курса осталась только половина. Ну что ж, а дальше пришлось определяться с проектами. В качестве итоговых участниками было заявлено семьдесят работ. А самый популярный проект Tweet sentiment extraction девятнадцать команд пытались выполнить задание на Kaggle.

Подробнее про представленные проекты


На прошлой неделе мы провели заключительное занятие курса, где несколько команд представили свои проекты. Если вы пропустили открытый семинар, то мы подготовили запись. А ниже мы постараемся кратко описать реализованные кейсы.

Kaggle Jigsaw: Multilingual Toxic Comment Classification


Роман Щекин (QtRoS), Денис Грушенцев(evilden), Максим Талиманчук (mtalimanchuk)

Это соревнование продолжение популярного конкурса от Jigsaw по определению токсичного текста, однако в данном случае тренировка происходит на английских данных, а тестирование на мультиязыковых (в том числе на русском). Оценка происходит по метрике ROC AUC. Команда взяла бронзу (132 место из 1621) с оценкой ROC AUC ~ 0,9463. Финальная модель представляла собой ансамбль из классификаторов:

  • XLMRoberta large
  • Naive Bayes
  • Bert base
  • Bert base multilingual
  • USE multilingual

XLMRoberta large с линейным слоем 1024*1 была обучена на базовом датасете с оптимизатором AdamW. Модель multilingual использовалась в базовом варианте (обучена на 16 языках) без дообучения. Использование Bert base было возможно за счет автоматического перевода тестового датасета на английский язык. Обучающая выборка была расширена за счет дополнительных датасетов.

Презентация проекта доступна по ссылке.
GitHub проекта доступен по этой ссылке.

On Bert Distillation


Никита Балаганский

Как известно, модели на основе архитектуры BERT, добиваясь впечатляющих оценок качества, все же сильно отстают по производительности. Это связано с тем, что BERT модель с больших количеством весов. Есть несколько способов уменьшения модели, один из них дистилляция. Идея дистилляции создать модель студента меньшего размера, которая бы повторяла поведение большой модели учителя. Тренировка русской модели студента проходила на четырех картах 1080ti в течение 100 часов, на датасете новостей. В итоге модель студента получилась в 1,7 раз меньше, чем оригинальна модель. Сравнение качества моделей студента и учителя было произведено на датасете для определения эмоциональной окраски текста Mokoron. Как результат, модель студента показала сопоставимое качество с моделью учителя. Скрипт тренировки был написан с применением пакета catalyst. Подробнее о проекте можно почитать на Medium.

Презентация проекта доступна по ссылке.
GitHub проекта доступен по этой ссылке.


Картинка: rasa.com

Open Data Science Question Answering


Илья Сироткин, Юрий Зеленский, Екатерина Карпова

Все началось с поста в ODS от Екатерины Карповой. Идея была достаточно амбициозная создать автоответчик на вопросы в ODS slack community на основе собранного датасета вопросов и ответов. Однако предварительный анализ выявил, что большинство из вопросов достаточно уникальны, и создание размеченной тестовой выборки для оценки качества задача довольно трудоемкая. Поэтому было принято решение для начала создать классификатор для определения принадлежности задаваемого вопроса к slack-каналу ODS. Он бы помог новичкам ODS задавать вопросы в соответствующей теме каналов. В качестве оценки качества была выбрана метрика pwROC-AUC.

В рамках проекта был произведен сравнительный анализ популярных моделей классификации текстов. Лучшая из них модель на основе RuBERT от DeepPavlov показала качество 0,995 pwROC-AUC. Такие высокие цифры качества модели свидетельствуют о высокой степени разделения (и разделимости) исходных данных. Единственный канал, вызывающий затруднения у всех опробованных моделей, _call_4_colaboration. Но почему именно он, выяснить пока не удалось.

Расправившись с этим заданием, команда не оставляет надежд вернуться к изначальной задаче ответов на вопросы пользователей ODS.

Презентация проекта доступна по ссылке.
GitHub проекта доступен по этой ссылке.

Russian Aspect-Based Sentiment Analysis


Дмитрий Бунин

В рамках данного проекта решалась задача определения тональности относительно заданного объекта в тексте (задача С из конкурса Dialogue Evaluation 2015). В качестве датасетов использовались как русские, так и английские данные. В своей основе сравнивались современные модели на основе архитектур ELMо (из пакета RusVectores) и BERT (из пакета DeepPavlov). Модель на основе ELMо + CNN на русском языке показала сопоставимое качество с лучшей моделью из соревнования, несмотря на небольшую тренировочную выборку и сильный дисбаланс данных.

Презентация проекта доступна по ссылке.
GitHub проекта доступен по этой ссылке.



Kaggle: Tweet Sentiment Extraction


Кирилл Герасимов

По условию соревнования, задача состояла в выделении ключевого слова или фразы из текста твита, которые бы определяли настроение этого твита. В качестве метрики качества использовалось значение word-level Jaccard Score. В этом соревновании все участники столкнулись с шумными данных и неоднозначной разметкой. В качестве базовой модели командой использовалась модель из публичного ноутбука на основе RoBERTa-base. Эта модель использует подход reading comprehension, при котором выделяются начало и конец ключевой фразы (с обязательным условием, чтобы конец был после начала). Согласно принятой традиции, ансамбль разнообразных моделей показывал скоры лучше, чем отдельные модели. Как результат, бронза (135 место из 2100). По опыту победителя соревнования, двухуровневое ансаблирование дает еще лучшие скоры.

Презентация проекта доступна по ссылке.
GitHub проекта доступен по этой ссылке.

Автоматическое решение ЕГЭ


Михаил Тетерин и Леонид Морозов

Цель этого проекта улучшение метрик качества на трех задачах cоревнования AI Journey 2019 (автоматическое решение ЕГЭ), а именно:

  • поиск главной информации в тексте;
  • определение значения слова в заданном контексте;
  • расстановка знаков препинания в предложениях.

По всем трем задачам удалось превзойти лучшее решение на соревновании. Во многом улучшения обусловлены использованием дополнительных данных для обучения. В решениях лучшее качество показали модели на основе RuBERT от DeepPavlov.

Презентация проекта доступна по ссылке.
GitHub проекта доступен по этой ссылке.



В этой статье мы постарались рассказать про часть проектов, которые были представлены на семинаре, но их, конечно же, было больше.

Спасибо всем, кто принимал активное участие в курсе и не сдался. Ну а тем, кто только учится и ищет интересные задачи в области NLP, мы рекомендуем рассмотреть DeepPavlov Contribute project. Будущее Conversational AI в ваших руках!
Подробнее..

DeepPavlov 3 года обзор и итоги 2020 года

01.03.2021 12:17:20 | Автор: admin

Уже февраль 2021 года, а значит пришло время подводить итоги! В это время, 3 года назад, состоялся первый альфа релиз библиотеки. Библиотека DeepPavlov v0.0.1 содержала несколько предварительно обученных моделей и конфигураций JSON. А сегодня у нас есть несколько продуктов, множество пользователей и сценариев использования, достижения на всемирно известных конкурсах и конференциях, и всего через несколько месяцев библиотека DeepPavlov совершит скачок до версии v1.

И несмотря на обстоятельства пандемии, в 2020 году у нас было много задач и поводов для гордости. Как минимум, мы обновили наш веб-сайт, выпустили новый продукт DP Dream, выиграли Про/Чтение, а также повторно участвуем в Alexa Prize Challenge. Об этих и других достижениях мы рады поделиться с вами в обзоре нашего 2020 года.

P.S. 5 марта в честь 3х летия состоится встреча пользователей и разработчиков открытой библиотеки DeepPavlov. Посмотреть детали и зарегистрироваться можно на сайте.

DeepPavlov в достижениях и цифрах

Прежде чем мы перейдем к деталям, давайте вспомним о тех огромных скачках, которые мы сделали за этот год:

  • Скачивания DeepPavlov Library возросли на 40% по сравнению с прошлым годом. Сейчас всего более 200 тысяч pip установок и более полумиллиона установок контейнеров. Наши технологии используют в 80 странах!

  • DeepPavlov Library достигла 5 тысяч звезд на Github.

  • Выпустили 7 релизов DeepPavlov Library, с которыми выкатили новые модели и стали писать release notes о них.

  • Первый релиз DP Dream и нашего открытого multiskill AI Assistant-а Deepy.

  • Количество активных участников сообщества возросло в 5 раз. Сотрудниками проводятся ежемесячные звонки DeepPavlov Community Calls, в рамках которых разбираются основы использования компонент библиотеки DeepPavlov, проводятся обучающие туториалы, а также приглашаются внешние спикеры для проведения мастер-классов.

  • Наша команда студентов и аспирантов дошла до полуфинала конкурса Alexa Prize Socialbot Grand Challenge 3 by Amazon.

  • Наша команда студентов и аспирантов была повторно отобрана для участия в Alexa Prize Socialbot Grand Challenge 4 by Amazon.

  • Команда DeepPavlov заняла 1 место в номинации Грамматика.Eng в рамках первого этапа конкурса по разработке системы искусственного интеллекта для выявления смысловых, логических и фактических ошибок в текстах Up Great ПРО//ЧТЕНИЕ.

  • Сотрудниками было опубликовано 12 научных публикаций.

  • Три наших аспиранта успешно защитили диссертации на соискание ученой степени кандидата наук.

  • Мы провели более 20 лекций и воркшопов на таких конференциях, как: NVIDIA GTC Fall 2020, ODSC WEST 2020, MLConf EU 2020, Conversations AI, AI Journey 2020, Innopolis NLP MeetUp.

  • Выпустили 10 постов-туториалов по использованию компонент библиотеки DeepPavlov.

  • Приняли 10 студентов-стажеров в команду по направлениям NLP и Conversational AI.

  • Мы провели 2 учебных курса в весеннем семестре: Глубокое обучение в обработке естественного языка и Advanced Topics in Deep Reinforcement learning.

  • 1 место на либерборде DialoGLUE.

Ключевые направления и программные решения DeepPavlov

На сегодняшний день, DeepPavlov это не только одна библиотека, это целая экосистема продуктов и проектов. К основным направлениям можно отнести:

  • Развитие открытой библиотеки DeepPavlov Library, которая поставляется с набором предобученных компонентов для решения задач, связанных с обработкой естественного языка, и предоставляет разработчикам возможность автоматизации разговорных интерфейсов.

  • Развитие открытой платформы DeepPavlov Agent, которая представляет собой многофункциональный оркестратор, использующий декларативный подход для формирования конвейеров и построения диалогового ИИ в виде модульной системы.

  • Развитие открытой платформы DeepPavlov Dream, необходимой для разработки масштабируемых и многофункциональных виртуальных помощников, и опирающейся на технологии DP Library и Agent.

  • Развитие репозитория открытого multiskill AI Assistant-а Deepy, в настоящее время представляющего собой очень простую демонстрацию многофункционального AI Assistant, обладающего всего двумя навыками (целенаправленным и болталкой), а также несколькими аннотаторами. Это фундамент, который позволит любому желающему создать своего ассистента.

  • Расширение функционала демо-версии работы компонент библиотеки и открытой версии ИИ ассистента на базе Deepy.

  • Развитие NLP сообщества и контрибьюторов, а также участие в конкурсах для преодоления технологических барьеров.

Вместе с продуктами DeepPavlov, мы обновили наш сайт. Пройдемся детальнее по основному функционалу, о котором вы могли не знать:

  • Появился свой собственный блог как на русском, так и на английском языке, где мы делимся новостями.

  • Появился раздел Challenges, где мы рассказываем о конкурсах, в которых участвуем или проводим сами.

  • Для раздела DeepPavlov Library появилась вкладка Releases, где подробно описаны изменения в библиотеке.

  • Теперь вы можете узнать о наших научных проектах, а также про текущие стажировки в разделе Research.

  • Другие улучшения разделов: о проекте, о команде, о выпускниках, и т.д.

DeepPavlov Library: что нового

У нас отличные новости начиная с v0.12.0 релиза DeepPavlov Library поддерживает и TensorFlow, и PyTorch. В дополнение к этому DP поддерживает Трансформеры от Hugging Face, позволяющие разработчикам использовать широкий выбор моделей на основе Трансформеров и сотни датасетов для ваших моделей.

В 2020 году в DeepPavlov Library также появились следующие модели:

  • Speech recognition and synthesis (ASR and TTS)

  • Knowledge Base Question Answering model for WikiData

  • Entity Linking

  • Intent Catcher

  • Обновления Go-Bot

С 2021 мы начали преобразование нашей библиотеки DeepPavlov до версии v1.0. Этот процесс потребует значительной реструктуризации и рефакторинга, которые, в свою очередь, приведут к значительным изменениям. Вот некоторые из ожидаемых обновлений:

  • Переход на PyTorch всех моделей

  • Изменение документации

  • Прекращение поддержки старых моделей и кода

  • Контроль версий моделей

  • Обновления конфигураций

Вы можете заполнить эту форму, чтобы сообщить нам, как вы используете DeepPavlov Library, и что бы вы предложили добавить или улучшить!

Контейнеры библиотеки DeepPavlov теперь доступны в облаке NVIDIA GPU Cloud (NGC)

В 2020 DeepPavlov стал партнёром программы NVIDIA GPU Cloud (NGC) контейнерного реестра для работы с искусственным интеллектом, машинным обучением, нейронными сетями и высокопроизводительными вычислениями. Теперь контейнеры библиотеки DeepPavlov доступны в облаке NGC.

Контейнеры DeepPavlov состоят из предварительно обученных моделей, которые используют современные модели глубокого обучения типа BERT для задач классификации, распознавания именованных сущностей, вопросов-ответов и других задач области NLP. Использование GPU позволяет ускорить работу библиотеки DeepPavlov до 20 раз (для примера был взят запуск конвейеров модуля ASR / TTS на V100 GPU в сравнении с CPU).

DeepPavlov для построения AI Assistants

Представьте, что в будущем ИИ-помощники будут понимать нас и разговаривать с нами на одном языке. Представьте, что они будут учиться и учить нас. Представьте, что они станут нашими верными друзьями. Они будут делать все, что мы захотим

Для достижения этой цели мы создали целое семейство ИИ-помощников и сейчас подробнее о них расскажем.

DeepPavlov Dream

DeepPavlov Dream это ИИ-помощник, основанный на социальном боте, созданном командой лаборатории для участия в конкурсе Alexa Prize Socialbot Grand Challenge 3 от Amazon. Подробнее о нем мы недавно писали в статье.

Но что важно знать, сейчас этот помощник отключен от каналов и не работает. По причине того, что организаторы Alexa Prize попросили выключить его на время нашего участия в конкурсе. Сейчас доступны мини-версии под названием Deepy.

Deepy

Deepy это репозиторий нашего простого многофункционального ИИ-помощника, обладающего всего двумя навыками (целенаправленным, написанным с использованием нашей инфраструктуры Go-Bot, и болталкой, написанной с использованием AIML), а также несколькими аннотаторами.

Архитектура Deepy та же, что и у DeepPavlov Dream: мы используем тот же DeepPavlov Agent в качестве механизма для оркестрации и тот же конвейер. Однако количество используемых компонентов значительно сокращено по сравнению Dream.

В настоящий момент доступны 3 конфигурации дистрибутивов:

  • deepy_base базовый дистрибутив Deepy, состоящий из двух навыков: простого целенаправленного навыка и навыка общения в чате, а также классификаций эмоций и аннотаторов проверки орфографии,

  • deepy_gobot_base дистрибутив Deepy на основе Go-Bot, состоящий также из двух навыков: целенаправленного на основе Go-Bot и болталки, а также классификаций эмоций и аннотаторов проверки орфографии,

  • deepy_adv более продвинутый дистрибутив Deepy, который в дополнение к компонентам deepy_gobot_base также включает еще несколько аннотаторов, включая Entity Linking, Intent Catcher и Sentence Segmentation.

Третий дистрибутив, deepy_adv, в настоящее время работает на нашем демо.

Почитать подробнее про DeepPavlov Deepy можно в статье.

DeepPavlov Challenges

Мы не только проводим конкурсы, но и сами участвуем в них.

Так, в марте 2020 наш исследователь и преподаватель курса по NLP Алексей Сорокин занял второе место на конкурсе GramEval-2020. Он разработал модель для автоматического определения морфологических и синтаксических характеристик слов в предложениях на русском языке.

А в декабре 2020 исследователь проекта DeepPavlov и капитан команды Dream Alexa Prize Диляра Баймурзина взяла третье место на конкурсе AI 4 Humanities: ruGPT-3 от AIJourney. Она разработала модель AI CopyWriter для перефразирования и/или распространения текста на основе ruGPT3Large.

Alexa Prize Socialbot Grand Challenge

Каждый год американская компания Amazon проводит конкурс на создание разговорного искусственного интеллекта для своего голосового помощника Alexa Prize Socialbot Grand Challenge. Задача научить Alexa поддерживать естественный диалог с пользователем на свободные темы. 10 командам выдают грант на разработку в $250 тыс. В 2019 году в эту десятку впервые попала наша команда DREAM DeepPavlov. Команда год работала над проектом и достигла полуфинала конкурса. Узнать подробности созданной архитектуры DREAM socialbot можно ознакомившись с техническим отчетом команды DREAM для конкурса Alexa Prize 3 .

В 2020 команда проекта повторно прошла отбор на участие в конкурсе Alexa Prize Socialbot Grand Challenge 4. На данный момент команда активно работает над созданием бота и проходит необходимые стадии тестирования системы на ресурсах Amazon. Всю актуальную информацию можно найти на официальной странице проекта.

Технологический конкурс Up Great ПРО//ЧТЕНИЕ

В декабре 2020 года завершился первый цикл конкурса Up Great ПРО//ЧТЕНИЕ по созданию ИИ-системы для проверки сочинений школьников. В соревновании приняли участие более 180 команд, из которых до испытаний были допущены 11 коллективов разработчиков, показавших эффективные решения. В рамках испытаний ИИ-ассистенты проверили по 500 эссе и сочинений ЕГЭ на русском языке и столько же на английском. Автоматизированная платформа сопоставила тексты, проверенные ИИ-ассистентами и реальными педагогами, и выявила наиболее качественные решения.

Наша команда НейроЧтение заняла первое место в номинации Грамматика.Eng. В работе над решением сложной составной задачи по проверке эссе на английском языке мы использовали фреймворк DeepPavlov Agent.

Наша команда на удаленке!Наша команда на удаленке!

DeepPavlov Community

Для удобства общения с пользователями ранее был создан форум разработчиков, позволяющий найти и задать вопросы по теме фреймворка. Так что если у вас есть вопросы, то сразу пишите туда. А для тех, кто использует DeepPavlov Dream, дополнительно создана группа в Telegram.

С сентября прошлого года у нас появилась хорошая традиция для наших пользователей и разработчиков мы проводим ежемесячные звонки DeepPavlov Community Calls, в рамках которых разбираем основы использования компонент библиотеки DeepPavlov, проводим обучающие туториалы, а также приглашаем внешних спикеров для проведения мастер-классов.

А если вы просто хотите быть на волне DeepPavlov, то подключайтесь к каналу новостей в Telegram.

DeepPavlov Workshops

На 2х летии библиотеки мы обещали вам больше туториалов и воркшопов. За прошедший год мы постарались исполнить обещание, и по итогу мы участвовали:

И это только часть, но самая весомая.

Учебные курсы

Немаловажную часть нашего Community занимают образовательные программы. Так в весеннем семестре 2020 года мы организовали курс Глубокое обучение в обработке естественного языка. Темами занятий являлись построение диалоговых систем, способы оценки диалоговой системы с возможностью генерации ответа, различные фреймворки диалоговых систем и др. В курсе суммарно приняли участие более 800 человек с разных регионов России, а защитили успешно проекты порядка 100 (самый масштабный для нас курс выдался). Кстати, подробную информацию об итоговых проектах можно найти в статье на Хабр.

Также в весеннем семестре совместно с АНО ВО Школа анализа данных был проведен курс Advanced Topics in Deep Reinforcement learning, проходивший в формате reading group. В рамках курса было проведено 13 занятий, где исследовались и анализировались современные подходы по теме обучения с подкреплением. Для успешного завершения курса участникам также необходимо было выполнить итоговый проект. Если вам интересна тема RL, обязательно посмотрите запись курса.

Call to Action

Также мы хотели бы поблагодарить всех контрибьюторов за ценный вклад в код в этом году. В 2020 году более 20 человек впервые добавили код в DeepPavlov. Большое спасибо всем вам!

Ну а если вы ML/NLP инженер и разделяете нашу внутреннюю страсть к расширению границ разговорного ИИ или просто хотите упростить использование инструментов NLP/NLU сообществом, мы приглашаем присоединиться к нашему Open Source Community.

Узнать больше про community можно в статье блога, а если хочется внести свой вклад прямо сейчас, то вам сюда.

DeepPavlov 3 года

Какой день рождения без праздника? По нашей сложившейся традиции, в честь дня рождения DeepPavlov мы проводим встречу пользователей и разработчиков. В этом году, к сожалению, она пройдет в онлайн формате 5 марта. Чтобы попасть на мероприятие, необходимо зарегистрироваться на сайте.

В программе вечера 10 крутых докладов от сотрудников проекта DeepPavlov и приглашенные специалисты:

  • Булат Замалиев, Уполномоченный по технологиям ИИ в Татарстане расскажет, как DeepPavlov помогает в решении государственных задач

  • Диляра Баймурзина, исследователь и капитан Dream Team Alexa, расскажет как русской команде участвовать в международном конкурсе Alexa Prize Socialbot Grand Challenge

  • Дмитрий Сошников, Microsoft, поделится туториалом о том, как адаптировать DeepPavlov отвечать на вопросы по COVID-19

  • Роман Смирнов, Системный архитектор DeepPavlov, поделится, как можно организовать свою личную жизнь с помощью ИИ

  • Щекин Роман и Тедеев Алан, исследователи НКО АО НРД, в своем докладе расскажут о том, как им удалось свести обработку новостей о корпоративных действиях к очень специфичному NER'у с помощью DeepPavlov

  • Фёдор Игнатов, старший инженер-разработчик, расскажет о том, какой станет версия 1.0 библиотеки DeepPavlov Library.

  • В докладе Александра Янчина, CTO в Leroma B2B-Platform, речь пойдет об использовании библиотеки DeepPavlov для определения сущностей из текста, и дальнейшей структуризации этой информации.

  • Данила Корнев, CPO проекта DeepPavlov, расскажет о том, как и почему лаборатория DeepPavlov пришла к открытому решению для создания Multiskill AI Assistants.

  • Татьяна Шаврина, AGI NLP Team lead в управлении экспериментальных систем машинного обучения в Sberdevices, поговорит с вами на Всю эту BERTологию

  • Ну и герой вечера Михаил Бурцев, руководитель проекта, держит в секрете тему выступления, чтобы удивить вас!

Всех ждем! Присоединяйтесь!


Спасибо всем, кто дочитал этот текст. Мы ждем ваши комментарии и вопросы по продуктам, которые мы создаем в проекте. Ждем ваши пулреквесты и предложения. И конечно же, ждем на нашем праздновании!

Подробнее..

Все началось с Dream новый ИИ-помощник от проекта DeepPavlov

12.11.2020 12:19:49 | Автор: admin
Команда лаборатории нейронных систем и глубокого обучения МФТИ, работающая над проектом DeepPavlov, создала интеллектуального помощника с искусственным интеллектом DeepPavlov DREAM. Этот ИИ-помощник основан на социальном боте, который принимал участие в конкурсе Alexa Prize Socialbot Grand Challenge 3 от Amazon. И сегодня мы расскажем, на что он способен.



Все началось с мечты


Представьте, что в будущем ИИ-помощники будут понимать нас и разговаривать с нами на одном языке. Представьте, что они будут учиться и учить нас. Представьте, что они станут нашими верными друзьями. Они будут делать все, что мы захотим

Сегодня мы готовы поделиться первой версией такого помощника. DeepPavlov DREAM это ИИ-помощник, основанный на социальном боте, созданном командой лаборатории для участия в конкурсе Alexa Prize Socialbot Grand Challenge 3 от Amazon. В настоящее время бот доступен на нашем демо-сайте и в мессенджере Telegram и готов общаться, но только на английском языке. DREAM сочетает в себе около 40 различных навыков общения, позволяющих вести диалог в открытой форме на различные темы. В основе помощника лежат современные NLP-модели и компоненты, включая 14 аннотаторов, 4 постаннотатора и интеграцию графа знаний от WikiData. И да, не забываем общаться с DREAM!

P.S.: поделитесь с нами своими отзывами о том, как его улучшить (и да, это все еще early stage, так что не судите строго).

DREAM создан на основе DeepPavlov Agent оркестратора диалогов с открытым исходным кодом. Этот оркестратор поддерживает управление диалогом через несколько скиллов различных типов. В нашем блоге на Medium мы подготовили простой пример, который может реализовать простую конфигурацию DP Agent с использованием только одного настраиваемого скилла и встроенных селекторов навыков и ответов. Прочтите его, чтобы узнать, как создавать помощников ИИ с использованием технологии DeepPavlov.



Но а если вы хотите углубиться в подробности архитектуры бота DREAM, ознакомьтесь с техническим отчетом команды DREAM для конкурса Alexa Prize Socialbot Grand Challenge 3.

Почему стоит использовать DeepPavlov DREAM?


Разработка бота под конкретную задачу требует настройки NLU (natural language understanding) и управления диалогами. Вначале все кажется простым и понятным, но вскоре в NLU добавляется множество функций, способных охватить все разнообразие как того, что может сказать пользователь, так и сценариев, нужных для решения проблем пользователей. Для расширения функциональности и ценности продукта интегрируется все больше и больше скриптов / действий / моделей. Для большего количества скриптов требуется больше функций, и все это превращается в продвинутого ИИ-помощника. Этот помощник может достичь определенной функциональной зрелости, но обычно он достигает потолка сложности, когда зависимости между компонентами серьезно ограничивают возможности для рефакторинга помощника и его дальнейшей разработки. Эта проблема особенно остро ощущается в критически важных приложениях с несколькими доменами, поскольку даже небольшие изменения в системе могут привести к совершенно непредсказуемому поведению.

Значит ли это, что мечту о более умных помощниках нужно отложить на отдаленное будущее?


DeepPavlov решает эту проблему, вводя модульную архитектуру для разговорных агентов. В структуре DP Agent функциональные возможности для различных задач упакованы в отдельные разговорные навыки с понятными интерфейсами. Этот дополнительный уровень абстракции позволяет добавлять новые навыки без вмешательства в существующие компоненты системы. Диалог контролируется как на уровне отдельных навыков, так и на уровне диалога в целом. MVP для новой задачи можно протестировать изолированно перед интеграцией в ИИ-помощник.

Однако многие навыки, такие как болталка, возможность поставить будильник или вести календарь и т. д., являются одинаковыми для большинства случаев использования и уже активно реализуются. Тогда зачем изобретать велосипед заново? Но DP Agent позволяет создать дистрибутив диалогового агента, который включает набор основных базовых навыков. То есть по умолчанию предоставляет базовые функциональные возможности из коробки, а далее может быть расширен за счет подключения специальных навыков.



Открытая архитектура DP Agent особенно эффективна для создания и поддержки сложных диалоговых решений. Интеграция навыков в виде микросервисов делает помощника легко масштабируемым. А развитие и поддержка навыков могут эффективно выполняться группой энтузиастов, цельной продуктовой командой или субподрядчиками.

DREAM это первый мультифункциональный и экспериментальный ИИ-помощник, созданный с использованием диалогового стека продуктов DeepPavlov. В ближайшие месяцы мы начнем выкладывать исходный код навыков, сервисов и инструментов DREAM. А также продолжим рассказывать в нашем блоге о том, как создавать более сложных ИИ-помощников с помощью DREAM.

Дорожная карта DeepPavlov DREAM включает в себя публикацию примеров конфигов, инструментов для проектирования мультискилл-ассистентов и управления зависимостями. Мы планируем поддерживать в следующих обновлениях разностороннее понимание предложений, плавное заполнение форм, отслеживание контекста, обучение у пользователей и многие другие сценарии. С дорожной картой вы можете ознакомиться в блоге.

Какой вклад я могу сделать в развитие ИИ?


ИИ это фронтир технологического прогресса, и открытый исходный код является одной из его основных движущих сил. Сегодня мы рады рассказать о нашей программе для контрибьюторов DeepPavlov Contributor Program. Это фантастическая возможность присоединиться к DeepPavlov в нашем невероятном приключении на пути к большой мечте созданию ИИ-помощников, которые могут понимать нас, учить, учиться у нас и помогать нам становиться лучше.

У нас уже есть несколько вдохновляющих историй участников нашей библиотеки DP, и мы приглашаем вас узнать больше о программе здесь.

Мы продолжим публиковать обновления в нашем блоге DP, а если вы хотите получать от нас новости оперативно, то подпишитесь на нашу рассылку.



Ну и напоследок


Подробнее..

О молодой, но мудрой ФПМИ и её последователе ABBYY

24.09.2020 12:15:14 | Автор: admin
Сентябрь волнительное время не только для школьников и студентов, но и для нас в ABBYY. Осенью студенты наших кафедр на Физтехе вернулись к учебе, а десятки наших коллег к преподаванию. Каким будет этот учебный год не загадываем. Просто пусть все будет хорошо. А в этом посте мы расскажем интересные подробности о Физтех-школе прикладной математики и информатики (ФПМИ МФТИ) и о том, как вместе с ней мы уже не первый год готовим крутых специалистов в области Natural Language Processing (NLP) и Computer Vision (CV).

image
Первокурсники ФПМИ на фоне самого популярного корпуса МФТИ для совместных фотографий.

Формально ФПМИ молод. Но уже очень мудр. Поясним: физтех-школа появилась в 2016 году, объединив факультет инноваций и высоких технологий (ФИВТ), созданный в 2006 году, и факультет управления и прикладной математики (ФУПМ), открытый более 50 лет назад.

Эти факультеты, ставшие основой ФПМИ, окончили многие известные люди. Перечислим часть из них:


Среди совсем молодых звезд:

  • Юрий Гарнов, основатель стартапа TimeAdge. Интервью с ним можно почитать здесь.
  • Иван Глушенков основатель популярного сообщества разработчиков Russian Hackers, сооснователь компании по организации хакатонов Phystech Genesis, многократный победитель и призёр международных и российских хакатонов.

Как видно из примеров выше, многие студенты находят работу по специализации или становятся предпринимателями уже на 3-4 курсе и становятся востребованы до получения диплома. Некоторые учащиеся магистратуры получают офферы с релокацией от крупнейших IT-компаний и совмещают учебу с международной карьерой.

Чем ФПМИ отличается от других Физтех-школ? Физтех-школа прикладной математики и информатики специализируется на образовании и исследованиях в области соприкосновения математики, физики, программирования и компьютерных наук. Это сочетание позволяет предлагать своим абитуриентам выбор из большого количества программ и кафедр по самым разным направлениям.

Ежегодно в ФПМИ поступают более 460 первокурсников, большинство из них на бюджетные места. 90% заканчивающих бакалавриат остаются учиться в магистратуре. В этом году в магистратуру поступило около 470 студентов, а в аспирантуру около 73. Всего на ФПМИ более 50 магистерских программ по пяти основным направлениям: машинное обучение, программирование, математика, физическое моделирование и экономика/консалтинг.

В Физтех-школе открыты 30 базовых кафедр различных научно-исследовательских центров (МИАН РАН, ИППИ РАН, ИСП РАН, ФИЦ ИУ РАН и др.) и компаний-партнеров, например, ABBYY, Яндекса, SberTech, Huawei, Tinkoff, S7 Group и других. При их поддержке создана 21 научная лаборатория. Всего на ФПМИ обучаются 2450 студентов это треть от общего числа учащихся на Физтехе.

image
Корпус прикладной математики (КПМ), где расположены почти все кафедры ФПМИ

В ФПМИ студентов и их научно-исследовательскую работу поддерживают разнообразными стипендиями. Помимо государственной, есть грант президента, Абрамовская стипендия, а также поддержка от компаний-партнеров. Например, в этом году ABBYY учредила стипендию для поощрения научных исследований в области мультимодальности и анализа социальных сетей. Кстати, еще можно успеть подать заявку на этот грант до 27 сентября, детали можно найти по ссылке.

Так, и, кажется, мы еще не упомянули о главном. Физтех-школой прикладной математики и информатики руководит Андрей Михайлович Райгородский, доктор физико-математических наук, профессор, лауреат Премии Президента России, заведующий двумя лабораториями и одной кафедрой.


А.М.Райгородский студентам: Ботайте, друзья мои, ботайте!

Я счастлив, когда вижу, как активно и живо мы растем и развиваемся, как вместе мы делаем уникальное дело. Желаю всем успехов в учебе, в олимпиадах, в проектах, в науке. Приходите к нам!


Чем на самом деле занимаются на кафедрах ABBYY


Две кафедры ФПМИ созданы совместно с ABBYY: кафедра компьютерной лингвистики (КЛ), открытая 9 лет назад, и кафедра распознавания изображений и обработки текста (РИОТ), которая существует уже 14 лет. Почему появились эти кафедры? Наша цель находить талантливых ребят с нестандартным мышлением и развивать их способности. В будущем они будут заниматься сложными и амбициозными задачами, которые до них еще никто не решал. И не исключено, что эти ребята будут работать именно в ABBYY.

Обе кафедры ABBYY расположены на территории компании. Здесь ребята и учатся, и участвуют в стажировках и проектах компании, чтобы приобрести опыт, необходимый для дальнейшей работы. Это удобно и для наших сотрудников, которые преподают: им не нужно тратить время на дорогу из института до работы и обратно. А еще офис ABBYY находится не так далеко от Долгопрудного, где расположен Физтех.

image
Результаты работы кафедр ABBYY

О том, как в этом году проходил набор на кафедры ABBYY и как организовано обучение, на Хабре в марте рассказывал наш студент, на тот момент четверокурсник, Alexey__Petrov. О его впечатлениях можно почитать в этом посте. Тем, кто хочет еще больше информации, рекомендуем видеозапись с презентации кафедр ABBYY. Вы узнаете не только об учебном процессе, но и об историях карьеры нескольких наших сотрудников.

В этом году к нам на бакалавриат подали заявки 137 студентов, и в результате конкурсных испытаний поступило 28 из них. Учиться на кафедре они начнут в следующем году, в весеннем семестре. Всего обучение продлится 1,5 года. Вот что ребята говорят о выборе кафедры:

Тимур и Артем Нургалиевы, кафедра КЛ:

Тимур: Мы с братом вместе с детства: учились в одном классе, затем в одной группе, а теперь будем учиться на одной кафедре. При поступлении в МФТИ я хотел заниматься наукой, но программирование зацепило сильнее. При этом для меня необходимым условием в будущей профессии является возможность для творчества. Так что через несколько лет вполне могу совместить технологии с рисованием мультфильмов или карьерой блогера!

Артем: Когда все выбирали кафедру, мы с братом и другом создали общий документ, в который каждый вписал критерии для оценки. В процессе мы вместе тщательно оценивали все кафедры, и кафедры ABBYY победили. Мне бы хотелось, чтобы моя работа приносила пользу, и я надеюсь, что в этом у нас с ABBYY много общего. Мне нравится программирование, потому что оно открывает возможности создавать что-то необычное. Если объединить это с долей креатива и удачи, можно добиться многого!


Роман Галкин, кафедра РИОТ: Кафедра ABBYY одна из немногих, где можно на бакалавриате погрузиться в область компьютерного зрения. Это и стало ключевым фактором при выборе. Сейчас мне наиболее интересно машинное обучение, хочу углубиться в Computer Vision. В будущем хочу запустить продукт, основанный на машинном обучении. Среди идей бизнеса есть такие, где нужны навыки работы с изображениями и видео. Надеюсь, знания, которые получу на кафедре, помогут мне в этом!


В магистратуру на кафедрах ABBYY в этом году подали заявки 46 студентов, из них к нам поступили 18 ребят.

Никита Честнов, 5 курс, кафедра РИОТ: До поступления на кафедру РИОТ я учился на кафедре лазерных систем и структурированных материалов (Физтех-школа физики и исследований им. Ландау). Я выбрал магистратуру ABBYY, потому что это лучшее место для участия в ведущих исследованиях в области компьютерного зрения.

Я бы хотел погрузиться в исследования и стать специалистом в области компьютерного зрения. Сейчас мне интересна задача NAS (поиск нейронной архитектуры) в приложении к области CV. Это направление позволяет намного эффективнее проектировать нейронные сети, из-за чего они лучше справляются с поставленными задачами, чем спроектированные человеком.


Ксения Клокова, 5 курс, кафедра КЛ: Я получила экономическое образование, но через какое-то время после окончания бакалавриата поняла, что хочу развиваться в data science. Меня всегда интересовал язык как феномен и обработка текстовой информации, и именно поэтому я начала читать различные статьи, проводить эксперименты. В итоге я приняла решение, что хочу строить научную карьеру в сфере компьютерной лингвистики. Обучение на кафедре это возможность продвинуться к этой цели и перенять знания у лучших специалистов и ученых.

Сейчас я работаю продуктовым аналитиком в команде клиентского сервиса банка. Мы активно внедряем различные системы обработки текстовой информации, поэтому в дальнейшем я могу заниматься разработкой новых прикладных решений и одновременно развивать научную карьеру. Мне интересны семантические парсеры и возможность использования информации из семантических представлений в машинном переводе.


Среди наших выпускников есть те, кто учился на кафедре ABBYY, работал у нас, а затем перешел в более крупные международные IT-компании. Например, наш выпускник и бывший коллега Игорь Холопов закончил кафедру РИОТ, в ABBYY прошел путь от младшего до старшего разработчика, а сейчас занимается облачными технологиями в Google в Европе. В американского гиганта также перешла Наташа Болоболова, до этого она училась на кафедре РИОТ. Алексей Журавлев, выпускник и аспирант кафедры РИОТ, бывший руководитель группы Computer Vision Research в ABBYY и автор двух патентов, сейчас работает в компании Х. Звучит таинственно, но компания настолько крута, что мы пока не раскроем ее.

Похимичим в ABBYY Lab



image
Корпус Физтех.Цифра, где находятся большая часть научных лабораторий ФПМИ, включая и ABBYY Lab

Мы в ABBYY уделяем большое внимание направлению исследований и разработок. Более 25% всех затрат на R&D компания инвестирует в исследования в области обработки естественного языка и компьютерного зрения. Это необходимо, чтобы разрабатывать сложные наукоемкие технологии, которые приносят реальную пользу компаниям разных отраслей и людям во всем мире.

Именно поэтому в 2019 году на базе ФПМИ мы создали лабораторию ABBYY Lab. Там студенты и сотрудники МФТИ занимаются передовыми разработками в сфере обработки естественного языка и анализа изображений и исследуют новейшие методы анализа данных.

Какими задачами занимаются сотрудники лаборатории?

Распознавание сложных текстов (например, рукописных, текстов в естественной сцене);
физика цвета и ее применение в задачах сегментации;
синтез реалистичного видео;
нетематическая классификация текстов;
понимание языка социальных медиа;
обнаружение текстовых ориентиров;
межмодальные связи;
дифференцируемые алгоритмы;
автоматизация поиска архитектуры нейронных сетей;
обучение на недостаточных данных: без учителя, с частичным привлечением учителя, по нескольким примерам.

Какими проектами занимаются в ABBYY Lab прямо сейчас?

Автоматизация поиска архитектуры нейронных сетей в задачах комплексного распознавания текста;
иерархические нейронные сети для классификации на большое количество классов;
синтез читающего видео-агента заданной стилистики;
управление вектором стиля при синтезе обучающей выборки для обучения распознаванию рукописного текста.

Лабораторию возглавляет Александр Жуковский, руководитель Computer Vision Research Group в ABBYY.

Александр: Несмотря на пандемию, мы выступили на нескольких международных конференциях: 26-ой международной конференции по компьютерной лингвистике и интеллектуальным технологиям "Диалог", а также 14th IAPR International Workshop on Document Analysis Systems и 17th International Conference on Frontiers of Handwriting Recognition это две конференции про распознавание документов, не столь давно выделенные из основной конференции в области ICDAR. Мой коллега по ABBYY Lab недавно участвовал в воркшопе по моделированию естественной артикуляции человека по произносимой им речи и тексту GENEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Workshop и получил хорошие результаты.



Если у вас остались вопросы о ФПМИ, кафедрах ABBYY и ABBYY Lab, задавайте их в комментариях!

Кстати, те, кто закончили ФИВТ, ФУПМ или уже ФПМИ, рассказывайте в комментах, чем вам запомнилась учеба в Физтех-школе и что бы вам хотелось улучшить!
Подробнее..

Мой опыт. Онлайн-магистратура в России. МФТИ, Технологическое предпринимательство

24.08.2020 14:14:04 | Автор: admin
В далеком 2004 году на первом курсе бакалавриата Новосибирского государственного технического университета я познакомился с платформой intuit.ru. Тогда это казалось невероятным: бесплатно получить знания, которых так не хватает в родном университете. Кто бы мог подумать, что в 2020 году онлайн-обучение вплотную подойдет к тому, чтобы стать новой версией реальности.

Уверен, в этом году со всей карантинной неопределенностью потребность дистанционного обучения возрастет. Тут и там растут как грибы новые онлайн-магистратуры. Я расскажу свою историю принятия решения и поступления, опыт первого года, плюсы и минусы приведу в конце. Собрал все то, что хотел бы сам прочитать год назад, когда делал свой выбор.

Предыстория


Меня зовут Евгений, мне 32 года, и я программист.

Примерно 10 лет я работаю на зарубежную контору. Мои доходы растут, результаты ценят, а проекты меняются. Я понял, что программирование классный навык для воплощения идей в реальность и способ неплохо зарабатывать в комфортных условиях. Но душа требует развития. И в моем случае это стремление нельзя насытить еще одной технологией или еще одним языком программирования. Как поется, перемен требуют наши сердца.

Желание учиться в магистратуре у меня возникло 12 лет назад в момент защиты бакалаврской работы. На тот момент жизненные планы были немного другие, да и понимания, с какой стороны продолжать грызть гранит науки, не было.

Но перерыв, как водится, затянулся. Основными камнями преткновения все эти годы были:

  1. непонимание, как совместить учебу с работой;
  2. фокус на каких-то других вещах.

В 2012 году, проживая в Москве, я хотел поступать в ВШЭ там была (наверное, и есть) чудесная вечерняя программа. Но тогда по некоторым причинам я решил вернуться в Новосибирск, и планы поступления сорвались. А потом 8 лет пролетели незаметно.
Кстати, в том же 2012 году стартанула Coursera.

Выбор


Меня завлекали два направления: экономика, финансы, инвестиции и трансформация идеи в реальность. Если с первым было понятно, то где учиться второму, я не очень представлял.

Я был зарегистрирован на Coursera, даже начинал проходить некоторые курсы там, но в основном не заканчивал. Не хватало вовлеченности в процесс, может, стимула дойти до конца. Многие курсы мигрируют на эту платформу с вузов, в основном зарубежных. Когда ты проходишь программу курса, то тебе на почту начинают приходить предложения о поступлении в эти учебные заведения. Однажды пришло от MIT аж гордость взяла, даже подумывал о поступлении, но боялся не выдержать нагрузку и языковой барьер.

А в 2018 году мне прилетела информация о магистерской программе МФТИ Технологическое предпринимательство. Два этих слова вместе я никогда раньше не произносил. Почитав программу, я понял, что это про то, как стать стартапером в России. Спорно, но интересно.

Также была приписка ОНЛАЙН не надо ехать в Москву. Посмотрел немного, что такое МФТИ. К своему стыду, я не знал славную историю этой научной школы. Ну и, честно говоря, не особо заострил на этом внимание тогда. Это уже сейчас, во время учебы я узнал, как много успешных экономистов (например, Сергей Гуриев) и предпринимателей в высокотехнологичных сферах вышли из стен этого вуза. Цена была что-то около 270 тысяч в год. Немало, но и мне уже не 18 лет что-то насобирал.

Почему вообще онлайн-магистратура? Альтернативой могли бы быть:

  • попытка запилить проект самостоятельно глупо бежать марафон, если не бегал хотя бы двадцатку;
  • пойти в стартап и учиться на живом примере отличный вариант, но очень быстро возникает конфликт интересов: ты выполняешь рутинные задачи, а не принимаешь ключевые решения;
  • самостоятельно набрать набор курсов, тренингов но я верю в комплексный подход, считаю, что самому сложно собрать нужную программу, она будет разрозненной.

Я начал подготовку к поступлению в 2018 году, но

Поступление


там возникла другая, более интересная оказия (part time работа в стартапе с русскими фаундерами вот она, визуализация конечной цели).

В 2019 году я вернулся к идее поступления. Нужно было пройти собеседование о теме своего проекта (здесь помогла работа в стартапе там много гипотез на проверку можно было найти) и сдать математику (тут пришлось поднапрячься многое уже забылось). Понервничал немного, но все сдал со средним результатом, достаточным для поступления. Тут уже главное желание и осознание ответственности и временных затрат. И спасибо жене она меня поддержала (просто еще не знала, как и я, что некоторые предметы будут проходить у меня в два ночи).

Начало


Ноутбук. Наушники. Zoom. Сейчас так живет весь мир. А в октябре прошлого года так началось для меня новое 1 сентября моей жизни. Передо мной на экране 25 плиток с видео моих одногруппников, кто со штатов, кто с Бали, кто с Ростова, кто с Питера, в основном, конечно, Москва. Нас объединяли русский язык и желание создавать в этом мире чудесные вещи, ну и как результат заработать на этом кучу денег. Перед нами выступали наши будущие преподаватели люди с высокими достижениями. Это одна из ключевых вещей для меня в образовании: ты окружаешь себя теми, кто мудрее, опытнее тебя, и учишься у них. Вот он, мегарост. Поэтому я считаю, что настоящее обучение возможно только в общине, а не индивидуально.

Процесс


С тех пор Zoom продолжается каждую субботу и воскресенье. Дополнительно в будние дни, примерно раз в неделю по Москве с 9 до 11 вечера. Учитывая временную разницу, для меня это с 1 до 3 ночи. На вебинарах только лишь обсуждение проделанной работы (каждый применяет знания к своему проекту). Много работы с различными онлайн-площадками: Coursera, eduNano и прочими. Несмотря на территориальную удаленность, в группе возникло много кружков по интересам в виде разных telegram-чатов на 36 человек. Много коллективной работы. В целом онлайн-образование лучше, чем может казаться. И, что важно, тут все было изначально обдуманно, а не состряпано под карантин. На некоторые предметы была возможность приходить очно. На один я даже прилетал в Москву очень хотелось вживую увидеть ребят. Я совместил приезд с работой, но приятно, что есть возможность выхватить живое присутствие в поточке, рабочий обед в студенческой столовке. Сразу стал на 10 лет моложе).

Что дальше


Впереди еще год учебы. Защита и госэкзамены проходят по плану очно. В этом году из-за карантина было удаленно, но до моей защиты еще год надеюсь, все восстановится к тому времени. Есть время для проработки проекта, должен активно подключится обещанный ментор (еще один плюс по сравнению с самодельной компиляцией курсов).

Ложка дегтя ...


Начнем с минусов. В основном они связаны с личным восприятием, а не с недостатками учебного процесса.

1. Без проекта учеба приносит печаль. В магистратуре ТехПреда важен свой проект без него все становится пресным. Нужно чем-то гореть. Лучше сразу найти идеи и мысли, которые нравятся, и много-много общаться, чтобы из этого многообразия выточить что-то внятное. Тут преподаватели готовы общаться, но надо быть настойчивым они занятые люди. Я считаю, что по-настоящему начал использовать эту возможность в последние пару месяцев. А жаль.

Есть одногруппники, которым подкидывали хорошие идеи на проработку для учебных целей. Надо активно пользоваться этой возможностью. В конце концов, цель учебы в первую очередь попробовать все аспекты раскрутки идеи на себе, а уже во вторую построить успешную компанию

2. Случается учеба по ночам. Уже писал об этом раньше, но повторюсь: некоторые предметы, например философия и английский, были не очень удобны по расписанию. Но в целом это было не чаще раза в неделю можно перетерпеть.

3. Требуется много времени. При поступлении был заявлен объем времени, который потребуется посвятить учебе, 10 часов в неделю. Тут у меня математика не сошлась, в реале 10 часов это только очные занятия по выходным (иногда больше). По факту стоит выделять 2025 часов в неделю на учебу, чтобы полностью усваивать материал.

4. Отсутствие треков. Я уже писал, что группа у нас разноплановая. В этом, помимо плюсов, есть и минусы. В некоторых предметах акценты можно расставлять в зависимости от стадии (идея, прототип или масштабирование) и области проекта (грубо говоря, софт, железо или работа с людьми). В целом есть возможность выбирать курсы, но по факту скорее, ходить дополнительно. Один курс я выбрал, потому что он мне нравился, и не пожалел. Были курсы, которые мне не понравились. Если бы была возможность пропустить я бы пропустил/заменил чем-то еще.

5. Для регионов может быть дороговато. Но прилететь в Москву и учиться там было бы явно дороже.

6. В организации процесса обучения есть прорехи. По некоторым предметам отличная обратная связь, а по некоторым явно запаздывает. Кому-то везет с менторами больше, а кому-то меньше. Это отчасти обратная сторона плюсов, о которых пойдет речь ниже. Преподаватели практики, а не теоретики. Ощущается занятость. Есть куда расти. Для онлайна вдвойне важно быстрое реагирование на запросы, полноценный фидбек по обучению. Иначе интерес может потеряться. Об это хорошо написано тут.

в бочке меда


1. Преподаватели практики и теоретики. Их имена отлично гуглятся, и при других обстоятельствах я вряд ли бы мог рассчитывать на общение с ними. Помимо просто выдачи знаний, они влияют на методы мышления, помогают увидеть вещи с тех сторон, о которых не думал раньше. Такие преподаватели есть и в обычных вузах и школах. Но если там соотношение 20 на 80 развернуто в сторону меньшинства, то тут таких большинство. Артемий Малков, Роман Янковский, Вадим Воронин, Анатолий Левенчук, Александр Фурсов, Михаил Бухарин, Алан Бахчиев, Вячеслав Чикин и другие.

2. Одногруппники. В основном чуть-чуть старше меня, но есть сильно моложе. Само по себе это очень классно. Сталкиваются опыт и молодость. Как говорится, если бы молодость знала, если бы старость могла. Тут и молодость знает, и старость может (старости особо нет, конечно. Наверное, 40 это потолок). Средний возраст как раз мой: 3032. Все с разных сфер, 30%-itшники, 30% уже предприниматели, 30% менеджеры продуктов, направлений в крупных компаниях и стартапах. Это дает хороший срез и множество точек зрения

3. Онлайн. Что ни говори, все остальное для меня был бы не вариант. Учись, когда (ну почти) и где хочешь.

4. Материал. Учебные материалы в большинстве своем загружены на открытые платформы, что задает высокую планку. Материалы качественные. Многие из них доступны для ознакомления просто так если интересно, скину ссылки отдельно по запросу. Материалы по маркетингу, юридическому праву, управлению проектами, системному мышлению и другие. Со многим так или иначе сталкивался в жизни, но все было как-то не по полочкам.

5. Вуз. Я уже писал выше, что сейчас горжусь тем, что сопричастен с МФТИ. Круг полезных и приятных знакомств сильно расширился. Тут мы два года в одной лодке с одногруппниками и преподавателями. Такие отношения не строятся за пару дней какой-нибудь конференции.

6. Диплом государственного образца. Диплом и степень магистра весомее и приятнее, чем несколько сертификатов Сoursera.

Вывод


Учеба мне нравится, вызывает много эмоций (от хочу уйти в академ до как круто, что я учусь у с этими людьми последнего в разы больше). Уверен, каким бы ни был мой дальнейший жизненный путь, эти знания и знакомства будут очень полезны. Ну и в учебе главное использовать все возможности, не тратить время зря, и далеко не всегда это значит, что нужно получить пятерки по всем предметам. Если хотите учиться, то возможностей в мире сейчас куда больше, чем 20 лет назад. Лучше начать и бросить посетить пару-тройку презентаций, подать заявки на обучение, пройти вступительные экзамены. А принимать решение можно, когда потребуется совершить платеж.

Послесловие


Один из навыков, который я хочу прокачивать, это написание текстов. В своем канале студента я рассказываю больше об учебе в онлайн-магистратуре российского вуза и о своем пути из программистов в предприниматели: t.me/tehprednub
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru