Русский

	Русский
	English

Авторизация

Ip-адрес

Восстановление пароля

Регистрация

Статистика

DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить такую же модель, но уже на русском языке.

Время шло, и через год Сбер сделал очень хорошее дело, выложив в открытый доступ несколько небольших вариантов моделей GPT-3, обученных на русском языке.

Итак, когда все звёзды сошлись, потратив пару месяцев ночей на конструирование, обработку и очистку датасета, наконец-то обучил модель GPT-3 medium от Сбера вести диалоги. Большое спасибо DevAlone, за то что создал проект Pikastat, без которого потратил бы годы на сбор данных. Модель обучал 2 эпохи на 32 ГБ текста на библиотеке Transformers от Hugging Face. Обучение шло 12 дней на 4x RTX 2080 Ti.

Выражаю благодарность компании ICL Services, которая предоставила вычислительные мощности для обучения модели.

Датасет состоит из цепочек комментариев (~92% Pikabu, ~6% YouTube, ~2% VK). Количество сэмплов для обучения - 41 миллион. От ненормативной лексики датасет специально не очищал, поэтому будьте готовы к "неожиданным" ответам.

Ниже привожу примеры диалогов с обученной моделью. Там, где ответы от GPT длинные (свыше 50 токенов), выбирал наилучший среди трёх сгенерированных ответов. Также на построение каждого диалога были две попытки. В остальном, ничего не изменял и не подстраивал.

На скриншотах реплики от GPT производила полностью модель. А потому "все имена и события вымышлены, любые совпадения случайны".

Посмотреть еще больше диалогов

Посмотреть неудачные (стандартные проблемы диалоговых систем и моделей)

Среднее количество реплик при обучении 4, потому длинные диалоги (от десяти и более реплик) модель воспринимает тяжело. Кроме того, необходимо помнить, что длина последовательности модели 256 токенов.

На валидации был только лосс. Поэтому, чтобы самому оценивать качество модели "на глаз", собрал web-приложение. С JavaScript особо не дружу, но реализовал минимальный функционал, который задумывал. Репозиторий приложения лежит тут - там же инструкция для запуска.

Приложение состоит из двух частей:

Сам сайт на Flask (Python)
Сервис-генератор на FastAPI (Python)

После запуска сервиса и приложения взаимодействие будет выглядить примерно так:

Качество ответов сильно зависит от параметров генерации (тут хорошая вводная статья с объяснением параметров). При установке генерации нужной длины ("Length generate" в блоке слева), некоторые параметры также следует изменить для лучшей генерации. Сейчас как раз работаю над их оптимизацией, а также работаю над классификатором, который будет отбирать среди длинных ответов наиболее "удачный".

Теперь посмотрим в каком виде строка кодируется в модель:

Здесь зеленым цветом 0 либо 1, это speaker id. Он показывает какая реплика кому принадлежит. Красным выделен параметр, отвечающий за длину генерации, который принимает следующие значения: [ -, 1, 2, 3].

"-" - означает, что мы не ожидаем от модели какой-то конкретной длины генерации
"1" - модель будет стараться сгенерировать короткий ответ. При обучении диапазон был до 15 токенов
"2" - модель будет стараться сгенерировать средний ответ. При обучении диапазон был от 15 до 50 токенов
"3" - модель будет стараться сгенерировать длинный ответ. При обучении диапазон был от 50 до 256 токенов

В данном примере мы ожидаем от системы "длинный" ответ на вопрос "Что нового?"

Очень рекомендую пообщаться с моделью самим. Делать открытый сайт для общения не стал, так как генерация довольно ресурсоемкая задача. Когда снимал чекпоинты и общался с ней, давно не испытывал таких эмоций: и смешит, и печаль наводит, и ругается. В общем, все как надо для современной ~~молодежи~~ модели.

Также приметил, что неплохо отвечает на философские вопросы.

Но и минусов в данной версии модели тоже достаточно: обучение на небольшом датасете (41 миллион, у Microsoft было 147), генерация плохого качества длинных ответов, выдача "размытых" ответов, недообученность модели, плохой "симбиоз" с весами от Сбера.

Модель доступна на Hugging Face Model Hub. Также можете скачать с Google Drive.

Ну и напоследок: в детстве мне очень нравился фильм "Я робот". Давайте посмотрим, как отвечает модель на вопросы от детектива Спунера:

Видно, что до уровня Санни еще очень далеко. И это хорошо, так как есть куда стремиться.

По всем вопросам и пожеланиям пишите на grossmend@gmail.com. В дальнейшем постараюсь улучшать данную модель и выкладывать обновленные версии. До новых встреч!

Источник: habr.com

К списку статей

admin

Опубликовано: 30.03.2021 22:07:52

Сейчас читают

Комментариев (0)

Имя

Электронная почта

Блог компании icl services

DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить так
Работа с японцами в IT 10 отличий

Нихон (так называют свою страну японцы) до сих пор остается загадочной и необычной в глазах иностранцев. За ее пределами распространено множество национальных стереотипов, среди которых, например, знаменитое японское качество и эффективность труда. А еще нам известно, что японцы очень ответственные и иног
Разбор полётов. Уроки и выводы начинающего Scrum-мастера

Источник фото

Уже третий год я внедряю ценности и принципы Agile в жизни команд разработчиков. За плечами работа Scrum-мастером в двух крупных компаниях, опыт удаленного внедрения гибких методологий в совершенно
Перевод - recovery mode Как создать план реагирования на инциденты кибербезопасности 5 главных шагов по версии GetApp

Рассказываем про пять простых шагов, которые помогут создать универсальный эффективный план реагирования на инциденты кибербезопасности в любой организации.

Статистика гласит: чем больше предприятий переводят свои операции в цифровую реальность, тем больше появ
Как стать тестировщиком плюсыминусы, интернатура, опыт

Привет, Habr! Меня зовут Екатерина, и я руковожу тестированием и непрерывно ищу новых специалистов в свою команду.
Портируем старую игру в жанре shoot em up на JavaScript на коленке

Имеется древняя игрушка LaserAge, которая написана на Flash (на очень древнем Macromedia Flash 4) и работает только под Windows. В детстве она мне очень понравилась, поэтому я решил для души портировать её, чтобы можно было играть с браузера со всех устройст

Python

Автоматизация машинного обучения

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы
Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в
JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.
Управляем звуком ПК от активности пользователя с помощью Python
Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:
- Windows 10
- Anaconda 3 (Python 3.8)
- Visual Studio 2019 (
Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не
Jupyter в Visual Studio Code июньский релиз

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Алгоритмы

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан
Геопространственное моделирование с применением методов машинного обучения

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр
Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на
Исследование операций
Cодержание
1. Введение
2. Основные понятия и термины
3. Характеристика ИО как научной дисциплины
4. Этапы операционного исследования
  
  Постановка задачи
  
  Построени
Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба
Как синхронизировать сценарий без транзакций? Штатными средствами Java

Давайте представим, что вы параноик, и параноик вдвойне, когда дело касается многопоточности. Предположим, что вы делаете backend некого функционала приложения, а приложение переодически дергает на вашем серверы какие-то методы. Все вроде хорошо, но есть одно но. Что если ваш функционал напрямую зависит от каких-либо других данных, того же банального профиля например? Встает вопрос, как гарантировать то, что сценарий отработает име

Машинное обучение

Стоит ли смотреть в сторону Data science?

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта
Перевод Учимся понимать таблицы на меньшем объеме данных

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст
Распознавание эмоций в записях телефонных разговоров

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн
БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Мне давно нравятся Байесовские сети доверия
Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку
Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са
Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной
Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку
Перевод ИИ все еще не умеет модерировать хейт-спич

Но ученые научились определять, где система дает сбой.
MS TECH | GETTY, UNSPLASH
В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и
О том как мы научили машину определять пол человека по его почерку

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко
Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых д

Gpt

DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить так
Софт пожирает мир. Закат универсальных CPU

Tesla по сравнению с другими автомобилями сегодня примерно как первый смартфон среди кнопочных телефонов в 2006 году

Десять лет назад Марк Андриссен опубликовал в WSJ статью Почему софт пож
Новогоднее обращение GPT-2

Уважаемые граждане России! Дорогие друзья!

Родившись в России, мы с детства воспитывались в идеологических рамках демократической системы. Мы не прошли многие страны Европы, они также сформировали систему. Мы были дети элиты, а в России, как и везде, царило раз
Тестируем ruGPT-3 на новых задачах

Рекомендательные системы с нуля, чат-боты и многое другое

Погрузившись в пучину текстовых данных, в октябре этого года мы обучили модели ruGPT-3 модели для русского языка на основе архитектуры от OpenAI. Но на что же способны эти модели? В этой статье мы соберем первые примеры применения модели и попробуем новые.

Мы представляем первые результаты самой большой из обученных моделей ruGPT-3

Gpt-2

DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить так
Админы восстанут, и никто, кроме меня, не войдет в режим генерации цифровых новых текстов

В основе статьи лежит научное наблюдение. Автор эксперимента может быть простым наблюдателем, однако его результаты сильно влияют на выбор рациональных допущений в исследовании. От того, какие данные были получены, зависит выбор исследования. Источник может быть цифровым, а человек может его не знать, но научные эксперименты обычно иллюстрируются цифровыми иллюстрациями, многие из которых очень важны для оценки эффективности.
Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Последнее десятилетие в области компьютерных технологий ознаменовалось началом новой весны искусственного интеллекта. Впрочем, ситуацию в индустрии в наши дни можно, наверное, охарактеризовать уже не как весну, а полноценное лето ИИ. Судите сами, за последние неполные 10 лет только в области обработки естественного языка (Natural language processing, NLP) произошли уже две настоящие технологические революции. Появившаяс
Пустобрёх GPT-2 russian edition

Погрузившись в тему DL NLP, набрел на просторах интернета на любопытный

Gpt-3

Перевод GPT-3 пробует себя в подкатах

Давным-давно я решила натренировать нейросеть на выдачу фраз для подката к противоположному полу. Начав собирать обучающие данные, я почти сразу пожалела об этом, обнаружив весь ужас существующего материала. Но оказалось, что я волновалась зря. Сетка была очень маленькой и мало что понимала, поэтому её фразочки были, в основном, бессвязными и странными.

Ты, наверное, карниз. Потому что кроме тебя з
Artificial General Intelligence поиски Святого Грааля искусственного интеллекта

Искусственный интеллект, способный справляться с любыми задачами не хуже человека - чем не мечта. Тема сильного искусственного интеллекта (AGI) скорей всего интересовала почти каждого, однако понять, что в ней происходит на практике оказывается весьма затруднительно. Этой ста
Всё, что нам нужно это генерация

Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров

С наступлением 2021 в NLP продолжается гонка больше лучше, захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров
DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить так
Перевод Как быть, если ваша нейросеть включает в генерируемые тексты реальные телефонные номера людей?

Как обуздать GPT-3

Компания OpenAI готовится к открытию коммерческого API к GPT-3, своей самой новой и крупной нейросети для генерации текста. В рамках подготовки компания создаёт систему фильтрации контента, чтобы не давать ей публиковать личную информацию людей.

Инженеры разрабатывают эту систему, к примеру, для того, чтобы она не выдавала личные телефоны людей. Работа идёт уже более года, и в
Как я спрашивал у нейросети GPT-3 советы по бизнес-проектам

Картинка для ~~устрашения~~ привлечения внимания

В конце прошлого года искусственный интеллект ворвался в наше сознание интригующей статьёй с неожиданным финалом, где говорилось, что автором данной статьи является сам искусственный интеллект.
Впечатление о данной статье сменилось досадой, что простому русскоязычному смертному, незнакомому с программированием пока недоступен функционал этих технологий.

Chatbots

DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить так
Фиксирование договоренностей прямо в чате экономя нервы, время и деньги

Всем привет, меня зовут Алексей. Я занимаюсь консалтингом стартапов и их разработкой, а также являюсь организатором нескольких крупных ИТ мероприятий.

По роду деятельности, мне приходится договариваться с большим количеством людей, начиная ИТ сферой, заканчивая звукооператором и ведущими. Очень часто договоренности происходят, конечно же, в чатах или по телефону. Так сказать, всеми любимыми способами договариваться "на б

Dialogpt

DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить так

Neural networks

Создание нейронной сети Хопфилда на JavaScript

Столкнувшись вуниверситете снейронными сетями, одной излюбимых для меня стала именно сеть Хопфилда. Ябыл удивлен, что она оказалась последней всписке лабораторных работ, ведь ееработу можно наглядно продемонстрировать при помощи изображений иона нетак сложна вр
3D teeth instance segmentation. В темноте, но не один

3D сегментация зубов от поиска данных до конечного результата. Почти.

Дисклеймер

Данная статья не является обучающей в любом понимании этого термина и носит сугубо информативный характер. Автор статьи не несет ответственности за время, потраченное на ее чтение.
Об авторе

Добрый - всем, зовут Андрей(27). Постараюсь коротко. Почему программирование? По образованию - бакалавр элект
Обнаружение объектов с помощью YOLOv3 на Tensorflow 2.0

Кадр из аниме "Жрица и медведь"
До появления YOLO большинство способов обнаружения объектов пытались адаптировать классификаторы для детекции. В YOLO же, обнаружение объектов было сформулировано как
Перевод Переосмысление предобучения и самообучения

Перевод статьи подготовлен в преддверии старта курса "Deep Learning. Basic".

Предлагаем также всем желающим посмотреть запись вебинара Knowledge distillation: нейросети обучают нейросети.
Artificial Intelligence, герой нашего времени. Этюд

Хм. Один из пунктов, регламентирующих действия модераторов на Хабре, сформулирован следующим образом: не надо пропускать статьи, слабо относящиеся к IT-тематике или не относящиеся к ней вовсе. Что сходу заставило автора призадуматься, а имеет ли прямое отношение к "IT-тематике" его пост, повествующий о некоторых этапах программирования забавного и увлекательного своего pet-проекта, несложного AI, выстраивающего нейронную сеть на ос
DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить так

Icl services

DialoGPT на русском

Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить так
Работа с японцами в IT 10 отличий

Нихон (так называют свою страну японцы) до сих пор остается загадочной и необычной в глазах иностранцев. За ее пределами распространено множество национальных стереотипов, среди которых, например, знаменитое японское качество и эффективность труда. А еще нам известно, что японцы очень ответственные и иног
Разбор полётов. Уроки и выводы начинающего Scrum-мастера

Источник фото

Уже третий год я внедряю ценности и принципы Agile в жизни команд разработчиков. За плечами работа Scrum-мастером в двух крупных компаниях, опыт удаленного внедрения гибких методологий в совершенно

Последние комментарии

Имя: Макс

24.08.2022 | 11:28

Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
Имя: 9055410337

20.08.2022 | 17:41

поможем пишите в телеграм Подробнее..
Имя: sabbat

17.08.2022 | 20:42

Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
Имя: Мария

09.08.2022 | 14:44

Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..

Контакты
Обнаружили ошибку

DialoGPT на русском

Сейчас читают

Блог компании icl services