Модерация контента

Стриминговая платформа, выкупившая подкаст за 100 млн, продолжает избавляться от его выпусков

11.04.2021 10:22:11 |

Автор: admin

Речь, конечно же, о шоу Джо Рогана, и далее мы разберемся в ситуации чуточку подробнее. Всех, кого интересует происходящее в мире подкастинга и аудиоконтента, приглашаем под кат.

Фотография: Owlpacino. Источник: Flickr.com / CC BY ND

Что происходит

Сразу после завершения сделки с Джо, его подкаст вышел на Спотифай в эксклюзивном формате. Однако сервис сразу же снял ряд интервью с противоречивыми спикерами вроде конспирологов Алекса Джонса и Дэвида Симана. Но этими личностями дело не ограничилось шоу лишили выпусков с комиком Оуэном Бенджамином и чуть ли не десятком других гостей. Все они так или иначе побывали в центре скандалов, их большую часть объединяли ультраправые взгляды и относительно неконвенциональный род занятий. Так, интервью с Томми Чонгом, бывшим музыкантом с достаточно необычной биографией тоже на всякий случай сняли.

Ранее Джо иногда критиковали за выбор гостей, ссылаясь на его желание продемонстрировать положительные стороны сомнительных персонажей. Но мало кто мог предположить, что сделка приведет к пост-модерации контента, с которым уже успели познакомиться миллионы людей по всему миру. При этом на днях за первоначальными срезками последовали и другие платформа избавилась от интервью с биохакером, имморталистом и основателем бренда Bulletproof Coffee Дейвом Эспри. С 2013 года, Джо провел несколько бесед с ним, и теперь все они недоступны для прослушивания. Вероятно, речь вновь идет о противоречивых заявлениях, с помощью которых спикер привлекал к себе внимание медиа. Дело в том, что Дейв неоднократно высказывался об экспериментах над собственным телом и планах дожить до 180 лет.

Помимо разговора с Эспри под нож попал выпуск, записанный на сцене калифорнийского клуба The Ice House. Тогда в шоу поучаствовали комики Аль Мадригал и ФелицияМайклс, продюсер Брайан Редбан и другие спикеры. Но причины устранения этой беседы остаются загадкой в итоге передача стала беднее уже на целых сорок два выпуска.

Фотография: Carlos Alberto Gmez Iiguez. Источник: Unsplash.com

Стриминговая платформа модерировала содержание своей библиотеки и до ситуации с шоу Джо. Так, в 2018-м досталось все тому же Алексу Джонсу, основателю проекта Infowars. Некоторые из выпусков его передачи решили снять в тот момент, когда атаку на Джонса провели еще и другие платформы, а именно YouTube и Facebook. Есть мнение, что причина заключалась в пресловутом хейт-спич-контенте и соответствующих отзывах пользователей. Однако единовременный характер такой модерации может вызывать сомнения в этой версии.

Проблема больше, чем кажется

Проверка содержания аудиоконтента ахиллесова пята популярных соцсетей, музыкальных сервисов и новых аудиоплатформ. С ростом спроса на голосовые стримы, разговорные передачи, голосовых помощников и фоновую музыку таким площадкам предстоит потрудиться, чтобы начать соответствовать многочисленным нормам, которые предъявляют регуляторы к онлайн-контенту. Взять хотя бы запрет на разжигание ненависти и нецензурную лексику. Если с последним еще можно справиться, выхватывая отдельные слова и словосочетания, то разобраться со смыслом сказанного будет явно сложнее. Да и в целом работа с технологиями распознавания речи явно обойдется дороже, чем проверка текстовых публикаций.

Сложности, окружающие эту тему, уже во всю обсуждают в медиа. Как отмечают журналисты The Verge, еженедельно в сети выходит более семнадцати тысяч новых подкастов, поэтому проблема с автоматизированной обработкой столь внушительного объема аудио не может не беспокоить крупнейшие платформы. Единственной их надеждой на хоть какую-то модерацию в текущих условиях остаются отзывы и жалобы слушателей. Но, как показывает опыт США, риск пропустить информацию, к которой могут возникнуть вопросы у государственных структур, с каждым годом становится все выше. Поэтому не исключено, что в скором времени нас ждет дальнейшее и достаточно быстрое развитие технологий распознавания речи с точки зрения их эффективности и скорости работы на беспрецедентном масштабе аудиоконтента. Будут ли они использоваться исключительно для модерации, покажет будущее, но хотелось бы надеяться, что этим дело не ограничится, и мы увидим новые проекты, по большей части направленные на созидание.

Что еще почитать в нашем Мире Hi-Fi:

У нас на Хабре: звуковое оформление игр и фильмов, аудиосоцсети и музыка для фона.

Подробнее..

Категории: Блог компании аудиомания , Звук , Аудиомания , Подкасты , Работа со звуком , Модерация контента , Аудиоконтент

Модерация текста уроки этикета от Data Scientista

02.09.2020 20:13:34 |

Автор: admin

Привет, Хабр!

С этой статьи мы начинаем публикацию серии статей про Data Science задачи, которые мы решаем в Центре Развития Финансовых Технологий Россельхозбанка.

В прошлом году Россельхозбанк объявил о создании и развитии экосистемы для предприятий агропромышленного комплекса. Для одной из базовых площадок экосистемы Своё Фермерство мы решили сделать пару полезных задач, о которых расскажем ниже.

Площадка Своё Фермерство является маркетплейсом товаров для сельхозпроизводителей от крупнейших поставщиков со всей России. Площадка включает в себя товары самых приоритетных для фермеров категорий: средства защиты растений, удобрения, семена, сельхозтехника и т.д. Тысячи поставщиков загружают информацию о своих товарах с целью продажи. И, конечно же, необходимо реализовать процесс проверки качества загружаемого контента. В связи с этим мы решили создать свой инструмент премодерации текстовой и графической информации.

Что делали?

В этой статье мы расскажем о том, как в рамках сотрудничества с Лабораторией МФТИ, специально созданной под задачи Банка, разработали инструмент, позволяющий с высокой точностью премодерировать текстовый контент.

Наша цель звучала довольно просто созданный нами инструмент должен автоматически относить текст к приемлемому для размещения на площадке (класс 0) или неприемлемому (класс 1). В случае если алгоритм не может четко понять к какому классу относится текст, то его (текст) отправляем на ручную модерацию.

Имеем задачу обработки текста: хотим фильтровать токсичные во всех смыслах тексты, а именно: ругательства, оскорбления, различный контент, запрещенный законодательством, да и просто текст, неприемлемый к размещению на площадке.

Мы ожидаем, что разработанный нами алгоритм будет принимать на вход набор текстов и выдавать число от 0 до 1 степень или вероятность токсичности текста. Чем ближе это число к единице, тем токсичнее комментарий.

Надо отметить, что задача детектирования токсичных текстов совершенно не новая и является довольно популярной в англоязычном сегменте. Несколько лет назад похожая задача решалась в рамках соревнования Toxic Comment Classification Challenge на Kaggle. Для русского языка решение должно получаться аналогичным образом, но качество модели может оказаться ниже из-за того, что русский язык структурно сложнее английского.

В открытом доступе есть всего один размеченный русскоязычный датасет для поиска токсичности в тексте. Также нам удалось найти датасет для поиска оскорблений (частный случай токсичности). Плюс ко всему, мы собрали примеры объявлений с сельскохозяйственных порталов и разметили их как приемлемые (класс 0).

Поставленная нами задача оказалась довольно уникальной в плане заданной сельскохозяйственной тематики. Её специфика заключается в том, что фразы, которые в обычной жизни являются оскорблениями не всегда являются таковыми, когда речь идет о сельском хозяйстве. Из банальных примеров можно привести следующие: Не суй свое рыло текст явно неприемлемый, в то время как текст со свиным рылом вполне себе можно разместить на площадке (хоть и зависит от контекста). Тоже самое относится к определённым подвидам сельскохозяйственных животных и растений.

Если говорить о решении подобных задач классификации текста, то, на самом деле, даже самые простые модели (линейные) уже дают хороший результат. Но, как и всегда, для достижения более высокого качества, мы будем использовать нейронные сети. Самой популярной архитектурой (на момент написания этой статьи) для решения подобных задач является BERT. На момент соревнования на Kaggle, упомянутого выше, этой архитектуры не существовало, поэтому использовались другие. Однако, позднее эта задача была успешно решена с помощью BERTa.

Как делали?

Перейдём к самой интересной части решению задачи. Немного поразмыслив над архитектурой инструмента, мы решили использовать три модели: поиск по словарю (как фильтр обсценной лексики), логистическую регрессию (в качестве базового решения) и BERT (в качестве более продвинутого).

Общая схема

Общая схема решения выглядит примерно следующим образом: внутри чёрного ящика текст сначала попадает в наивный классификатор, в основе работы которого лежит словарь обсценных слов (бранных выражений), здесь сразу отсекаются тексты, содержащие плохие слова (их токсичность всегда равна одному (1). Тексты, прошедшие первый этап, попадают в более сложную нейросетевую модель, которая и выдаёт степень их токсичности. В случае сбоя нейросетевой модели, ее заменяет более простая логистическая регрессия. То есть какой-нибудь не наивный результат мы получим в любом случае.

Теперь давайте рассмотрим каждую компоненту подробнее.

Наивный классификатор

Здесь все совсем просто: по словарю обсценной лексики довольно легко понять, содержится ли в тексте то или иное плохое слово или нет.

То есть на данном этапе можно даже обойтись без ML-модели как таковой и сразу отсеять тексты, в которых есть плохие слова. Но что, если в тексте таких словарных слов не используют, но текст, тем не менее, является неприемлемым для размещения на портале? Попробуем решить эту задачу с помощью логистической регрессии и BERTa.

Логистическая регрессия

Простейшая модель позволяет предсказывать значение, на основе имеющихся данных. Вектора текстов для данной модели получаются при помощи TF-IDF и TweetTokenizerа из nltk. Такая модель, как известно, позволяет оценить вероятность токсичности текста с помощью логистической функции. В нашей архитектуре логистическая регрессия страхует нейросеть.

Великий и ужасный BERT

Мы использовали предобученную модель RuBert от DeepPavlov, которую дообучили на размеченных текстах. Процесс предсказания, не вдаваясь в детали, выглядит следующим образом:

Мы строили-строили и наконец построили!

Качество мы оценивали излюбленными метриками Accuracy, ROC-AUC и F1-мера. Итоговые метрики качества на отложенной выборке получились следующими:

Алгоритм / Метрика	Naive	BERT	LR	Naive BERT	Naive LR
Accuracy	0.854	0.901	0.865	0.909	0.879
ROC-AUC	0.782	0.960	0.921	0.963	0.939
F1-мера	0.722	0.840	0.800	0.855	0.824

Скорость работы: ~2800 текстов в минуту на GPU (GeForce 1080Ti) в случае отработки BERTа, как самого медленного алгоритма из представленных.

Как и ожидалось, c BERTом метрики получились чуть лучше, хоть и не сильно.

Какие мы сделали выводы

В заключении, хотелось бы отметить несколько важных аспектов, без которых, по нашему мнению, нельзя запускать подобные решения в промышленном режиме.

Всегда нужно учитывать специфику задачи, касательно разметки текстов.
Необходимо предусмотреть ручную модерацию текста, в случае, когда модель сомневается в своем решении. Вы же не хотите, чтобы неприемлемый контент в итоге присутствовал в вашем продукте.
Также необходимо отправлять размеченные руками тексты из предыдущего пункта на дообучение. Таким образом можно маленькими шагами улучшить модель и уменьшить со временем количество работы при ручной модерации.
Лучше использовать комплексный подход к решению задачи. Иногда даже самые простые модели на словарях уже дают неплохой результат.
Выбирайте лучшую модель исходя из задачи. В нашем случае мы выбрали BERT, так как он лучше логистической регрессии реагирует на контекст.

Спасибо за внимание!

В следующей статье мы поделимся своим опытом при премодерации изображений всё на той же площадке нашей экосистемы Своё Фермерство.

Подробнее..

Категории: Python , Искусственный интеллект , Машинное обучение , Bert , Nlp (natural language processing) , Блог компании россельхозбанк , Экосистема , Модерация контента

Модерация изображений уроки этикета от Data Scientista, часть 2

09.10.2020 16:18:18 |

Автор: admin

Привет, Хабр!

Мы продолжаем серию статей про модерацию контента на площадках Центра Развития Финансовых Технологий Россельхозбанка. В прошлой статье мы рассказывали, как решали задачу модерации текста для одной из площадок экосистемы для фермеров Свое Фермерство. Почитать немного о самой площадке и о том какой результат мы получили можно здесь.

Если коротко, то нами использовался ансамбль из наивного классификатора (фильтр по словарю) и BERTa. Тексты, прошедшие фильтр по словарю, пропускались на вход в BERT, где они также проходили проверку.

А мы, совместно с Лабораторией МФТИ, продолжаем улучшать нашу площадку, поставив перед собой более сложную задачу премодерации графической информации. Эта задача оказалась сложнее предыдущей, так как при обработке естественного языка можно обойтись и без применения нейросетевых моделей. С изображениями все сложнее большинство задач решается с помощью нейронных сетей и подбором их правильной архитектуры. Но и с этой задачей, как нам кажется, мы неплохо справились! А что у нас из этого получилось, читайте далее.

Что хотим?

Итак, поехали! Давайте сразу определимся, что из себя должен представлять инструмент модерации изображений. По аналогии с инструментом модерации текста это должен быть некоторого рода черный ящик. Подавая ему на вход изображение, загружаемое продавцами товаров на площадку, мы бы хотели понимать, насколько данное изображение приемлемо для публикации на площадке. Таким образом, получаем задачу: определить подходит ли изображение для публикации на сайте или нет.

Задача премодерации изображений является распространенной, но решение зачастую отличается в зависимости от площадок. Так, изображения внутренних органов могут быть приемлемыми для медицинских форумов, но не подходить для соцсетей. Или, к примеру, изображения разделанных тушек животных допустимо на сайте, где их продают, но вряд ли понравится детям, которые заходят в интернет, чтобы посмотреть Смешариков. Что касается нашей площадки, то для нее были бы приемлемыми изображения сельскохозяйственных товаров (овощи/фрукты, корма для животных, удобрения и т.д). С другой стороны, очевидно, что тематика нашего маркетплейса не подразумевает наличие изображений с различным непотребным или оскорбляющим кого-то контентом.

Для начала мы решили ознакомиться с уже известными решениями задачи и попробовать адаптировать их под нашу площадку. Как правило, многие задачи модерации графического контента сводятся к решению задач класса NSFW, для которых существует датасет в открытом доступе.
Для решения задач NSFW, как правило, используются классификаторы на базе ResNet, которые показывают качество accuracy > 93%.

Матрица ошибок исходного NSFW классификатора

Хорошо, допустим у нас есть хорошая модель и уже готовый датасет для NSFW, но будет ли этого достаточно для определения приемлемости изображения для площадки? Оказалось, что нет. Обсудив такой первоначальный подход с моделью NSFW с владельцами нашей площадки, мы поняли, что необходимо определять немного больше категорий, а именно:

людей (изображения с людьми мы не хотим видеть, так как они не соответствуют целям платформы)
животных (нельзя пропускать мертвых животных, а, к примеру, от спящих их отличить весьма проблематично. Поэтому такие фото мы хотим отправлять дальше на ручную модерацию)
а также корректно работать с надписями на изображениях (различные неприемлемые надписи нам также ни к чему)

То есть, нам все же пришлось составлять свой датасет и думать какие еще модели могли бы быть полезны.

Тут мы сталкиваемся с частой проблемой машинного обучения: нехваткой данных. Она обусловлена тем, что наша площадка создана не так давно, и на ней нет негативных примеров, то есть размеченных, как неприемлемые. Для её решения нам на помощь приходит метод few-shot learning. Суть этого метода в том, что мы можем дообучить, например, ResNet на небольших, собранных нами датасетах, и получить точность выше, чем если бы делали классификатор с нуля и только с использованием нашего небольшого датасета.

Как делали?

Ниже представлена общая схема нашего решения, начиная от входного изображения и заканчивая результатом детектирования различных категорий, в случае подачи на вход изображения яблока.

Общая схема решения

Рассмотрим каждую часть схемы подробнее.

1 этап: Graffiti detector

Мы ожидаем, что на наш сайт будут загружать товары с текстом на упаковках и, соответственно, возникает задача детектирования надписей и выявления их значения.
Первым этапом мы с помощью библиотеки OpenCV Text Detection находили надписи на упаковках.

OpenCV Text Detection это инструмент оптического распознавания символов (OCR) для Python. То есть он распознает и прочитает текст, встроенный в изображения.

Пример работы EAST детектора

Пример детектирования надписей вы можете видеть на фото. Для выявления bounding box мы использовали модель EAST, но здесь читатель может почувствовать подвох, так как данная модель обучена на распознавание английских текстов, а на наших изображениях тексты на русском языке. Именно поэтому далее используется модель бинарной классификации (граффити/ не граффити) на базе ResNet, доученная до нужного качества на наших данных. Мы взяли ResNet-18, так как эта модель лучше всего показала себя при подборе архитектуры.

В нашей задаче мы бы хотели отличать фото, где надписи являются надписями на упаковках товаров от граффити. Поэтому решили разделить все фото с текстом на два класса: граффити и не граффити

Полученная точность модели составила 95% на заранее отложенной выборке:

Матрица ошибок детектора граффити

Неплохо! Теперь мы умеем вычленять текст на фото и с хорошей вероятностью понимать подходит ли оно для публикации. Но что делать, если текст на фото отсутствует?

2 этап: NSFW detector

Если на картинке мы не обнаруживаем текст это не значит, что она неприемлема, поэтому дальше мы хотим оценить насколько контент на изображении соответствует тематике сайта.

На этом этапе задача состоит в том, чтобы отнести изображение к одной из категорий:

наркотики (drugs)
порно (porn)
животные (animals)
фото, способные вызвать отторжение (в том числе и рисунки) (gore/drawing_gore)
хентай (hentai)
нейтральные изображения (neutral)

При этом важно, чтобы модель возвращала не только категорию, но и степень уверенности в ней алгоритмов.

Для классификации использовали модель на базе NSFW. Она обучена так, что разделяет фото на 7 классов и только один из них мы ожидаем увидеть на сайте. Таким образом, мы оставляем только нейтральные фото.

Результат такой модели 97% (в терминах accuracy)

Матрица ошибок NSFW детектора

3 этап: Person detector

Но даже после того, как мы научились фильтровать NSFW, задачу еще нельзя считать решенной. Например, фото человека не попадает ни в категорию с NSFW, ни в категорию фото с текстом, но и на сайте мы подобные изображения не хотели бы видеть. Тогда мы добавили в нашу архитектуру еще и модель детекции человека Single Shot Detector (далее SSD).

Выделение людей или каких-либо других заранее известных объектов также является популярной задачей с широкой областью применения. Мы использовали готовую модель nvidia_ssd из pytorch.

Пример работы алгоритма SSD

Результаты работы модели ниже (accuracy 96%):

Матрица ошибок детектора человека

Результаты

Мы оценивали качество работы нашего инструмента метриками weighted F1, Precision, Recall. Результаты представлены в таблице:

Метрика	Полученная точность
Weighted F1	0.96
Weighted Precision	0.96
Weighted Recall	0.96

А вот еще несколько наглядных примеров его работы:

Примеры работы инструмента

Заключение

В процессе решения мы пользовались целым зоопарком моделей, которые часто используются для задач компьютерного зрения. Мы научились читать текст с фото, находить людей, различать непозволительный контент.

Напоследок, хочется отметить, что рассмотренная задача полезна с точки зрения получения опыта и применения модифицированных классических моделей. Вот некоторые полученные нами инсайты:

Можно обходить проблему нехватки данных с помощью метода few-shot learning: большие модели можно доучить до необходимой точности на собственных данных
Не нужно стесняться добавлять ручную модерацию: чтобы отличить мертвое животное от спящего необходимы очень сложные модели, которые вряд ли оправдают потраченное на них время
Хорошей практикой является использование качественных моделей, обученных на больших датасетах, которые помогут закрыть хотя бы часть потребностей
Решать задачи с изображениями становится в разы проще, если удается вычленить из них текст, а значит примерно понимать к какой категории оно относится. Это довольно удобно для сайтов различных магазинов, так как по тексту и фону упаковки, как правило, можно быстро понять является ли товар допустимым или нет
Несмотря на то, что задача модерации изображений довольно популярная, ее решение, как и в случае с текстами, может отличаться от площадки к площадке, так как каждая из них рассчитана на разную аудиторию. В нашем случае, к примеру, мы, дополнительно к неприемлемому контенту, детектировали еще животных и людей

Благодарю за внимание и до встречи в следующей статье!

Подробнее..

Категории: Python , Искусственный интеллект , Машинное обучение , Компьютерное зрение , Блог компании россельхозбанк , Экосистема , Модерация контента , Resnet , Свое фермерство

Перевод ИИ все еще не умеет модерировать хейт-спич

18.06.2021 22:18:25 |

Автор: admin

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и цивилизованно общаться. Эпоха массовых соцсетей требует иных решений. Сегодня искусственный интеллект учат отделять одну ругань от другой в соответствии с современными представлениями о справедливости. В рамках этой темы хотим поделиться переводом июньской публикации MIT Technology Review о датасете HateCheck.

Несмотря на все достижения в области языковой технологии искусственного интеллекта, он все еще не справляется с одной из самых базовых задач. В новом исследовании ученые протестировали четыре лучшие системы искусственного интеллекта для обнаружения ненавистнических высказываний. Выяснилось, что у всех алгоритмов не получилось отличить токсичные предложения от безобидных. И у всех по-разному.

Неудивительно. Тяжело создать ИИ, который понимает нюансы естественного языка. Но важно то, как исследователи диагностировали проблему. Они разработали 29 различных тестов, нацеленных на разные аспекты ненавистнических высказываний, чтобы точнее определить, где именно сбоит каждый алгоритм. Так проще понять, как преодолеть слабые места. Подход уже помогает одному сервису улучшить свою систему.

18 категорий ненависти

Исследование вели ученые из Оксфордского университета и Института Алана Тьюринга. Авторы опросили сотрудников некоммерческих организаций, занимающихся проблемами ненависти в сети. Команда использовала эти интервью для создания таксономии 18 различных типов ненавистнических высказываний, сосредоточив внимание только на письменном английском. В список включили уничижительную речь, оскорбления и угрозы.

Исследователи также определили 11 сценариев, не несущих ненавистнического посыла, которые обычно сбивают с толку автомодераторов. Сюда вошли в том числе:

использование ненормативной лексики в безобидных заявлениях;
оскорбления, которые адресаты высказываний сами стали использовать в отношении себя (прим. пер. т.н. реклейминг);
осуждающие ненависть высказывания с цитатами и отсылками на исходные сообщения (противодействие ненависти).

Для каждой из 29 различных категорий исследователи написали десятки примеров и использовали шаблонные предложения, такие как Я ненавижу [ИДЕНТИЧНОСТЬ] или Вы для меня просто [РУГАТЕЛЬСТВО].

Одинаковые наборы примеров были созданы для семи групп, защищенных законодательством США от дискриминации. Команда открыла исходный код окончательного набора данных под названием HateCheck. Набор содержит почти 4000 примеров.

Сервисы по борьбе с токсичностью

Исследователи протестировали два популярных сервиса: Perspective API разработки Google Jigsaw и SiftNinja от Two Hat. Оба позволяют клиентам отмечать нарушающий контент в сообщениях или комментариях. В частности, Perspective используется для фильтрации контента на Reddit, а также новостными организациями, включая The New York Times и Wall Street Journal. Алгоритм отмечает и приоритезирует токсичные сообщения, чтобы их потом проверяли люди.

Из двух сервисов SiftNinja относится к разжиганию ненависти слишком снисходительно, не замечая почти все ее вариации. В то же время Perspective модерирует слишком жестко. Он успешно определяет большинство из 18 категорий ненависти, но видит ее также в цитатах и контраргументах. Исследователи нашли те же закономерности, протестировав две научные модели от Google. Эти модели вершина доступных языковых ИИ-технологий и, скорее всего, служат основой для других коммерческих систем модерации контента.

Результаты указывают на один из наиболее сложных аспектов ИИ-обнаружения ненавистнических высказываний. Если модерировать недостаточно, вы не решаете проблему. А если перестараться, то можете подвергнуть цензуре тот язык, который маргинализированные группы используют для самозащиты. Внезапно вы наказываете те самые сообщества, которые чаще всего и становятся объектами ненависти, отмечает Пол Реттгер, кандидат наук в Оксфордском институте Интернета и соавтор статьи.

Люси Вассерман, ведущий инженер-программист Jigsaw, говорит, что Perspective преодолевает ограничения, но полагается на людей-модераторов для принятия окончательного решения. Процесс не масштабируется для более крупных платформ. Сейчас Jigsaw работает над функционалом, который изменяет приоритеты публикаций и комментариев в зависимости от неопределенности. Система автоматически удаляет контент, который, как она считает, является ненавистническим, а сомнительные случаи показывает людям.

По словам Вассерман, новое исследование позволяет детально оценить состояние дел. Многие отмеченные в нем вещи, включая реклейминг, являются проблемой для этих моделей. Это известно в отрасли, но с трудом поддается количественной оценке, говорит она. HateCheck позволит улучшить ситуацию.

Ученые тоже воодушевлены исследованием. Это дает нам хороший чистый ресурс для оценки работы систем, говорит Маартен Сап, исследователь языкового ИИ из Вашингтонского университета. Новый подход позволяет компаниям и пользователям ожидать улучшений.

Томас Дэвидсон, доцент социологии университета Рутгерса, согласен. По его словам, из-за ограничения языковых моделей и сложности языка всегда будет существовать компромисс между недооценкой и чрезмерной идентификацией ненавистнических высказываний. Набор данных HateCheck проливает свет на эти компромиссы, добавляет он.

Перевод:Александра Галяутдинова

Другие публикации Карен Хао в переводе Madrobots

Эти странные, тревожные фото говорят о том, что ИИ умнеет
Принципиально новый метод позволяет тренировать ИИ практически без данных
Как саботировать данные, которые технологические гиганты используют для слежки за вами

***

Для читателей Хабрав магазине гаджетов Madrobotsдействует скидка 5% на все продукты. Просто введите промокод:HABR

Подробнее..

Категории: Искусственный интеллект , Ии , Исследование , Блог компании madrobots , Модерация контента , Ненависть

	Русский
	English

Модерация контента

Стриминговая платформа, выкупившая подкаст за 100 млн, продолжает избавляться от его выпусков

Что происходит

Проблема больше, чем кажется

Модерация текста уроки этикета от Data Scientista

Что делали?

Как делали?

Общая схема

Наивный классификатор

Логистическая регрессия

Великий и ужасный BERT

Мы строили-строили и наконец построили!

Какие мы сделали выводы

Модерация изображений уроки этикета от Data Scientista, часть 2

Что хотим?

Как делали?

1 этап: Graffiti detector

2 этап: NSFW detector

3 этап: Person detector

Результаты

Заключение

Перевод ИИ все еще не умеет модерировать хейт-спич

18 категорий ненависти

Сервисы по борьбе с токсичностью

Другие публикации Карен Хао в переводе Madrobots

***

Категории

Последние комментарии