Перевод Когда ваши данные грязные

История ниже прекрасная иллюстрация того, как ИИ получает неверное представление о проблеме, которую мы просим решить:

Исследователи из Тюбингенского университета обучили нейронную сеть распознавать изображения, а затем попросили указать, какие части изображений наиболее важны для принятия решения. Когда они попросили нейросеть выделить наиболее важные пиксели для категории линь (разновидность рыбы), вот что она выделила:

Розовые человеческие пальцы на зелёном фоне.

Человеческие пальцы на зелёном фоне!

Почему она искала на фотографиях пальцы, когда должна была искать рыбу? Оказалось, что большинство снимков линя в наборе данных были изображениями людей, держащих рыбу в качестве трофея. У неё нет никакого контекста, что такое линь на самом деле, поэтому она предполагает, что пальцы являются частью рыбы.

Нейронная сеть, генерирующая изображения в ArtBreeder (BigGAN) обучалась на том же наборе данных ImageNet, и когда вы просите её генерировать линей, она делает то же самое:

Четыре изображения белые люди, держащие что-то зелёное и крапчатое. На некоторых изображениях у зелёной штуки более рыбья текстура, но нигде нет чёткой головы и хвоста. Это просто большое рыбье тело. Нижние плавники причудливо смешаны с множеством розовых человеческих пальцев

Люди гораздо более отчётливы, чем рыбы, и меня очаровывают сильно преувеличенные человеческие пальцы.

В ImageNet есть и другие категории с аналогичными проблемами. Вот вам микрофон.

Четыре изображения с сильно тёмным фоном. Верхнее левое похоже по форме на микрофон с пушистой звуковой перегородкой или головой из седых человеческих волос. Остальные выглядят как люди

Нейросеть распознала контрастное освещение сцены и человеческую форму, но многие изображения не содержат ничего, что отдалённо напоминало бы микрофон. Во многих фотографиях из обучающего набора микрофон это крошечная часть изображения, которую легко не заметить. Аналогичные проблемы возникают и с маленькими инструментами, такими как флейта и гобой.

В других случаях есть свидетельства, что фотографии неправильно помечены. В этих сгенерированных изображениях футбольного шлема некоторые явно изображают людей, не носящих шлемов, а некоторые подозрительно похожи на бейсбольные шлемы.

Четыре сгенерированных изображения. Верхние два это люди, ни один из которых не носит футбольного шлема (хотя их волосы могут быть немного странными; трудно сказать, так как остальные тоже такие странные). Внизу слева человек носит шлем, похожий на металлический бейсбольный. Внизу справа внизу справа футбольный шлем, скрещённый с зубастой мультяшной рыбкой

ImageNet это действительно грязный набор данных. У него есть категория для агамы, но нет для жирафа. Вместо лошади как категории там щавель (специфический цвет лошади). Велосипед для двоих это категория, а скейтборд нет.

Четыре изображения, которые явно являются своего рода многоколёсными велосипедными объектами. Колёса имеют тенденцию быть гибкими со странно разъединёнными спицами, и иногда колеса подвисают. Есть люди, похожие на всадников, но их трудно отделить от велосипедов

Главная причина загрязнения ImageNet в том, что база автоматически собрана в интернете. Предполагалось, что изображения фильтруются рабочими на краудсорсинге, которые их помечали, но многие странности просочились. И ужасно большое количество изображений и меток, которые определённо не должны были появиться в универсальном исследовательском наборе данных, и изображения, которые выглядят так, словно попали туда без согласия изображённых людей. После нескольких лет широкого использования сообществом искусственного интеллекта команда ImageNet, как сообщается, удалила часть этого контента. Другие проблемные наборы данных, например, собранные с онлайн-изображений без разрешения или с записей камер наблюдения, были тоже недавно удалены (другие, как Clearview AI, всё ещё используются).

На этой неделе Винай Прабху и Абеба Бирхане указали на серьёзные проблемы с другим набором данных, 80 миллионами Tiny Images. Система вырезала изображения и автоматически присваивала им теги с помощью другой нейронной сети, обученной на интернет-тексте. Вы можете быть шокированы, но в интернет-тексте встречаются довольно оскорбительные вещи. MIT CSAIL удалил этот набор данных навсегда, решив не фильтровать вручную все 80 миллионов изображений.

Это проблема не только с плохими данными, но с системой, в которой крупные исследовательские группы могут выпускать наборы данных с такими огромными проблемами, как оскорбительные выражения и отсутствие согласия на фотосъёмку. Как выразился специалист по этике в технологиях Шеннон Валлор, для любого учреждения, которое сегодня занимается машинным обучением, мы не знали это не оправдание, а признание. Как и алгоритм, который апскейлил Обаму в белого человека, ImageNet это продукт сообщества машинного обучения, где существует огромное отсутствие разнообразия (вы заметили, что большинство сгенерированных людей в этом блоге белые? Если вы не заметили, это может быть связано с тем, что большая часть западной культуры рассматривает белый цвет как цвет по умолчанию).

Требуется много работы, чтобы создать лучший набор данных и лучше узнать о том, какие наборы данных никогда не должны создаваться. Но эта работа стоит того, чтобы её делать.

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых д

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

A survey of data quality tools (2005)

Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если

Problems, Methods, and Challenges in Comprehensive Data Cleansing (2003)

A Taxonomy of Dirty Data (2003)

В данной статье я покажу и расскажу, как можно сгенерировать аватарки как на Github.

Результат генерации для ника "test1"

Для начала нужно понять, как устроена аватарка с Github'а. На п

Привет, Хабр!

Я работаю Computer Vision Engineer в Everypixel и сегодня расскажу вам, как мы учили генеративно-состязательную сеть создавать тени на изображении.

Разрабатывать GAN не так трудно, как кажется на первый взгля

Перевод Когда ваши данные грязные

Сейчас читают

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод ИИ все еще не умеет модерировать хейт-спич

О том как мы научили машину определять пол человека по его почерку

Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Набор данных