Русский
Русский
English
Статистика
Реклама

Bias

Главная причина дискриминации в ML

12.04.2021 22:14:50 | Автор: admin

Из предыдущего поста вы узнали, что в ML существует дискриминация. Отлично! Таким образом вы уже разбираетесь в Этике машинного обучения лучше, чем многие инженеры МL. Благодаря примерам (из медицины, анализа твиттов, распознавания лиц) вы наверняка уже сделали вывод, что существуют разные виды предвзятости.

Алгоритмы машинного обучения строят стереотипы на основе каких-либо черт и особенностей, так же как это делаем и мы с вами.

Три кита дискриминации

Есть три характеристики людей, на которых основываются большинство предвзятостей в real-world алгоритмах:

  • Гендер

  • Раса

  • Возраст

Дискриминация может быть против многих характеристик (доход, образование, и т.д.), вытекающих из указанных выше. В алгоритмах, которые работают с людскими данными, ими в основном являются доход, место проживания, образование и т.д.

Одним словом: практически всё, к чему обычный человек может проявить дискриминацию. Эти характеристики называют чувствительными атрибутами (sensitive attributes) особенности, по отношению которых проявляется дискриминация.

Набор данных, по которым обучается модель машинного обучения, имеет конкретные признаки (features). Признаки (или атрибуты) являются одной из основных причин, почему существует предвзятость в алгоритмах машинного обучения.

Важно будет отметить, что самой модели машинного все равно на то, против чего дискриминировать. Это может быть цвет стебля у растения, глубина глазниц, город рождения кота и так далее. Современные модели не обладают возможностями к мышлению, а являются просто продвинутым инструментом анализа данных.

"Man is to Computer Programmer as a Woman is to Homemaker"Здесь вы можете увидеть распределение уже "справедливых" word-embeddings: сверху гендерно-нейтральные слова, снизу специальные для каждого гендера. "Man is to Computer Programmer as a Woman is to Homemaker"Здесь вы можете увидеть распределение уже "справедливых" word-embeddings: сверху гендерно-нейтральные слова, снизу специальные для каждого гендера.

Если задуматься, то всё кажется вполне очевидным: модель, которая фактически работает за счёт запоминания закономерностей из данного набора данных (а эти данные отражают стереотипы людей), будет наверняка помнить эти не всегда справедливые (или стереотипичные) закономерности и начнёт использовать их для прогнозов.

Примеры дискриминации по половому признаку из алгоритмов машинного обучения:

  1. Word embeddings, полученные из статьей с Google News (где материал довольно строго курируется), отражают большое количество гендерных стереотипов (Man is to Computer Programmer as Woman is to Homemaker)

  2. Точность алгоритмов распознавания лица IBMs и Face++ значительно ниже для женщин по сравнению с мужчинами (Gender Shades)

  3. Некоторые алгоритмы допускают серьёзные погрешности во время перевода женского голоса в текст ( Where is Female Synthetic Speech).

Предвзятость, связанная с расой, очень удручает многих специалистов в области технологий. Пару лет назад некоторые американские клиники предоставляли темнокожим пациентам почти в два раза меньше средств для специальной медицинской помощи. Используемый алгоритм предсказывал, что темнокожие меньше нуждались в особом наблюдении (https://science.sciencemag.org/content/366/6464/447.abstract) Другой алгоритм, COMPAS, который использовали в американских судах, выдавал в два раза больше ложноположительных (false positive) прогнозов о рецидивизме по отношению к темнокожим, нежели к светлокожим. (https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm) Есть еще масса примеров biasа, который основывается на расе.

Так почему это происходит?

Потому что используются реальные данные о людях и их исходах. Если многие чернокожие на самом деле оказались рецидивистами, эта закономерность запоминается (Чёрные люди с большей вероятностью снова совершат преступление). Алгоритм не берёт во внимание какие-либо особые обстоятельства, предысторию и прочие элементы трагической жизни индивидуума. А должен ли он? При этом в случаях, в которых алгоритм ущемляет определенные группа из-за социальных стереотипов (как в примере с корпусом слов), он по прежнему является объективным в рамках предоставленных ему данных.

Большинство алгоритмов машинного обучения делают то, что им говорят данные и статистические методы. Проще говоря, учатся на прошлом опыте: на объективных данных.

Поэтому возникает вопрос: так разве можно утверждать, что результаты, полученные с помощью такого (объективного) подхода, несправедливы?

Это и есть дилемма этики в ИИ: по мере того, как мы пытаемся стереть грань между человеческим мозгом и мозгом искусственного интеллекта, необходимо также определить грань между этическими и нравственными их составляющими.

Подробнее..

Дискриминация в алгоритмах ML существует и нет, это не либеральные сказки

26.03.2021 18:19:00 | Автор: admin

Человеческий мозг, как мы все знаем, полон предрассудков. Возникает вопрос: если машинное обучение "живет" за счет того, что очень близко имитирует этот наш мозг, то почему его алгоритмы не могут быть такими же необъективными и проявлять такую же несправедливость? К сожалению, они частенько это и делают.

Давайте расскажем вам как именно.

Машинное обучение (ML) это очевидно новая звездочка ИТ индустрии. И она уже никуда не денется. Одна из причин, почему ML сыграет (и уже играет) значительную роль в нашей жизни это успешная интеграция его моделей в большое количество уже существующих систем: социальные сети, шоппинг, здравоохранение и т. д.

В настоящее время в отрасль инновационных технологий хотят идти миллионы школьников, студентов и начинающих специалистов, стремящихся сделать карьеру в этой области. При этом, чтобы успешно обучить следующее поколение профессионалов в этой области, необходимо понять несколько неочевидных сторон машинного обучения.

Давно прошли те времена, когда люди могли слепо доверять программам в получении объективных рассчитанных результатов. Алгоритмы машинного обучения не дают простых математических результатов, как это делает калькулятор, а влияют на прогнозы преступной деятельности, медицинские диагнозы и решения о приеме на работу. Поскольку мир всё больше и больше полагается на машинное обучение при принятии важных решений, важно, чтобы мы узнавали о необъективных сведениях, понимали последствия некорректных результатов модели и принимали превентивные меры.

Так какая предвзятость (bias) есть в алгоритмах машинного обучения?

  • Интеграция машинного обучения в здравоохранение вызвала большие споры, потому что некоторые алгоритмы не могли одинаково лечить всех пациентов. Например, алгоритм обнаружения рака кожи был обучен с использованием данных, включающие в себя в основном фото и информацию о светлых тонах кожи. Следовательно, этот алгоритм был не эффективен при обнаружении рака кожи у людей с более тёмными тонами кожи. Несмотря на то, что у ИИ есть много возможностей повысить доступность медицинских услуг для нуждающихся, важно должны убедиться, что качество медицинской помощи не ухудшается для определенных демографических групп.

  • Хороший пример необъективности распознавания естественного языка (NLP) можно увидеть в социальных сетях: твиты, написанные афроамериканцами, в среднем отмечены алгоритмами ИИ как оскорбительные (хотя на самом деле таковыми не являются, показатель false positive) в 1,5 раза чаще, чем такие же твиты белых.

  • Было обнаружено, что даже более серьёзная предиктивная полицейская система неверно оценивает правонарушителей. COMPAS, система искусственного интеллекта, используемая для прогнозирования вероятности совершения преступником другого преступления, оказалась явно настроенной против афроамериканцев. Получилось так, что у афроамериканцев было вдвое больше ложных предсказаний рецидивизма, чем у белых американцев.

Почему эти признаки необъективности существуют?

Модели машинного обучения изучают закономерности в предназначенных для их обучения данных. Таким образом, если набор данных является стереотипным или не разнообразен, модели могут прийти к ложным выводам. Вот несколько примеров потенциальных ошибок обучения (некоторые из которых действительно произошли):

  • Использование обучающих данных, которые поступают исключительно из источника данных о состоянии здоровья военнослужащих. Поскольку большинство военнослужащих мужчины, знания алгоритма о здоровье женщин будут ограничены, что в свою очередь приведет к низкой точности алгоритма.

  • Использование данных, которые навязывают стереотип привязанности одного из полов к ряду обязанностей или занятий. Некоторые модели глубинного обучения связывают мужчину с доктором, а женщину с медсестрой из-за вектора представления слов, отображающего социальные стереотипы (word embedding).

  • Использование данных, которым не хватает разнообразия. Да, той самой любимой дайвёрсити. Многие модели распознавания лиц обучаются на данных, которые включают больше белых людей, чем черных. Исследование Тимнит Гебру и Джой Буоламвини показало, что 3 инструмента для распознавания лиц от крупных технологических компаний смогли почти идеально определить пол белых мужчин, а темнокожих женщин определили неверно в 35% случаев. Это может привести к очень серьезным ошибкам правоохранительных органов.

Откуда мы знаем о существовании этой предвзятости?

Признаки предвзятости всплывают, когда мы сравниваем точность с числом ошибок, которые модель имеет в разных группах. Исследование Тимнит Гебру является ярким примером этого: изучая эту статистику, мы можем увидеть, какие демографические группы дискриминируются моделями. Мы также можем проверить количество положительных и отрицательных результатов, проанализировав, имеется ли примерно одинаковое количество людей из разных групп, получивших один и тот же результат от модели.

Какие возможные способы решения этой проблемы существуют?

Препятствие, с которым в настоящее время сталкиваются многие компании, заключается в том, что им необходимо переобучить свои модели. Существует два главных способа для того, чтобы это сделать:

  • Ликвидация необъективности наборов данных, используемых моделями это влечёт за собой удаление существующих наборов данных, содержащих стереотипные данные, и создание репрезентации и дайверсити в них, в попытках сделать их более точными.

  • Устранение необъективности моделей. Это влечёт за собой изменение фактических векторных представлений слов для удаления стереотипной привязки (мужчина = доктор, и женщина = медсестра) при сохранении нужной гендерной информации (мужчина = король, и женщина = королева).

Тема является довольно неоднозначной и вовлекает проблемы целого общества, однако путем дискуссий и компромиссов решение может быть найдено. Если у вас есть опыт с темой Этики в ИИ - будет интересно прочитать о нем в комментариях.

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru