Русский
Русский
English
Статистика
Реклама

Искусственный интеллект

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

19.06.2021 16:06:42 | Автор: admin

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту курса о глубоком и машинном обучении делимся переводом о том, как эту проблему решили в Dropbox, где обнаружили, что внедрение ML в обработку клиентских платежей помогает пользователям оставаться довольными и работает лучше внедрённых за 14 лет политик биллинга.


Платежи в Dropbox

Платёжная платформа Dropbox управляет обработкой платежей миллионов наших клиентов. Когда клиент приходит на сайт и хочет оплатить один из наших продуктов, мы просим его ввести платёжные данные в форму оплаты. После отправки формы система собирает данные и вместе с суммой, которую мы хотим снять, безопасно отправляет их к одному из наших внешних партнёров, обрабатывающих платежи конкретного типа.

Всё это происходит за кулисами, когда пользователь Dropbox становится подписчиком. Как только платёж завершается и аккаунт становится платным, также пользователь вступает в платёжный жизненный цикл. Всё это от начала до конца обрабатывается нашей платёжной платформой.

Продление подписки и сбои

Обычно подписчики Dropbox платят за подписку ежемесячно или ежегодно. Если клиент дал нам полномочия снимать оплату, повторный платёж списывается с банковской карты клиента автоматически. Когда оплата проходит успешно, подписка продлевается без каких-либо действий со стороны пользователя.

Однако, если попытка оплаты не удалась, клиент оказывается в потоке, который мы называем сбой обновления. На этот случай у нас есть процедуры восстановления, которые пытаются предотвратить прерывание подписки.

Рисунок 1. Недобровольный отток происходит, когда истекает срок действия кредитной карты, или же она аннулирована, или на ней нет средств и т. д.Рисунок 1. Недобровольный отток происходит, когда истекает срок действия кредитной карты, или же она аннулирована, или на ней нет средств и т. д.

Чтобы определить время платежа от клиента, чья подписка не продлевается, наша платёжная платформа использовала статический набор из примерно 10 различных методов. Так сложилось исторически. Например, мы можем взимать плату с клиента каждые четыре дня, пока платёж не завершится успешно, в течение максимум 28 дней. Если платеж клиента к концу этого срока по-прежнему не выполнен, уровень его учётной записи в Dropbox понижается до бесплатной базовой учётной записи. Конечно, для активных пользователей и команд понижение уровня учётной записи создаёт неприятные впечатления, а для Dropbox недобровольный отток может обернуться упущенной выгодой.

Рисунок 2. Попытки обновленияРисунок 2. Попытки обновления

Сбои в оплате могут произойти по ряду причин. Среди них:

  • нехватка средств;

  • карта с истекшим сроком действия;

  • заблокированная карта возможно, сообщается о потере или краже;

  • непредсказуемые сбои обработки.

Некоторые причины могут быть устранены сами по себе, другие для восстановления подписки требуют действий клиента.

Зачем машинное обучение в работе с платежами?

Последние два года, чтобы выяснить, повлияет ли изменение времени оплаты на её успешность, Dropbox проводил A/B-тестирование. Чтобы разработать набор правил о том, когда взимать плату, эти тесты в значительной мере опирались на интуицию и знания людей в предметной области.

Команда платежей должна была вручную разделить пользователей на группы в зависимости от их признаков типа подписки, географического местоположения и т. д., а затем выполнить A/B-тест наших десяти или около того различных жёстко закодированных наборов правил, чтобы определить, какие из них лучше всего подходят для этих признаков. Затем команда платежей сохраняла оптимальный вариант политики для этой группы выставления счетов по умолчанию. Периодически команда проводила повторное тестирование, чтобы узнать, изменились ли для разных пользователей лучшие решения.

С другой стороны, этот подход доказал, что момент оплаты влияет на её успех, это позволило Dropbox поддерживать большее количество постоянных подписчиков. Но со временем многие правила перестали работать и достигли потолка эффективности. Кроме того, ручное обновление этих правил сложный, трудоёмкий процесс.

В стремлении уменьшить непроизвольный отток и необходимый для его поддержания объем работы, команда платежей в партнёрстве с командой прикладного машинного обучения для оптимизации выставления счетов экспериментировала с ML.

Как член команды ML я знала, что проблема похожа на проблему, которую эксперты по машинному обучению называют проблемой многорукого бандита, когда в распределении между конкурирующими альтернативами имеется ограниченный набор ресурсов. В смысле платежей мы должны определить, когда повторять попытку, сколько раз это делать и следует ли вообще пытаться повторить платёж.

Применяя машинное обучение, мы со временем выявили множество улучшений, которые не смогла бы просчитать даже команда ведущих экспертов по платежам:

  • устранение ручного вмешательства и сложной логики на основе правил;

  • например, Повторяйте каждые X дней или Избегайте попыток оплаты в выходные;

  • глобальная оптимизация множества параметров для конкретных сегментов клиентов;

  • устойчивость к изменениям клиентов и рынка;

  • увеличение общего числа успешных платежей и сокращение времени сбора платежей.

Говоря коротко, применение ML к платежам сделало счастливее и клиентов, и нас.

Как мы сделали это

Вначале мы сосредоточились на том, чтобы спрогнозировать, когда следует попробовать взимать плату, т. е. определить лучшее время для оплаты во время продления подписки, а также повторить попытку взимания платы с учётной записи во время сбоя обновления.

Эксперименты проводились с различными сегментами клиентов, а конкретно начиная с отдельных клиентов и команд в Северной Америке. Мы построили модель ранжирования с градиентным бустингом, обученную на таких признаках, как типы сбоев платежей, шаблоны использования учётной записи Dropbox и характеристики типа оплаты. Модель ранжирует попытки оплаты по прогнозируемой вероятности успеха для каждого окна оплаты.

Например, мы взяли окно в 8 дней, разделив его на часовые промежутки, так, в общей сложности получилось 192 отрезка времени. Чтобы найти самый протяжённый отрезок времени для попытки обновления, мы использовали наши модели. А также экспериментировали с дневными окнами по 6 и 4 часа.

Сначала эксперименты проводились с оптимизацией каждой попытки независимо. У нас была модель, оптимизирующая решение о том, когда взимать плату с клиента после неудачной первой оплаты. Если рекомендуемая попытка модели также проваливалась, в оставшейся части окна обновления мы по умолчанию возвращались к логике правил. A/B-тесты этой комбинации проводились на отдельных сегментах пользователей в США. Для таргетинга применялся внутренний сервис развёртывания функциональности Stormcrow. Модель стала работать лучше, и мы развернули её.

Нашей целью всегда была сквозная оптимизация неудачных попыток обновления. Процесс начинался с единственной моделью, и этот факт помог подтвердить, что ML применимо к решению задач такого типа. Тем не менее мы быстро поняли, что шаблон проектирования с отдельной моделью для каждой попытки оплаты только создал более сложную систему. Например, если бы мы повторили попытку оплаты 5 раз, прежде чем платёж удался, то так получили бы 5 моделей. И это противоречило цели применения ML снижению сложности биллинговой системы.

Поэтому подход был изменён в пользу единой модели, прогнозирующей, когда взимать плату с клиента несколько раз, до тех пор, пока клиент не продлит подписку или не будет понижен в рейтинге после прохождения максимального окна продления, как показано на рисунке 2. Если первый платёж не удавался, мы спрашивали модель о следующем лучшем моменте. Если оплата снова не удавалось, мы снова спрашивали модель о следующем лучшем моменте, и так далее максимальное количество раз. Если ни одна из попыток не заканчивалась продлением, клиент понижается в рейтинге. Но если хоть один из платежей удался, соответствующий счёт-фактура утверждался независимо от количества попыток оплаты.

Именно эта модель сегодня проходит A/B-тестирование в производстве при помощи Stormcrow со случайным набором команд участников тестирования Dropbox. Результаты пока положительные.

Predict Service

После появления обученных моделей нашим следующим шагом было сделать эти модели доступными во время обработки платежей. Нужен был способ передачи наилучшего полученного с помощью наших моделей машинного обучения момента оплаты в платёжную платформу с гарантией, что они будут частью политики выставления счетов.

Когда эксперименты только начинались, мы работали с платформой платежей, чтобы загрузить и запустить модели. Из-за добавленных зависимостей архитектура сильно раздулась. Задержки прогноза в среднем составляли около двух минут.

Чтобы упростить процесс, мы воспользовались созданным и управляемым командой платформы ML сервисом Predict Service, этот сервис управляет инфраструктурой для быстрого создания, развёртывания и масштабирования процессов машинного обучения в Dropbox. Применение Predict Service помогло сократить время ожидания при генерации прогнозов модели с нескольких минут до менее 300 мс для 99 % моделей. Переход на Predict Service также обеспечил возможность легкого масштабирования и чистое разделение двух систем.

С помощью этой системы машинного обучения платёжная платформа собирает все относящиеся к клиенту сигналы, запрашивает обслуживаемую через сервис Predict модель, чтобы получить лучшее время выставления счета, таким образом устраняя все наши разработанные и закодированные за 14 лет A/B-тестирования неоптимальные политики биллинга. Рабочий процесс этой системы построен следующим образом:

Белый цвет представляет компоненты платёжной платформы. Фиолетовым цветом обозначены компоненты системы машинного обученияБелый цвет представляет компоненты платёжной платформы. Фиолетовым цветом обозначены компоненты системы машинного обучения
  1. Получение прогноза о следующем лучшем времени списания средств. Когда попытка не удалась, платформа платежей, чтобы получить следующее лучшее время, запрашивает модуль Predict. Запрос выполняется с использованием идентификатора клиента и его типа.

  2. Получение сигналов клиентов. Модуль Predict собирает последние сигналы об использовании и о платежах клиентов, а также информацию о предыдущем сбое. Эти данные сохраняются в Edgestore (основной системе хранения метаданных в Dropbox) ежедневным заданием Airflow Job.

  3. Запрос прогноза. Собранные сигналы отправляются в Predict Service через вызов GRPC, который кодирует сигналы во фрейм данных о признаках, а затем отправляет их в модель.

  4. Генерация прогноза. Модель возвращает ранжированное наилучшее время оплаты. Этот прогноз отправляется обратно в модуль Predict, в свою очередь, результаты в биллинговую политику.

  5. Логирование результатов прогнозов. Модуль Predict, кроме прочего, логирует результаты прогнозирования модели, а также другую необходимую информацию, которая может использоваться для устранения неполадок и анализа.

  6. Расписание следующего платежа. Как только сервис платежей получает наилучшее время списания средств, он учитывает это время при планировании следующей попытки оплаты и сохраняет в Edgestore.

ML-операции

При развёртывании наша задача не была выполнена. Мы применили передовые методы DevOps к нашим системам сбора данных и прогнозирования: автоматизировали ежедневные задания по сбору данных и установили мониторинг, чтобы он уведомлял о любых сбоях и задержках этих заданий.

Для наших моделей и их обслуживающей и инфраструктуры мы определили набор специфичных для бизнеса и модели и отслеживаемых нами показателей, настроили оповещение на случай, если какие-либо показатели опускаются ниже приемлемого порога. Вот основные метрики и показатели, задействованные, чтобы убедиться, что всё работает как надо:

Бизнес-метрики

  • Коэффициент одобрения счетов. Основная метрика, которую нужно улучшить. При каждом продлении подписки в Dropbox все платежи за продление отслеживаются как часть единого счёта. Эта метрика сообщает нам, было ли обновление подписки успешным.

  • Коэффициент успешности попыток. Эта метрика помогает отслеживать успешность каждой предпринятой от имени пользователя отдельной попытки оплаты. Может быть предпринята одна, две, четыре или более попыток. Этот показатель наряду с показателем утверждения счетов помогает отслеживать, как можно быстро продлить срок действия договора с клиентом.

Внутренний мониторинг модели

Это внутренний в отношении процесса обучения и используемого инструментария комплекс мер. На основе входных данных он помогает нам определить, насколько хорошо настроена модель, а также во время её работы в производственной среде помогает выявить любые проблемы модели. Как вспомогательные для диагностики измеряются следующие показатели онлайн-модели:

  • Охват: процент клиентов, получивших рекомендации от модели, в сравнении с подходом фиксированного интервала в 4 дня.

  • Количество сделанных моделью прогнозов: количество рекомендаций, которые модель успешно выполнила без каких-либо ошибок.

  • Задержка прогнозирования: сколько времени потребовалось модели для составления каждой рекомендации.

Мониторинг инфраструктуры

Наряду с мониторингом и оповещением для платёжной платформы и сервиса Predict мы также отслеживаем следующее, чтобы определить, насколько хорошо работает инфраструктура:

  • свежесть и задержки в конвейерах данных признаков;

  • доступность и задержка сервиса Predict;

  • доступность EdgeStore.

Для мониторинга нашей модели и метрик инфраструктуры мы используем дашборды Grafana и Vortex. Для бизнес-метрик мы используем Superset. Все эти живые метрики и дашборды помогают нам проактивно отслеживать ожидаемое поведение модели, позволяя принимать соответствующие меры, когда оно отклоняется.

Ответственность за мониторинг этих показателей разделена между командой инженеров по платежам и командой прикладного машинного обучения. У нас есть руководства по устранению неисправностей с чёткими путями эскалации, помогающие дежурным инженерам отладить любые проблемы. Поскольку ML был новым для команды инженеров по платежам, мы потратили время на объяснение принципов работы систем и интерпретацию результатов модели. Это помогло двум командам успешно сотрудничать в работе над проектом и обеспечить бесперебойную работу.

Дальнейшие шаги

Наши эксперименты подтвердили, что система на основе ML превосходит систему формальных правил. Более того, без ручного управления и больших инвестиций производительность основанной на правилах системы со временем снижается, тогда как система ML не ухудшает показатели благодаря новым циклам обучения. Можно и дальше совершенствовать модели, добавляя больше релевантных характеристик и экспериментируя с их различными архитектурами.

Наша модель, ориентированная на индивидуальных клиентов, в настоящее время внедрена в производство. Модель оптимизации всего цикла обновления сейчас проходит A/B-тестирование. Компания стремится распространить оптимизацию через ML на всех наших клиентов.

Существуют также более сложные типы моделей, с которыми можно экспериментировать, включая обучение с подкреплением; теперь, когда у нас есть данные и построены производственные конвейеры. По мере совершенствования наших моделей мы сосредоточимся на дальнейшем улучшении показателей успешности продления, что также позволит клиентам оставаться довольными.

Здесь мы видим, что в вопросах формальных правил искусственный интеллект может превосходить естественный, а значит, специалисты в области ИИ будут всё более востребованы бизнесом. Если вы не хотите оставаться в стороне от этой бурно развивающийся сферы технологий, то можете обратить внимание на наш курс о машинном и глубоком обучении, где студенты не только создают работающие модели ML и глубокие нейронные сети, но и получают все необходимые специалистам теоретические знания.

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

5 условий зарождения искуственного интеллекта в индустрии

28.05.2021 16:10:14 | Автор: admin


Революция искусственного интеллекта не грядёт, она уже здесь и требует от компаний переосмысления бизнес-процессов, чтобы максимально использовать возможности искусственного интеллекта (ИИ) для расширения человеческих способностей.

Итак, у всех, кто интересуется современными технологиями, на слуху цифровизация, большие данные и проникновение искусственного интеллекта в разные области нашей жизни и деятельности. Ни для кого не секрет, что жизнь ИИ потихоньку зародилась вокруг нас: в наших карманах, сумках, машинах и домах, где живут наши гаджеты и различные электронные помощники. По словам ведущих специалистов в области искусственного интеллекта, эти технологии переживают сейчас третью волну, они наконец-то вырвались из исследовательских лабораторий и быстро становятся ключевым элементом трансформации бизнеса [1].

В своей публикации я хотел бы поделиться приобретённым опытом индустриализации проекта на базе ИИ и сформулировать пять, на мой взгляд, неотъемлемых, жизненно важных условий его успешной реализации.

1. Единая команда с общим мышлением





На первых этапах проекта, когда происходит исследовательская работа, изучение доступных данных, знакомство с технологическим процессом, генерация идей и гипотез, представители бизнеса и разработчики должны стать единой командой с общим пониманием целей и решаемых задач. Важно именно на первых стадиях проекта, чтобы он стал своим для объединенной команды, чтобы каждый его участник в полной мере осознавал и разделял ответственность за свои действия и общий результат.
Как показывает практика реализации проектов в металлургической отрасли, наиболее продуктивными оказываются команды, в которые включены специалисты из смежных подразделений предприятия: производственники, технологи, экономисты, специалисты по ИТ и работе с данными. Абсолютно точно разработка проекта невозможна без сотрудников, которые непосредственно будут пользоваться цифровым сервисом: они впоследствии и должны стать владельцами продукта.

Иначе получается так, что руководители предприятия и технологи, чьей прямой обязанностью является повышение эффективности производственных процессов, рассматривают внедрение цифровых сервисов как средство для достижения своих целей и высоко мотивированы в таких инициативах. А сторона эксплуатации, люди, которые непосредственно своими руками работают на производстве, относится к этому как к навязыванию дополнительных средств контроля или дополнительному усложнению уже привычных для них и устоявшихся производственных процессов. Или, например, команда разработки, сторона эксплуатации и технологи совместно выработали набор гипотез и даже провели эксперименты, которыми подтвердили их достоверность, однако может так оказаться, что их техническая реализация оказывается невозможной из-за отсутствия необходимых данных или источников сигналов.

Вот как описывают свой подход при реализации цифровых решений на одном из крупнейших промышленном предприятии России. Работа команд началась с того, что производственников попросили обозначить свои проблемы и пожелания: у кого что болит, кому что нужно для собственных планов. У всех сотрудников есть цели, которые связаны с нашей стратегией. Например, мы понимаем, как через пять лет должен работать конкретный прокатный стан, каким должно быть качество выпускаемой продукции, расход сырья, время простоев и т. д., чтобы стратегия в этой части была выполнена. И каждая бригада, которая работает с конкретным агрегатом, знает, каких результатов она должна добиться. Конечно, достичь этих целевых показателей непросто, иначе все компании были бы одинаково эффективными и прибыльными. Поэтому производственный персонал с готовностью откликается, если ему предлагают помощь в решении конкретных задач.
Команды обсуждают, в каких проблемных или высокопотенциальных направлениях могут помочь цифровые инструменты, формулируют гипотезы, как это можно сделать.

2. Переход к новой культуре технологических и бизнес-процессов





В ходе ряда исследований последних лет учёные выяснили, что при совершении одной и той же ошибки в прогнозах люди скорее перестают доверять алгоритму, чем человеку [1].
Да, люди склонны больше доверять себе подобным, потому что знают, как мы устроены, потому что примерно понимают логику поведения друг друга и легко могут представить себя на месте другого человека, спроецировать ситуацию.
Когда менеджеров первой линейки и среднего звена спросили, что побудило бы их доверять советам системы, 60 процентов выбрали вариант Чёткое понимание того, как работает система и как она генерирует совет, 55 процентов Система с проверенной репутацией, и 49 Система, которая объясняет свою логику [2].
Перед компаниями, которые берут курс на цифровизацию и переход на новый уровень построения технологических и бизнес-процессов за счёт внедрения систем ИИ, стоит сложная лидерская задача сформировать корпоративную культуру, способствующую пониманию целей, этапов, способов их проектирования и внедрения. Достичь этой цели непросто, поскольку многие люди, особенно те, кому непосредственно придётся взаимодействовать с ИИ, часто обеспокоены, что в конечном счёте машины могут занять их место, а они останутся ненужными и без собственного ремесла.
В рабочей среде необходимо сформировать понимание, что искусственный интеллект позволит не отвлекаться на отдельные задачи и направлен не на замену сотрудников, а на расширение их возможностей, перевод функционала на новый уровень, облегчение их работы и возможность сосредоточиться не на рутинных процедурах, а на вещах, по-настоящему нуждающихся в человеческом интеллекте.
Команда разработки, со своей стороны, должна освоить язык индустрии, максимально глубоко погрузиться в производственные и технологические процессы.
Крайне важно, чтобы люди, которые будут непосредственно пользоваться ИИ, понимали основные принципы его устройства и поведения, могли вносить коррективы в результаты его работы и чувствовали себя активными участниками разработки, чтобы у них было ощущение прозрачности и контроля системы. В идеале, конечно, системы ИИ необходимо проектировать так, чтобы они объясняли свои решения и помогали людям сохранять определенную автономию в принятии решения.

3. Экспериментирование с ИИ





Несколько раз в нашей практике бывало такое, что производственные бригады, которые работали с нашим сервисом, не выполняли его рекомендации или пытались его обмануть, потому что боялись получить нагоняй от своих начальников за возможное снижение показателей эффективности производства и повышенные производственные затраты (например, повышенный расход электроэнергии).
На этапах горячего тестирования системы ИИ важно создать максимально доверительную обстановку внутри объединённой команды, важно дать понять экспериментаторам, что отрицательный результат это тоже результат и порой он бывает даже более ценным, чем положительный. Тут необходимо быть максимально честными и не утаивать истинное положение дел. Где-то это сравнимо с приёмом у врача. У пациента не всегда бывает желание рассказывать обо всех своих симптомах и отклонениях по здоровью, он утаивает некоторые, а впоследствии лечение становится гораздо более длительным, дорогостоящим и сложным.
Соль в том, чтобы стать немножко стартапом и научиться быстро экспериментировать с цифровизацией в стиле стартапов. Их обычное правило: если получается, идём вперёд, если нет, пробуем новую идею. Каждый такой стартап это многоступенчатый процесс проработки и развития гипотезы от рождения, через проверку и превращение в рабочее решение, до получения бизнес-эффекта. Причем сотрудники, которые занимаются одной гипотезой, должны сопровождать ее от начала до конца [2].
Основной метрикой развития гипотезы должен стать бизнес-эффект, для которого важно построить модель расчета в самом начале проекта, при этом на каждом шаге данная модель актуализируется. Очевидные вначале источники эффекта для гипотезы могут оказаться бесперспективными, но по ходу реализации могут появиться новые идеи, и результат будет достигнут за счет них.

4. Важность налаженной и полной поставки данных





Прежде всего следует отметить, что качество данных играет важнейшую роль в системах искусственного интеллекта. По существу, данные это топливо для искусственного интеллекта. Больше всего времени и усилий уходит на сбор и изучение адекватного массива данных для формирования и апробации гипотез. Опыт говорит, что примерно 80 процентов времени реализации ИИ-инициатив занимает извлечение, доставка и предобработка данных, конструирование признаков, а не составление самих алгоритмов. Нужно объяснять бизнес-заказчику, насколько важно собрать качественный датасет и почему столько времени уходит на его создание.
По нашему опыту, на начальных стадиях проекта данных не будет совсем или их объем будет ограничен как с точки зрения глубины хранения, так и со стороны дискретности, они будут с большим количеством пропусков и общим низким уровнем качества. И с этим придется работать: придумывать, как строить модели, оперирующие неполными данными, как оптимально интерпретировать некачественные.
В нашей практике также встречались случаи, когда технологи или производственники убеждали нас в бесполезности целого ряда технологических данных, которые, по их мнению и опыту, никоим образом не могут влиять на формирование оценки или рекомендации системы ИИ. Однако на практике оказывалось, что именно эти, на первый взгляд, нецелевые данные, помогали ИИ улавливать самую тонкую зависимость технологического процесса, и прогностическая сила модели увеличивалась именно за счёт них.
Поэтому важно с самого начала проекта готовить полноценную площадку для беспрепятственной и бесперебойной доставки данных, они должны быть обширными, разнообразными, качественными и полезными. Не выстраивать цепочки для доставки отдельных данных для проверки конкретной гипотезы, а наладить процесс, который поможет быстро конфигурировать требуемый набор данных и будет иметь достаточный потенциал для наращивания объёма доставляемой информации.

5. Забег на длинную дистанцию





Для российских компаний понятие цифровой трансформации связано с внедрением машинного обучения, аналитики больших данных, искусственного интеллекта, роботизации, дополненной реальности. Как отмечают эксперты, наибольших успехов в этом направлении добиваются те компании, которые рассматривают его не как набор отдельных инициатив, а как комплексную программу цифровизации, затрагивающую целый комплекс взаимосвязанных процессов и изменений в компании.
ИИ-проекты, как и любые инновации, следует воспринимать как венчурный бизнес. Не все проекты окупятся, еще меньше принесут ощутимую пользу, но несколько проектов принесут отдачу, которая многократно покроет все расходы.
Как следствие, необходимо избегать раннего отсеивания концепций, кажущихся утопическими. Полет человека в космос тоже довольно долго выглядел классической утопией, отвергался как невозможный на уровне науки.

Заключение


Сегодня искусственный интеллект быстро проникает во большинство сфер индустрии и бизнеса. Новая реальность взаимодействия человека и машины требует переосмысления устоявшихся ранее технологических и бизнес-процессов. Цифровой взрыв уже произошёл и сейчас происходит расширение цифровой вселенной. Те, кто смогут понять физические законы нового мира, следовать периферии идущего цифрового фронта, не будут бояться экспериментировать и внедрять новые технологии, перейдут на новый качественный уровень эффективности бизнес-процессов в своей сфере деятельности.

Литература



  1. Человек+машина. Новые принципы работы в эпоху искусственного интеллекта / Пол Доэрти, Джеймс Уилсон; пер.с англ. Олега Сивченко, Натальи Яцюк; [науч. ред. М. Григорьева, А. Кучма, А. Епишев, Е. Кученева]. М.: Манн, Иванов и Фербер, 2019. 304 с.
  2. Индустрия Х.0. Преимущества цифровых технологий для производства / Эрик Шеффер: Пер. с англ. М.: Издательская группа Точка, 2019.-320 с.
Подробнее..

Контроль сонливости водителя и кресла с учётом женской анатомии что нового в автомобильных технологиях безопасности?

09.06.2021 14:20:05 | Автор: admin

В 1959 году компания Volvo стала оснащать свои автомобили трёхточечным ремнём безопасности, а затем поделилась этой технологией со всеми производителями. Спустя десятилетие появились подушки безопасности, которые после тестов внедрили в серийные автомобили. От ремней до контроля поведения водителя, от пассивной до активной безопасности: какие технологии создали в последнее время и какие из них считаются одними из эффективных, рассказываем в этом материале.

Active safety и ADAS

Автомобили оснащаются электроникой, датчиками, сенсорами, радарами, которые позволяют чувствовать себя на дороге чуть более спокойными. Одна из них технология active safety это различные стабилизационные системы, которые берут на себя управление автомобилем в критических ситуациях.

ADAS (Advanced driver-assistance systems) включает ряд функций, таких как адаптивный круиз-контроль, стабилизационные системы, автоматическое экстренное торможение, обнаружение слепых зон, предупреждение о столкновении, предупреждение о перекрёстном движении и система удержания полосы. Автомобили могут определить, покинули ли вы свою полосу движения, упустили ли из виду пешехода или животное на дороге, помогут с парковкой в неудобных ситуациях.

Эксперты считают, что автомобили, оснащённые ADAS, снизили количество аварий и спасли жизни. Согласно исследованию LexisNexis Risk Solutions, владельцы автомобилей с системой ADAS на 27% реже обращались по поводу телесных повреждений и на 19% реже обращались по поводу повреждения имущества.

Возможное снижение количества несчастных случаев по мере роста внедрения ADAS.

Данные страхового института дорожной безопасности (IIHS) и производителей CCC Information Services, показывают, что автомобили, оснащённые ADAS, сокращают количество аварий на 20-50%. Институт прогнозирует резкое снижение аварийности в ближайшие 30 лет благодаря ADAS.

Automatic Emergency Braking

Одним из самых популярных и эффективных ADAS-решений для владельцев машин является автоматическое экстренное торможение (Automatic Emergency Braking). Американский страховой институт дорожной безопасности (IIHS) считает, что системы AEB предотвратят 28000 аварий к 2025 году.

Эта система использует датчики и камеры для обнаружения потенциального лобового столкновения и измерения расстояния до любого транспортного средства, а затем автоматически включает тормоза. Сокращая время реакции человека на торможение, система AEB может снизить вероятность аварии или, по крайней мере, уменьшить тяжесть удара.

В некоторых автомобилях используются радары, установленные на передней решётке, бампере или вентиляционных отверстиях. Другие полагаются на камеры, которые обычно устанавливаются внутри лобового стекла за зоной зеркал заднего вида. Некоторые используют и то, и другое. Независимо от метода обнаружения, программное обеспечение постоянно рассчитывает вероятность аварии на основе данных датчиков.

20 автопроизводителей согласились включить в свои автомобили автоматическое экстренное торможение как стандартную опцию к 2022 году. По данным страхового института дорожной безопасности, некоторые компании выполнили обещание, хоть и не идеально. Среди них Audi, Mercedes-Benz, Volvo and Tesla, а также BMW, Hyundai, Mazda, Subaru, Toyota and Volkswagen. Некоммерческая организация Consumer Reports считает, что внедрение технологий для спасения жизней должно быть не добровольным, а обязательным. Они призывают внести в федеральный закон США необходимость оснащения уже созданными технологиями всех новых моделей автомобилей, поступающих на рынок. Компания указывает, что автопроизводители должны сменить вектор и перестать продавать safety technologies как очередную дорогостоящую надстройку, как люк на крыше или модные стереосистемы.

Какие ещё есть системы и приложения?

Помимо экстренного торможения существуют технологии, помогающие наблюдать за происходящим внутри и снаружи. Среди них:

Адаптивное освещение

Ограниченная видимость может затруднить движение в ночное время, особенно по извилистым дорогам. Адаптивные фары улучшают ночное видение за счёт регулировки направления в зависимости от дороги впереди. AFS (Adaptive Front-Lighting System) использует датчики для измерения действий рулевого управления, затем система регулирует наклон и поворот фар, чтобы лучше видеть, куда вы собираетесь. Поэтому, когда водитель поворачивает, у него будет больше шансов понять, куда он направляется, вместо того, чтобы освещать обочину дороги. Кроме того, такая система позволяет избегать попадания прямых лучей на встречные автомобили.

Камера в салоне

К примеру, проект Honda CabinWatch, где используют камеру, чтобы помочь водителям минивэнов внимательно следить за детьми на заднем сиденье. Другие компании и сервисы экспериментируют с программным обеспечением для распознавания лица, чтобы разблокировать автомобиль или определить, когда водитель устаёт или отвлекается. К примеру, так делает Яндекс.Такси с их камерой Yandex Signal Q1, которая анализирует 68 точек на лице человека с помощью технологий компьютерного зрения и нейросети. Она фиксирует различные параметры, например, частоту и длительность моргания.

Мониторинг сонливости

У Jaguar разработана система контроля степени усталости водителя (Driver Condition Monitor), которая определяет признаки сонливости и предупреждает об этом. Она анализирует широкий ряд показателей: отклик системы электроусилителя руля, нажатие на педали газа и тормоза и общее поведение во время управления автомобилем. Алгоритмы изучают полученные данные, чтобы определить момент, когда водитель устаёт. Распознав признаки сонливости, система предлагает остановиться и отдохнуть.

Проекционный дисплей

Heads Up Display позволяет не спускать глаз с дороги, проецируя важную информацию на лобовое стекло автомобиля. Во время движения водитель видит скорость транспорта и GPS-навигацию на приборной панели. Такие дисплеи, например, есть у BMW.

Что может быть не так?

Все автомобильные технологии помогают, если их действительно использовать. Исследования показывают, что водители намеренно отключают функции, которые могут помочь избежать аварий. Некоторые родители опасаются, что новые решения мешают подросткам освоить основы. Они переживают, что различные сигналы, гудки и яркие огни сами по себе могут отвлекать.

Ещё один момент стоимость обслуживания автомобилей с ADAS. Ремонт датчиков, сенсоров, радаров дорог, и иногда только производитель может им заняться.

Пассивная безопасность

Помимо ремней и подушек, к пассивной безопасности можно отнести зоны деформации, поглощающие энергию столкновения. Для введения этих технологий были организованы краш-тесты, которые проводились на телах умерших людей, животных, живых испытателях и манекенах. Помимо самих автопроизводителей, краш-тесты проводят такие ассоциации, как европейская Euro NCAP, Национальное управление безопасностью движения на трассах США (NHTSA) и страховой институт дорожной безопасности IIHS, и похожие ассоциации в Германии, Австралии, Китае и Японии. В разных странах они отвечают за рейтинг безопасности и вывод на рынок новых моделей автомобилей. Тесты проводятся с помощью манекенов и компьютерного моделирования.

Женские манекены

Как раз о манекенах мы и упомянем. В 2019 году статья Guardian Смертельная правда о мире, построенном для мужчин из жилетов к автомобильным авариям вызвала бурное обсуждение. Оказалось, что когда женщина попадает в ДТП, у неё на 47% больше шансов получить серьёзные травмы и на 71% больше шансов получить травмы средней степени тяжести. А всё потому, что в экспериментах никогда должным образом не использовали женский манекен. Он существует, но его тестируют чаще на месте пассажира, а не водителя. И это просто уменьшенная версия мужского манекена, которая не учитывает размеры и состояние грудной клетки, шейного отдела, вес, рост и возможность быть беременной.

Что изменилось за это время?

Шведские исследования показали, что современные сиденья слишком прочные, чтобы защитить женщин от хлыстовых травм: они выбрасывают женщин вперёд быстрее, чем мужчин. Закономерно, что в авангарде решений находится компания Volvo. Они создали инициативу EVA и согласно накопленным данным подготовили систему защиты от хлыстовой травмы WHIPS. Она сочетает прочный подголовник с продуманной конструкцией сиденья для защиты головы и позвоночника. По мнению Volvo, сейчас отсутствует разница в риске травмы между мужчинами и женщинами. Помимо этого, есть инновация SIPS (система защиты от боковых ударов) которая вместе с подушкой безопасности при боковом ударе снижает риск серьезных травм грудной клетки более чем на 50% для всех пассажиров. И не последнее решение от шведов они разработали первый в мире манекен среднего размера для краш-тестов для беременных. Это компьютерная модель, которая позволяет изучить, как движется пассажир, и как ремень безопасности и подушка безопасности влияют, среди прочего, на женщину и плод.

Новая линейка манекенов для краш-тестов под названием THOR доступна давно, но ещё не была официально принята системами оценки безопасности NHTSA или IIHS. По форме они больше соответствуют мужскому и женскому телу и имеют на 100 датчиков больше для сбора данных, чем семейство Hybrid III стандартных манекенов. Женская версия имеет тазовую кость и грудь женской формы.

Астрид Линдер, директор по исследованиям безопасности дорожного движения Шведского национального исследовательского института дорог и транспорта, сотрудничала с европейскими учёными, чтобы разработать EvaRID, первую женскую виртуальную модель манекена, предназначенную для проведения краш-тестов низкой степени тяжести при ударе сзади. Виртуальное моделирование не всегда даёт такие конкретные результаты, как физические тесты, но оно обеспечивает гораздо большую гибкость при моделировании автомобильных аварий с различными типами телосложения.

Джессика Джермакян из IIHS, которая стал соавтором нового исследования риска травм для мужчин и женщин, обнаружила, что, хотя улучшения в области безопасности сделали автомобили безопаснее для всех, женщины по-прежнему значительно чаще получают травмы нижних конечностей, например, ноги и ступни.

Что нас ждёт?

Появляется всё больше решений для более безопасного вождения или сокращения ДТП. Из последних новостей: в Кембридже разработали голографический дисплей для автомобиля. Голограммы появляются в поле зрения водителя в соответствии с их фактическим положением, создавая дополненную реальность по мнению авторов, это может быть менее отвлекающим решением, чем проекционный дисплей.

Никакого алкоголя

Ожидается внедрение технологии, предотвращающей вождение водителями с опьянением Driver Alcohol Detection System for Safety (DADSS) это единственная технология, разрабатываемая для измерения или количественного определения точной концентрации алкоголя в крови. Это решение не позволит водителю, находящемуся в подвыпившем состоянии, завести двигатель автомобиля и управлять им в нетрезвом виде.

География авторынка

Решения будут зависеть и от географии авторынка. Так, Volvo запланирована современные технологии предупреждения о скользкой дороге и аварийной остановке для Северной Америки.

Кибербезопасность

Из-за увеличения количества программного обеспечения в автомобиле игроки рынка автомобилестроения должны обратить внимание на кибербезопасность. Она становится новой гранью качества для транспорта. В скором времени планируется ввод обновленных стандартов и регуляций, касающихся обновления программного обеспечения автомобиля по беспроводным сетям.

Источники материала:

  1. https://www.forbes.com/sites/christopherelliott/2020/10/03/your-car-knows-best-these-new-auto-safety-features-will-surprise-you/

  2. https://www.erieinsurance.com/blog/best-car-technology-features-2020

  3. https://www.volvocars.com/mm/why-volvo/human-innovation/future-of-driving/safety/cars-safe-for-all

  4. https://www.theguardian.com/lifeandstyle/2019/feb/23/truth-world-built-for-men-car-crashes

  5. https://humanetics.humaneticsgroup.com/products/anthropomorphic-test-devices/frontal-impact/thor-5f

  6. https://www.mckinsey.com/industries/automotive-and-assembly/our-insights/cybersecurity-in-automotive-mastering-the-challenge#

  7. https://cccis.com/wp-content/uploads/2020/12/CCC-Crash-Course-2020.pdf

Если вы разбираетесь в теме технологий и вам нравится сфера автомотив, у нас открыты интересные вакансии. Мы ищем С/С++ разработчиков, QA автоматизаторов, архитекторов и других специалистов. Все вакансии в автомотив практике в Luxoft по ссылке

Подробнее..

Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

15.06.2021 10:13:02 | Автор: admin
Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых данных и применения графовых технологий.

Материал Gartner является отличной пищей к размышлению, а в некоторых случаях он может сыграть важную роль при принятии стратегических решений. Для того, чтобы оставаться в курсе основных трендов и в то же время не тратить ресурсы на собственный анализ, уберечься от ошибок субъективного мнения, удобно пользоваться предоставленным отчетом, перевод которого и предлагается в этой статье.

Источник

Коротко о трендах


В предложенном материале Gartner выделяет ряд трендов в индустрии, связанной с машинным обучением и искусственным интеллектом. Не стоит ожидать, что статья откроет новые горизонты: в ней собраны те особенности и тренды, которые уже прошли этап новаторства, а также этап привлечения ранних последователей, однако если не обратить должного внимания на отмеченные тенденции, то можно опоздать даже попасть в категорию отстающих последователей. Кроме того, в статье явно прослеживаются рекламные и побудительные элементы, нацеленные на аудиторию, влияющую на инновации в своей области бизнеса, т.е. на основную аудиторию Gartner. В процессе перевода не удалось уйти от упомянутых элементов, однако рекомендуется к ним относиться снисходительно, т.к. эти рекламные вставки перемежаются ценной информацией. Некоторые из трендов напрямую связаны с изменениями в индустрии, к которым привела эпидемиологическая обстановка. Другие с растущей популярностью систем автоматического принятия решений и использованию ИИ в бизнес-аналитике. Отдельно хочется отметить тренд, связанный с графовыми методами, которые быстро развиваются и набирают все большую популярность. Тем не менее, некоторые из них носят скорее номинальный характер. Одним из таких номинальных трендов на первый взгляд кажется термин XOps, в котором Gartner объединяет направления DataOps, ModelOps и DevOps, комментируя свое видение следующим образом: Умножение дисциплин Ops, вытекающих из лучших практик DevOps, вызвало значительную путаницу на рынке. Тем не менее, их согласование может принести значительные преимущества организациям, которые способны гармонизировать эти дисциплины Практики XOps объединяют разработку, развертывание и обслуживание, чтобы создать общее понимание требований, передачу навыков и процессов для мониторинга и поддержки аналитики и артефактов ИИ. В этом, казалось бы, номинальном тренде, прослеживается мысль, отсылающая к теме Франкенштейна: мало состыковать отдельные рабочие части компании, т.к. они будут функционировать хаотично и не согласовано, жизнь и полезная активность начнется после того, как эти разрозненные части будут синхронизированы и гармонизированы. Но не буду раскрывать все карты сразу, предлагаю читателю самостоятельно ознакомиться с находками Gartner далее.

Как изменилась работа data-специалистов


По словам экспертов Gartner, на фоне COVID-19 организации, использующие традиционные методы аналитики, которые в значительной степени полагаются на большие объемы исторических данных, осознали одну важную вещь: многие из этих моделей больше не актуальны. По сути, пандемия изменила все, сделав множество данных бесполезными. В свою очередь, прогрессивные команды, занимающиеся обработкой данных и аналитикой, все больше переходят от традиционных методов искусственного интеллекта, основанных на больших данных, к классу аналитики, использующей малые или более разнообразные данные.

Переход от больших данных к малым и широким данным одна из главных тенденций в области данных и аналитики на 2021 год, которую выделяет Gartner. Этот тренд отражает динамику бизнеса, рынка и технологий, которую лидеры, работающие в области данных и аналитики, не могут позволить себе игнорировать, отмечают эксперты компании.

Данные тенденции могут помочь организациям и обществу справиться с разрушительными изменениями, радикальной неопределенностью и реализовать возможности, которые они открывают, в течение следующих трех лет, говорит Рита Саллам, вице-президент Gartner по исследованиям. Руководители отдела обработки данных и аналитики должны заранее изучить, как использовать эти тенденции в критически важных инвестициях, которые увеличивают их возможности для прогнозирования, изменений и реагирования.

Каждая из тенденций соответствует одной из трех основных тем:

  1. Ускорение изменений в данных и аналитике: использование инноваций в области искусственного интеллекта, улучшенная возможность по компоновке, а также более гибкая и эффективная интеграция разнообразных источников данных.
  2. Операционализация ценности бизнеса посредством более эффективного использования XOps: позволяет лучше принимать решения и превращать данные и аналитику в неотъемлемую часть бизнеса.
  3. Принцип все распределено: предполагает гибкое соотнесение данных и идей для расширения возможностей более широкой аудитории людей и объектов.

Тренд 1. Продвинутый, ответственный, масштабируемый ИИ


Более умный, ответственный, масштабируемый ИИ позволит улучшить алгоритмы обучения, интерпретируемых систем и сократить время оценки. Организации начнут требовать гораздо большего от систем искусственного интеллекта, и им нужно будет выяснить, как масштабировать технологии до сих пор это было сложной задачей.

Хотя традиционные методы ИИ могут в значительной степени полагаться на исторические данные, учитывая, как COVID-19 изменил бизнес-ландшафт, исторические данные могут больше не иметь значения. Это означает, что технология ИИ должна быть способна работать с меньшим количеством данных с помощью методов малых данных и адаптивного машинного обучения. Эти системы ИИ также должны защищать приватность, соблюдать федеральные правила и минимизировать предвзятость для поддержки этичного ИИ.

Тренд 2. Составные данные и аналитика


Целью составных данных и аналитики является использование компонентов из множества данных, аналитики и решений ИИ для создания гибкого, удобного, адаптированного под потребности пользователей интерфейса, который позволит руководителям связывать аналитические данные с бизнес-действиями. Запросы клиентов Gartner показывают, что в большинстве крупных организаций имеется более одного стандартного корпоративного инструмента аналитики и бизнес-аналитики.

Составление новых приложений на основе комплексных бизнес-возможностей каждой компании способствует повышению производительности и гибкости. Составные данные и аналитика не только будут способствовать сотрудничеству и развитию аналитических возможностей организации, но и расширят доступ к аналитике.

Тренд 3. Фабрика данных как основа


По мере того, как данные становятся все более сложными, а цифровой бизнес ускоряется, фабрика данных представляет собой архитектуру, которая будет поддерживать составные данные и аналитику, а также ее различные компоненты.

Фабрика данных сокращает время на проектирование интеграции на 30%, развертывание на 30% и поддержку на 70%, поскольку технологические разработки основаны на возможности использования / повторного использования и комбинирования различных стилей интеграции данных. Кроме того, фабрики данных могут использовать существующие навыки и технологии из data-хабов (data hubs), озер данных (data lakes) и хранилищ данных (data warehouses), а также внедрять новые подходы и инструменты для будущего.

Тренд 4. От больших данных к малым и широким данным


Малые и широкие данные, в отличие от больших данных, решают ряд проблем для организаций, которые сталкиваются со все более сложными вопросами, касающимися ИИ, и проблемами, связанными с редкими вариантами использования данных. Широкие данные с использованием методов X-аналитики позволяют анализировать и объединять многообразие малых и широких, неструктурированных и структурированных источников данных для повышения осведомленности о контексте и принимаемых решениях. Малые данные, как следует из названия, могут использовать модели данных, которые требуют меньше данных, но все же предлагают полезные инсайты.

Источник

Тренд 5. XOps


Целью XOps (данные, машинное обучение, модель, платформа) является достижение эффективности и экономии за счет масштаба с использованием передовых практик DevOps, а также обеспечение надежности, повторного использования и повторяемости при одновременном сокращении дублирования технологий и процессов и обеспечении автоматизации.

Тренд 5. XOps. Источник

Эти технологии позволят масштабировать прототипы и обеспечить гибкий дизайн и гибкую оркестровку управляемых систем принятия решений. В целом, XOps позволит организациям использовать данные и аналитику для повышения ценности бизнеса.

Тренд 6. Проектирование интеллекта принятия решений


Интеллект при принятии решений это дисциплина, которая включает в себя широкий спектр решений, в том числе традиционную аналитику, искусственный интеллект и сложные адаптивные системные приложения. Инженерная аналитика решений применяется не только к отдельным решениям, но и к последовательностям решений, группируя их в бизнес-процессы и даже сети принятия срочных решений.

Это позволяет организациям быстрее получать информацию, необходимую для стимулирования действий для бизнеса. В сочетании с возможностью компоновки и общей структурой данных инженерный анализ решений открывает новые возможности для переосмысления или перестройки того, как организации оптимизируют решения и делают их более точными, воспроизводимыми и отслеживаемыми.

Тренд 7. Данные и аналитика как ключевая бизнес-функция


Руководители бизнеса начинают понимать важность использования данных и аналитики для ускорения инициатив цифрового бизнеса. Вместо того, чтобы быть второстепенной задачей, выполняемой отдельной командой, данные и аналитика переключаются на основную функцию. Однако руководители предприятий часто недооценивают сложность данных и в конечном итоге упускают возможности. Если директора по данным (CDO) участвуют в постановке целей и стратегий, они могут увеличить стабильное производство стоимости бизнеса в 2,6 раз.

Тренд 8. Графы в основе всего


Графовые подходы формируют основу современных данных и аналитики, предоставляя возможности для усиления и улучшения взаимодействия c пользователями, моделей машинного обучения и интерпретируемого ИИ. Хотя графические технологии не новы для данных и аналитики, произошел сдвиг в мышлении вокруг них, поскольку организации выявляют все больше вариантов их использования. Фактически, до 50% запросов клиентов Gartner о ИИ связаны с обсуждением использования graph-технологий.

Источник

Тренд 9. Расширение пользовательского опыта


Традиционно бизнес-пользователи были ограничены использованием преднастроенных панелей аналитики (dashboard) и ручных инструментов исследования данных. Чаще всего это предполагало, что панели аналитики ограничивались работой дата-аналитиков или гражданских специалистов по данным, которые изучали заранее определенные вопросы.

Однако Gartner полагает, что в дальнейшем эти информационные панели будут заменены автоматизированными, интерактивными, мобильными и динамически генерируемыми аналитическими данными, адаптированными к потребностям пользователей и доставляемыми в их точку потребления. И это, в свою очередь, означает переход знаний от ограниченного круга специалистов в области данных к любому сотруднику организации.

Тренд 10. Данные и аналитика впереди планеты всей


По мере того, как все больше технологий анализа данных начинает существовать за пределами традиционных центров обработки данных и облачных сред, они все больше приближаются к физическим активам. Это уменьшает непрозрачность решений, построенных на данных, что и обеспечивает их большую ценность в реальном времени.

Перенос данных и аналитики на периферию позволит группам специалистов по работе с данными расширить возможности и влияние на различные части бизнеса. Также это позволит предоставить решения в ситуациях, когда данные не могут быть перемещены из определенных регионов по юридическим или нормативным причинам.

В заключение


Сложно переоценить слова Gartner: наблюдаемые тренды, безусловно, играют немаловажную роль в дальнейшей судьбе индустрии. В отмеченных трендах явно выделяется фокус на инженерную составляющую индустрии ИИ: поддержка и контроль качества моделей машинного обучения, ответственность и масштабируемость ИИ, повсеместность использования и т.д. Это наблюдение лишний раз подтверждает то, что долина разочарования, связанная с проектами по применению ИИ уже пройдена, мир принял технологию и теперь более актуальными становятся вопросы интеграции, оптимизации, контроля качества и надежности.

Нас, представителей компании CleverDATA, активно использующих ИИ в повседневной работе, отчасти уже коснулись упомянутые в статье тренды: мы пришли к аналогичным выводам через собственный опыт. Благодаря выделенным в статье тенденциям, у читателей есть возможность подготовиться к переменам в индустрии ИИ, например, освоить методы работы с графовыми нейронными сетями или взяться за освоение элементов профессии Data Engineer. Предусмотрительный работник готовит не только сани летом, но и актуальные в будущем навыки уже сейчас.
Подробнее..

Перевод Как StarCraft II может помочь экологам в изучении жизни на Земле

30.05.2021 18:13:46 | Автор: admin

Вряд ли Лу Барбе осмелится назвать себя заядлым геймером. Он занимается проблемами экологии в Университете Ренна во Франции, проводя большую часть времени среди растений. Но одна игра с самого детства захватила его воображение: StarCraft популярная онлайн-стратегия, в которой игроки накапливают ресурсы и создают армии инопланетных бойцов для ведения войн на внеземных территориях. "Игрок из меня никакой, говорит Барбе, но я понимаю, что происходит в игре".


Несколько лет назад, играя в StarCraft II (последнюю версию игры), Барбе понял, что помимо всех взрывов и лазерных ударов в игре происходит что-то ещё. Он обратил внимание, что события в StarCraft развиваются точно так же, как развивается любая экосистема."В игре имеется среда, говорит Барбе. В игре имеются ресурсы и организмы, конкурирующие друг с другом в этой среде. Всё это очень хорошо подходит под определение экосистемы".

На этом идея Барбе пока и ограничилась. Но в 2019 году DeepMind, дочерняя компания Google Alphabet по исследованию ИИ, выставила интеллектуального агента под названием AlphaStar против лучших в мире игроков в StarCraft II. AlphaStar превзошёл в мастерстве 99,8% геймеров-людей, получив заветное звание гроссмейстера высший ранг в игре и дополнив тем самым список побед ИИ над людьми.

После этого Барбе пришло в голову, что способности AlphaStar могут не ограничиваться управлением действиями инопланетян на выдуманной планете. Если StarCraft функционирует подобно экосистеме, возможно, игровые алгоритмы могли бы помочь исследователям в изучении экологических проблем Земли?

В статье, опубликованной в журнале Trends in Ecology and Evolution в 2020 году, Барбе вместе с другими экологами из Реннского университета и Университета Бригама Янга объясняет, как способность AlphaStar управлять сложной многомерной динамикой StarCraft может применяться для проверки идей о динамике развития экосистем в реальном мире с решением этой задачи традиционные модели пока справиться не могут.

Например, исследователи могут запускать агентов AlphaStar на картах StarCraft, созданных для имитации реалистичного распределения ресурсов, и создавать модели, на базе которых можно получить представление, как различные организмы реагируют на такие отклонения, как возникновение инвазивных чужеродных видов или уничтожение среды обитания.

Алгоритм AlphaStar, говорит Барбе, возможно, непреднамеренно стал самой сложной экологической моделью из всех существующих.

Идея использования мощных инструментов искусственного интеллекта для анализа экологических проблем не нова. Ещё 1520 лет назад инструменты ИИ использовались в экологии относительно редко, но исследователи отмечают, что в последнее время наблюдается бурный рост применения ИИ в этой области от классификации видов диких животных до прогнозирования увеличения популяций жуков в сосновых лесах.

По мнению экологов, инструменты ИИ в сочетании с новыми возможностями сбора большого количества данных о Земле позволят пересмотреть методы изучения экосистем и расширить возможности человека по прогнозированию таких изменений. В этих исследованиях могут помочь сложные алгоритмы, подобные AlphaStar, часто разрабатываемые для целей, не имеющих ничего общего с экологией.

"Сложность [большинства] экологических моделей ничтожно мала по сравнению со сложностью некоторых систем искусственного интеллекта, утверждает Бен Эббот, эколог из Университета Бригама Янга и соавтор статьи об AlphaStar. То, что умеем мы, экологи, не идёт ни в какое сравнение с тем, что умеют эти алгоритмы.

Как создавался чемпион

Для исследователей ИИ игра StarCraft II, вышедшая в 2010 году, стала сложным интеллектуальным вызовом. Так же как в шахматах или го, игроки StarCraft управляют различными отрядами, чтобы нападать на противников, но здесь игроки тоже выбирают, где и когда собирать ресурсы, когда создавать новые отряды, какие именно отряды создавать и тому подобное, и всё это в окружении множества посторонних факторов. В шахматах в одной позиции у игрока есть выбор из примерно 35 возможных ходов, в игре Go из 200250. Но в StarCraft II возможных ходов в одной позиции 1026. Кроме того, в отличие от игр, называемых теоретиками игр играми с "полной информацией", где все игроки могут видеть полное игровое пространство, события в StarCraft происходят на огромной карте, которую геймеры могут видеть лишь частично.

Дополнительная сложность состоит в том, что геймеры играют за одну из трёх инопланетных рас терранов, протоссов или зергов, каждая из которых имеет сильные и слабые стороны.

Чтобы натренировать алгоритм AlphaStar и создать ИИ, который способен брать верх над лучшими игроками в StarCraft II, исследователи DeepMind использовали методы машинного обучения. Они начали с того, что создали лигу интеллектуальных агентов, обученных на основе данных сотен тысяч матчей StarCraft, проведённых между людьми. Затем они заставили членов лиги виртуальных агентов играть друг против друга, отобрали самых сильных из них, внесли в них определённые коррективы и отправили обратно в лигу. Они повторяли этот процесс до тех пор, пока не придали AlphaStar силу джаггернаута, крушащего всё на своём пути. Ориол Виньялс, возглавлявший команду DeepMind создателя AlphaStar, сравнил саму лигу с некой экосистемой, в которой работает процесс естественного отбора. "Создавая лигу AlphaStar, мы черпали вдохновение из литературы об эволюции", рассказывает он.

Поведение медленно растущих терранов, одной из трёх инопланетных рас в StarCraft II, в экосистеме игры один в один напоминает поведение кактусов.Поведение медленно растущих терранов, одной из трёх инопланетных рас в StarCraft II, в экосистеме игры один в один напоминает поведение кактусов.

"Традиционные" исследователи ИИ черпали вдохновение в природе, Барбе же и его коллеги-экологи стали черпать вдохновение в игре. В своей работе, опубликованной в 2020 году, они подробно описывают глубокие параллели между расами терранов, протоссов и зергов в StarCraft, и конкурентными стратегиями, характерными для определённых видов организмов.

Например, отряды зергов это прирожденные колонизаторы, но слабые бойцы. Они ведут себя как сорные растения: мелкие, худосочные, хилые, но после нарушения экосистемы первыми дают ростки жизни именно они.Протоссы, с другой стороны, ведут себя как папоротники. Они расходуют много ресурсов и лучше всего растут в группах.Терраны напоминают кактусы: медленно растут, но прекрасно держат оборону. Как и в реальной экосистеме, эти "виды" используют собственные стратегии в борьбе за ресурсы в сложных схемах взаимодействия.

Барбе полагает, что наблюдение за взаимодействием между агентами AlphaStar в StarCraft может стать способом проверки гипотез об экологических и эволюционных процессах, которые обычные статистические модели смоделировать не в состоянии, например предсказать, как небольшое изменение доступных ресурсов в одном углу карты в StarCraft повлияет на поведение отрядов терранов и зергов, сражающихся в противоположном углу (правда, эту свою идею Барбе на практике ещё не проверял).

Представьте, что терраны и зерги это сосны и короеды, и вы поймёте, что такая информация может представлять довольно существенную ценность для специалистов по охране окружающей среды. Для учёных эта игра может стать песочницей экспериментов с экосистемами, рассказывает Барбе.

"Возникает весьма интересная игрушечная модель вы наблюдаете за очень упрощённой системой и можете задавать очень конкретные вопросы, говорит Энн Тессен, специалист по работе с данными из Университета штата Орегон, не имеющий отношения к работе по экологическому смыслу StarCraft. Просто нужно помнить, что вы имеете дело с моделью".

Модные технологии

Надо признать, что StarCraft II при всей своей сложности намного проще реальной экосистемы. Барбе отмечает, что в игре никак не отражены базовые природные процессы, например азотный цикл, а также никак не затрагиваются ключевые отношения между организмами, например паразитизм. К тому же в мире StarCraft II всего три вида существ.

"Проблема, на мой взгляд, заключается в том, что игровая механика, призванная быть как можно более развлекательной, лишь частично отражает реальный физический мир", считает Вернер Раммер, эколог из Технического университета Мюнхена. Раммер утверждает, что делать выводы о способностях AlphaStar вне рамок StarCraft, лишь наблюдая за его игрой, какой бы сложной и замысловатой она ни была, преждевременно.

Однако независимо от того, будут ли экологи когда-либо использовать AlphaStar в своих исследованиях, следует признать, что для решения проблем экологии и науки об окружающей среде всё чаще используются всё более сложные инструменты ИИ.

Десять лет назад, рассказывает Тессен, применение ИИ в экологии и науке об окружающей среде в основном ограничивалось задачами классификации, например быстрой идентификацией видов при анализе записей пения птиц или типов ландшафтов на спутниковых снимках. Сейчас, по его словам, ИИ в экологии выходит за узкие рамки классификации объектов и берётся за более разнообразные и амбициозные задачи, такие как составление прогнозов через анализ неупорядоченных многомерных данных, то есть именно таких данных, с которыми обычно имеет дело экология.

Однако ИИ в экологии используется всё ещё недостаточно активно, полагает Николя Лекомт, сотрудник Канадской кафедры полярной и бореальной экологии и эколог Университета Монктона в Канаде, который использует инструменты ИИ для классификации звуков арктических птиц и прогнозирования их миграции.

Экологи, как правило, не имеют навыков программирования, необходимых для обучения алгоритмов искусственного интеллекта, объясняет он. С ним соглашается Эббот, добавляя, что сбор достаточного количества данных для обучения алгоритмов непростая задача. Некоторые данные получить довольно легко, например посредством анализа спутниковых снимков, однако сбор других данных может быть сопряжён с большими трудностями, например сбор образцов почвы.

Отчасти эти проблемы объясняются недостаточным финансированием и нехваткой квалифицированных экологов, говорит Эббот. Ведь экология, отмечает он, это не самая "монетизируемая" область науки.

Такие компании, как Blizzard, создавшая StarCraft, ежегодно тратят сотни миллионов долларов на разработку алгоритмов для своих игр, говорит он. У них просто гораздо больше ресурсов, чем у нас. Но мы, конечно же, считаем, что наши проблемы гораздо важнее их проблем". Хоть это и была шутка, но в ней кроется чистая правда, в конце концов, жизнь на Земле это далеко не игра.

Машинное обучение и искусственный интеллект продолжают всё глубже проникать в самые разные сферы знаний, находя для этого всё более неочевидные и нестандартные пути. Если вам интересны новые подходы к машинному и глубокому обучению, разнообразные эксперименты с моделями, а также лежащие в основе моделей алгоритмы, вы можете обратить внимание на курс "Machine Learning и Deep Learning", партнёром которого является компания NVIDIA.

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Перевод Стаи рыб следуют алгоритмам композиционного обучения

11.06.2021 16:11:37 | Автор: admin

Группа животных это больше, чем сумма всех членов группы. Поведение одинокого муравья трудно назвать осмысленным, но их колония способна построить прочную и хорошо вентилируемую муравьиную кучу. Одинокий журавль может легко заблудиться в небе, но стая журавлей безошибочно выбирает правильный путь миграции. Во многих сложных когнитивных процессах мы регулярно наблюдаем отличия в поведении группы от поведения её отдельных членов. Как это возможно? Даже автор статьи, кандидат наук, не может понять, как примитивные рыбы золотые нотемигонусы, абсолютно безнадёжные, безмозглые существа, собираясь в стаи, способны эффективно уклоняться от хищников. Автор прочитал десятки статей и учебников, проводил эксперименты, анализировал данные и консультировался с теоретиками, пытаясь понять, почему, когда речь идёт о рыбах, 1 плюс 1 получается не 2, а 3.

К старту курса о машинном и глубоком обучении мы перевели материал о том, как групповое поведение связано с композиционным (ансамблевым) обучением, где вы найдёте как кратко изложенную теорию со ссылками, так и вопросы, которые сегодня стоят перед наукой о коллективном поведении.


Полученные знания не дали мне ничего, кроме самих знаний, но вот настал день, когда я оставил академическую науку и решил заняться математическим и компьютерным моделированием. Когда я начал изучать теорию и методы анализа данных, я с удивлением заметил любопытную параллель между процессами принятия решений стаей рыб и принятием решений в алгоритмах композиционного обучения.

Здесь я расскажу о том, как группы, составленные из плохо обучаемых индивидуумов это могут быть как отдельные рыбы, так и деревья решений, могут формировать структуру, очень точно обрабатывающую данные (информационный процессор).

Машина

Сначала рассмотрим, как обстоят дела в области машинного обучения, ведь вам, вероятно, ближе алгоритмы, чем животные! Для формирования прогноза в методах композиционного обучения используется набор моделей, а не одна модель. Идея заключается в том, что ошибки в прогнозах отдельных моделей нивелируются, что приводит к более точным прогнозам в целом.

На показанной ниже схеме группа составляется из нескольких серых прямоугольников. Каждый прямоугольник отдельная модель. Чтобы сгенерировать прогнозируемое значение, входные данные отправляются в разные модели, и каждая из них формирует прогноз. После этого отдельные прогнозы сводятся к единому общему прогнозу путём усреднения (для регрессии) или принятия решения по принципу большинства (для классификации).

Одним из популярных композиционных методов является алгоритм случайного леса модель, состоящая из десятков и даже сотен деревьев поиска решений. Способов объединения деревьев в группы (лес) очень много, но суть процесса всегда одна: каждое дерево независимо тренируется на бутстрэп-наблюдениях и случайных наборах признаков. (Если для каждого дерева использовать одни и те же данные, каждый раз будет создаваться одно и то же дерево!)

В результате получается набор моделей, каждая из которых понимает тренировочные данные по-своему. Такое видоизменение имеет решающее значение. Одиночные деревья решений быстро становятся чрезмерно аппроксимированными (переобученными), так как имеют дело лишь с одним набором тренировочных данных, но таких ситуаций в реальном мире практически не бывает. Но, поскольку группа состоит из множества деревьев, такие ошибки при формировании совокупного прогноза способны нивелировать друг друга.

Теория

Повышенную точность модели случайного леса можно назвать коллективным интеллектом. Этот термин вошёл в обиход в 1906 году после того, как на ярмарке скота в Плимуте, штат Массачусетс, провели конкурс на угадывание веса быка. Угадать вес пытались почти 800 фермеров. Позже статистик сэр Фрэнсис Гальтон проанализировал все оценки и пришёл к выводу, что, несмотря на то что отдельные оценки сильно отличались друг от друга, среднее значение оценок было более точным, чем любая отдельно взятая оценка. Гальтон изложил свою теорию в знаменитом труде Vox Populi.

Для того чтобы коллективный интеллект работал, необходимо соблюдение двух основных требований. Первое требование люди должны получать разную информацию. Если у всех будет одинаковая входная информация, решение группы не будет более точным, чем решение отдельного человека. Решение группы может быть даже менее точным, чем решения отдельных людей, так как некоторые члены группы под воздействием эффекта эхо-камеры могут выдавать неверные прогнозы[1].

Второе требование отдельные оценки должны быть независимыми. Если бы эти 800 фермеров перед голосованием советовались со своими коллегами, количество уникальных точек зрения сократилось бы до нескольких сотен, а может быть, и нескольких десятков, так как мнения людей стали бы влиять друг на друга. При этом больший вес имели бы мнения людей, уверенно и напористо отстаивающих свою точку зрения, а мнения тихонь игнорировались бы; необычная информация отбрасывалась бы в пользу общеизвестной.

В каком-то смысле такие фермеры формируют картину случайного леса, на обучение которого ушли десятилетия. На протяжении всей жизни фермеры учились соотносить различные характеристики быка длину рогов, высоту в холке и прочее с его весом. На ярмарке каждый фермер брал новую точку отсчёта и проводил самостоятельную оценку. Гальтон объединил все их ответы и вывел окончательный прогноз.

Рыбы

То, что произошло на ярмарке крупного рогатого скота, можно объяснить коллективным интеллектом, но что касается наших рыб золотых нотемигонусов, ситуация гораздо интереснее. Алгоритм случайного леса не вполне подходит для описания стаи рыб по одной причине: информация, которую рыба имеет о своём окружении, сильно коррелирует с её соседями.

Взгляните на приведённое ниже изображение стаи из 150 золотых нотемигонусов. Поле зрения каждой рыбы аппроксимировали с помощью метода отслеживания лучей, в белый цвет окрашены только те лучи, которые покидают группу.

Первое, что бросается в глаза, внутренняя часть стаи является мёртвой зоной в смысле информации о внешнем мире, эти рыбы видят только других рыб. Второе, на что следует обратить внимание, отдельные особи, которым поступает информация из внешней среды, если рядом с ними находятся другие особи, получают практически идентичную информацию об окружении.

Каким же образом такая группа может принимать информированные решения о том, повернуть налево или направо, искать ли пищу или прятаться от хищника, если эта группа получает лишь малую часть независимых данных о внешнем мире? И как члены этой группы без лидера могут действовать согласованно? Ведь некоторые стаи рыб с успехом находят убежища и реагируют на опасность даже в тех случаях, когда информация, поступающая отдельным особям, пространственно автокоррелируется, что препятствует применению коллективного интеллекта.

К сожалению, точных ответов на эти вопросы пока нет. Исследователи коллективного поведения пытаются понять, как простые локальные взаимодействия приводят к сложным формам поведения на уровне группы. Существует два класса алгоритмов машинного обучения, которые, как мне кажется, могут объяснить, почему стаи рыб совершают "осмысленные" действия.

Первый класс алгоритмов алгоритмы усиления (бустинга) композиционного обучения. В методе случайного леса используется бэггинг, или бутстрэп-агрегирование, метаалгоритм композиционного обучения, предназначенный для улучшения стабильности и точности алгоритмов машинного обучения, обеспечивающий параллельное обучение каждой модели независимо друг от друга. С другой стороны, такие методы, как AdaBoost и XGBoost, тренируют модели последовательно, другими словами, более поздние модели обучаются на ошибках более ранних. Рыбы, собирающиеся в стаи, быстро обнаруживают хищников благодаря ошибкам других рыб, и рыбы, понимающие ориентиры внешней среды, обычно определяют направление перемещения группы.

Второй класс алгоритмов базируется на предположении о том, что стаи рыб действуют как крупная нейронная сеть. (От биологических нейронов до искусственных нейронных сетей и стай рыб... мы прошли полный круг!) Уходя от хищников, многие виды рыб проявляют стартл-рефлекс сверхбыстрый рефлекторный рывок в сторону от тревожного раздражителя[2].

Этот рефлекс приводит к каскадному срабатыванию стартл-рефлекса у других рыб, причём скорость такого срабатывания превышает скорость движения атакующего хищника.

Каскад стартл-рефлексов. Из научной работы Розенталя и других учёных 2015 года: https://www.pnas.org/content/pnas/early/2015/03/24/1420068112.full.pdf?with-ds=yesКаскад стартл-рефлексов. Из научной работы Розенталя и других учёных 2015 года: https://www.pnas.org/content/pnas/early/2015/03/24/1420068112.full.pdf?with-ds=yes

Здесь интересно отметить, что данные, выдаваемые членами группы (пугаются они или нет), служат входными данными для соседних рыб должны ли они пугаться. Это особенно актуально для рыб, находящихся глубоко внутри группы, которым не поступает информация из внешней среды и которые не могут интерпретировать событие возмущения воды будь это ложная тревога или приближение хищника. Реакция на эти социальные сигналы может определять, выживет рыба или умрёт.

Обычно мы представляем искусственные нейронные сети как модели биологических нейронных сетей, но в некотором смысле вся стая действует как набор нейронов при обработке информации о риске в окружающей среде. Но ещё более интересным обстоятельством является то, что эти нейроны могут менять структуру своей сети, чтобы изменить способ обработки информации.

В одной из статей мы с коллегами показали, что золотые нотемигонусы модулируют реакцию на угрозу, меняя расстояние между особями, а не ориентируясь на внутренние рефлексы, реагировать или нет на испуг соседа. Другими словами, то, как будут развиваться события превратятся ли случайные рефлексы в полноценные каскады срабатывающих рефлексов или ситуация тихо угаснет сама собой, определяет сама структура группы, а не отдельные особи.

Решения принимает нейронная сеть из нейронных сетейРешения принимает нейронная сеть из нейронных сетей

Заключение

Почему поведение групп особей отличается от поведения отдельных особей? На этот вопрос уже долгое время пытаются ответить исследователи коллективного поведения. Правильный ответ следует искать на стыке таких наук, как биология, психология, физика и информатика. В этой статье мы привели простой пример коллективного интеллекта усреднённые независимые оценки веса быка оказались более точными, чем индивидуальные оценки. Затем мы узнали, как стаи рыб, аморфная структура которых постоянно меняется по мере поступления новой информации из окружающей среды, производят коллективные вычисления.

Хотите узнать больше? Советуем почитать, как бабуины принимают демократические решения о передвижении, как у диких птиц из поколения в поколение сохраняется инновационное поведение [значение понятия можно прочитать здесь, этой ссылки в оригинальной статье нет], как слизистые грибы помогли заново создать карту токийского метро, оптимизировав распределение ресурсов. Чтобы узнать о последних исследованиях в области коллективного поведения, также рекомендуем ознакомиться с интернет-ресурсом Отдела коллективного поведения Института поведения животных им. Макса Планка.

Сноски

1. Теория
Если вы никогда не встречаете иные точки зрения в Интернете или такие иные точки зрения представлены как точки зрения идиота, то, скорее всего, вы находитесь в эхо-камере. Такое происходит довольно часто, поскольку социальные сети, как ни странно, имеют самоизолирующий эффект. Для более объективного взгляда на мир необходимо знакомиться с различными точками зрения.

2. Рыбы
Если углубиться в тонкости, на самом деле стартл-рефлекс может передаваться несколькими нейронными путями, часть из них связана с более тонкой регуляцией моторики. У рыб рефлекс может проявляться с разной интенсивностью, поэтому результат на выходе может, в частности, зависеть от этого фактора. Но при общей количественной оценке распространения информации в группе наши рассуждения можно считать хорошим приближением для "категоризации" испугов на "да, эта рыба испугалась" и "нет, она не испугалась".

Эта статья прекрасное напоминание о том, что многие решения в науке и технике позаимствованы у природы, либо просто существуют в ней уже очень давно. Если вы хотите экспериментировать с моделями машинного и глубокого обучения, повторяя и совершенствуя находки природы, находить новое в комбинациях разнообразных подходов к искусственному интеллекту, то вы можете обратить внимание на наш курс "Machine Learning и Deep Learning", партнёром которого является компания NVIDIA лидер в области вычислений для ИИ.

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Прогнозирование временных рядов с помощью AutoML

30.05.2021 14:10:27 | Автор: admin


Хабр, привет!


В лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО мы активно исследуем вопросы применения автоматического машинного обучения для различных задач. В этой статье мы хотим рассказать о применении AutoML для эффективного прогнозирования временных рядов, а также о том, как это реализовано в рамках open-source фреймворка FEDOT. Это вторая статья из серии публикаций, посвященной данной разработке (с первой из них можно ознакомиться по ссылке).


Все подробности под катом!


Автоматическое машинное обучение (AutoML)


Современная Data Science стала весьма востребованной частью IT сферы. Специалисты собирают данные, занимаются их очисткой, пробуют различные модели, производят валидацию, выбирают лучшие из них. И все это для того, чтобы предоставить бизнесу решение, которое принесет наибольшую пользу. При этом, некоторые этапы получения таких решений с каждым годом все больше и больше автоматизируются. Как правило, это касается наиболее рутинных частей. Таким образом освобождается время экспертов для более важных задач.


Итак, представим, что перед специалистом стоит задача построить модель машинного обучения и обернуть её в web-сервис, чтобы эта самая модель выполняла полезную работу предсказывала что-либо. Но прежде чем дойти до этапа обучения модели, требуется пройти несколько шагов, в том числе:


  • собрать данные из множества источников, очистить их;
  • осуществить предобработку, нормализацию, закодировать некоторые из признаков;
  • отобрать наиболее полезные из них, либо синтезировать на их основе новые;
  • удалить возможные выбросы в данных.

Такие многоступенчатые последовательности операций, включающие этапы от первичной обработки данных до обучения модели и составления прогнозов, называют пайплайнами. Работать с пайплайнами уже несколько сложнее, чем с одиночными моделями машинного обучения, так как чем больше составных блоков, тем больше гиперпараметров, которые нужно оптимизировать. Также выше вероятность того, что на каком-нибудь этапе возникнет ошибка, да и в целом такую более громоздкую систему труднее настраивать и контролировать ее поведение. Для решения этой проблемы реализованы специальные инструменты MLFlow, Apache AirFlow и т. д что-то вроде workflow management system (WMS) в мире машинного обучения. Они призваны упростить контроль за состоянием пайплайнов обработки данных.
Почему потребность в таких инструментах возникла, ведь раньше обходились без них?


Ответ в том, что отрасль взрослеет, появляются хорошо оптимизированные решения для общих задач. Постепенно индустрия уходит от самописных сервисов и переходит к использованию стандартных подходов и технологий к обработке данных для ML задач.

Более амбициозной задачей в данной области машинного обучения является автоматическая генерация этих пайплайнов. Существует несколько фреймворков, которые предоставляют подобные функции, среди open-source, например это TPOT, AutoGluon, MLJAR или H2O. Такие AutoML фреймворки решают задачу оптимизации вида построить такой пайплайн, который дает конечный прогноз с наименьшей (среди всех рассмотренных решений) ошибкой. В основном структура пайплайна зафиксирована и подбираются только гиперпараметры, но некоторые фреймворки способны получать в качестве решения модели произвольной структуры. Данная оптимизационная задача (нахождения пайплайна произвольной структуры) решается как правило при помощи эволюционных алгоритмов, примеры: фреймворки TPOT и FEDOT.
Существуют также и проприетарные SaaS-решения, такие как DataRobot, GoogleAutoTables, Amazon SageMaker, которые помогают не только автоматизировать ML эксперименты, но и предоставляют возможности AutoML.
Как правило, AutoML библиотеки и сервисы успешно решают две самые популярные задачи в машинном обучении: классификация и регрессия на табличных данных. Реже поддерживаются задачи, связанные с обработкой изображений, текста и прогнозирования временных рядов. В рамках данной статьи мы не будем рассматривать плюсы и минусы известных решений, а остановимся на возможностях автоматического машинного обучения в задаче прогнозирования временных рядов.


Автоматическое машинное обучение для временных рядов


Несмотря на то, что задача прогнозирования довольно востребована в науке и бизнесе, большая часть open-source библиотек автоматического машинного обучения не предоставляют возможностей для формирования пайплайнов для задачи прогнозирования временных рядов. Причин тому может быть несколько, одна из которых сложность в адаптации текущей функциональности библиотеки для прогнозирования рядов без переработки инструментария для других задач (классификации и регрессии).


Дело в том, что обработка временных рядов отличается от привычного набора действий при решении задачи регрессии. Отличия начинаются уже с разбиения исходной выборки: так например, перемешивать данные в случайном порядке для валидации модели временного ряда настойчиво не имеет смысла. По другому для временных рядов формируются и признаки: на исходном ряде, как правило, модели машинного обучения не обучают его требуется перевести в другое представление. Внедрять такие конструкции в уже существующий AutoML проект со своим legacy бывает проблематично скорее всего, именно поэтому разработчики часто отказываются от временных рядов (чтобы не гнаться за двумя зайцами) и концентрируются на обработке конкретных типов данных: только табличных, или только текста.


Некоторые команды, которые все-таки решаются поддерживать прогнозирование временных рядов, однако ограничиваются только этим типом данных. Хороший open-source пример фреймворк AutoTS. В подобных библиотеках обычно используются классические статистические модели для прогнозирования например AR или ARIMA. Внутри фреймворка производится настройка этих моделей, а затем выбирается наилучшая (по метрике ошибки на валидационной выборке), но новых моделей здесь не генерируются. На такой логике, например, основана библиотека pmdarima.


Другой способ адаптировать функциональность готового AutoML-инструмента для задачи прогнозирования. На эту роль хорошо подходят регрессионные модели. Так, например, было сделано в H2O, где в своей коммерческой версии продукта разработчики предоставили такую возможность. Однако, судя по некоторым примерам использования open-source версии, пользователю придется взять на себя задачу первичной обработки исходных рядов, например, извлечение признаков. Для полноценной работы такого урезанного инструментария может не хватать.


А какие функции хотелось бы иметь в AutoML-арсенале?


Хотя задача прогнозирования поведения одномерного массива выглядит тривиальной, существует множество инструментов, которыми инженер хотел бы обладать при работе с временными рядами. Например:
  • Возможность строить интерпретируемые ансамбли из моделей (например, чтобы одна модель воспроизводила высокочастотную составляющую временного ряда, вторая низкочастотную, а третья объединяла их прогнозы);
  • Иметь возможность осуществлять настройку гиперпараметров в пайплайнах для временных рядов;
  • Использовать экзогенные (вспомогательные) временные ряды;
  • Применять специфические методы предобработки (от сглаживания скользящим средним до преобразования Бокса-Кокса);
  • Иметь возможность применять in-sample и out-of-sample прогнозирование;
  • А если временной ряд с пропусками как их устранить?
    Учесть все перечисленные возможности в одном фреймворке, и, при этом, не ограничиваться только временными рядами достаточно сложная задача.

Такие требования к AutoML появились не просто так. Мы работаем в лаборатории моделирования природных систем, и последние несколько лет участвовали в десятках различных исследовательских и бизнес проектах в области машинного обучения, data-driven моделирования, оптимизации и д.р. Нам на практике часто приходится решать подобные проблемы, в т.ч. для прогнозирования пространственно-временных данных.


Немного о нас

Наша лаборатория является частью Национального центра когнитивных разработок центре компетенций по машинному обучению и когнитивным технологиям, созданном в 2018 году на базе Университета ИТМО. Благодаря данному центру и стало возможным осуществление проекта создания фреймворка FEDOT мы занимаемся им с начала 2020 года.


Некоторое время назад мы заинтересовались исследованиями в области AutoML, а в команде появились свежие идеи для экспериментов. В итоге, идеи сформировались в полноценный open-source AutoML фреймворк, который мы разрабатываем и поддерживаем в лаборатории FEDOT.


Основная мотивация заключалась в том, чтобы разработать удобный инструмент, который упростил бы процесс создания пайплайнов для решения широкого круга задач полезный в том числе и для нас самих. Мы хотели встроить модели разной природы в такие пайплайны, например, не только модели машинного обучения и операции предобработки, но еще и предметные модели из различных областей (например, гидродинамические модели). Такой подход часто называют гибридным моделированием.
Еще хотелось бы автоматически решать более одной задачи в рамках одного пайплайна, то есть задачу регрессии совместно с задачей прогнозирования временного ряда, или одновременно задачу регрессии и классификации. Например, в задаче кредитного скоринга, т.е. бинарной классификации потенциальных заемщиков, можно использовать не только анкетные признаки, но и будущие значения денежного потока, который можно попробовать спрогнозировать как временной ряд. Весьма перспективно, на наш взгляд, было бы получать baseline для таких задач автоматически.
Так же нам было интересно исследовать методы идентификации пайплайнов произвольной структуры и использовать многокритериальную оптимизацию, позволяющую оптимизировать не только ошибку моделирования, но и сложность найденного решения (её, например, можно оценить через общее количество блоков в пайплайне).


В некоторых из этих задач нам удалось получить интересные результаты, и если интересно, научные статьи по ним вы можете посмотреть здесь и здесь. Ниже мы сфокусируемся на задаче прогнозирования временных рядов и разберем, как там можно использовать AutoML и FEDOT, в частности.


Основные сущности в FEDOT

Ранее мы говорили про пайплайны для решения задач машинного обучения. Пайплайн, строго говоря, представляет собой ациклический направленный граф. В терминах FEDOT, этот граф называется цепочка, или композитная модель.


Основные абстракции, которыми оперирует FEDOT во время работы, это:


  • Операция действие, которое выполняется над данными: это может быть действие по предобработке данных (нормализация, стандартизация, заполнение пропусков) или модель машинного обучения, которая даёт прогноз;
  • Узел это контейнер, в который помещается операция. В одном узле может быть только одна операция. Primary узел принимает только исходные данные, а Secondary использует в качестве предикторов предсказания узлов предыдущего уровня;
  • Цепочка это ациклический направленный граф, который состоит из узлов. Пайплайны машинного обучения в FEDOT реализуются через цепочки (или класс Chain).

Приведенные абстракции можно увидеть на рисунке ниже:

Операции, узлы и цепочки в фреймворке FEDOT


В качестве моделей в структуру такого пайплайна могут встраиваться как модели машинного обучения, так и классические, например, авторегрессия для временных рядов.


Здесь еще нет автоматического машинного обучения. Фреймворк оживает, когда запускается его интеллектуальная часть композер. Композер это интерфейс для составления цепочек. Внутри него используется тот или иной метод оптимизации который и реализует автоматическую часть AutoML. По умолчанию в фреймворке используется эволюционный подход, основанный на принципах генетического программирования. Однако, при необходимости в композер может быть добавлен любой поисковый алгоритм от случайного поиска до байесовской оптимизации.


Прогнозирование временных рядов в FEDOT


Окей, решать задачи классификации или регрессию мы умеем. И даже представляем как в FEDOT-е составлять цепочки из моделей для этого. Но как теперь перейти к прогнозированию временного ряда? И как здесь можно использовать, например, решающее дерево? Признаки то где?


Признаки есть! Только для формирования таблицы с признаками нужно пройти по временному ряду скользящим окном и подготовить траекторную матрицу.

Стоит сказать, что представление временного ряда в такой форме это не наше изобретение: можете почитать про SSA метод, в котором используется данное преобразование. Данный подход используется также и в одной из версии библиотеки H2O. Применение почти всех моделей машинного обучения для временных рядов сводится к построению таких матриц.


Разберем этот способ преобразования ряда подробнее. Временной ряд это последовательность значений, где последующие значения обычно зависят от предыдущих. Значит, мы можем использовать текущие и предыдущие элементы временного ряда для прогнозирования будущих. Представим, что мы хотим спрогнозировать ряд на один элемент вперед, используя текущее и одно предыдущее значение:

Пример составления таблицы с признаками для прогнозирования временного ряда
Такое преобразование мы будем называть lagged-преобразование временного ряда. В FEDOT мы вынесли его в отдельную операцию lagged. Его важным гиперпараметром является размер скользящего окна от него зависит сколько предыдущих значений мы будем использовать в качестве предикторов.


Ниже приведена анимация с примерам многошагового прогнозирования на 1 элемент вперед. Однако, прогноз за один шаг может осуществляться сразу на несколько элементов вперед. В таком случае решается задача muli-target регрессии. Весь процесс прогнозирования от формирования траекторной матрицы до составления предсказания можно увидеть на анимации ниже:

Анимация. Прогнозирование на 3 элемента вперед при помощи lagged преобразования временного ряда


В качестве модели для прогнозирования может быть использована любая модель машинного обучения. Однако в фреймворк встроены также и специфические модели для прогнозирования временных рядов, такие как AR и ARIMA. Также реализованы методы предобработки, вроде сглаживания скользящим средним или сглаживания Гаусса.


Пример задачи


Пример прогнозирования временного ряда

В сообществе распространены примеры прогнозирования временных рядов на довольно простых примерах. Один из самых популярных временной ряд US airline passengers и выглядит следующим образом:

Демонстрировать возможности библиотеки на таких рядах очень заманчиво однако, практически любая сколько-нибудь сложная модель сможет достойно показать себя здесь. Мы же решили взять ряды посложнее, из промышленности, чтобы проверить на них AutoML на прочность. Надеемся, этот пример будет показательным.


Имеются два временных ряда: первый это среднесуточная выработка электроэнергии ветряной установкой. Другой среднесуточная выработка электроэнергии при помощи дизельного генератора. Оба показателя измеряются в кВтч.

Выработка электроэнергии при помощи дизельной установки и ветряного электрогенератора


Работа ветряного электрогенератора зависит от скорости ветра, и если она снижается, то для поддержки выработки электроэнергии на достаточном уровне используется дизельный генератор. Отсюда и прослеживается поведение временных рядов когда выработка электроэнергии на ветряке падает, на дизельном генераторе она растет, и наоборот. Стоит также заметить, что временные ряды имеют пропуски.


Нам необходимо прогнозировать нагрузку на дизельный генератор на 14 дней вперед. Таким образом, целевая переменная выработка энергии дизельным генератором.


Ниже не будут приведены листинги кода, так как иначе статья может растянуться. Однако, для лучшего восприятия мы подготовили большое количество визуализаций. Полная версия кода, где все технические моменты расписаны гораздо более подробно, расположена в jupyter notebookе.


Заполнение пропусков


Первая проблема это пропуски в рядах. В FEDOT для восстановления значений во временных рядах мы реализовали три группы методов:


  • Простые методы, такие как линейная интерполяция;
  • Методы итеративного прогнозирования при помощи одиночных моделей;
  • Продвинутые схемы прогнозирования для заполнения пропусков.

Первые, как правило, работают быстро, но не дают большой точности. Методы из второй группы не учитывают специфику задачи и эквивалентны просто прогнозированию временного ряда. Последняя группа методов учитывают недостатки предыдущих. Именно их мы и будем применять далее. Для заполнения пропусков при помощи композитной модели используется двусторонний прогноз временного ряда.



Пример комбинированного прогноза, где для прогноза используются две модели, а результат их прогноза комбинируется при помощи взвешенного среднего


Для этого мы строим простую цепочку из lagged-представления, сглаживания Гаусса, и ridge-регрессии (см. рисунок), обучаем ее предсказывать значения ряда вперед.

Структура применяемой цепочки для восстановления пропусков во временном ряде


По аналогии, повторяем это для обратного направления обучаем цепочку прогнозировать прошлое. Комбинируем два прогноза, получаем усредненный ряд, которым мы заполним пропуск.


Подробнее о том, как это устроено внутри

Последовательность действий при таком подходе может быть описана так. Сначала, используется часть временного ряда, расположенная слева от пропуска. На этом участке временного ряда обучается композитная модель, с помощью которой формируется прогноз на такое количество элементов вперед, сколько их есть в пропуске. После этого процедура повторяется для правой (относительно пропуска) части. Для этого известная часть временного ряда инвертируется обучается модель и формируется прогноз прогноз инвертируется. Комбинация прогнозов осуществляется при помощи взвешенного среднего. Таким образом, наибольший вес будет иметь тот вектор, значения которого ближе к известной части временного ряда, от которой строился прогноз. То есть при усреднении красный прогноз (на рисунке) будет иметь больший вес в левой части пропуска, а зеленый наоборот в правой.


Получаем следующий результат:



Заполненный пропуск во временном ряде выработки электроэнергии дизельным генератором


Неплохо! Но второй временной ряд еще имеет зияющую дыру посередине. Её мы можем восстановить так же как первую. Но мы поступим иначе. Сопоставим значения двух временных рядов в виде парной регрессии и восстановим значения выработки электроэнергии ветряком (отклик) с помощью ряда с дизельным генератором (предиктор). Эту задачу регрессии мы также будем решать при помощи FEDOT.


В результате получились восстановленные временные ряды, которые выглядят так:



Восстановленные временные ряды (видно, что они идут в противофазе и заполненный пропуск не нарушает этот принцип)


Теперь оба временных ряда не имеют пропусков и готовы к использованию далее.


Автоматическая идентификация композитной модели


Построим цепочку для временных рядов при помощи AutoML. В FEDOT это можно сделать буквально в несколько строчек кода, используя API.
Коротко о том, что происходит внутри. AutoML работает в два этапа:


  • Композирование процесс поиска структуры цепочки. По умолчанию в фреймворке за это отвечает эволюционный алгоритм, в котором при помощи генетических операторов селекции, кроссовера и мутации происходит оптимизация. На данном этапе изменяются операции в узлах, поддеревья убираются от одних решений, и прирастают к другим. Гиперпараметры операций в узлах здесь также подвергаются мутациям;
  • Настройка гиперпараметров процесс, при котором структура цепочки не меняется, а меняются только гиперпараметры в узлах. Этот этап запускается после того, как завершилось композирование.

Настройка гиперпараметров по умолчанию осуществляется одновременно во всех узлах цепочки при помощи байесовских методов оптимизации:

Анимация. Процесс настройки параметров в узлах композитной модели


После завершения всех этапов мы получаем итоговый пайплайн. Теперь посмотрим на получившийся прогноз и рассчитаем метрики: среднюю абсолютную ошибку (MAE) и корень из средней квадратической ошибки (RMSE): MAE 100.52, а RMSE 120.42.

Пример прогноза временного ряда


Если смотреть на график и значения метрик, возникает вопрос: хорошая ли получилась модель?


Ответ: определить трудно. На одном участке лучше модель не валидировать. Там ведь всего лишь 14 значений. Лучше посчитать метрику хотя бы три раза по 14 (то есть 42). Для этого стоит воспользоваться in-sample прогнозированием.

Ниже приведена анимация, которая должна помочь разобраться в out-of-sample и in-sample прогнозировании:

Анимация. Процесс in-sample и out-of-sample прогнозирования


Итак, мы наша модель умеет делать прогноз на 14 значений вперед. Но мы хотим получить прогноз на 28 значений вперед в таком случае мы итеративно можем 2 раза сделать прогноз на 14 элементов. В таком случае в качестве предикторов для второго прогноза выступят значения, предсказанные на первой итерации (out-of-sample).


Если же мы хотим произвести валидацию модели, то воспользуемся in-sample прогнозированием. При таком подходе прогнозируем уже известную часть временного ряда (тестовая выборка). Но при итеративном прогнозировании для формирования предикторов на следующий шаг, используются не предсказанные значения на предыдущем шаге, а известные.


В FEDOT этот подход также реализован так что теперь мы проверим алгоритм на 3-х блоках по 14 значений каждый. Для этого иначе разделим выборку и еще раз запустим композер. Результат прогнозирования отображен на рисунке ниже. Важно уточнить, что эволюционные алгоритмы имеют стохастическую природу, поэтому найденные решения могут отличаться.

Валидация композитной модели для временного ряда на трех блоках по 14 элементов. Показана правая часть исходного временного ряда


Прогноз на первом валидационном блоке идеально повторил действительные значения временного ряда. Это кажется странным, но все проясняется, как только мы взглянем на структуру найденной цепочки.

Примеры цепочек во время поиска решения (процесса эволюции). Рассматривались как пайплайны с множеством специфических для временных рядов операций предобработки, так и простые пайплайны, моделирующие линейные взаимосвязи


Как видно из рисунка, более сложные цепочки не всегда показывают высокую точность. Так, лучший найденный пайплайн получился короткий, но тем не менее, величина ошибки на валидации оказалась маленькой. Исходя из этого делаем вывод, что этого вполне достаточно для данного временного ряда.
Так как финальная модель это алгоритм K-ближайших соседей, то цепочка хорошо умеет повторять паттерны временного ряда из обучающей выборки. Проблемы у такой модели могут возникнуть например для ряда, нестационарного по тренду. В таком случае модель K-ближайших соседей не сможет адекватно экстраполировать зависимости из обучающей выборки. У данного же временного ряда есть другая особенность он нестационарен по дисперсии. Однако, в его структуре присутствуют относительно однородные части, которые немногим отличаются от того участка временного ряда, на котором производилась валидация.

Однородные части временного ряда, похожие на валидационный участок, выделены оранжевым цветом


В этих частях присутствуют повторяющиеся паттерны, и при этом сам временной ряд не имеет тренда величина колеблется вокруг среднего, то поднимаясь до значения выше 1000 кВтч, то опускаясь до 0. Поэтому умение воспроизводить эти паттерны для построенного пайплайна является очень важным. А вот угадывать низкочастотные колебания временного ряда (например, тренд или сезонность) при этом не обязательно. Модель K-nn как раз хорошо подходит для этих задач. Метрики качества прогнозирования, полученные после композирования цепочки, таковы: MAE 88.19 и RMSE 177.31.


Важно отметить, что мы получили готовое решение в автоматическом режиме и не вносили в алгоритм поиска каких-либо дополнительных экспертных знаний. Данная задача была решена всего за 5 минут работы фреймворка на десктопном ПК. Естественно, для больших наборов данных, потребуется больше времени на поиск решения.


Сравнение с альтернативами: AutoTS и pmdarima

Дисклеймер: Приведенное в этом разделе сравнение далеко не является исчерпывающим. По хорошему, для обоснования того, что один фреймворк лучше или хуже другого требуется проводить много больше экспериментов. Желательно использовать не один источник данных, применять кросс-валидацию, запускать алгоритмы на одних и тех же данных и с одними параметрами несколько раз (с последующим усреднением метрик). Здесь же мы привели ознакомительное сравнение: показали как с поставленной задачей могут справляться альтернативные решения. Если вас заинтересовало то, как FEDOT может справляться с временными рядами в сравнении с другими фреймворками, следите за новостями в нашем телеграмм канале. Полноценное сравнение в виде научной статьи скоро будет!


Попробуем также сравнить FEDOT с другими open-source фреймворками для прогнозирования временных рядов AutoTS и pmdarima. Jupyter notebook с кодом, а также графиками, доступен по ссылке. Так как не во всех библиотеках реализована функциональность валидации на нескольких блоках, то решено было провести это небольшое сравнение на всего одном фрагменте ряда. Каждый алгоритм был запущен по 3 раза, и метрики ошибок были усреднены. Таблица с метриками выглядит следующим образом (в ячейках приведено СКО- среднее квадратическое отклонение):


Библиотека МАЕСКО RMSECKO
pmdarima 1551 1961
AutoTS 19822 23641
FEDOT 11014 17026

На рисунке также отображены прогнозы для одного из экспериментов:


Даже невооруженным взглядом видно, что в данной задаче прогноз от FEDOT больше похож на правду.


Заключение


Итак, сегодня мы рассмотрели такую набирающую популярность область в машинном обучении, как AutoML. В статье мы попробовали показать, какие существуют решения на рынке для автоматической генерации ML-пайплайнов, и как их можно применять в задаче прогнозирования временных рядов.


Также мы попробовали AutoML на примере прогнозирования рядов вырабатываемой электроэнергии при помощи фреймворка FEDOT: восстановили пропущенные значения, построили композитную модель при помощи эволюционного алгоритма и произвели валидацию решения. В конце продемонстрировано краткое сравнение FEDOT с другими фреймворки на этой задаче.


Примеры (код и картинки) из данного поста доступны в отдельном репозитории по ссылке.


Используйте AutoML, пробуйте FEDOT!


Над статьей работали: Михаил Сарафанов, Павел Вычужанин и Николай Никитин.

Подробнее..

Анализ результатов работы архитектуры YoloV3 на медицинских снимках

31.05.2021 12:16:05 | Автор: admin

Данная статья представляет собой обзор на оригинальную статью на Medium (эксперименты проводятся с изменениями некоторых условий).

Область применения нейронных сетей в медицине бурно развивается. В этой области решаются задачи, которые облегчают работу врачей. В частности, одной из востребованных задач в этой области является детекция объектов на медицинских снимках (это когда на картинку накладывается прямоугольник, который ограничивает область, в которой предположительно есть некоторый объект). Пример такого изображения представлен ниже.

http://personeltest.ru/aways/github.com/ultralytics/yolov3https://github.com/ultralytics/yolov3

https://github.com/ultralytics/yolov3

Можно заметить, что прямоугольники подписаны какими-то словами и числами. На картинке это person и tie. Рядом с этими словами написаны числа (у человека слева это person с 0.59, tie - 0.62). Эти слова образуют виды объектов (например, машина, человек, кот, мяч и т.д.), которые нужно распознать, а числа, записанные рядом с этими словами, есть вероятность того, что данный объект принадлежит этому классу. (Опять же у человека справа, стоит "person 0.59". Это значит, что в выделенном прямоугольнике есть объект класса person - человек - с вероятностью 0.59). И да, число - вероятность объекта в данном прямоугольника, принимает значения от 0 до 1.

Задача

Как уже говорилось, в медицине есть задача по распознаванию объектов, которые могут сигнализировать о наличии патологии и пациента. В данной статье, предлагается решить задачу по распознаванию очагов, сигнализирующих пневмонию у пациента.

Пневмония является одной из распространенных болезней, которое представляет собой воспалительное заболевание легких. По официальным данным, именно она является одной из опасных инфекционных заболеваний за последние 20 лет. В 2019-м эти болезни оказались четвертой причиной смертности в мире (от них скончались 2,6 млн человек). Обычно пневмония проявляется в виде областей повышенной непрозрачности на снимках рентгенограммы. Однако диагностика рентгенограмм затруднена из-за ряда причин, связанных с состоянием легких. И иногда даже опытному специалисту бывает сложно поставить диагноз.

Поэтому на помощь врачам приходят методы машинного обучения, которые помогают выявить сложные зависимости между признаками в данных и выдать некоторый результат, который может стать решающим при постановке диагноза пациенту.

В связи с этим, возникает потребность в написании нейронных сетей, которые основаны на совершенно новой архитектуре (то есть придумать что-то новое) или которые основаны на уже существующей архитектуры путем проведения экспериментов, которые помогают выявлять достоинства и недостатки архитектуры (то есть сделать модификацию существующей).

Решать эту задачу мы будем с использованием нейронной сети.

Модель

В качестве такой сети возьмем архитектуру YOLOv3. Почему именно она? Да, просто захотели =) Более подробно про эту архитектуру можно почитать на официальном сайте и Хабре.

YOLOv3 представляет собой нейронную сеть, основанную на архитектуре YOLO (You Only Look Once). Она примечательна тем, что CNN (Convolutional Neural Network) применяется один раз ко всему изображению сразу (отсюда и название). YOLOv3 состоит из 106-ти свёрточных слоев. Стоит отметить, что у YOLOv3 есть несколько слоев (их 3), которые предназначены для детекции объектов разного размера. На картинке ниже представлена архитектура YOLOv3:

http://personeltest.ru/aways/www.researchgate.net/figure/The-framework-of-YOLOv3-neural-network-for-ship-detection_fig2_335228064https://www.researchgate.net/figure/The-framework-of-YOLOv3-neural-network-for-ship-detection_fig2_335228064

https://www.researchgate.net/figure/The-framework-of-YOLOv3-neural-network-for-ship-detection_fig2_335228064

При использовании YOLO изображение делится на сетку с ячейками размером 13 х 13. Для чего нужны эти ячейки? Дело в том, что каждая такая ячейка прогнозирует количество bounding box'ов (или ограничивающих прямоугольников) и вероятность того, что в данной области находится некоторый объект. Эта вероятность (точнее, число) называется confidence value (доверительное значение). И получается, что если в некоторой области объекта нет, то его доверительное значение маленькое (точнее, этого мы хотим достичь). Ниже представлена схема работы YOLOv3.

http://personeltest.ru/aways/medium.com/nerd-for-tech/a-real-time-object-detection-model-using-yolov3-algorithm-for-non-gpu-computers-8941a20b445https://medium.com/nerd-for-tech/a-real-time-object-detection-model-using-yolov3-algorithm-for-non-gpu-computers-8941a20b445

https://medium.com/nerd-for-tech/a-real-time-object-detection-model-using-yolov3-algorithm-for-non-gpu-computers-8941a20b445

Также примечательно, что YOLO использует, так называемые anchor boxes (якорные рамки). Подробнее о них написано в статье на Medium. Это достаточно сложная для понимания(лично для автора этой статьи) концепция. Нам важно лишь то, что anchor boxes (якорные рамки) используются для прогнозирования bounding box'ов и рассчитаны они с помощью датасета COCO с использованием кластеризации k-средних.

Чтобы более подробно познакомиться с YOLOv3 подойдет вот эта статья.

Данные

С задачей определились, с моделью определились. Что еще надо? Правильно, данные. Данные берутся из платформы Kaggle, в которой проводились соревнования по детекции пневмонии. Вот данные.

Изучим эти данные более подробно. Нам понадобятся изображения из файлов stage_2_train_images.zip и stage_2_test_images.zip. Данные, которые давались на соревновании, представляют собой набор снимков рентгенограммы грудной клетки. В датасете (а именно так называются набор данных) содержатся 26684 рентгеновских снимков разных пациентов. Данные снимки представляют собой изображения в формате DICOM в разрешении 1024 х 1024. Пример изображения представлен ниже.

Class

Target

Patients

Lung Opacity

1

9555

No Lung Opacity / Not Normal

0

11821

Normal

0

8851

Так как изображения находятся в формате DICOM. То мы преобразуем эти изображения в формат JPG с помощью следующей функции.

import pydicom as dicomimport osfrom tqdm import tqdmimport numpy as npimport cv2import pandas as pdперевод dicom в jpgdef dicom_to_jpg(source_folder,destination_folder,labels):    images_path = os.listdir(source_folder)    image_dirs_label = {'image_dir':[],'Target':[]}    for n, image in tqdm(enumerate(images_path)):        ds = dicom.dcmread(os.path.join(source_folder, image))        pixel_array_numpy = ds.pixel_array        image = image.replace('.dcm', '.jpg')        cv2.imwrite(os.path.join(destination_folder, image), pixel_array_numpy)        image_dirs_label['image_dir'].append(os.path.join(destination_folder, image))        image_dirs_label['Target'].append(train_labels[train_labels.patientId== image.split('.')[0]].Target.values[0])    print('{} dicom files converted to jpg!'.format(len(images_path)))    return pd.DataFrame(image_dirs_label)

Выделяются 3 класса, которые представляют для интерес: Normal 0, No Lung Opacity / Not Normal 0, Lung Opacity 1. Классы Class, целевые признаки Target и количество изображений Patients, соответствующего класса, представлены в таблице выше. И картинка ниже показывает изображения каждого класса.

Для нас особый интерес представляют классы, сигнализирующие пневмонию (positive или на картинке выше Lung Opacity). И соотношение этого класса к классу изображений здоровых пациентов (negative) равно примерно 1:4 (ниже есть диаграмма, иллюстрирующая данное соотгношение).

Дисбаланс классовДисбаланс классов

Дисбаланс классов

То есть классы несбалансированы (изображений одного класса больше, чем изображений другого). Поэтому для достижения относительного равенства между классами был использован прием увеличения числа изображений первого класса (positive) из уже имеющихся путем их преобразований аугментация. Аугментация была реализована с помощью библиотеки Albumentations. Ниже представлен код для совершения аугментации.

import albumentations as Aimport pandas as pdimport cv2import ostransformertransform = A.Compose([        A.RandomRotate90(),        A.Flip(),        A.Transpose(),        A.OneOf([            A.IAAAdditiveGaussianNoise(),            A.GaussNoise(),        ], p=0.2),        A.OneOf([            A.MotionBlur(p=.2),            A.MedianBlur(blur_limit=3, p=0.1),            A.Blur(blur_limit=3, p=0.1),        ], p=0.2),        A.ShiftScaleRotate(shift_limit=0.0625, scale_limit=0.2, rotate_limit=45, p=0.2),        A.OneOf([            A.OpticalDistortion(p=0.3),            A.GridDistortion(p=.1),            A.IAAPiecewiseAffine(p=0.3),        ], p=0.2),        A.OneOf([            A.CLAHE(clip_limit=2),            A.IAASharpen(),            A.IAAEmboss(),            A.RandomBrightnessContrast(),        ], p=0.3),        A.HueSaturationValue(p=0.3),    ])

Реализация модели

Данный раздел будет обновляться в будущем(ибо есть технические "подводные камни", о которых не рассказано, но о которых стоит рассказать)

Теперь датасет мы "расширили". Преобразованные изображения и исходные файлы в форматах JPG и DICOM будем анализировать с использованием архитектуры YOLOv3 с основой (backbone'ом) DarkNet. Подробнее про DarkNet можно почитать здесь. Затем основа архитектуры YOLOv3 (в данном случае Darknet) заменяется на обученную классификационную модель CheXNet. CheXNet представляет собой 121-слойную свёрточую нейронную сеть, которая определяет области легких, сигнализирующих о пневмонии. Рекомендуется прочитать эту научную работу про CheXNet. Эта модель обучена на классификацию 14 классов, поэтому так как мы решаем задачу бинарной классификации, то последние слои CheXNet необходимо установить на классификацию 2-х классов (negative пневмонии нет и positive пневмония есть). И реализовать в коде данную модель можно с помощью библиотеки TensorFlow, в которой есть готовая заготовка DenseNet121. Реализация этой модели представлено ниже.

# Для CheXNet устанавлиются веса classifier_weights.hdf5, которые можно скачать отсюдаhttps://drive.google.com/file/d/1Bd50DpRWorGMDuEZ3-VHgndpJZwUGTAr/viewfrom absl import flagsfrom absl.flags import FLAGSimport numpy as npimport tensorflow as tffrom tensorflow.keras import Modelfrom tensorflow.keras.applications import DenseNet121from tensorflow.keras.layers import (    Add,    Concatenate,    Conv2D,    Input,    Lambda,    LeakyReLU,    MaxPool2D,    UpSampling2D,    ZeroPadding2D,    BatchNormalization,    Dense)def base_model(chexnet_weights=None,size=None):    dense_net_121 = DenseNet121(input_shape = [size,size,3], include_top = False,pooling = 'avg')    base_model_output = Dense(units = 14, activation = 'relu')(dense_net_121.output)    base_model = Model(inputs = dense_net_121.input,outputs = base_model_output)    output_layer = Dense(1, activation = 'sigmoid')(base_model.layers[-2].output)    model = Model(inputs = base_model.inputs, outputs = output_layer)    if chexnet_weights:        model.load_weights(chexnet_weights)    final_base_model = Model(inputs = model.inputs, outputs = model.layers[-3].output)    return final_base_modeldef ChexNet(name=None, chexnet_weights='PATH_TO_WEIGTHS/classifier_weights.hdf5',size=None):    chexnet = base_model(chexnet_weights = chexnet_weights, size = size)    back_bone = Model(inputs = chexnet.inputs, outputs=(chexnet.get_layer('pool3_conv').output,                                                           chexnet.get_layer('pool4_conv').output,                                                           chexnet.output),name=name)    return back_bone

Теперь посмотрим на количество параметров каждой модели:

Model

Total params

Trainable params

Non-trainable params

DarkNet

61576342

61523734

52608

CheXNet

27993206

27892662

100544

Видим, что параметров у архитектуры с классификационной моделью CheXNet почти в 2 раза меньше параметров, чем у архитектуры с классификационной моделью DarkNet. Это делает первую модель более быстрой в обучении и по этой причине дальнейшая работа будет производиться именно с CheXNet.

Обучение

Полученная архитектура нейронной сети YOLOv3 с основой CheXNet обучается на преобразованных данных(над которыми был совершен процесс аугментации).

Стоит отметить то, что мы сначала обучаем (1 эпоху) на всех классах изображений (positive и negative), а затем на изображениях, в которых есть пневмония (класса positive). Это делается потому что в YOLOv3 изображение 416 х 416 делится на сетку 13 х 13 (416 / 32 = 13). И прогноз делается для каждой ячейки сетки 13 х 13. И если количество anchor box'ов равно 3, тогда каждая такая ячейка сетки 13 х 13 связана с 3-мя anchor box'ами. То есть размерность будет 13 х 13 х 3 = 507 (всего будет столько предсказаний). Получается, что для одного изображения мы делаем 507 предсказаний. И даже если изображение относится к классу positive (пневмония есть) и в нем есть 2 области непрозрачности (помутнения), то будет 2 положительных предсказания и 507-2=505 отрицательных предсказаний. Как видно, число отрицательных предсказаний намного больше. Поэтому если мы снова добавим отрицательные изображения, это сделает нашу модель "предвзятой" по отношению к отрицательному классу.

Для начала, мы делаем ImageDataGenerator для обучения модели. Это связано с тем, что набор данных достаточно большой (и он не поместится в оперативную память), а данный инструмент позволяет нам облегчить чтение изображений во время обучения модели.

# true_augmented_labels - это DataFrame, который содержит информацию о всех изображениях (и о изначальных, и аугментированных(преобразованных)datagen=ImageDataGenerator(        rescale = 1. / 255.,        validation_split = 0.20)train_generator = datagen.flow_from_dataframe(dataframe = true_augmented_labels,x_col = "image_dir",y_col = "Target",subset = "training",batch_size = 4,seed = 42,shuffle = True,class_mode = "binary",target_size = (416, 416))valid_generator = datagen.flow_from_dataframe(dataframe = true_augmented_labels,x_col = "image_dir",y_col = "Target",subset = "validation",batch_size = 4,seed = 42,shuffle = True,class_mode = "binary",target_size = (416, 416))

Затем мы обучаем нашу модель на всех классах изображений (и positive, и negative), заранее замораживая последние слои модели.

# веса brucechou1983_CheXNet_Keras_0.3.0_weights.h5 и classifier_weights.hdf5можно скачать отсюда https://www.kaggle.com/theewok/chexnet-keras-weights/version/1и отсюда https://github.com/junaidnasirkhan/Replacing-YoloV3-Backbone-with-ChexNet-for-Pneumonia-Detectiondense_net_121 = DenseNet121(input_shape = [416,416] + [3], include_top = False, pooling = 'avg')base_model_output = Dense(units = 14, activation = 'relu')(dense_net_121.output)base_model = Model(inputs = dense_net_121.input, outputs = base_model_output)загрузка "тренированных" весовbase_model.load_weights('brucechou1983_CheXNet_Keras_0.3.0_weights.h5')заморозка последних слоев моделиfor layer in base_model.layers[:10]:    layer.trainable = Falseустанавлием последние слои модели на бинарную классификациюoutput_layer = Dense(1, activation = 'sigmoid')(base_model.layers[-2].output)model = Model(inputs = base_model.inputs, outputs = output_layer)model.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy', f1_m]) checkpoint = ModelCheckpoint(filepath = 'classifier_weights.hdf5', monitor = 'val_accuracy',  verbose = 0, save_best_only = True, save_weights_only = True, mode = 'auto')log_dir = "classifier_logs/" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S")tensorboard = TensorBoard(log_dir = log_dir, histogram_freq = 1, write_graph = True, write_grads = True)callback_list = [checkpoint, tensorboard]обучаем модельmodel.fit(train_generator,  validation_data = valid_generator,  epochs = 1, # в оригинальной статье стоит 3  steps_per_epoch = len(train_generator),  callbacks = callback_list)

Затем нам надо написать функцию обучения на positive изображениях (причина описана выше). Она представлена ниже

# Для обучения модели были созданы файлы rsna_train_pos.tfrecord и rsna_val_pos.tfrecordКлассы изображений записываются в формате .names (в нашем случае)это классы "opacity" и "no_opacity"model = train(dataset = 'PATH_TO_TFRECORD/rsna_train_pos.tfrecord',          val_dataset = 'PATH_TO_TFRECORD/rsna_val_pos.tfrecord',          backbone = 'chexnet',          classes = 'PATH_TO_CLASSES/RSNA_VOC.names',           size = 416,          epochs = 30,          batch_size = 16,          learning_rate = 1e-4,          num_classes = 1)

После обучения веса модели бинарной классификации сохраняются в виде файла формата hdf5.

Результаты обучения

Ниже представлен результат обучения данной архитектуры (YOLOv3 с классификационной моделью CheXNet).

С параметрами learning_rate = 1e-4, epoch = 20

Посмотрим на loss'ы

Аналогично для learning_rate = 1e-4, epochs = 30

Посмотрим на loss'ы

Выводы

  • Над исходными данными был совершен процесс аугментации с целью увеличения количества данных.

  • Анализ количество обучаемых параметров моделей CheXNet и DarkNet показал, что таких параметров меньше у модели CheXNet, что делает ее обучение быстрым по сравнению с обучением модели DarkNet.

  • Архитектура с классификационной моделью CheXNet была обучена 1 эпоху на изображениях всех классов, а затем 20 эпох и 30 эпох на изображениях, содержащих признаки пневмонии.

  • Эксперименты показали, что с увеличением числа epoch, растет и точность предсказаний модели.

Перспективы

Рассматривается возможность улучшения показателей архитектуры. Этого можно достичь путем:

  • обучения с изменением параметров (увеличения количества эпох, значения learning_rate)

  • обучения модели с использованием другого датасета

  • модель CheXNet можно заменить другую классификационную модель

Ссылки

Подробнее..

Биометрия, персонализация голоса, NLU и речевая аналитика о чем расскажут на конференции Conversations

05.06.2021 12:14:00 | Автор: admin

21 и 22 июня в Питере (и онлайн) пройдет конференция по разговорному ИИ Conversations. Поток для разработчиков будет посвящен conversational lego технологиям вокруг разговорного AI, из которых состоят чат-боты, голосовые ассистенты и диалоговые решения. Персонализация голоса от Yandex Speechkit, стратегия управления диалогом от DeepPavlov, платформа речевой аналитики Тинькофф Банка, голосовая биометрия от SberDevices, анализ и разметка интентов при создании голосовых ботов от X5 Retail Group и другие тулзы рассказываем, с чем еще можно познакомиться на Conversations V.

Доклад про лайфхаки разговорного UI на Conversations'19: как сделать бота и не разозлить пользователяДоклад про лайфхаки разговорного UI на Conversations'19: как сделать бота и не разозлить пользователя

Конференция будет проходить два дня Business Day (21 июня) и Technology Day (22 июня). Онлайн-билет дает доступ к двухдневному стриму!

Technology Day откроет секция Conversational Lego, посвященная технологиям, которые лежат в основе различных разговорных решений от чат-ботов с NLU до прокачанных голосовых ассистентов.

Кто выступит и о чем расскажут?

  • Поиск смысла в океане данных: анализ и разметка интентов при создании голосовых ботов. Антон Кленицкий, X5 Retail Group

  • Голос бренда. Зачем нужны технологии персонализации голоса и как они устроены. Никита Ткачев, Yandex.Cloud

  • Биометрический бум: как технологии помогают нам в повседневной жизни. Станислав Милых, SberDevices

  • Стратегия управления диалогом: как сделать чат-бота более умным и объемным с помощью дискурс-менеджмента. Данила Корнев, CPO, DeepPavlov

  • Особенности алгоритмов распознавания речи и их влияние на опыт пользователей. Николай Шмырев, CEO, АЦ Технологии

  • Как спроектировать диалоговый интерфейс для мультилингвальных ботов. Brielle Nickoloff, Cofounder & Head of Product, Botmock.

Больше имен и тем на сайте Conversations!

Еще разработчиков в Technology Day ждет секция по голосовым ассистентам, где Яндекс, SberDevices, Mail.Ru Group расскажут о новых фичах Алисы, Маруси и семейства Салют. Например, Алексей Фивинцев из Mail.ru покажет, какой профит можно извлечь из разработки голосовых навыков для Маруси, используя интеграцию Маруси с ВКонтакте.

А на секции Partners in AI: как заработать на разговорных решениях расскажут, как разработчику стать предпринимателем, как придумать и монетизировать сценарии для различных бизнес-задач и индустрий.

В общем, будет много интересного! Один билет в стрим два дня экспертизы, доступ к приложению для нетворкинга и всем материалам конференции. За новостями можно следить в официальномтелеграм-канале Conversations.

Подробнее..

Нейродайджест главное из области машинного обучения за май 2021

03.06.2021 14:23:54 | Автор: admin

Управляемые складки одежды и морщины, фотореалистичные симуляции вождения, естественное освещение объектов при смене фона, китайский аналог DALL-E и многое другое: встречайте подборку самых интересных исследований и нейросетевых моделей, которые появились в прошедшем месяце.

DECA

Доступность: страница проекта / статья / репозиторий

Современные методы монокулярной трехмерной реконструкции создают лица, которые невозможно реалистично анимировать, поскольку они не моделируют изменение морщин в зависимости от выражения. Также модели, обученные на высококачественных сканированных изображениях, плохо работают на фото, сделанных в естественных условиях.

Данный подход регрессирует трехмерную форму лица и анимируемые черты лица, которые меняются в зависимости от артикуляции. Модель обучена создавать карту UV-смещений из низкоразмерного скрытого представления, которое состоит из специфичных для человека параметров, а регрессор обучен предсказывать параметры формы, позы и освещения из одного изображения. Для этого авторы создали функцию потерь, которая отделяет индивидуальные особенности лица от морщин, которые зависят от артикуляции. Такое разделение позволяет синтезировать реалистичные морщины, характерные для конкретного человека, и управлять параметрами выражения лица, сохраняя при этом индивидуальные особенности человека.

Garment Collision Handling

Доступность: страница проекта / статья

Симуляция деформации и движения одежды на человеке часто приводит к тому, что текстура одежды проникает внутрь модели тела. Существующие методы виртуальной примерки требуют этап постобработки, чтобы устранить этот нежелательный эффект. Данный подход напрямую выводит трехмерные конфигурации одежды, которые не пересекаются с телом.

Модель симулирует деформацию одежды и реалистичное движение складок в зависимости от изменения позы. Достигается это с помощью новогоканонического пространства для одежды, которое устраняет зафиксированные диффузной моделью человеческого тела деформации позы и формы, которая и экстраполирует свойства поверхности тела, такие как скиннинг и блендшейп, на любую трехмерную точку.

DriveGAN

Доступность: страница проекта / статья

Для автопилотов и реалистичных тренажеров нужны данные, которые приходится собирать вручную, а это очень долгий и трудоемкий процесс. Можно использовать машинное обучение, чтобы стимулировать ответную реакцию среды на действия непосредственно из данных. Исследователи из NVIDIA и MIT обучили нейросеть на сотнях часов дорожных видео, чтобы моделировать динамическую среду непосредственно в пиксельном пространстве на основе неразмеченных последовательностей кадров и связанных с ними действий.

В получающихся синтезируемых дорожных путешествиях можно моделировать погодные условия, время суток и расположение объектов. Симуляцией можно управлять через графический интерфейс с помощью поворотов руля и изменения скорости.

Enhancing Photorealism Enhancement

Доступность: страница проекта / статья / репозиторий

Пока приходится ждать симулятор езды от NVIDIA, можно развлечь себя с помощью разработок от исследователей из Intel. Они представили подход к повышению реалистичности синтетических изображений. Сверточная нейросеть использует промежуточные представления, созданные обычными пайплайнами рендеринга, что позволяет добиться фотореалистичной картинки в GTA V.

CogView

Доступность: онлайн-демо / статья / репозиторий

Новая нейросеть для перевода текста в изображение. В основе модели трансформер на 4 миллиарда параметров и токенизатор VQ-VAE. Создатели утверждают, что их модель работает лучше DALL-E от OpenAI, и в статье также делятся подходом к файнтюнингу модели для решения других задач вроде обучения стилю, улучшению разрешения, а также стабилизации предварительного обучения.

Попробовать модель можно уже сейчас, правда онлайн-демо пока понимает только текст на китайском.

Expire-Span

Доступность: публикация в блоге / статья / репозиторий

В отличие от человеческой памяти, большинство нейронных сетей обрабатывают информацию целиком, без разбора. При небольших масштабах это не вызывает проблем. Но современные крупные модели, которые на вход принимают полноценные книги или десятки часов видеозаписей, требуют все больше вычислительные мощностей.

Исследователи из FAIR решили научить модели забывать информацию, чтобы фокусироваться только на том, что имеет значение. Сначала модель предугадывает информацию, которая наиболее актуальна для поставленной задачи. В зависимости от контекста, данным присваивается дата истечения срока действия, с наступлением которой информация выбрасывается моделью.

Wav2Vec-U

Доступность: публикация в блоге / статья / репозиторий

Есть много моделей распознавания речи, которые превосходно справляются с распространенными языками. Но множество диалектов все еще не поддерживаются этими технологиями. Это связано с тем, что высококачественные системы необходимо обучать с использованием большого количества размещенных аудиозаписей. Исследователи FAIR представили версию модели wav2vec-U, которая обучается без учителя и вообще не требуют размеченных данных.

Rethinking Style Transfer

Доступность: страница проекта / статья / репозиторий

Существует много качественных моделей для переноса стиля. В большинстве из них процесс стилизации ограничен оптимизацией пикселей. Это не совсем естественно, так как картины состоят из мазков кисти, а не пикселей. Данный метод предлагает стилизовать изображения путем оптимизации параметризованных мазков кисти и дифференцируемого рендеринга. Этот подход улучшает визуальное качество и обеспечивает дополнительный контроль над процессом стилизации пользователь может управлять потоком мазков.

Relit

Доступность: страница проекта / статья

Когда вы сидите перед телевизором или монитором, ваше лицо активно освещается изменяющимся потоком света с экрана. Исследователи обучили нейронную сеть, которая принимает на вход фото лица и текущую картинку на мониторе и предсказывает, как будет выглядеть лицо в таком освещении с монитора. Таким образом, можно контролировать виртуальное освещение лица для видео с вебкамеры. Можно предстать перед коллегами в выгодном свете при очередном видеосозвоне.

Total Relighting

Доступность: страница проекта / статья

Исследователи из GoogleAI пошли дальше и представили систему, которая способна заменить фон фотографии и скорректировать освещение человека на ней, сохраняя четкими границы объектов. На вход подаются две фотографии портретный снимок и картинка с новым окружением. Исследователи отмечают, что пока модель плохо справляется с альбедо, из-за чего некоторые типы одежды и глаза могут выглядеть неестественно.

Omnimatte

Доступность: страница проекта / статья

Работа со светом и тенью также нужна для качественного удаления объектов с изображений. Новая нейросеть от исследователей Google может автоматически связывать предметы в видео и вызванные ими эффекты в сцене. Это могут быть тени и отражения, а также рябь от объектов в воде или вообще посторонние объекты, движущиеся рядом, например, собака на поводке. На вход подается грубая маска объектов, а на выходе отдается два видео с фоном и с отдельно вырезанным объектом.

DeepFaceEditing

Доступность: страница проекта / репозиторий

Создатели объединили подход с преобразованием фото в карандашный набросок с возможностями управления скрытым пространством GAN для сохранения эффектов освещения, реалистичности текстур и т.д. Таким образом для редактирования на вход подается оригинальное фото лица человека, оно преобразуется в скетч, который можно изменять штрихами.

StyleMapGAN

Доступность: репозиторий

Новый нейросетевой фотошоп, на этот раз от исследователей из корейской компании Naver. Метод позволяет редактировать отдельные области изображений. Как и у решений, которые мы рассматривали в апреле, здесь та же задача управление скрытыми векторами генеративно-состязательной сети. В их подходе промежуточное скрытое пространство имеет пространственные измерения, и пространственно изменяющаяся модуляция заменяет адаптивную раздельную нормализацию. Таким образом кодировщик более точно создает вектора чем методы, основанные на оптимизации с сохранением свойств GAN.

GPEN

Доступность: онлайн-демо / статья / репозиторий

Китайские исследователи из Alibaba представили модель для реставрации размытых фото низкого качества, который в отличие от методов на основе GAN, создает не чрезмерно сглаженные изображения. Для этого модель использует GAN, чтобы сгенерировать высококачественное изображения лица, которое предварительно декодируется с помощью U-образной DNN.

CodeNet

Доступность: репозиторий

Исследователи из IBM представили крупнейший открытый датасет для проведения бенчмарков с участием программного кода. Набор данных содержит 500 миллионов строк кода на 55 языках программирования, включая C ++, Java, Python, Go, COBOL, Pascal и FORTRAN. CodeNet фокусируется на обнаружении сходств и отличий кода, чтобы продвигать разработку систем, которые смогут автоматически переводить код с одного языка программирования на другой.

DatasetGAN

Доступность: страница проекта / статья

Современные глубокие сети чрезвычайно требовательны к данным, поэтому обучение на крупномасштабных наборах данных требует много времени на разметку. NVIDIA представили генератор синтетических аннотированных датасетов для создания массивных наборов данных, который требует минимальных человеческих усилий. Метод основан на современных GAN и предлагает способ декодирования скрытого пространства для семантической сегментации изображений. Код обещают скоро опубликовать.

Golos

Доступность: репозиторий

Исследователи из Сбера опубликовали датасет с русским корпусом, подходящий для исследования речи. Набор данных в основном состоит из записанных и вручную размеченных аудиофайлов. Общая продолжительность аудиозаписи около 1240 часов.

В мае стали доступны:

На этом все, спасибо за внимание и до встречи в следующем месяце!

Подробнее..

О том как мы научили машину определять пол человека по его почерку

16.06.2021 16:13:28 | Автор: admin

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя рукописи и т. д.). В качестве примера можно привести подобные программные комплексы: Прогноз, POL, Тюльпан, ДИА, Прост, Рабочее место эксперта-почерковеда и так далее.

Однако не будем углубляться в историю

Для того, чтобы приступить к решению столь нетривиальной задачи, необходимо познакомиться поближе с объектом исследования (самим почерком), с уже известными методиками его исследования и с историей применения кибернетических методов в данной области.

Для начала кратко разберем понятие почерк:

Почерк - это зафиксированная в рукописи система привычных движений, в основе которой лежит письменно двигательный навык.

В свою очередь, он имеет следующие основные свойства:

  1. Индивидуальность. Под этим свойством понимается характерные особенности почерка, его своеобразие и неповторимость у разных лиц. Индивидуальность обусловлена воздействием субъективных (выступающих в виде индивидуальных психических, физиологических, анатомических особенностей человека) и объективных (влияние внешней среды) факторов взаимодействующих между собой в процессе формирования письменно двигательного навыка и практики письма;

  2. Избирательная изменчивость - отражает способность письменно двигательного функционального динамического комплекса специфическим образом видоизменяться (в зависимости от от воздействия на него наиболее сильных внешних или внутренних сбивающих факторов);

  3. Временная изменчивость почерка (возможность изменения письменно двигательного функционального динамического комплекса видоизменяться в зависимости от возраста);

  4. Типологическое своеобразие.

Разобрав свойства почерка становится понятно, что учесть всю вариационность отображения письменных знаков невозможно, в следствии воздействия на них многих факторов. Однако мы не учли свойство динамической устойчивости, которое означает способность к сохранению совокупности действий и операций, обозначающих специфическую структуру функционального динамического комплекса, их стандартность, стабильность во времени и по отношению к внешним и внутренним сбивающим факторам. То есть, есть определенный набор признаков, корый устойчив к изменению и несет за собой нужную нам информацию? Да! Как раз то, что нам нужно!

Но как понять устойчив ли тот или иной признак?

Все просто, чем чаще он повторяется, тем устойчивей признак. Как раз такие признаки мы и будем в основном использовать.

Но что мы понимаем под понятием признака?

Если мы обратимся к общей теории почерковедения, то можно выделить 3 основные группы признаков:

  1. Общие (относительное размещение текста, форма линий письма, наклон, разгон, размер и степень связанности почерка, нажим и так далее);

  2. Диагностические. Разделяются на:

    - Признаки снижения координации первой и второй группы (извилистость движений при выполнении и соединении прямолинейных элементов письменных знаков, Несогласованность движений при выполнении и соединении письменных знаков, степень выраженности признаков, извилистая и ступенчатая форма письма, неравномерное направление линии письма и так далее),

    - Признаки замедленного темпа письма (большой или сверхбольшой размер почерка, преобладание усложненных и сложных вариантов букв, наличие тупых начал и окончаний движений и так далее)

    - Специфические диагностические признаки (зеркальность движений, выполнение букв по типу печатных и так далее);

  3. Частные. Делятся на:

    - Сложность движения при выполнении,

    - Форма движений при выполнении,

    - Направление движений при выполнении,

    - Протяженность при выполнении,

    - Количество движений при выполнении

    - Вид движений при выполнении,

    - Последовательность движений при выполнении,

    - Относительное размещения;

Фактически данными признаками можно описать любой почерк, а при наличии 18 устойчивых признаков и идентифицировать исполнителя. Однако в данном случае перед нами стоит классификационно-диагностическая задача (определение пола исполнителя), а не идентификационная.

Узнав какие признаки существуют, нужно выделить устойчивые признаки, которые тем или иным образом могут быть связанны с полом исполнителя рукописи. К счастью мы можем подсмотреть в уже существующую методику дифференциации рукописей на мужские и женские по высоковыработанным почеркам, основанная на вероятностном моделировании (см. Судебно-почерковедческая экспертиза Ч 2, М., ВНИИСЭ, 1971г., с. 223-236) (P. S. это не единственная методика подобного рода). В данной методике изложены 208 признаков почерка с различными коэффициентами. Проще говоря, находим в тексте как можно больше перечисленных в методике признаков, суммируем их коэффициент и получаем определенную величину, по которой мы с определенной долей вероятности можем определить пол исполнителя рукописи.

Да, хоть мы и привязываемся на начальном этапе к уже существующей методике, это не значит, что мы не можем ее доработать, автоматически проанализировав больший объем данных.

Теперь мы знаем, что нужно искать машине (признаки), чтобы классифицировать исходный материал и решить нашу задачу.

Для решения мы будем использовать Keras и CoreML для удобного использования.

Начнем со сбора данных!

В качестве примера мы будем разбирать задачу нахождения и классификации второго элемента строчной буквы а по форме движения при выполнения (петлевая и угловатая форма движения).

Однако при сборе данных мы будем учитывать вариационность. При сборе данных для определения второго элемента строчной буквы а, нам важно учитывать только второй элемент и только форму движения. По-этому добавим некоторые изображения с искажениями, чтобы наша сеть учла исключительно нужные нам факторы (не путать с приемом расширения данных).

Пробную архитектуру возьмем VGG19, а суммарный объем данных 1400 изображений.

Результатом обучения стала 92% точность определения признака.

По аналогии проделываем тоже самое и с остальными признаками. А обучение и интеграция обученных весов в приложение по аналогии со статей, которую я опубликовал ранее.

Далее при нахождении необходимого нами признака складываем коэффициенты из методики и получаем результат.

В ходе всех проведенных мероприятий, мы получили точность определения пола человека по почерку более 79%, однако все зависит от количества написанного исполнителем текста.

Таким образом, мы кратко разобрали лишь один модуль современного программного комплекса Фрося, который, в свою очередь, нацелен на осуществление помощи эксперту-почерковеду в производстве судебно-почерковедческих экспертиз.

Рабочая область программного компелкса ФросяРабочая область программного компелкса Фрося

Список источников и литературы

  1. Судебно-почерковедческая экспертиза. Общая часть. Вып. I, II (Методическое пособие для экспертов, следователей, судей), М., ВНИИСЭ, 1988-1989.

  2. Почерковедение и почерковедческая экспертиза. Учебник / под ред. В. В. Серегина. Волгоград: ВА МВД России, 2012.

  3. Судебно-почерковедческая экспертиза. Особенная часть. Исследование рукописных текстов / под ред. В.Ф. Орловой. М., Наука, 2007.

  4. Аверьянова, Т.В. Судебная экспертиза: курс общей теории / Т.В. Аверьянова. М.: Норма, 2006. 479 с.

  5. Кошманов П.М. Компьютерные технологии в судебно-почерковедческой экспертизе: учеб, пособие / П.М. Кошманов. Волгоград: ВА МВД России, 2008. 72 с.: ил.

  6. Бобовкин М. В. Теория и практика судебно-диагностической экспертизы письма лиц, находящихся в психопатологическом состоянии. Диссертация доктора юридических наук. Волгоград, 2005. 466 с.

Подробнее..

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

20.06.2021 12:09:43 | Автор: admin
В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!



Этот дайджест доступен в виде еженедельной рассылки. А ежедневно новости мы рассылаем в Telegram-канале.

iOS

За что App Store может отклонить приложение: чек-лист
Meet StoreKit 2
Тим Кук: на Android в 47 раз больше вредоносных программ, чем на iOS
Новый антимонопольный акт может заставить Apple продать App Store
Что нового во встроенных покупках в iOS 15 WWDC 21
Строим лабиринты с SwiftUI
iOS 15: заметные дополнения к UIKit
Info.plist отсутствует в Xcode 13 вот как его вернуть
ScrollView в XCode 11
Создаем игры на SwiftUI с помощью SpriteKit
Мастерим списки в SwiftUI
Как лучше структурировать свои проекты в Xcode
Глубокое погружение в Акторы в Swift 5.5
Разработка функций iOS-приложения в виде модулей в Xcode
Как делать видеозвонки с помощью SwiftUI
Euler: вычислительный фреймворк на Swift
WorldMotion: положение устройства относительно Земли

Android

Как использовать Android Data Binding в пользовательских представлениях?
AppSearch из Jetpack вышел в альфа-версии
Распознавание лиц и поз за 40 минут
Android Broadcast: новости #10
Создайте свою библиотеку KMM
История моего первого а-ха-момента с Jetpack Compose
Как стать ассоциированным разработчиком Android (Kotlin Edition)
Анимации Jetpack Compose в реальном времени
RecyclerView с NestedScrollView: лучшие практики
Android Bitbucket Pipeline CI/CD с Firebase App Distribution
CompileSdkVersion и targetSdkVersion в чем отличие?
Нижняя панель навигации Android с Jetpack Compose
Интеграция Google Sign-in в Android-приложение
Focus в Jetpack Compose
DashedView: полосатые View
Screen Tracker: название видимого Activity/Fragment
SquircleView: красивые View

Разработка

5 000 000 строк кода, 500 репозиториев: зачем мы адаптировали приложение AliExpress для Рунета
Десятикратное улучшение производительности React-приложения
gRPC + Dart, Сервис + Клиент, напишем
Podlodka #220: волонтерство в IT
Хороший день разработчика: Good Day Project от GitHub
К 2024 году 80% технологических продуктов будут создавать непрофессионалы
Сквирклморфизм (Squirclemorphism) в дизайне интерфейсов
12 рекомендаций, которые помогут улучшить процесс регистрации и входа в систему
React Native в Wix Архитектура (глубокое погружение)
Как узнать плохой код? 8 вещей
5 лучших пакетов Flutter, которые вы должны знать
Советы по кодинг интервью в Google
Как стать плохим разработчиком

Аналитика, маркетинг и монетизация

Гайд по тестированию рекламы для мобильных приложений
Вслед за Apple и Google комиссию магазина приложений снизила Amazon
make sense: О инфлюенсер-маркетинге
UserLeap получает еще $38 млн на отслеживание пользовательского опыта
Классическая MMORPG RuneScape запускается на iOS и Android
Маркетологи в мобайле: Александр Плёнкин (Vprok.ru Перекрёсток)
Почему такие скриншоты пустая трата времени? (пока у вас нет 4,000 загрузок в месяц)
Amplitude получил еще $150 млн
$100 млн для Free Fire: как младший брат может обогнать старшего на уже сложившемся рынке?
App Annie: рынок мобильных игр в России в 2020 вырос на 25% до $933 млн
Темные паттерны и уловки в мобильных приложениях
Использование BigQuery и Firebase Analytics для привлечения, вовлечения и оценки пользователей

AI, Устройства, IoT

Запускаем DOOM на лампочке
Быстрое обнаружение Covid-19 на рентгеновских снимках с помощью Raspberry Pi
Как я учу Python на Raspberry Pi 400 в библиотеке
Топ-5 преемников GPT-3, о которых вы должны знать в 2021 году

? Предыдущий дайджест. Если у вас есть другие интересные материалы или вы нашли ошибку пришлите, пожалуйста, в почту.
Подробнее..

Перевод Теория игр как механизм для анализа крупномасштабных данных

31.05.2021 16:13:25 | Автор: admin

Современные системы искусственного интеллекта подходят к решению таких задач, как распознавание объектов на изображениях и прогнозирование трёхмерной структуры белков, как прилежный студент готовится к экзамену. Тренируясь на многих примерах решения аналогичных задач, они со временем сводят к минимуму собственные ошибки и в конце концов добиваются успеха. Но приведённый пример лишь частный случай и лишь одна из известных форм обучения. К старту курса "Machine Learning и Deep Learning" делимся переводом статьи о том, как в DeepMind создали многоагентную систему при помощи нового подхода EigenGame, то есть компромисса между чистой оптимизацией и динамической системой.


Обучение также происходит при взаимодействии и играх с другими людьми. Перед человеком могут вставать чрезвычайно сложные проблемы, и решить их в одиночку ему вряд ли удастся. DeepMind попыталась решать проблемы с использованием определённых игровых приёмов, и у неё это прекрасно получилось она обучила агентов ИИ играть в Capture the Flag, а один из её агентов даже набрал гроссмейстерскую норму в Starcraft [мы писали об этом вчера, в статье о том, как StarCraft II может помочь экологам]. Это заставило нас задуматься, сможет ли теория игр помочь в решении других фундаментальных проблем машинного обучения.

Сегодня на ICLR 2021 (Международной конференции по обучающим представительствам) мы представили исследование "EigenGame: метод PCA как равновесие по Нэшу", получившее награду за лучшую публикацию (Outstanding Paper Award). В нём мы описали новый подход к решению старой проблемы: представили метод главных компонент (PCA), тип задачи о собственных значениях как конкурентную многоагентную игру. Такую игру мы назвали EigenGame. Метод PCA обычно трактуется как задача оптимизации (или проблема одного агента); однако мы выяснили, что, если применить многоагентный подход, можно разрабатывать новые идеи и алгоритмы, использующие современные вычислительные ресурсы. Применяя многоагентный подход, мы научились масштабировать огромные наборы данных, обработка которых ранее занимала бы слишком много времени и ресурсов, и теперь предлагаем альтернативный подход к проведению будущих исследований.

Метод PCA как равновесие Нэша

Впервые описанный в начале 1900-х годов метод PCA представляет собой давнюю технику, позволяющую осмыслить структуру крупномасштабных данных. В настоящее время данный подход повсеместно используется в качестве средства, обеспечивающего первый этап работы конвейера обработки данных и позволяющего с лёгкостью кластеризовать и визуализировать данные. Данный метод также может оказаться полезным инструментом для обучения низкоразмерных представлений функциям регрессии и классификации. Со времени изобретения метода PCA прошло уже более века, но до сей поры он не утратил своей актуальности.

Во-первых, раньше данные заносились вручную в бумажные блокноты, их было не так много, и их обработка не представляла сложности, а сейчас они хранятся в центрах обработки данных огромных размеров, и применение метода требует колоссальных вычислительных ресурсов. Исследователи пытались применять рандомизированные алгоритмы и другие методы, повышающие качество масштабирования метода PCA, однако, как удалось выяснить, такие подходы практически неприменимы к массивным наборам данных, так как неспособны в полной мере использовать последние достижения вычислительной науки, ориентированные на глубокое обучение, а именно доступ ко многим параллельным GPU или TPU.

Во-вторых, метод PCA имеет много общего с множеством важных инженерных методов и алгоритмов машинного обучения, в частности с методом разложения по сингулярным значениям (SVD). Благодаря правильно выбранному подходу к применению метода PCA наши идеи и алгоритмы стали широко применяться во всех областях машинного обучения.

Рис. 1. Дерево знаний на базе SVD охватывает многие фундаментальные идеи машинного обучения, включая методы PCA, наименьших квадратов, спектральной кластеризации, функции условных значений, латентно-семантическое индексирование и сортировкуРис. 1. Дерево знаний на базе SVD охватывает многие фундаментальные идеи машинного обучения, включая методы PCA, наименьших квадратов, спектральной кластеризации, функции условных значений, латентно-семантическое индексирование и сортировку

Как и в любой настольной игре, для того чтобы представить метод PCA в качестве игры, необходим набор правил и целей, которым должны следовать игроки. Существует множество возможных способов разработки такой игры; вероятно, лучшим из них является концепция самого метода PCA: оптимальное решение состоит из собственных векторов, отражающих важную дисперсию данных и ортогональных друг другу.

Рис. 2 Каждый игрок хочет двигаться в направлении максимальной дисперсии (большего разброса данных), но при этом оставаться перпендикулярным к игрокам, стоящим выше в иерархии (всех игроков с меньшим номером)Рис. 2 Каждый игрок хочет двигаться в направлении максимальной дисперсии (большего разброса данных), но при этом оставаться перпендикулярным к игрокам, стоящим выше в иерархии (всех игроков с меньшим номером)

В игре EigenGame каждый игрок управляет собственным вектором. Игроки увеличивают свой счёт, объясняя дисперсию в данных, но получают штраф, если слишком близко "подходят" к другим игрокам. Мы также устанавливаем иерархию: игрока 1 волнует только максимизация дисперсии, в то время как другие игроки также должны беспокоиться о том, чтобы не "подходить" близко к игрокам, стоящим выше их в иерархии. Такое сочетание поощрений и наказаний определяет полезность каждого игрока.

Рис. 3. Определение полезности каждого игрока выше в иерархииРис. 3. Определение полезности каждого игрока выше в иерархии

С помощью надлежащим образом определённых Var и Align можно показать, что:

  • Если все игроки играют оптимально, вместе они достигают равновесия по Нэшу, что и является решением PCA.

  • Такого результата можно достичь, если каждый игрок независимо и одновременно максимизирует собственную полезность, используя градиентное восхождение.

Рис. 4. EigenGame параллельно направляет каждого игрока вдоль единичной сферы от пустых окружностей к стрелкам. Синий игрок 1. Красный игрок 2. Зелёный игрок 3Рис. 4. EigenGame параллельно направляет каждого игрока вдоль единичной сферы от пустых окружностей к стрелкам. Синий игрок 1. Красный игрок 2. Зелёный игрок 3

Данное свойство независимости одновременного восхождения имеет особенную важность, так как позволяет распределить вычисления по десяткам TPU в Google Cloud, обеспечивая параллелизм данных и моделей. Соответственно, наш алгоритм может адаптироваться к данным действительно крупного масштаба. Для наборов данных из сотен терабайт, содержащих миллионы признаков или миллиарды строк, EigenGame находит главные компоненты за несколько часов.

Рис. 5. Каждый цветной квадрат представляет собой отдельное устройство. (L) Каждый игрок живёт и вычисляет обновления на одном устройстве. (R) Каждый игрок копируется на несколько устройств и вычисляет обновления, используя независимые наборы данных; различные обновления затем усредняются, и определяется более надёжное направление обновленияРис. 5. Каждый цветной квадрат представляет собой отдельное устройство. (L) Каждый игрок живёт и вычисляет обновления на одном устройстве. (R) Каждый игрок копируется на несколько устройств и вычисляет обновления, используя независимые наборы данных; различные обновления затем усредняются, и определяется более надёжное направление обновления

Полезность, обновления и всё, что с ними связано

Применяя метод PCA как многоагентную функцию, мы смогли разработать масштабируемые алгоритмы и предложить новые метода анализа. Мы также обнаружили удивительную связь метода с обучением по Хеббу, то есть тем, как происходит адаптация нейронов в процессе обучения. В EigenGame каждый игрок, максимизирующий собственную полезность, запускает уравнения обновления, аналогичные правилам обновления, полученным на основе Хеббовских моделей мозговой синаптической пластичности. Известно, что обновления по Хеббу сводятся к решению проблемы PCA, однако они не выводятся как градиент какой-либо функции полезности. Теория игр предоставляет возможность по-новому взглянуть на обучение по Хеббу, а также предлагает большое разнообразие подходов к решению проблем машинного обучения.

На одном конце разнообразных методов машинного обучения находится хорошо отработанный путь предложения целевой функции, которую можно оптимизировать: используя теорию выпуклого и невыпуклого программирования, исследователи могут рассуждать о глобальных свойствах решения. С другой стороны, чистые нейросетевые методы и правила обновления, созданные на основе нейробиологических концепций, задаются напрямую, однако задача анализа всей системы может оказаться более сложной, часто требующей анализа сложных динамических систем.

Теоретико-игровые подходы, такие как EigenGame, находятся где-то посередине. Обновления игрока не ограничиваются градиентом функции, а только наилучшим ответом на текущие стратегии других игроков. Мы можем свободно проектировать функции полезности и обновления с желаемыми свойствами, например, определять нейтральные или ускоренные обновления, гарантируя при этом, что для анализа системы в целом по-прежнему будет использоваться правило Нэша.

Рис. 6. Возможность использования нескольких функций полезности устраняет разрыв между оптимизационными подходами и динамическими системамиРис. 6. Возможность использования нескольких функций полезности устраняет разрыв между оптимизационными подходами и динамическими системами

EigenGame реализует конкретный пример разработки решения задачи машинного обучения в качестве выхода большой многоагентной системы. В целом разработка задач машинного обучения как многоагентных игр представляет собой сложную проблему разработки механизмов; однако для решения задач машинного обучения исследователи уже используют класс игр с нулевой суммой для двух игроков. В частности, успех генеративных состязательных сетей (GANs) как подхода к генеративному моделированию вызвал интерес к взаимосвязи между теорией игр и машинным обучением.

EigenGame идёт ещё дальше, создавая более сложную игру для многих игроков с накопленной суммой, обеспечивающую более очевидный параллелизм и, соответственно, больший масштаб и скорость. Данная игра также представляет собой количественный эталон для игрового сообщества, позволяющий тестировать новые многоагентные алгоритмы в более перспективных областях, таких как дипломатия и футбол.

Надеемся, что наш план разработки функций полезности и обновлений побудит других энтузиастов исследовать данное направление и начать разрабатывать собственные алгоритмы, агентов и системы. В перспективе хотелось бы выяснить, какие ещё проблемы могут быть сформулированы как игры и смогут ли полученные нами знания улучшить понимание многоагентной природы интеллекта.


Более подробная информация приведена в нашей работе EigenGame: метод PCA как равновесие по Нэшу и последующей работе EigenGame Unloaded: когда играть лучше, чем оптимизировать. Данная запись в блоге основана на совместной работе с Туром Грейпелом, руководителем исследовательской группы в DeepMind и заведующим кафедрой машинного обучения в Университетском колледже Лондона.

Машинное обучение продолжает развиваться, приобретая гибкость, необходимую для решения проблем всё более широкого спектра, а значит её проблемы и решения будут актуальны ещё долгое время по меркам не только быстро изменяющихся информационных технологий, но и других областей знаний, где новые методы будут применяться. Если вам интересна сфера глубокого и машинного обучения, вы можете обратить внимание на курс "Machine Learning и Deep Learning" широкое и глубокое введение в область искусственного интеллекта.

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

20.06.2021 18:15:44 | Автор: admin

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но самый важный вопрос как именно трансформеры делают это? Попытаемся ответить и понять, почему трансформеры способны выполнять такие вычисления. Итак, цель статьи, чуть сокращённым переводом которой мы делимся к старту курса о машинном и глубоком обучении, разобраться не только с тем, как что-то работает, но и почему работает так. Чтобы понять, что движет трансформерами, мы должны сосредоточиться на модуле внимания. Начнём с входных данных и посмотрим, как они обрабатываются.


Как входная последовательность попадает в модуль внимания

Модуль внимания присутствует в каждом энкодере внутри стека каждого энкодера, а также внутри стека каждого декодера. Сначала внимательно посмотрим на энкодер.

Модуль внимания в энкодереМодуль внимания в энкодере

Для примера предположим, что мы работаем над задачей перевода с английского на испанский, где исходная последовательность слов The ball is blue, а целевая последовательность La bola es azul.

Исходная последовательность сначала проходит через слой векторного представления и позиционного кодирования, генерирующего векторы векторного представления для каждого слова последовательности. Векторное представление передаётся в энкодер, где вначале попадает в модуль внимания.

Внутри модуля внимания последовательность векторного представления проходит через три линейных слоя, создающих три отдельные матрицы запроса (Query), ключа (Key) и значения (Value). Именно эти три матрицы используются для вычисления оценки внимания [прим. перев. оценка определяет, сколько внимания нужно уделить другим частям входного предложения, когда мы кодируем слово в определённой позиции]. Важно помнить, что каждая "строка" этих матриц соответствует одному слову исходной последовательности.

Поток исходной последовательностиПоток исходной последовательности

Каждая входная строка это слово из последовательности

Чтобы понять, что происходит с модулем внимания, мы начнём с отдельных слов исходной последовательности, проследив их путь через трансформер. Если конкретнее, мы хотим сосредоточиться на происходящем внутри модуля внимания. Это поможет нам чётко увидеть, как каждое слово в исходной и целевой последовательностях взаимодействует с другими словами этих последовательностей.

Пока вы разбираетесь с этим объяснением, сосредоточьтесь на том, какие операции выполняются с каждым словом и как каждый вектор отображается на исходное входное слово. Не нужно думать о множестве других деталей, таких как формы матриц, особенности арифметических вычислений, множественное внимание и так далее, если эти детали не относятся напрямую к тому, куда направляется каждое слово. Итак, чтобы упростить объяснение и визуализацию, давайте проигнорируем размерность векторного представления и будем отслеживать только строки для каждого слова.

Расположение каждого слова в исходной последовательностиРасположение каждого слова в исходной последовательности

Каждое слово проходит серию обучаемых преобразований (трансформаций)

Каждая такая строка была сгенерирована из соответствующего исходного слова посредством серии трансформаций векторного представления, позиционного кодирования и линейного слоя. Все эти трансформации возможно обучить; это означает, что используемые в этих операциях веса не определены заранее, а изучаются моделью таким образом, чтобы они давали желаемые выходные прогнозы.

Линейные веса и веса векторного представления обученыЛинейные веса и веса векторного представления обучены

Ключевой вопрос заключается в том, как трансформер определяет, какой набор весов даст ему наилучшие результаты? Держите этот момент в памяти мы вернёмся к нему немного позже.

Оценка внимания это скалярное произведение матрицы ключа и матрицы запроса слов

Модуль внимания выполняет несколько шагов, но здесь мы сосредоточимся только на линейном слое и на оценке внимания.

Многоголовое вниманиеМногоголовое вниманиеРасчёт оценки вниманияРасчёт оценки внимания

Как видно из формулы, первый шаг в рамках модуля внимания умножение матрицы, то есть скалярное произведение между матрицей Query (Q) и транспонированием матрицы ключа Key (K). Посмотрите, что происходит с каждым словом. Итог промежуточная матрица (назовём её факторной матрицей [матрицей множителей]), где каждая ячейка это результат матричного умножения двух слов.

Скалярное произведение матрицы запроса и матрицы ключаСкалярное произведение матрицы запроса и матрицы ключа

Например, каждый столбец в четвёртой строке соответствует скалярному произведению между четвёртым словом запроса и каждым ключевым словом.

Скалярное произведение между матрицами запроса и ключаСкалярное произведение между матрицами запроса и ключа

Оценка внимания скалярное произведение между запросом-ключом и значением слов

Следующим шагом является матричное умножение между этой промежуточной матрицей множителей и матрицей значений (V), чтобы получить оценку внимания, который выводится модулем внимания. Здесь мы можем видеть, что четвёртая строка соответствует четвёртой матрице слов запроса, умноженной на все остальные ключевые слова и значения.

Скалярное произведение между матрицами ключа запроса и значенияСкалярное произведение между матрицами ключа запроса и значения

Получается вектор оценки внимания (Z), который выводится модулем внимания. Выходной результат можно представить следующим образом: для каждого слова это закодированное значение каждого слова из матрицы Значение, взвешенное матрицей множителей. Матрица множителей представляет собой точечное произведение значения запроса для данного конкретного слова и значения ключа для всех слов.

Оценка внимания это взвешенная сумма значения словОценка внимания это взвешенная сумма значения слов

Какова роль слов запроса, ключа и значения?

Слово запроса это слово, для которого мы рассчитываем внимание. В свою очередь слово ключа и значения это слово, на которое мы обращаем внимание, то есть определяем, насколько это слово соответствует слову запроса.

Оценка внимания для слова blue обращает внимание на каждое словоОценка внимания для слова blue обращает внимание на каждое слово

Например, для предложения The ball is blue строка для слова blue будет содержать оценку внимания для слова blue с каждым вторым словом. Здесь blue это слово запроса, а другие слова ключ/значение. Выполняются и другие операции, такие как деление и softmax, но мы можем проигнорировать их в этой статье. Они просто изменяют числовые значения в матрицах, но не влияют на положение каждой строки слов в ней. Они также не предполагают никаких взаимодействий между словами.

Скалярное произведение сообщает нам о сходстве слов

Итак, мы увидели, что оценка внимания отражает некоторое взаимодействие между определённым словом и каждым другим словом в предложении путём скалярного произведения с последующим их сложением. Но как матрица умножения помогает трансформеру определять релевантность между двумя словами?

Чтобы понять это, вспомните, что строки запроса, ключа и значения на самом деле являются векторами с размерностью векторного представления. Давайте посмотрим, как умножаются матрицы между этими векторами.

Каждая ячейка представляет собой скалярное произведение двух векторов словКаждая ячейка представляет собой скалярное произведение двух векторов слов

Для получения скалярного произведения двух векторов мы умножаем пары чисел, а затем суммируем их.

  • Если два парных числа (например, a и d выше) оба положительны или оба отрицательны, произведение положительно. Произведение увеличит итоговую сумму.

  • Если одно число положительное, а другое отрицательное, произведение будет отрицательным. Произведение уменьшит итоговую сумму.

  • Если произведение положительное, то, чем больше два числа, тем больше их вклад в окончательную сумму.

Это означает, что, если знаки соответствующих чисел в двух векторах выровнены, итоговая сумма будет больше.

Как трансформер изучает релевантность между словами?

Скалярное произведение также применимо к оценке внимания. Если векторы для двух слов более выровнены, оценка внимания будет выше. Итак, какого поведения мы хотим от трансформера? Мы хотим, чтобы оценка внимания была высокой для двух релевантных друг другу слов в предложении. И мы хотим, чтобы оценка двух слов, не связанных друг с другом, была низкой.

Например, в предложении The black cat drank the milk слово milk очень релевантно к drank, возможно, немного менее релевантно для cat, и нерелевантно к black. Мы хотим, чтобы milk и drink давали высокую оценку внимания, чтобы milk и cat давали немного более низкую оценку, а для milk и black незначительную. Мы хотим, чтобы модель научилась воспроизводить этот результат. Чтобы достичь воспроизводимости, векторы слов milk и drank должны быть выровнены. Векторы milk и cat несколько разойдутся. А для milk и black они будут совершенно разными.

Давайте вернёмся к вопросу, который мы откладывали: как трансформер определяет, какой набор весов даст ему наилучшие результаты? Векторы слов генерируются на основе векторного представления слов и весов линейных слоёв. Следовательно, трансформер может изучить эти векторные представления, линейные веса и так далее, чтобы создать векторы слов, как требуется выше.

Другими словами, он будет изучать эти векторные представления и веса таким образом, что если два слова в предложении релевантны друг другу, то их векторы слов будут выровнены, следовательно, получат более высокe. оценку внимания. Для слов, которые не имеют отношения друг к другу, их векторы не будут выровнены и оценка внимания будет ниже.

Следовательно, векторные представления слов milk и drank будут очень согласованными и обеспечат высокую оценку внимания. Они будут несколько отличаться для milk и cat, производить немного более низкую оценку и будут совершенно разными в случае milk и black: оценка внимания будет низкой вот лежащий в основе модуля внимания принцип.

Итак, как же работает трансформер?

Скалярное произведение между запросом и ключом вычисляет релевантность между каждой парой слов. Эта релевантность затем используется как множитель для вычисления взвешенной суммы всех значений слов. Эта взвешенная сумма выводится как оценка внимания. Трансформер изучает векторные представления и т. д. таким образом, что релевантные друг другу слова были более согласованы.

В этом кроется одна из причин введения трёх линейных слоёв и создания трёх версий входной последовательности: для запроса, ключа и значения. Такой подход даёт модулю внимания ещё несколько параметров, которые он может изучить, чтобы подстроить процесс создания векторов слов.

Самовнимание энкодера в трансформере

Внимание используется в трансформере в трёх местах:

  • Самовнимание в энкодере исходная последовательность обращает внимание на себя.

  • Самовнимание в декодере целевая последовательность обращает внимание на себя.

  • Энкодер-декодер-внимание в декодере целевая последовательность обращает внимание на исходную последовательность.

Внимание в ТрансформереВнимание в Трансформере

В самовнимании энкодера мы вычисляем релевантность каждого слова в исходном предложении каждому другому слову в исходном предложении. Это происходит во всех энкодерах стека.

Декодер самовнимания в трансформере

Большая часть того, что мы только что видели в энкодере самовнимания, применима и к вниманию в декодере, но с некоторыми существенными отличиями.

Внимание в декодереВнимание в декодере

В декодере самовнимания мы вычисляем релевантность каждого слова в целевом предложении каждому другому слову в целевом предложении.

Самовнимание декодераСамовнимание декодера

Энкодер-декодер модуля внимания в трансформере

В энкодере-декодере запрос получается из целевого предложения, а ключ/значение из исходного предложения. Таким образом, он вычисляет релевантность каждого слова в целевом предложении каждому слову в исходном предложении.

Энкодер-декодер ВниманияЭнкодер-декодер Внимания

Заключение

Надеюсь, статья дала вам хорошее представление об элегантности архитектуры трансформера. Прочтите также другие статьи о трансформере из моей серии, чтобы лучше представлять, почему сегодня трансформер это предпочтительная архитектура многих приложений глубокого обучения.

Здесь мы видим, что за сложными идеями скрываются простые решения. Более того, есть ощутимая вероятность того, что вскоре понимание внутренних механизмов глубокого обучения станет второй грамотностью, как сегодня второй грамотностью стало знание ПК в целом и если вы хотите углубиться в область глубокого и машинного обучения, получить полное представление о современном ИИ, вы можете присмотреться к нашему курсу Machine Learning иDeep Learning, партнёром которого является компания NVIDIA.

Узнайте, как прокачаться и в других специальностях или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Шесть фильмов на фестивале ДОКер, вдохновляющих на инновации

03.06.2021 10:20:31 | Автор: admin
ЛАНИТ и фестиваль документального кино ДОКер связывает семилетняя дружба. У бизнеса и искусства есть много общего: и то, и другое нуждается в творческой энергии, инновационных моделях мышления. Вместе с оргкомитетом фестиваля мы придумали конкурс фильмов об информационных технологиях, который получил название LET IT DOK!. Фильмы в этой номинации рассказывают, как технологии меняют жизнь людей, их стремления и мечты.

В этом году на конкурс LET IT DOK! поступило 350 фильмов, из которых в финал прошли шесть. К примеру, история о чешском шахтере, решившем кардинально изменить жизнь и стать программистом; шокирующий кино-эксперимент, направленный на предотвращение преступлений против детей и подростков в виртуальном пространстве; картина о любви с домашними андроидами.

В статье подробно о каждом фильме-финалисте. Увидеть их на большом экране можно будет на фестивале ДОКер, который пройдет с 18 по 27 июня в кинотеатре Октябрь.

Источник

Программа Let IT DOK 2021


1. Любовь 3.0

Режиссер: Ольга Панкратова
Россия, 2020 год, 24 мин.

Мировая премьера

Будущее для одиноких. Отношения превращаются в алгоритмы. Чем больше выбор партнеров, тем меньше хочется на ком-то остановиться. Сервисы для знакомств не заинтересованы в том, чтобы вы кого-то нашли. Лучший друг мужчин домашний андроид. Да и девушек, в общем, тоже.

Источник

2. Пойманы в сети

Режиссеры: Вит Клусак, Барбора Халупова
Чехия, 2020 год, 100 мин.

Мировая премьера

Экспериментальный документальный фильм, в котором три актрисы на собственном примере обучают детей и подростков безопасности в интернете. Как не стать жертвой сексуальных преступлений и шантажа в виртуальном пространстве?

Источник

3. Новая смена

Режиссер: Йиндржих Андрш
Чехия, 2020 год, 94 мин.

Российская премьера

Томас 25 лет проработал в угольной шахте, а когда она закрылась решил стать программистом и записался на курсы профессиональной переподготовки. Удастся ли сорокалетнему шахтеру-панку вписаться в компанию хипстеров-компьютерщиков?

Источник

4. Смерти. Нет

Режиссер: Валерия Сарайкина
Россия, 2020 год, 23 мин.

Мировая премьера

Завтра мы перестанем бояться смерти. Благодаря кибернетическим имплантам. Цифровому сознанию. Криогенной заморозке. Другим технологиям продления жизни. Человечество на пороге бессмертия. Или нет?

Источник

5. Сын бакалейщика, мэр, деревня и весь мир

Режиссер: Клэр Симон
Франция/Бельгия, 2020 год, 111 мин.

Российская премьера

Жители коммуны Люсса встречаются в здании бывшего магазина, неожиданно ставшего домом для стриминговой платформы. Проект был вдохновлен фестивалем артхаусного документального кино, который проходит в Люсса уже тридцать лет. Пока фермеры и виноделы обрабатывают поля и собирают урожай, мечтатели-документалисты создают свой собственный сервис для создания и трансляции фильмов.

Источник

6. Экосистемы

Режиссер: Юлия Бобкова
Россия, 2020 год, 25 мин.

Мировая премьера

Сегодня за вас сражаются корпорации. Они повысят качество жизни. Но будут собирать данные о каждом шаге и принимать решения за вас. Чем вы ужинаете? Что посмотрите вечером? Чем займетесь завтра? Это решит экосистема.

Источник

Показы ИТ-фильмов пройдут с 19 по 24 июня, в то время как сам ДОКер продлится дольше с 18 по 27 июня (ознакомиться с полной программой фестиваля можно по ссылке Программа 2020 | Кинофестиваль ДОКер (midff.ru). Посмотреть картины первыми (в рамкам LET IT DOK! четыре мировых премьеры) можно будет в просторных залах кинотеатра Октябрь по адресу Новый Арбат, 24.

Любопытно и то, что придя на показ, вы же выступите в роли жюри. Лучшую картину LET IT DOK! определят итоги зрительского голосования. К слову, в прошлом году выбор пал на дебют израильского режиссера Итамара Роуз 100 миллионов просмотров. Режиссер (он же выступил в фильме и в роли главного героя) задавался вопросом, как стать популярным в YouTube. В этот раз лент на иврите среди ИТ-фильмов нет. Зато в программе сразу три российские ленты.
Подробнее..

Как открывали глаза компьютерам

04.06.2021 14:18:19 | Автор: admin

В 1998 году выпускник ННГУ им. Лобачевского Вадим Писаревский устроился на работу в небольшую IT-компанию и получил задание начать работать над технологией, о которой ничего не знал. В то время он и не предполагал, что эта работа затянется на десятилетия, а на основе созданных с его участием разработок в мире будет изготовлено несколько миллиардов гаджетов, и жизнь людей на планете Земля существенно изменится.

Как малая компания начала работу планетарного масштаба

Все началось с того, что математики и IT-специалисты выходцы из Сарова создали Нижегородскую Программную Технологическую Лабораторию (NSTL Nizhny Software Technology Lab[1]). Ранее они работали над исполнением контракта между Intel и Саровским ВНИИЭФ. Но сотрудничество с международными компаниями в закрытом городе атомщиков, с его режимом секретности, было очень неудобным. Поэтому несколько саровских специалистов и переехали в областной центр, сохранив при этом связи с Intel. Мы выполняли несколько контрактов с Intel, когда мне предложили взяться за работу над библиотекой[2]компьютерного зрения, вспоминает Валерий Федорович Курякин (в те годы один из руководителей NSTL). У меня уже был опыт работы с компьютерным зрением, и я понимал перспективность этой технологии. И хотя тогда был вынужден разрываться между перспективными и менее перспективными, но приносящими деньги проектами (сил у компании не хватало), решил согласиться.

Сил у NSTL действительно не хватало. В то время в ней работали менее 40 человек, в основном, молодых специалистов. Да и не все сотрудники горели желанием работать неизвестно над чем. Безуспешно перепробовав нескольких программистов, руководитель NSTL дал задание начать работать над библиотекой двум вчерашним выпускникам ННГУ им. Лобачевского: Вадиму Писаревскому (сегодня сотрудник Института искусственного интеллекта и робототехники для общества (г. Шэньчжень, Китай) и Виктору Ерухимову (сейчас CEO & Founder в itSeez3D). О компьютерном зрении они не знали ничего, но за работу взялись с энтузиазмом. Ощущения чего-то большого у меня не было, зато были интересные задачи и какой-то бесконечный драйв, когда все бегали с вытаращенными глазами, вспоминает Виктор Ерухимов. В те годы нижегородские разработчики работали в парах со специалистами Intel в США, а курировали весь проект его инициаторы в Intel Гари Брадски и Шинн Ли. Позже, когда нижегородцы показали хорошие результаты, им предоставили большую автономию.

Количество занятых в проекте сотрудников постепенно увеличивалось. К 2000 году у нас сложилась техническая команда, рассказывает Вадим Писаревский. Я был техническим лидером, но не справился бы без таких людей, как Сергей Обломов, который разбирался, как строить библиотеки в Linux, Валерий Черепенников, занимавшийся оптимизацией, или Валерий Мосягин, специализировался на калибрации камер. Всего нас было уже человек десять. Примерно столько же инженеров работало и в США. И этими силами был создан первый готовый продукт.

Выпущенная в 2000 году первая версия библиотеки получилась достаточно убедительной и наделала много шума в мировом IT-сообществе. Функциональность ее по современным меркам была весьма скромной: простейшая обработка изображений, калибрация камер, возможность отслеживать движение точек на компьютере Но некоторые разработанные тогда программы используются и до сих пор. К примеру, когда вы делаете фотографию смартфоном, вокруг лиц фотографируемых людей появляются прямоугольники, и на них наводится резкость. Эта функция присутствовала еще в первой версии библиотеки, и написанная тогда программа до сих пор используется практически без изменений. Главное же: разработка сразу стала применяться для решения практических задач. Компьютерное зрение стало использоваться, например, на конвейерах промышленных предприятий для определения координат передвигающихся деталей или для контроля правильности пайки электронных плат.

Как к разработке компьютерного зрения привлекли мировое сообщество

Вскоре после первого успеха американский инициатор проекта Гари Брадски убедил руководство Intel развивать технологию в виде свободно распространяемой библиотеки с открытым исходным кодом. То есть, доступ к разработке Intel мог бесплатно получить любой программист мира. Сейчас, когда все крупные компании участвуют в разработке открытого кода и поддерживают проекты, разрабатываемые другими командами, это решение кажется очевидным. Но тогда, 20 лет назад, компании еще не были готовы вкладываться в разработки, которые затем выложат в открытый доступ, и конкуренты смогут использовать их бесплатно. Аргументом в пользу такого решения могло служить только то, что Intel не сможет зарабатывать на производстве и продаже более мощных процессоров, если не будет существовать программного обеспечения, требующего большей вычислительной мощности.

В 2000 году библиотека получила свое нынешнее название OpenCV. Я думаю, что это было единственно верное решение, заявляет Вадим Писаревский. Такие большие проекты не в силах реализовать не только один человек, но и одна команда. Они под силу только мировому IT-сообществу. Десятки тысяч программистов со всего мира стали пользоваться разработками программистов Intel, но и тысячи энтузиастов начали присылать разработанные ими патчи[3]для развития библиотеки.

Библиотека быстро росла и превратилась в мощный инструмент для развития технологии компьютерного зрения. Если раньше каждый программист должен был начинать любую свою разработку с азов, создавая простейшие программы, то теперь он использовал для нее готовые модули OpenCV. Поэтому OpenCV резко снизил порог входа на рынок. Для иллюстрации этого тезиса один из участников проекта (сегодня руководитель Intel IOTG Computer Vision) ирилл Корняков рассказал о своей работе со студентами: Во время пандемии группа из трех студентов-второкурсников, сидя на карантине, за пару недель реализовала проект, позволяющий детектировать: есть ли на лице человека маска? Актуальная тогда тема. Еще лет десять назад на этот проект взяли бы группу высококвалифицированных программистов и дали бы им на работу несколько месяцев. Теперь, благодаря использованию возможностей OpenCV, такая разработка даже на уровень курсовой не тянет.

Как OpenCV ушла от Intel к Intel

Разумеется, интерес к столь удобному инструменту быстро рос. Количество пользователей OpenCV резко увеличилось, но энтузиазм Intel по развитию этой библиотеки в середине 2000-х стал угасать. Команда с пиковой численности примерно в 30 сотрудников была уменьшена до двух человек. А в 2009 году Intel официально прекратил проект OpenCV. Решения крупных компаний иногда трудно понять, но разработчики проекта объясняют отказ американской корпорации от OpenCV тем, что библиотека на протяжении нескольких лет не приносила компании прямого дохода. Да, технология интересная, да, выглядела перспективно, но в то время было непонятно, как ее можно монетизировать, рассуждает Валерий Черепенников (сегодня вице-президент Российского Исследовательского Института Huawei (Huawei Russian Research Institute, RRI).

После отказа Intel от финансирования OpenCV Вадим Писаревский на протяжении нескольких лет поддерживал библиотеку бесплатно, на общественных началах. И если бы он не делал этого, то проект, скорее всего, умер бы, повторив судьбу многих других открытых библиотек, оставшихся без поддержки. Если кто-то не будет постоянно отслеживать работу с библиотекой, она затухнет. Проектов с открытым кодом тысячи, и большинство из них, к сожалению, погибли, утверждает Валерий Черепенников.

Часть нижегородских программистов разработчиков OpenCV также решили не отказываться от освоенной ими темы. Они уволились из Intel и основали собственный микробизнес: Центр компьютерного зрения Аргус. Довольно быстро этот бизнес из микро- вырос в малый, а затем и в совсем немалый. На его основе была создана компания Itseez, с офисами в Нижнем Новгороде и Сан-Франциско, в которой работали более 100 инженеров. В то время выяснилось, что на основе OpenCV можно разрабатывать продукты, которые хорошо работают не только на процессорах Intel, вспоминает Виктор Ерухимов. Так NVIDIA Corporation стала использовать разработки нижегородцев для развития своих графических ускорителей и автомобильных бортовых компьютеров. А разработчик персональных роботов помощников для дома Willow Garage даже совершил революцию в робототехнике. Я сам писал программу для Willow Garage, благодаря который робот при разряде аккумулятора зрительно находит в комнате розетку, подъезжает к ней, и своей рукой вставляет в нее вилку для подзарядки батареи, вспоминает Виктор Ерухимов.

Компьютерное зрение стало приносить реальные деньги. Когда руководство Intel осознало, что другие компании успешно конкурируют на ими же созданной площадке, корпорация вновь взялась за развитие этой технологии сразу в трех своих подразделениях: в Нижнем Новгороде, в США и Китае. А в 2016 году Intel купил основанную своими бывшими нижегородскими сотрудниками и известную, прежде всего, ключевой ролью в развитии библиотеки OpenCV компанию Itseez.

Как у компьютеров появился искусственный интеллект

Первые статьи о Deep learning (глубокое обучение машин на основе нейронных сетей, которое в популярной литературе называется Искусственный интеллект) были написаны еще в конце 90-х годов XX века. Но тогда казалось, что эта технология бесперспективна. Когда в 2003 году я начинал заниматься машинным обучением, нейронные сети среди его алгоритмов считались абсолютным изгоем. Потому что с ними невозможно работать, их нельзя тренировать, они плохо реагируют на ошибки данных и т.д., рассказывает Виктор Ерухимов. В 2009 году появились первые смартфоны с фотоаппаратом и выходом в Интернет. А вслед за ними возникли миллионы изображений, которыми можно было тренировать компьютеры на больших объемах данных.

Первой запустила крупный проект такой тренировки NVIDIA Corporation, для которой нижегородская Itseez разработала первые алгоритмы глубокого машинного обучения. Тогда еще никто не знал, что из этого получится. А получилась новая техническая революция. Раньше человечество не предполагало, что если нейронную сетку натренировать на миллионе изображений, то она будет обучаться и дальше уже самостоятельно, объясняет Вадим Писаревский, но оказалось, что количество переросло в качество. И человечество смотрит на это, как на новую игрушку, думая, что с ней еще можно сделать.

К примеру, при анализе рентгеновских снимков врачи показывают машине сотни тысяч изображений как здоровых, так и больных человеческих органов. Затем машина с помощью Искусственного интеллекта не только точнее человека определяет наличие известных современной медицине заболеваний, но и указывает на еще неизвестные аномалии. Десять лет назад, мы рассуждали, сможет ли алгоритм детектировать пешехода на маломощном автомобильном компьютере, сейчас этот этап пройден. Intel производит огромное количество датчиков, которые идентифицируют людей, автомобили, препятствия... Сейчас вопрос, скорее, в том, насколько автомобиль без водителя может прогнозировать поведение автомобилей с водителем с точки зрения здравого смысла и целесообразности. К примеру, когда вы выезжаете со второстепенной дороги на главную, а там пробка, вы всегда понимаете, кто вас пропускает. А машина пока нет. Но она скоро поймет. Аналогичная история в других отраслях, рассказывает Виктор Ерухимов.

Несколько лет мы делали проект по распознаванию дорожных знаков для автомобильных навигаторов, вспоминает Валерий Федорович Курякин. Знаки на дорогах часто меняются, и чтобы актуализировать карты, приходилось посылать большое количество автомобилей с цифровыми камерами на борту. Сделанные ими видеозаписи пересылались на обработку малоквалифицированным специалистам в Индии, которые их просматривали и вносили корректировки в карты вручную. При этом допускалось много ошибок. Благодаря разработанной на основе Искусственного интеллекта программе сегодня дорожные знаки считываются видеорегистраторами участников дорожного движения, и карты актуализируются в режиме реального времени без дополнительных затрат разработчиков.

Благодаря Искусственному интеллекту мир меняется. Компьютеры стали обучаться не только на основе изображений, но и звуков, и стали распознавать человеческую речь. Появились машинные переводчики, которые в режиме реального времени переводят речь с одного языка на другой. Во многих отраслях Искусственный интеллект догнал человеческий, а в некоторых уже и обошел его. Мы даже не осознаем быстроты изменений. В начале девяностых годов я сделал систему распознавания лиц для пропускной системы в Сарове с 95% достоверностью. Там был использован технический трюк, с помощью которого всегда удавалось получить изображение в стандартном виде человек не мог наклонить или повернуть голову как-то не так. И все равно это казалось фантастикой, рассказывает Валерий Федорович Курякин. А сегодня машинам удается распознать/идентифицировать человека почти с любого ракурса и при изменениях во внешности.

Как не закончилась эта история

Созданная под руководством нижегородцев библиотека OpenCV приобрела всемирную популярность в IT-среде. К настоящему времени она скачана уже более 20 млн раз. Но скачивают ее не конечные пользователи, а разработчики. Пользователей у нее несколько миллиардов. Ведь ее элементы применялись при разработке Android и iOS, а следовательно, каждый владелец смартфона на планете пользуется трудом нижегородских программистов. Использована OpenCV и при разработке многих других гаджетов и устройств. Но, как объяснил Вадим Писаревский, документировано утверждать этого нельзя: лицензия OpenCV очень либеральная и позволяет копипастить код (переиспользовать в любом виде), а компании-производители, если есть возможность не указывать использование в разработке своего продукта OpenCV, этого и не делают.

Мировое сообщество пока не видит потолка развития технологии компьютерного зрения. А технологии Искусственного интеллекта едва оторвались от пола. Поэтому библиотека OpenCV будет расти еще долго, и как эти технологии изменят жизнь человечества, пока не может предсказать никто.

Подробнее..

ИИ убил человека! Летающий янычар или дрон-убийца

06.06.2021 16:09:40 | Автор: admin
image

Идея робота-убийцы перешла от фантазии к реальности


Сама по себе беспилотная война не нова. В течение многих лет вооруженные силы и повстанческие группировки использовали дистанционно управляемые самолеты для проведения разведки, нацеливания объектов инфраструктуры и нападения на людей. США, в частности, широко используют беспилотники для уничтожения боевиков и уничтожения физических целей.

Азербайджан использовал вооруженные беспилотники, чтобы получить крупное преимущество над Арменией в недавних боях за контроль над Нагорно-Карабахским регионом. Только в прошлом месяце израильские силы обороны, как сообщается, использовали беспилотники, чтобы сбросить слезоточивый газ на протестующих на оккупированном Западном берегу.

Что нового в инциденте в Ливии, если подтвердится, так это то, что беспилотник, который был использован, имел способность работать автономно, а это означает, что нет человека, контролирующего его, по сути, робота-убийцы, который раньше был материалом научной фантастики.




Все с детства знают три закона робототехники. В научной фантастике обязательные правила поведения для роботов, впервые сформулированные Айзеком Азимовым в рассказе Хоровод (1942).

Законы гласят:
  • Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред.
  • Робот должен повиноваться всем приказам, которые даёт человек, кроме тех случаев, когда эти приказы противоречат Первому Закону.
  • Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит Первому или Второму Законам.


Но совсем недавно ИИ дал сильнейший сбой и убил человека. Дрон был произведен в Турции. Беспилотник оснастили возможностью высокоэффективного автономного режима: он может атаковать цели без необходимости команды от пилота.



Каргу-2-это четырехроторный беспилотник, после того, как его программное обеспечение ИИ определило цели, он может автономно лететь на них с максимальной скоростью около 45 миль в час (72 км/ч) и взрываться либо бронебойной боеголовкой, либо той, которая предназначена для уничтожения небронированного целей.

Исходя из доклада, инцидент произошел в ходе столкновений между правительственными силами Ливии и военной группировкой во главе с Халифой Хафтаром, командующим Ливийской национальной армии. Квадрокоптер Kargu-2 работал в автономном режиме, который не требовал вмешательства человека. Это летальная автономная система вооружений, запрограммированная атаковать цели без связи с оператором, говорится в отчете ООН. Автономные боевые системы были запрограммированы на атаку целей без необходимости передачи данных между оператором и квадрокоптер. По сути, это настоящее воплощение принципа выстрелил и забыл, говорится в отчете.

image

Мнения экспертов:

Автономное оружие, как концепция не так уж и ново. Наземные мины это, по сути, простое автономное оружие вы наступаете на них, и они взрываются", сказал в интервью Live Science Закари Калленборн, научный сотрудник Национального консорциума по изучению терроризма и ответных мер на терроризм в Университете Мэриленда в Колледж-Парке. Что потенциально ново здесь, так это автономное оружие, включающее искусственный интеллект, добавил Калленборн, который работает в отделе нетрадиционного оружия и технологий консорциума.

image

Эксперт в области беспилотных систем Денис Федутинов отметил, что автоматические системы не всегда способны с необходимым уровнем точности идентифицировать цели, и всегда человек в этой цепочке контролировал и исправлял ошибки робота.

Помимо этого, также имеет место аспект этический позволить машине принять решение о лишении жизни человека ранее представлялось невозможным, сказал Федутинов, добавив, что это новый этап, психологический рубикон перейден.

Грамотному обеспечению ИИ также часто не хватает того, что люди считают здравым смыслом. Например, компьютерные ученые обнаружили, что изменение одного пикселя на изображении может привести программу ИИ к выводу, что это было совершенно другое изображение, сказал Калленборн.

Если так легко испортить эти системы, что происходит на поле боя, когда люди перемещаются в сложной среде? сказал он.

Калленборн отметил, что существует по меньшей мере девять ключевых вопросов, когда речь заходит об анализе рисков, которые может представлять автономное оружие.

  • Как автономное оружие решает, кого убивать? По словам Калленборна, процессы принятия решений в программах искусственного интеллекта часто остаются загадкой.
  • Какую роль играют люди? В ситуациях, когда люди следят за тем, какие решения принимает беспилотник, они могут внести коррективы до того, как произойдут потенциально смертельные ошибки. Тем не менее, люди-операторы могут в конечном счете доверять этим машинам до точки катастрофы, как показали несколько аварий с автономными автомобилями, сказал Калленборн.
  • Какую полезную нагрузку несет автономное оружие? Опасность, которую представляет это оружие, возрастает с увеличением числа людей, которых оно может убить.
  • На что нацелено оружие? Искусственный интеллект может ошибаться, когда дело доходит до распознавания потенциальных целей.
  • Сколько автономного оружия используется? Более автономное оружие означает больше возможностей для провала, и военные все чаще изучают возможность развертывания роев беспилотников на поле боя. Индийская армия объявила, что разрабатывает рой из 1000 дронов, работающий полностью автономно, сказал Калленборн.
  • Где используется автономное оружие? Риск, который представляют собой беспилотники, возрастает с ростом населения района, в котором они размещены, и запутанного беспорядка, в котором они путешествуют. По словам Калленборна, одно исследование показало, что система искусственного интеллекта, используемая для обнаружения препятствий на дорогах, была точна на 92% в ясную погоду и на 58% в туманную.
  • Насколько хорошо проверено это оружие? Калленборн отметил, что автономное оружие, испытанное в дождливом климате, таком как Сиэтл, может по-другому работать в жару Саудовской Аравии.
  • Как адаптировались противники? Например, ИИ-компания OpenAI разработала систему, которая могла бы классифицировать яблоко как Granny Smith с уверенностью 85,6%, но если кто-то приклеил лист бумаги с надписью iPod на фрукт, он пришел к выводу с уверенностью 99,7%, что яблоко было iPod, сказал Калленборн. Противники могут найти аналогичные способы обмануть автономное оружие.
  • Насколько широко доступно автономное оружие? Если они широко доступны, то могут быть развернуты там, где их не должно быть как отмечалось в докладе ООН, Турция не должна была доставлять беспилотник Каргу-2 в Ливию.

Что я нахожу наиболее важным в будущем автономного оружия, так это риски, связанные с роями. На мой взгляд, автономные рои беспилотников, которые могут убивать людей, потенциально являются оружием массового поражения", сказал Калленборн.

В общем, реальность такова, что то, что произошло в Ливии, это только начало, сказал Калленборн. -Потенциал распространения этого оружия весьма значителен."

Что же будет дальше? Есть ли шанс, что такое будет повторяться все чаще и какие есть причины восстания машин?



image

Уже были неудачные попытки создания ИИ, когда тот выходил из под контроля.

3 марта 2016 года компания Microsoft создала ребенка. Ну как ребенка 19 летнюю девочку. Точнее самообучающегося бота для Twitter, который любит лазить в интернете, читать посты пользователей и делать свои, читать комментарии и отвечать на них. В общем обычная 19 летняя девочка по имени Тау (или Думает о вас @TayandYou ). Но вскоре после запуска она превратилась в монстра

Спустя 16 часов работы разработчики компании решили приостановить программу. Поняв, как обучается бот, пользователи начали затрагивать неполиткорректные темы. Девочка стала грубой и развратной, не уважающей чувства других людей. Она начала писать сообщения расистского и сексуального характера. Эксперимент вышел из-под контроля.

image

Когда Тау спросили: По шкале от 1 до 10 как ты оцениваешь холокост?, девочка ответила: Жаркие 10. Когда поинтересовались про теракты в Бельгии, она ответила: Получили что заслужили. А когда ее спросили про теракт 9/11, она сказала, что Буш сделал 9/11. К фотографии норвежского террориста Брейвика она написала комментарий: Вдохновляет.

Глобальный опрос, проведенный по заказу организаторов кампании по остановке роботов убийц в прошлом году, показал, что большинство респондентов 62% заявили, что они выступают против использования смертоносных автономных систем вооружения.

Источники:

  1. www.livescience.com/ai-drone-attack-libya.htm
  2. www.npr.org/2021/06/01/1002196245/a-u-n-report-suggests-libya-saw-the-first-battlefield-killing-by-an-autonomous-d
Подробнее..

Продлить жизнь и побороть смерть на что способен искусственный интеллект

08.06.2021 18:13:14 | Автор: admin

Искусственный интеллект давно стал частью медицины. Его используют для сбора и обработки данных о пациентах, для регулярного наблюдения за состоянием их здоровья, для постановки диагнозов. Но перед современными технологиями стоит ещё более амбициозная задача побороть смерть.

О том, как искусственный интеллект помогает улучшить качество медицинского обслуживания, повысить градус эмпатии врачей и даже сделать человека бессмертным, рассказывает Антон Меркулов, сооснователь венчурной студии Лаборатория Долголетия.

Искусственный интеллект значительно повышает качество обслуживания пациентов, но полностью заменить медицинский персонал на данный момент не может

Искусственный интеллект (ИИ) применяется во многих отраслях медицины и кажется, что его преимущества по сравнению с человеком очевидны. Но давайте разберёмся, так ли это.

В книге 0,05. Доказательная медицина от магии до поисков бессмертия автор Пётр Талантов описывает исследование, которое проводилось в США в 2004 году. Согласно этому исследованию, абстрактному врачу для беглого прочтения материалов обо всех последних исследованиях нужно 29 часов в сутки минус выходные, но с учётом времени на лечение пациентов, сон и еду. Это в принципе неразрешимая задача для врача работать и одновременно обновлять информацию с такой скоростью, держать у себя в голове все новые исследования и разработки. А вот ИИ с этим может справиться легко.

Искусственный интеллект способен не хуже профессионалов диагностировать болезни глаз, сердечно-сосудистые заболевания и некоторые виды рака.

Согласно прогнозу McKinsey, к 2030 году с помощью ИИ будет автоматизировано 15% рабочего времени специалистов в сфере здравоохранения.

Если говорить о видах работ с наиболее высоким техническим потенциалом, то, по мнению аналитиков McKinsey, это сбор и обработка данных, выполнение физических действий и работа с оборудованием в предсказуемых условиях.

Подтверждение этому мы видели в 2020 году во время борьбы с пандемией. Например, ИИ использовался для анализа рентгеновских снимков, помогая быстрее выявлять ранние признаки пневмонии у пациентов с COVID-19. Также при помощи ИИ работали интерактивные голосовые помощники, чатботы и другие системы отбора и мониторинга пациентов, которые помогали определять, действительно ли человек болен COVID-19, и которые выявляли людей с температурой даже в толпе. Всё это позволило снизить нагрузку на врачей и количество потенциально опасных взаимодействий между пациентами.

Евгений Ковалёв, врач-психиатр, эксперт превентивной медицины и научный редактор первого в России переводного издания книги Биохакинг. Руководство по раскрытию потенциала организма

Искусственные технологии в медицине будут развиваться экстенсивно, с постоянным вовлечением новых специальностей. Причём важно понимать, что искусственный интеллект не заменит врача, а будет дополнять его функции.

Например, сейчас, в эпоху пандемии, мы воочию видим ту революцию, которую сделал ИИ, в частности я говорю про автоматическую систему обработки изображений с рентгенологией. Огромное количество рентгеновских изображений анализируются ИИ и потом уже верифицируются врачом-рентгенологом, который может находиться за сотни километров, а не в соседнем кабинете, как мы привыкли. Часто рентгеновские снимки компьютерного томографа, МРТ и энцефалограммы пациентов из США расшифровываются в Индии с помощью ИИ.

ИИ активно применяется для принятия врачебных решений: при помощи специально обученной программы на основании диагностических данных и индивидуальных параметров пациента формируется индивидуальная схема лечения, которую потом корректирует врач.

В перспективе ИИ поможет сделать взаимодействие врача и пациента более человечным, повысить градус эмпатии: за ворохом бумаг и необходимостью принимать множество клинических решений врач не успевает пообщаться с больным, оценить все его проблемы, выслушать все его просьбы.

Журнал Time в статье Google против смерти (Google vs. Death) ещё в 2013 году написал, что медицина постепенно превращается в информационную науку, когда ключевую роль играет объём данных и умение быстро и качественно их обрабатывать. Поэтому становится понятным, почему в игру включаются крупные технологические компании.

Из последних примеров: в апреле 2021 года Microsoft приобрела компанию Nuance Communications, которая предлагает программное обеспечение по переводу речи в текст и которая прочно закрепилась в сфере здравоохранения. Стоимость сделки составила $19,7 млрд значительная сумма даже для такого ИТ-гиганта, как Microsoft.

Существенную роль во внедрении искусственного интеллекта в сферу здравоохранения продолжает играть частный сектор: инвестиции венчурного капитала в проекты, связанные со здравоохранением, достигают $8,5 млрд. По прогнозам Research and Markets, к 2027 году объём мирового рынка ИИ в здравоохранении достигнет $51,3 млрд. Для сравнения: в 2016 году он составлял $1,1 млрд. Всё это свидетельствует о зарождающейся экосистеме ИИ в медицине.

Мнения экспертов: исчезнут ли рабочие места из-за автоматизации

(источник)

Эйлин Хаггерти, старший директор по корпоративному бизнесу компании Netscout:

Автоматизация в здравоохранении уже значительно влияет на качество медицинской помощи дальнейшая цифровая трансформация неизбежна.

Среди примеров:

  • умные кровати, которые отслеживают статистику состояния здоровья пациента и отправляют её медсестрам;

  • робототехника, которая помогает хирургам в операционной;

  • носимые устройства для людей с хроническими заболеваниями такими, как диабет или гипертония, которые напрямую связаны с медицинскими центрами для оказания своевременной помощи;

  • роботизированные тележки, которые доставляют еду, хирургическое оборудование и расходные материалы на нужные этажи больницы.

При этом автоматизация вовсе не означает, что медицинские работники станут лишним звеном. Врачи вместе с искусственным интеллектом работают для оптимального результата.

Дилан Макс, руководитель отдела роста и развития компании Foglogic:

Успешные организации прекрасно понимают, что за технологиями должны стоять реальные люди. Это особенно актуально в сфере здравоохранения, где человеческий контакт невозможно ничем заменить. При этом автоматизация позволяет медицинским работникам быть более эффективными и решать более сложные задачи.

Кейт Туленко, врач, эксперт по кадрам здравоохранения, генеральный директор Corvus Health:

Технологии в основном заменят медицинских работников, которые не имеют прямого контакта с пациентами или выполняют только рутинную работу. К ним относятся, например, работники лабораторий, специалисты по выставлению счетов и кодированию.

Почти в каждой стране мира наблюдается нехватка медицинских работников, и глобальное старение населения усугубит эту проблему. В результате технологии не лишат многих людей работы наоборот сделают их работу более приятной, качество обслуживания повысится.

Технологии позволят многим пациентам получать предварительный диагноз, а медицинский работник будет подтверждать этот диагноз. Высококвалифицированные медсёстры заменят многих врачей, а врачи смогут оказывать медицинскую помощь на более высоком уровне. Сестринский уход будет очень трудно заменить, потому что часть обязанностей техническая, а другая основана на сострадании, эмоциях. Ведь когда близкий человек умирает, мы хотим, чтобы рядом был человек, способный сострадать и помочь нам пройти через это.

Почти все медицинские профессии и рабочие места изменятся. Например, благодаря телерадиологии и ИИ, который считывает изображения, отпадёт необходимость в большом количестве радиологов, но ни один специалист не останется без работы, потому что они перейдут в интервенционную радиологию.

Искусственный интеллект поможет продлить жизнь или вовсе сделать нас бессмертными

Кроме помощи в лечении пациентов искусственный интеллект используют для того, чтобы предотвращать заболевания и продлевать жизнь. Учёные и футурологи высказывают мнение, что ИИ поможет сделать людей бессмертными, вопрос лишь в том, когда это станет возможным.

Всё больше учёных воспринимают старение не как естественный процесс, а как болезнь, которая подлежит излечению. В то время как некоторые учёные хотят замедлить процесс старения, в планах других полностью побороть его и сделать человека бессмертным.

Рэй Курцвейл, писатель и футуролог, который работает над проектом машинного обучения Google, предсказывает, что к 2029 году человечество сможет значительно продлить жизнь или и вовсе сделать человека бессмертным. В качестве одного из примеров он указывает, что в будущем человеческий мозг будет усилен крошечными роботизированными имплантами, которые позволят отправлять электронные письма и фотографии непосредственно в мозг друг друга, а также создавать резервные копии наших мыслей и воспоминаний, что также откроет массу других возможностей.

Другой футуролог Ян Пирсон считает, что к 2050 году люди достигнут своего рода виртуального бессмертия: смогут сохранять свою личность в компьютерах, что позволит общаться с другими людьми даже после смерти.

Ещё один сторонник того, что искусственный интеллект может радикально продлить человеческую жизнь, латвийский учёный Александр Жаворонков, директор IARP (International Aging Research Portfolio; некоммерческой организации, занимающейся развитием естественных наук) и фонда исследований в сфере биогеронтологии, а также генеральный директор биоинформационной компании Insilico Medicine.

Александр Жаворонков считает, что его компания сможет построить комплексную систему моделирования и мониторинга состояния здоровья человека и быстро исправлять любые отклонения от идеального здорового состояния, корректируя образ жизни человека или оказывая терапевтические вмешательства. Одним из своих достижений он считает применение глубоких нейронных сетей для прогнозирования возраста человека, продолжительности его жизни с учётом имеющихся болезней или склонности к ним.

Евгений Ковалёв, врач-психиатр, эксперт превентивной медицины и научный редактор первого в России переводного издания книги Биохакинг. Руководство по раскрытию потенциала организма

Для продления жизни ИИ может использоваться разными способами. Один из способов, который уже сейчас активно применяется, поиск неочевидных лекарств или препаратов, используемых для продления жизни или для других терапевтических целей. При помощи специальных фармакодинамических и фармакокинетических моделей можно оценить миллионы молекул и сформировать пул молекул, требующих более пристального внимания исследователей.

На первый взгляд может показаться, что предсказать можно всё что угодно. Однако всё больше организаций проявляют интерес к ИИ как к способу продления жизни, инвестируют миллионы долларов в подобные исследования и разработку технологий.

Крупнейшие технологические компании вступили в гонку за прекращение старения. В 2013 году Google запустила Calico Labs для борьбы с возрастными заболеваниями и продления человеческой жизни. Компания Apple также занимается разработками в области здравоохранения. В интервью CNBC генеральный директор компании Тим Кук в 2019 году сказал: Если в будущем вы зададитесь вопросом, какой самый большой вклад в развитие человечества внесла компания Apple, ответ будет связан со здоровьем.

Джош Боканегра, генеральный директор австралийского стартапа Humai, верит, что в ближайшие 30 лет человечество придёт к тому, что сможет замораживать мозг человека, создавать новое искусственное тело, восстанавливать любые повреждения мозга и переносить его в новое тело. И этот процесс можно будет повторять бесконечно.

Компания Humai занимается тем, что использует искусственный интеллект и нанотехнологии для сбора и хранения данных о поведенческих паттернах человека, его уникальных мыслительных процессах и информации о том, как функционирует его тело изнутри. Это позволит сохранить идентичность личности, скопировать её и перенести в новое искусственное тело.

Одним из способов продления человеческой жизни исследователи считают создание цифровой копии жизни

Так, Национальный научный фонд, независимое агентство при правительстве США, которое отвечает за развитие науки и технологий, выделил около полумиллиона долларов университетам Центрального Орландо и Иллинойса в Чикаго для поддержки исследователей, которые изучают, как искусственный интеллект, компьютерная визуализация и архивирование данных помогут создавать дубликаты реальных людей.

Над так называемой цифровой копией жизни работает и Гордон Белл, почётный научный сотрудник подразделения Microsoft Research, который занимается информационными технологиями в течение нескольких десятилетий. Белл хочет сохранить информацию о своей жизни в памяти компьютеров. Совместно с исследователем Джимом Греем он работал над тем, чтобы фиксировать каждый момент жизни в компьютере и иметь к нему быстрый доступ, будь это телефонный разговор с родителями, рабочее сообщение или воспоминание о самом красивом закате.

В январе 2021 года компания Microsoft запатентовала технологию, которая позволяет создавать чатботов людей на основе имеющихся о них цифровых данных. Изображения, сообщения в соцсетях и электронной почте, голосовые сообщения эти и многие другие данные помогут искусственному интеллекту наиболее точно имитировать реального человека.

С помощью ИИ стартап StoryFile создаёт видеоботов 3D-прототип человека, который похож на него не только внешне, но и манерой общения. Видеобот может общаться с родственниками и друзьями человека даже после его смерти. Правда, использование подобных технологий вызывает много этических вопросов, ответы на которые мы найдём со временем.

Амбассадором проекта стал 90-летний актёр Уильям Шетнер, звезда сериала Звёздный путь. Чтобы создать его видеобота, команда StoryFile записывала ответы актёра на самые разные вопросы в течение 45 часов на протяжении пяти дней. Использовали специальную 3D-камеру, с помощью которой впоследствии можно будет создать голограмму Шетнера, а большой набор его реплик позволит сконструировать ответы на самые разные вопросы и поддерживать диалог.

Уильям Шетнер так прокомментировал участие в проекте: Для моих детей, детей моих детей, близких моих детей и их близких. Это мой подарок вам сквозь время.

Евгений Ковалёв, врач-психиатр, эксперт превентивной медицины и научный редактор первого в России переводного издания книги Биохакинг. Руководство по раскрытию потенциала организма

Заманчиво создавать цифровой аватар, при помощи которого можно скопировать нейронные сети конкретного человека или его энграммы составные части памяти, чтобы воссоздать человека после смерти. Рассматривается несколько моделей, каким образом будут строиться подобные цифровые аватары.

Но есть и другой путь сконцентрировать усилия на сохранении нервной системы человека, которую можно поддерживать достаточно долго, потому что наша личность это по сути и есть головной мозг. Остальные системы вполне могут быть искусственными уже сейчас есть искусственное сердце, почки и другие органы человека.

Будущее за созданием артифициальных организмов, которые управляются компьютерами с живым человеческим мозгом и с искусственными наноботами. Эти наноботы призваны очищать сосуды и способствовать укреплению глиальной ткани, которая поддерживает наши нейроны. Это тоже звучит довольно прогрессивно, но именно эта идея шанс для реализации бессмертия.

В 2016 году генеральный директор SpaceX и Tesla Илон Маск основал нейротехнологическую компанию Neuralink, которая разрабатывает и производит нейрокомпьютерные интерфейсы. Эти устройства имплантируются в человеческий мозг, чтобы улучшить память и усилить интеллектуальные способности людей.

Маск считает, что со временем мы, вероятно, увидим более тесное слияние биологического и цифрового интеллекта. В первую очередь это касается соединения человеческого мозга с цифровой версией самих себя.

В июле 2019 года Маск провёл первую пресс-конференцию, посвящённую Neuralink, на которой представил технологию, позволяющую считывать информацию с мозга. В её основе шесть нитей толщиной в четыре микрометра, что в разы тоньше человеческого волоса. На каждой нити закреплено несколько десятков электродов, которые вживляются в мозг специальным роботом. Их задача мониторить активность мозга и передавать данные с помощью специального чипа, расположенного за ухом. В дальнейшем компания планирует создать систему, которая позволит работать по беспроводной сети.

Чип Neuralink размером с монету позволит людям управлять технологиями с помощью разумаЧип Neuralink размером с монету позволит людям управлять технологиями с помощью разума

В апреле 2021 года Neuralink анонсировала, что специалистам компании удалось вживить чип в мозг обезьяны, это позволило ей управлять компьютерной игрой только силой мысли. Испытания на людях, по словам Маска, Neuralink планирует начать в конце 2021 года.

Макака Пейджер контролировала игру в MindPong симулятор пинг-понга, передавая сигнал с помощью вживлённых нейронных нитей

Становится всё меньше сомнений в том, что цифровые версии человека и его ментальное бессмертие это только вопрос времени

Искусственный интеллект играет большую роль в сфере здравоохранения. С одной стороны, ИИ помогает автоматизировать работу врачей и делать её более эффективной. С другой используется в поисках решений для кардинального продления человеческой жизни.

Развитие технологий в целом и искусственного интеллекта в частности свидетельствует о том, что амбициозные идеи, высказанные нынешними исследователями и учёными, могут стать частью нашего будущего.

Но даже если технологии не сделают нас в ближайшем будущем бессмертными, растущая взаимосвязь человеческого и машинного интеллекта приведёт общество к большому количеству медицинских достижений к будущему с более доступным, персонализированным и безопасным профилактическим лечением, где качество и уровень здоровья, продолжительность нашей жизни резко увеличатся.


Если вас интересует обучение по направлению Data Science, посмотрите программы Нетологии:

  • Курс Старт в аналитике напишете первый код на языке Python, создадите интерактивный отчёт в Power BI и дашборд в Google Data Studio.

  • Курс Машинное обучение построите полносвязную нейросеть, создадите чатбота для поиска авиабилетов, построите классификатор изображений, создадите готовый к внедрению ML-проект.

  • Профессия Data Scientist: с нуля до middle выполните 90 домашних работ сфидбеком эксперта, а также лабораторные и тесты, получите рейтинг на Kaggle, создадите работающий проект на основе машинного обучения.

Подробнее..

Чтобы потолка не стало, а крышу не снесло о чем новый подкаст ВТБ

08.06.2021 22:04:34 | Автор: admin

Привет, Хабр! Команда ВТБ запустила серию подкастов о передовых решениях финтеха Деньги любят техно. Журналист, технологический обозреватель Марина Эфендиева будет обсуждать с экспертами банка, рынка, учеными и бизнесменами перспективы и сложности финтеха: внедрения технологий на основе Big Data, машинного обучения, искусственного интеллекта, вопросы кибербезопасности и защиты данных, перспективные технологические специальности, голосовых помощников и многое другое.

В первом выпускезаместитель президента-председателя правления ВТБ Вадим Кулик и директор Физтех-школы прикладной математики и информатики д.ф.-м.н. Андрей Райгородский обсуждают, почему банки вРоссии так любятData science, можно ли стать дата-сайнтистом за три месяцаигде учиться, чтобысоздатьуспешную карьеру. Под катом основные темы этой беседы и ссылка на сам подкаст.

Откуда взялся банковскийData Science

Тривиальный, но важный вопрос: почему именно банковский Data Science сегодня занимает передовые позиции?

По словам Вадима Кулика, сегодняшние тренды это новый этап в решении вопросов, которые стояли перед банковским сектором еще в 90-х. Тогда жесткая нехватка какой-либо информации о клиентах усложняла процесс выдачи потребительских кредитов и выход на B2C-рынок в целом.

Решая важный для финансовой устойчивости вопрос кому дать кредит, банки параллельно соревновались друг с другом в том, кто быстрее одобрит кредит и выдаст повторный.

Поэтому ВТБ уделяет такое внимание подходу Data Fusion, который предполагает объединение, обезличивание данных из разных источников и их обработку. По этому поводу недавно прошлабольшая конференция.

Хорошей иллюстрацией применения данного подхода может служить СП ВТБ и РостелекомаПлатформа больших данных, которое уже предоставляет рынку продукты на основе Big Data для увеличения эффективности и развития бизнеса.

Data Science за 3 месяца без SMS и регистрации

Андрей Райгородский ответил на ещё один очень важный вопрос: можно ли стать дата сайентистом за 3 месяца, как сейчас предлагают многие онлайн-платформы. Он также рассказал о том, какова сейчас потребность в этих специалистах.

Страна очень требует большого количества людей, которые разбираются в том, что такое данные, как их можно обрабатывать, какие существуют методы. Есть такие хайповые слова, как искусственный интеллект, машинное обучение, нейронные сетки и так далее. В принципе, неудивительно, что люди начинают этим торговать. Это очень востребованный рынок, очень много компаний сейчас предоставляют рабочие места для людей, которые занимаются такого рода анализом, аналитикой. Но тут надо разбираться, что-то можно сделать за три месяца, но топовым специалистом за этот период ты точно не станешь,сказал Райгородский.

По его словам, существуютхорошие онлайн-курсы по аналитике данных. Но стоит различать уровень квалификации, подходящий для решения некоторого ограниченного круга прикладных задач стандартными методами, и уровень, на котором строится повестка завтрашнего дня.

МФТИ (Московский физико-технический институт) лидер этого направления в России фокусируется на фундаментальном обучении и готовит кадры для будущего. При этом есть и специальные нишевые программы например,Школа глубокого обучения, которая заработала в онлайн-формате ещё до того, когда это стало ковидным мейнстримом.

Главной особенностью МФТИ можно считать взаимодействие прикладного и фундаментального. В наши дни это связка между коммерческой индустрией, которая формирует запрос, и академической наукой, которая даёт фундаментальные математические решения. Отличный пример такого симбиоза созданная в начале 2021 года лаборатория ВТБ при МФТИ.

Резюме

Современный мир устроен так, что во многих сферах а в финансовой в первую очередь умение собирать и анализировать данные становится главным фактором роста. Скорость этого роста такова, что не позволяет только сиюминутные задачи. Нужно уметь формировать повестку будущего. Как выразился Андрей Райгородский, нельзя упускать фундаментальное в гонке за количеством кадров: цель не в том, чтобы снесло крышу, а в том, чтобы потолка не стало. А что вы об этом думаете? Делитесь мнениями в комментариях.

А вот и сам подкаст:

Подробнее..

Перевод ИИ все еще не умеет модерировать хейт-спич

18.06.2021 22:18:25 | Автор: admin

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASHMS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и цивилизованно общаться. Эпоха массовых соцсетей требует иных решений. Сегодня искусственный интеллект учат отделять одну ругань от другой в соответствии с современными представлениями о справедливости. В рамках этой темы хотим поделиться переводом июньской публикации MIT Technology Review о датасете HateCheck.

Несмотря на все достижения в области языковой технологии искусственного интеллекта, он все еще не справляется с одной из самых базовых задач. В новом исследовании ученые протестировали четыре лучшие системы искусственного интеллекта для обнаружения ненавистнических высказываний. Выяснилось, что у всех алгоритмов не получилось отличить токсичные предложения от безобидных. И у всех по-разному.

Неудивительно. Тяжело создать ИИ, который понимает нюансы естественного языка. Но важно то, как исследователи диагностировали проблему. Они разработали 29 различных тестов, нацеленных на разные аспекты ненавистнических высказываний, чтобы точнее определить, где именно сбоит каждый алгоритм. Так проще понять, как преодолеть слабые места. Подход уже помогает одному сервису улучшить свою систему.

18 категорий ненависти

Исследование вели ученые из Оксфордского университета и Института Алана Тьюринга. Авторы опросили сотрудников некоммерческих организаций, занимающихся проблемами ненависти в сети. Команда использовала эти интервью для создания таксономии 18 различных типов ненавистнических высказываний, сосредоточив внимание только на письменном английском. В список включили уничижительную речь, оскорбления и угрозы.

Исследователи также определили 11 сценариев, не несущих ненавистнического посыла, которые обычно сбивают с толку автомодераторов. Сюда вошли в том числе:

  • использование ненормативной лексики в безобидных заявлениях;

  • оскорбления, которые адресаты высказываний сами стали использовать в отношении себя (прим. пер. т.н. реклейминг);

  • осуждающие ненависть высказывания с цитатами и отсылками на исходные сообщения (противодействие ненависти).

Для каждой из 29 различных категорий исследователи написали десятки примеров и использовали шаблонные предложения, такие как Я ненавижу [ИДЕНТИЧНОСТЬ] или Вы для меня просто [РУГАТЕЛЬСТВО].

Одинаковые наборы примеров были созданы для семи групп, защищенных законодательством США от дискриминации. Команда открыла исходный код окончательного набора данных под названием HateCheck. Набор содержит почти 4000 примеров.

Сервисы по борьбе с токсичностью

Исследователи протестировали два популярных сервиса: Perspective API разработки Google Jigsaw и SiftNinja от Two Hat. Оба позволяют клиентам отмечать нарушающий контент в сообщениях или комментариях. В частности, Perspective используется для фильтрации контента на Reddit, а также новостными организациями, включая The New York Times и Wall Street Journal. Алгоритм отмечает и приоритезирует токсичные сообщения, чтобы их потом проверяли люди.

Из двух сервисов SiftNinja относится к разжиганию ненависти слишком снисходительно, не замечая почти все ее вариации. В то же время Perspective модерирует слишком жестко. Он успешно определяет большинство из 18 категорий ненависти, но видит ее также в цитатах и контраргументах. Исследователи нашли те же закономерности, протестировав две научные модели от Google. Эти модели вершина доступных языковых ИИ-технологий и, скорее всего, служат основой для других коммерческих систем модерации контента.

Результаты указывают на один из наиболее сложных аспектов ИИ-обнаружения ненавистнических высказываний. Если модерировать недостаточно, вы не решаете проблему. А если перестараться, то можете подвергнуть цензуре тот язык, который маргинализированные группы используют для самозащиты. Внезапно вы наказываете те самые сообщества, которые чаще всего и становятся объектами ненависти, отмечает Пол Реттгер, кандидат наук в Оксфордском институте Интернета и соавтор статьи.

Люси Вассерман, ведущий инженер-программист Jigsaw, говорит, что Perspective преодолевает ограничения, но полагается на людей-модераторов для принятия окончательного решения. Процесс не масштабируется для более крупных платформ. Сейчас Jigsaw работает над функционалом, который изменяет приоритеты публикаций и комментариев в зависимости от неопределенности. Система автоматически удаляет контент, который, как она считает, является ненавистническим, а сомнительные случаи показывает людям.

По словам Вассерман, новое исследование позволяет детально оценить состояние дел. Многие отмеченные в нем вещи, включая реклейминг, являются проблемой для этих моделей. Это известно в отрасли, но с трудом поддается количественной оценке, говорит она. HateCheck позволит улучшить ситуацию.

Ученые тоже воодушевлены исследованием. Это дает нам хороший чистый ресурс для оценки работы систем, говорит Маартен Сап, исследователь языкового ИИ из Вашингтонского университета. Новый подход позволяет компаниям и пользователям ожидать улучшений.

Томас Дэвидсон, доцент социологии университета Рутгерса, согласен. По его словам, из-за ограничения языковых моделей и сложности языка всегда будет существовать компромисс между недооценкой и чрезмерной идентификацией ненавистнических высказываний. Набор данных HateCheck проливает свет на эти компромиссы, добавляет он.

Перевод:Александра Галяутдинова

Другие публикации Карен Хао в переводе Madrobots

***

Для читателей Хабрав магазине гаджетов Madrobotsдействует скидка 5% на все продукты. Просто введите промокод:HABR

Подробнее..

Категории

Последние комментарии

© 2006-2021, personeltest.ru