Большие данные и машинное обучение

Обзор Gartner MQ 2020 Платформы Машинного Обучения и Искусственного Интеллекта

18.08.2020 16:06:31 |

Автор: admin

Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату можно здесь посмотреть: https://www.kdnuggets.com/2019/02/gartner-2019-mq-data-science-machine-learning-changes.html
А я буду говорить про квадрат 2020го года, тем более, что изменения там с 2019го минимальные: выехал SAP и Altair купил Datawatch.

Это не систематизированный разбор и не таблица. Индивидуальный взгляд, еще с точки зрения геофизика. Но мне всегда любопытно читать Gartner MQ, они прекрасно некоторые моменты формулируют. Так что тут вещи, на которые я обратил внимание и в техническом плане, и в рыночном, и в философском.

Это не для людей, которые глубоко в теме ML, но для людей, которые интересуются тем, что вообще происходит на рынке.

Сам DSML рынок логично гнездится между BI и Cloud AI developer services.

Сначала понравившееся цитаты и термины:

A Leader may not be the best choice Лидер рынка это совершенно необязательно то, что нужно вам. Очень насущно! Как следствие отсутствия функционального заказчика вечно ищут все лучшее решение, а не подходящее.
Model operationalisation сокращается как MOPs. И с мопсами у всех тяжеловато! (прикольная тема мопсик заставляет модель работать).
Notebook environment важный концепт, где код, комментарии, данные и результаты объединяются вместе. Это очень понятно, перспективно и может существенно сократить объем UI кода.
Rooted in OpenSource хорошо сказано укореняется в опенсорсе.
Citizen Data Scientists такие легкие чуваки, ламеры такие, не эксперты, которым нужна среда визуальная и всякие вспомогательные штуки. Кодить они не будут.
Democratise часто используется в значении сделать доступным более широкому кругу людей. Можно говорить democratise the data вместо опасного free the data, который мы раньше использовали. Democratise это всегда long tail и за ним все вендоры бегут. Потерять в наукоемкости выиграть в доступности!
Exploratory Data Analysis EDA рассматривание данными подручными средствами. Немного статистики. Немного визуализации. То, что все делают в той или иной степени. Не знал, что для этого есть название
Reproducability максимальное сохранение всех параметров среды, входов и выходов с тем, чтобы можно было повторить эксперимент однажды проведенный. Важнейший термин для экспериментальной тестовой среды!

Итак:

Alteryx

Прикольный интерфейс прямо игрушечный. С масштабируемостью, конечно, туговато. Соотвественно коммьюнити Citizen инженеров вокруг таких же с цацками поиграть. Аналитика своя все свое в одном флаконе. Напомнило мне комплекс спектрально-корреляционного анализа данных Coscad, который программировали в 90х.

Anaconda

Коммьюнити вокруг Python и R экспертов. Опенсорса большая соотвественно. Выяснилось, что мои коллеги постоянно используют. А я не знал.

DataBricks

Состоит из трех opensource проектов разработчики Spark денег подняли адово количество с 2013. Я прям должен процытировать wiki:

In September 2013, Databricks announced that it had raised $13.9 million from Andreessen Horowitz. The company raised additional $33 million in 2014, $60 million in 2016, $140 million in 2017, $250 million in 2019 (Feb) and $400 million in 2019 (Oct)!!!

Великие какие-то люди Spark пилили. Не знаком жаль!
А проекты такие:

Delta Lake ACID на Spark совсем недавно отрелизили (то о чем мы мечтали над Elasticsearch) превращает его в БД: жесткая схема, ACID, аудит, версии
ML Flow трекинг, упаковка, управление и хранение моделей.
Koalas Pandas DataFrame API на Spark Pandas Python API для работы с табличками и данными вообще.

Посмотреть можно про Spark, кто вдруг не знает или забыл: https://www.youtube.com/watch?v=TgiBvKcGL24&t=12s
Видосики посмотрел с примерами от немного занудных но детальных консалт-дятлов:
DataBricks для Data Science https://www.youtube.com/watch?v=GlICHrJ8MsE
и для Data Engineering https://www.youtube.com/watch?v=F92auAXqoPg
Короче Databricks вытаскивает Spark. Кто хочет Spark нормально поюзать в облаке берет DataBricks не задумываясь, как и задумывалось :) Spark здесь главный дифференциатор.
Узнал, что Spark Streaming это не настоящий fake realtime или microbatching. А если нужен настоящий Real Real time это в Apache STORM. Еще все говорят и пишут, что Spark круче MapReduce. Лозунг такой.

DATAIKU

Прикольная штучка end-to-end. Рекламы много. Не понял, чем от Alteryx отличается?

DataRobot

Paxata для подготовки данных классно это отдельная компания, которую в Декабре 2019 купили Дата Роботы. Подняли 20 MUSD и продались. Все за 7 лет.

Подготовка данных в Paxata, а не в Excel здесь посмотреть: https://www.youtube.com/watch?v=hn4HxRyj5fo
Автоматические лукапчики там и предложения joinов между двумя датасетами. Отличная вещь чтобы поразбираться с данными, еще бы побольше упора на текстовую информацию https://www.youtube.com/watch?v=YsK3H9rW1b0
Data Catalogue отличный каталог никому не нужных живых датасетов.
Тоже интересно как каталоги формируются в Paxata https://www.youtube.com/watch?v=XEEuw_itzzo

According to analyst firm Ovum, the software is made possible through advances in predictive analytics, machine learning and the NoSQL data caching methodology.[15] The software uses semantic algorithms to understand the meaning of a data table's columns and pattern recognition algorithms to find potential duplicates in a data-set.[15][7] It also uses indexing, text pattern recognition and other technologies traditionally found in social media and search software.

Основной продукт Data Robot это здесь: https://www.youtube.com/watch?v=RrbJLm6atwc
Их лозунг от Модели к корпоративному приложению! Обнаружил консалтинг для нефтянки в связи с кризисом, но очень банальный и неинтересный: https://blog.datarobot.com/leveraging-machine-learning-in-the-new-oil-gas-reality
Посмотрел их видео по Mops или MLops. https://www.youtube.com/watch?v=wb40aEVzf2g
Это такой Франкенштейн собранный из 6-7 аквизишенов различных продуктов.

Конечно становиться понятно, что большая команда Data Scientists должна иметь именно такую среду для работы с моделями, а то они наплодят их множество и ничего никогда не задеплоят. А в нашей нефтегазовой upstream реальности одну модельку бы удачную создать и это уже большой прогресс!

Сам процесс очень напомнил работу проектными системами в геологии-геофизике, например Petrel https://www.software.slb.com/products/petrel.
Все кому не лень делают и модифицируют модели. Собирают в модели данные. Потом сделали эталонную модель и передают в производство! Те между скажем геологической моделью и ML моделью можно найти много общего.

Domino

Упор на открытую платформу и на коллаборейшн. Бизнес пользователей пускают бесплатно. Их Data Lab сильно напоминает шарепоинт. (А от названия сильно отдает IBMом).
Все эксперименты линкуют к исходному датасету. Как это знакомо :)
Как в нашей практике какие-то данные в модель затащили, потом там в модели почистили и привели в порядок и все это там уже живет в модели и концов в исходных данных не найти.

У Domino крутая инфраструктурная виртуализация. Собрал машинку сколько надо ядер за секунду и поехал считать. Как сделано не совсем понятно сразу. Везде Docker. Много свободы! Любые воркспейсы последних версий можно подключать. Параллельный запуск экспериментов. Трэкинг и отбор удачных.
То же что и DataRobot результаты публикуются для бизнес пользователей в виде приложений. Для особо одаренных стейкхолдеров. И еще мониторится собственно использование моделей. Все для Мопсов!
Не понял до конца как сложные модели в продакшн уходят. Какое-то API предоставляется, чтобы их накормить данными и получать результаты.

H2O

Driveless AI очень компактная и понятная система для Supervised ML. Все в одной коробочке. Про бэкэнд не понятно до конца сразу.
Модель автоматически упаковывают в REST сервер или Java App. Это отличная идея. Многое сделано для Interpretability и Explainability. Интерпретация и объяснение результатов работы модели (Что по своей сути не должно быть объяснимо, иначе и человек может то же посчитать?).
Впервые подробно рассматривается кейс про неструктурированные данные и NLP: https://www.h2o.ai/products-dai-nlp/
Качественная архитектурная картинка. И вообще картинки понравились.
Есть большой опенсорс фреймворк H2O не совсем понятно (набор алгоритмов/библиотек?). Собственный ноутбук визуальный без програмирования как Jupiter https://towardsdatascience.com/getting-started-with-h2o-using-flow-b560b5d969b8
Еще почитал про Pojo и Mojo модели H2O обернутые в яву. Первое в лоб, второе с оптимизацией.
H20 -единственные!, кому Gartner вписал текстовую аналитику и NLP в сильные стороны, а так же их усилия в отношении Explanability. Это очень важно!
Там же: высокая производительность, оптимизация и стандарт для отрасли в области интеграции с железами и облаками.
А в слабости логично Driverles AI слабоват и узковат по сравнению с их же опенсорсом. Подготовка данных хромает по сравнению с той же Paxata! И игнорируют индустриальные данные stream, graph, geo. Ну не может прямо все быть хорошо.

KNIME

Понравились 6 очень конкретных очень интересных бизнес кейсов на заглавной странице. Сильный OpenSource.
Gartner из лидеров опустил в визионеры. Плохо деньги зарабатывают хороший знак для пользователей, учитывая что Лидер не всегда лучший выбор.
Ключевое слово как и в H2O augmented это значит помощь убогим citizen data scientists. Впервые кого-то в обзоре поругали за производительность!!! Интересно? То есть вычислительных мощностей столько, что производительность вообще не может быть системной проблемой?
Про это слово Augmented у Gartner есть отдельная статья, до которой добраться не удалось. https://www.gartner.com/en/documents/3956374/four-real-world-case-studies-implement-augmented-dsml-to
И KNIME в обзоре кажется первый неамериканец!
(И дизайнерам нашим очень их лэндинг понравился. Странные люди :)

MathWorks

MatLаb старый почетный товарищ известный всем! Тулбоксы для всех областей жизни и ситуаций. Что-то очень другое. Фактически много-много-много математики на все вообще случаи жизни!
Дополнительный продукт Simulink для дизайна систем. Закопался в тулбоксы для Цифровых Двойников ничего про это не понимаю, а тут прямо много написано.
https://www.mathworks.com/discovery/digital-twin.html для нефтянки: https://www.mathworks.com/videos/series/matlab-oil-and-gas-conference-2019.html
В общем это принципиально другой продукт из глубин математики и инженерии. Для подбора тулкитов математики конкретной.
Согласно Гартнеру у них проблемы все как у умных инженеров никакой коллаборации каждый в своей модели роется, никакой демократии, никакого эксплейнабилити.

RapidMiner

Много и сталкивался и слышал ранее (наряду с Матлабом) в контексте хорошего опенсорса. Закопался немного в TurboPrep как обычно. Интересует меня как из грязных данных чистые получать :)
Снова видно, что люди хорошие по маркетинговым материалам 2018 года и ужасно говорящим по английски людям на feature demo :)
А люди из Дортмунда с 2001 c сильным немецким прошлым)

Так и не понял из сайта что именно в опенсорсе доступно нужно глубже закапываться.
Хорошие видосики про деплоймент и AutoML их концепции.
Про бэкенд RapidMiner Server тоже ничего особого нет. Наверное это будет компактно и хорошо работать on premice out of the box. В Docker упаковывается. Шаред environment только на сервере RapidMiner. И еще есть Radoop, данные из хадупа, считалки из Spark в Studio workflow.
Подвинули их вниз как и ожидалось молодые горячие вендоры продавцы полосатых палочек. Гартнер однако пророчит им будущий успех в Enterprise пространстве. Денег там поднять можно. Немцы это умеют свят-свят :) Dont mention SAP!!!
Для ситизенов много делают! Но по странице видно как Gartner и говорит, что с инновационностью продаж туговато у них и они не борются за широту покрытия, но за прибыльность.

Остались SAS и Tibco типичные BI вендоры для меня И оба в самом топе, что подтверждает мою уверенность в том, что нормальный DataScience логически растет
из BI, а не из облаков и Hadoop инфраструктур. Из бизнеса т.е., а не из IT. Как в Газпромнефть например: https://admin.opensystems.ru/data/conf//bigdata2020//presentations/chernicyn.pdf зрелая DSML среда вырастает из прочной BI практики. Но может она и с душком и перекосом на MDM и прочие дела, кто знает.

SAS

Нечего сказать особо. Только очевидные вещи.

TIBCO

Стратегия читается в списке покупок на странице в Wiki длинной со страницу. Да, долгая история, но 28!!! Карл. подкупила BI Spotfire (2007) еще во времена моей техно-молодости. И еще репортинг Jaspersoft (2014), далее аж трех вендоров предиктивной аналитики Insightful (S-plus) (2008), Statistica (2017) and Alpine Data (2017), обработка событий и стриминг Streambase System (2013), MDM Orchestra Networks (2018) и Snappy Data (2019) in-memory платформа.
Привет, Фрэнки!

Подробнее..

Категории: Искусственный интеллект , Машинное обучение , Data science , Big data , Статистика в it , Data engineering , Artificial intelligence , Большие данные и машинное обучение , Gartner , Dsml

В поисках обеда распознавание активности по данным фитнес-трекера

22.06.2020 10:10:48 |

Автор: admin

Мне посчастливилось участвовать в проекте SOLUT, который стартовал в ЛАНИТ около года назад. Проект развивается благодаря активному участию Центра компетенции больших данных ЛАНИТ (ЦК Дата), и главное технологическое новшество проекта заключается в использовании машинного обучения для мониторинга человеческой активности. Основным источником данных для нас являютсясенсоры фитнес-трекеров, закрепленные на руках работников. В первую очередь, результаты распознавания помогают поднять производительность труда и оптимизировать производственные процессы на стройке. Также анализ поведения рабочих позволяет отслеживать самочувствие человека, соблюдение техники безопасности и напоминает строителям про обед.

Источник

Строители на объекте используют наручные датчики, фиксирующие движения рук работников. Раз в день накопленные показания датчики переносят на сервер, расположенный на строительной площадке. На этапе сбора данных помимо сенсоров используются также видеокамеры, в процессе опытной эксплуатации используются только датчики. Полученные данные идут на разметку нашим профессиональным асессорам, используя которую мы работаем над моделями распознавания деятельности человека. Когда модель прошла тестирование и показала метрики качества высокого уровня, мы внедряем ее и распознаем ежедневный поток данных. У заказчика появляется возможность смотреть регулярные отчеты о деятельности сотрудников. Несмотря на простоту схемы, нам пришлось столкнуться с множеством подводных камней и неожиданных попутных задач, про которые и пойдет рассказ.

Проверка на коллегах

Проект начался с тестового стенда, организованного в офисе ЛАНИТ рядом со столовой. Он работал три месяца. У нас был большой поток добровольцев, готовых забить гвоздь, просверлить отверстие дрелью или закрутить пару гаек. Все эти действия человек совершал с браслетом на руке за импровизированным верстаком.

Источник

Мы перепробовали несколько вариантов фитнес-трекеров, позволяющих извлечь сырые данные, и остановились на одном из известных брендов. В первую очередь в нашей работе использовались показания акселерометра и гироскопа. Дополнительно мы используем данные GPS, барометра и пульсометра. Кстати, для измерения пульса используется прибор с интригующим названием фотоплетизмограф.

Источник

Акселерометр и гироскоп позволяли нам получать сырые показания в трёх осях координат с частотой 50 Гц, соответствующей периоду 0.02 с. Таким образом, для распознавания мы располагаем шестью временными рядами, однако по техническим причинам полученные ряды оказываются с пропусками и высоким уровнем шума. Если мы построим график, отражающий зазоры между последовательными измерениями, то получим следующую картину:

На графике видно, что в данных систематически проскакивает зазор в 0.13 с.

Проблема заполнения пропусков и шумов часто возникает в задачах, связанных с временными рядами и имеет множество решений. Решить проблему пропусков и шумов, при этом максимально сохранив информацию, нам помогли модели Гауссовского процесса. Этот подход хорошо себя зарекомендовал, в том числе и в работе с временными рядами в астрофизике (arxiv.org/abs/1908.06099, arxiv.org/abs/1905.11516).

Мы в очередной раз поняли, насколько важными при работе с моделями Гауссовских процессов являются настройки ядра. Задавая ядро Гауссовского процесса, возможно регулировать: крупномасштабную структуру временного ряда или мелкомасштабную будет использовать модель для аппроксимации и заполнения пропусков. Начать знакомство с этим подходом можно по примерам из документации sklearn. Возьмем следующий пример: чёрным цветом на графиках ниже выделены исходные данные, красным средняя Гауссовского процесса, а голубым цветом обозначен доверительный интервал. На верхнем графике видно, что первая половина данных имеет периодическую структуру, которая не распозналась, т.к. не удалось выделить синусоидальную часть сигнала, хотя крупномасштабная структура была успешно аппроксимирована. При использовании подходящего ядра синусоидальную часть удалось аппроксимировать моделью во втором примере.

Пример подбора подходящего ядра гауссовского процесса. Чёрным цветом показаны исходные данные, красным средняя Гауссовского процесса, а голубым цветом обозначен доверительный интервал.

После того, как была построена модель Гауссовского процесса, появилась возможность избавиться от шумов: если точки не попали в доверительный интервал, то они заменяются соответствующими точками из Гауссовского процесса.

Пример заполнения пропусков в данных

Естественно, что качество распознавания действий с помощью нейронной сети на данных с предварительной обработкой и без обработки данных будет отличаться. Так, например, в нашем случае взвешенная f1-мера вырастает с 0.62 до 0.84.

Добровольцы на нашем стенде могли видеть демонстрацию распознавания действий в реальном времени. Распознавание выглядело, как сегментация временного ряда с визуализаций показаний сенсоров фитнес-трекеров. Как видно, периоды бездействия чередуются с закручиванием гаек и, например, забиванием гвоздя.

От тестового стенда мы перешли к проекту распознавания деятельности рабочих на стройке. Наши асессоры занимаются тщательной разметкой данных по видеозаписи рабочего процесса, таким образом мы располагаем разметкой данных и сводим распознавание типов деятельности к задаче классификации временных рядов.

Подготовка тренировочной выборки выглядит следующим образом: разбиваем многокомпонентный временной ряд на интервалы одинаковой длины, на каждом интервале выбираем метку класса, например, по максимуму суммы длин интервалов разметки, попавших в интервал разбиения.

В экспериментах на тестовом стенде мы сравнивали классические алгоритмы на автоматически сгенерированных признаках и нейронные сети. К удивлению, нейронные сети не смогли существенно обойти градиентный бустинг в нашем случае, что может быть связано с шумом в данных и весьма ограниченным объемом тренировочной выборки. Для нейронных сетей мы пробовали очищенные временные ряды, разностные схемы, спектрограммы, одномерные и двумерные сверточные слои, рекуррентные слои и многое другое. Однако лучший результат с минимальными трудозатратами достигается с помощью классификации градиентным бустингом из пакета lightGBM. Тем не менее, нейронные сети оказываются полезными в попутных задачах, например, в поисках обеденного перерыва, про который будет рассказано ниже.

Ошибки людей

В данных ожидаемо присутствует человеческий фактор, например, надевание часов вверх ногами. Бороться с этим фактором оказывается легко: модель классификации с точностью более 90% определяет, правильно ли надеты часы на рабочем. В случае неправильно надетых браслетов линейное преобразование сырых данных дает возможность использовать те же самые модели распознавания активности.

Другим человеческим фактором в данных оказывается результат разметки асессоров: они также подвержены ошибкам. В этом случае помогают различные приемы и эвристики по чистке разметки.

Иерархия действий

В результате ряда экспериментов на стройке мы пришли к тому, что разделяем действия на два уровня.

Нижний уровень, состоящий из элементарных действий. Пример: удар молотком, движение гаечным ключом. Характерный масштаб для интервалов нижнего уровня составляет около 5 секунд.
Верхний уровень, состоящий из действий работника с точки зрения цели деятельности. Пример: подготовка к работе, работа штукатура, сварка и т. п. Характерный временной масштаб для интервалов верхнего уровня составляет около 30-60 секунд.

В итоге получается картина последовательных действий работника на протяжении всего трудового дня с детализацией до элементарных движений.

Примерный интервал работы 5 минут

Поиск бездействия и обеда

В процессе работы над проектом стало понятно, что важны не только те действия, которые используются в рабочем процессе, но и действия, связанные с отдыхом, передышкой и т. д. Изначально этому вопросу не уделялось достаточно внимания, однако без возможности отличать работу от отдыха весь проект теряет привлекательность для заказчика. Мы работаем с элементами отдыха и бездействия как на уровне элементарных действий, так и в масштабе минут.

Естественно, модель имеет не идеальное качество, поэтому для минимизации количества ошибок оказывается полезным найти время обеденного перерыва работника. Зная интервал обеденного перерыва, возможно избежать ложных срабатываний на длительном периоде и, как следствие, значительно улучшить точность работы модели на этапе сдачи проекта. Кроме того, самим рабочим комфортно знать, что на обеденном перерыве их действия не распознаются, и они вольны отдыхать по своему усмотрению.

Асессоры не могут разметить обеденное время, так как оно не снимается на камеру. Было сделано следующее наблюдение: в начале и конце обеденного перерыва рабочие тратят некоторое время на перемещение от рабочего места до бытовки и обратно. Можно принять эти перемещения за границы обеденного времени.

Наборы и доли классов в рабочее и обеденное время различаются. Мы поняли, что определение обеденного перерыва возможно свести к решению задачи сегментации поверх результатов, полученных моделью верхнего уровня. Для решения этой задачи наша команда решила использовать нейронную сеть Unet. Отличная от классической Unet в том, что здесь все двухмерные операции заменены на одномерные, так как мы работали с временными рядами. Также добавлены слои Гауссовского шума и Dropout, чтобы минимизировать переобучение модели.

Подготовка данных для обучения

Поскольку задача сегментации решается поверх модели верхнего уровня, входные данные для Unet были выбраны в виде вектора 1024 * (кол-во классов). 1024 так как интервалы ВУ модели 30 секунд и рабочий день порядка 8-9 часов.

На выходе вектор 1024 * 1 с бинарными значениями, (0 интервал не относится к обеду, 1 относится к обеду).

Так как данных немного (порядка 40 рабочих дней), была сгенерирована синтетическая выборка. День реальных рабочих разбивался на n-частей, и каждая часть относилась к одному из пяти классов: до обеда, начало обеда, обед, конец обеда, после обеда. Генерировался новый рабочий день набором случайных интервалов: сперва несколько интервалов из первого класса, затем один из второго, несколько из третьего, один из четвертого и несколько из пятого.

Схема разбиения временных интервалов на утренние (синие), обеденные (красные) и послеобеденные (зеленые). Из фрагментов распознанных действий на интервалах комбинируются синтетические данные для обогащения тренировочной выборки.

Для оценки качества анализа данных мы использовали меру Жаккара, в интуитивном понимании представляющую собой отношение пересечения и объединения множеств. В нашем случае аугментация позволила поднять качество с 0.98 до 0.99 меры Жаккара.

Все ли действия можно классифицировать?

На стройке могут происходить различные и зачастую непредсказуемые ситуации. В процессе реализации проекта на строительной площадке мы поняли, что если мы ограничимся фиксированным набором классов, то придется столкнуться с ситуацией, в которой будем использовать нашу классификацию на действиях, заведомо выходящих за рамки наблюдаемого поведения на обучающей выборке. Чтобы быть готовыми встретиться с действиями за рамками используемых классов, мы стали применять метод детекции аномалий. Детекция аномалий широко используется в задачах предиктивного обслуживания и для выявления поломок на ранних этапах в производстве. Детекция помогла нам найти:

ошибки асессоров;
нетипичное поведение рабочих;
появление новых элементов в техническом процессе;
выявление подозрительных работников.

Подозрительные работники

Если вы начинаете свое знакомство с методами детекции аномалий, то скорее всего придете к следующим наиболее популярных и простым моделям, реализованным в sklearn: OneClassSVM, Isolation Forest, Local Outlier Factor. Есть и более сложные способы (подробнее на эту тему писал ранее мой коллега).

В реализации Local Outlier Factor есть возможность напрямую провести проверку на присутствие новых объектов в данных (Novelty detection). Если использовать метод Isolation Forest на тех же самых признаках, которые рассчитываются для основной модели классификации, то возможно получить рейтинг нормальности для каждого объекта: численную величину, характеризующую степень типичности для каждого объекта в выборке. Чем выше рейтинг, тем более типичным объектом в выборке является его обладатель. Распределение рейтинга нормальности выглядит следующим образом:

Для дальнейшего шага важно выбрать пороговое значение, начиная с которого по рейтингу нормальности будет возможно определить, является ли объект аномалией. В данном вопросе можно исходить из ожидаемой частоты появления аномалий, или выбрать пороговое значение по каким-либо дополнительным соображениям. Мы выбрали пороговое значение по распределению рейтинга нормальности: на рисунке видно, что, начиная с определенного значения, характер распределения меняется.

Важным моментом является следующее наблюдение: поиск аномалий удается продуктивно применять для каждого класса деятельности по отдельности, иначе редкие классы действий выделяются как аномалия.

Мы смогли разделить и выявить ряд аномалий для класса перемещение, при этом асессор, проверявший выявленные интервалы, описал их следующим образом:

работник положил рулетку и карандаш, взял одежду и одевается по пути (уже найдено перемещение за рамками типичных перемещений работников);
работник пинает тележку ногами (опасная для здоровья деятельность);
трясет головой с камерой, машет перед ней руками (действия, явно выходящие за рамки рабочих операций на объекте);
производит манипуляции с датчиком на левой руке (некорректные действия).

У работы каменщика были зафиксированы следующие аномалии:

работник зачем-то бьет молотком по неустановленным плитам (некорректные действия);
ложится на пол, смотрит зазор между полом и панелью (нетипичное поведение);
сначала пытается стряхнуть что-то с шапки, потом снимает ее и вытряхивает (действия, явно выходящие за рамки рабочих операций на объекте).

В ходе экспериментов с поиском аномалий нам удалось выявить один случай пьянства на рабочем месте: аномалии возникали у нетрезвого рабочего в интервалах времени, связанных с передвижением. Другим источником аномалий была работа штукатура-мужчины, в то время как в тренировочной выборке присутствовали только штукатуры-женщины.

Заключение

Мы продолжаем развивать проект и проводить различные эксперименты с нейронными сетями. Ждем того момента, когда нейронные сети обойдут градиентный бустинг. Планируем перейти от задачи классификации к задаче сегментации. Работаем над методами по очистки разметки асессоров, добавляем к данным показания новых сенсоров и экспериментируем с распознаванием совместной работы. Кроме того, мы расширяем область применения нашего мониторинга и осваиваем новые профессии.

С теми, кто дочитал статью до конца, хочу поделиться выводами, которые мы с командой сделали в процессе работы над проектом.

При работе с физическими процессами необходимо обращать особое внимание на чистоту данных, так как в них могут быть всевозможные пропуски, выбросы и т.д. Одним из решений проблемы сырых данных может быть применение модели Гауссовского процесса.

Хорошая аугментация может помочь поднять метрики качества модели. В аугментации можно идти от простого метода к более сложному:

различные перемешивания и склейки;
автокодировщики;
соревновательные сети (Generative Adversarial Networks), например arxiv.org/abs/1706.02390.

Если вы освоите один из инструментов поиска аномалий, то он может пригодиться на различных этапах Data Science проекта:

на этапе предварительного анализа удастся исключить выбросы;
на этапе разработки модели удастся найти объекты со спорной разметкой;
на этапе настройки мониторинга модели в промышленной эксплуатации удастся обнаружить моменты существенного изменения в данных по отношению к тренировочным.

Буду рад обсудить в статью в комментариях и с удовольствием отвечу на ваши вопросы.

Статья написана в соавторстве с olegkafanov.