Компьютерное зрение. Свой алгоритм или решение из коробки?

Меня зовут Александра Царева. Я и мои коллеги работаем над проектами в сфере компьютерного зрения в Центре машинного обучения компании Инфосистемы Джет. Мне хочется поделиться нашим опытом разработки и внедрения проектов в сфере компьютерного зрения. Сегодня речь пойдет о преимуществах и недостатках кастомных и коробочных решений, и я расскажу о нашем опыте применения инструмента от IBM Maximo Visual Inspection.

Распознавание изображений и вообще нейросети одна из наиболее громких тем в машинном обучении. В кулуарах дата-сайнтистских встреч раз за разом передаются истории, как было проще согласиться с заказчиком, что у него будет нейросеть, чем убедить, что есть более подходящие для задачи алгоритмы. С другой стороны, подчас обученной искусственной нейросетью стремятся заменить нейросеть естественную человека, в тех случаях, когда человек еще долго будет дешевле разработки собственного решения (и часто эффективнее).

Это порождает ужасающие истории о гигантских бюджетах и малой выгоде после их освоения. Отрасль кажется дорогой и пугающей. Получается так, что по-настоящему хорошее решение доступно исключительно за большие деньги и может быть создано только лично для вас. А если что-то типовое то это будет таким тривиальным, что не стоит усилий на внедрение.

Так ли совершенны кастомные решения и тривиальны готовые? Давайте попробуем разобраться.

Кастомные решения

Естественно, у разработки под задачу есть масса преимуществ. Прежде всего, когда мы обучаем нейросеть под конкретную задачу, мы точно уверены, что наша нейросеть становится квалифицированным специалистом в решении именно этой задачи, что у нее нет артефактов, связанных с обучением на неподходящем датасете. Потенциально использование такой нейросети дает большую точность в ее работе по сравнению с коробочным решением и моделью более общего характера. Более того, если у бизнеса есть группа задач, которые нужно решать, однажды обученную под конкретную задачу нейросеть можно дообучать, чтобы работать со смежными к оригинальной задаче сферами.

Например, возьмем абстрактную нейросеть, которая оценивает характеристики выбросов над сталеплавильным конвертером. Скорее всего, на этом же заводе есть другие места, где можно дообучить уже определяющую особенности химии расплава в ковше нейросеть, чтобы она применила полученные знания о связи химии и цвета пламени или структуре пара. Может быть, будет близкая задача по экологическому контролю и модель, изначально заточенная для помощи металлургам, поможет соблюдать и обязательства по охране окружающей среды.

Теперь перейдем к недостаткам кастомного решения. Как ни грустно это признавать, они тоже есть.

Итак, какие проблемы возникают, когда кто-то решает, что для его бизнеса необходимо разработать компьютерное зрение?

Первые проблемы касаются данных. Дата-сайнтист, участвующий в проекте, сначала выступает в качестве data-психоаналитика и подробно расспрашивает о данных. Люди понимают, что у имеющихся в их распоряжении данных есть специфика и ограничения. Две стороны одной проблемы: слишком много неструктурированных данных, или слишком мало данных в принципе. На то, чтобы получить полезную информацию из таких данных, как, например, большого числа фотографий без разметки, потребуется много сил и времени. Если речь идет о специфических данных (например, требуется оценивать качество изделий из редких металлов или драгоценных камней), потребуется труд довольно дорогих экспертов. Их невозможно заменить crowd-sourcingом, к тому же нередко их опыт не поддается формализации. С другой стороны, данных может быть очень мало: их сбор может происходить медленно. Например, разрабатываемая модель должна определять, верно ли установлены детали в двигатель на видеоконтроле конвейера, а работники все достаточно квалифицированы, и ошибки у них происходят единично.
Второй нюанс касается непосредственно дата-сайнтистов, которые будут работать над проектом компьютерного зрения для конкретной задачи. Во-первых, профессиональный рынок перегрет от спроса: специалистов меньше, чем компании готовы нанять. В целом, обычные для всех ИТ-профессий проблемы, помноженные на то, что постоянно появляются новые задачи, решаемые наукой о данных. Во-вторых, даже если в бизнесе уже есть дата-сайнтисты может быть, это не те дата-сайнтисты, которых вы ищете. Наметился тренд на все более сильную специализацию в рамках профессии. В-третьих, то, что сделают дата-сайнисты, нужно будет внедрять и поддерживать (и, может быть, даже развивать, если вам понравится эффект!). А если имеется относительно обширный парк устройств, на которых это надо использовать, то еще и адаптировать. Бизнес, не имеющий тяги к стартапам, на этом этапе часто решает, что ему не так уж и нужно компьютерное зрение.

Не спешите грустить вместе с этими ребятами. Теперь, когда стал рассеиваться туман сакрального знания вокруг компьютерного зрения, есть альтернативы прежних двум вариантам вкладываем много денег и сил vs не делаем ничего, компьютерное зрение не для нас.

Нейросети из коробки

У бизнеса самого по себе есть тайная сила, не (всегда) доступная специалистам в математике.

Во-первых, никто не знает задачу так хорошо, как заказчик.

Во-вторых, бизнес обычно хорошо понимает, какие данные у него реально есть и какие он может собрать в течение реального для проекта времени.

Вопросы, в которых бизнесу нужна помощь, более прикладные. Какой инструмент подойдет для решения задачи? Эта задача, она в принципе решаема? Как мы будем обновлять решение после разработки? Как встроить его в имеющуюся инфраструктуру?

С этой точки зрения IBM Maximo Visual Inspection решает множество проблем, поскольку сильно занижает порог вхождения. Можно сказать, это вариация AutoML, автоматизированного машинного обучения, теперь для работы с изображениями и видео. Самое главное, решение Maximo Visual Inspection изначально разработано для использования людьми без обширных познаний в области глубокого обучения нейросетей. Для тех, кому хочется узнать больше о приемах работы и терминах, которые используют дата-сайнтисты, когда говорят о компьютерном зрении, решение снабжено подробной документацией (документация пока только на английском, но вряд ли это станет препятствием для пытливого ума).

В Maximo Visual Inspection есть очень простой инструмент для разметки данных (я не проводила экспериментов, но он кажется достаточно легким даже для свежих выпускников курсов компьютерной грамотности), а также встроенный функционал для развертывания моделей, интегрирования результатов работы в Maximo Visual Inspection с чем-то еще. В частности, Maximo Visual Inspection хорошо подходит для принятия решений о целесообразности поиска команды датасайнтистов и закупке дорогих мощностей для обучения нейросетей.

Есть три продукта в этой линейке: IBM Maximo Visual Inspection для обучения нейросетевых моделей, IBM Maximo Visual Inspection Edge для применения обученных моделей на различных устройствах с GPU или CPU, и IBM Visual Inspection Mobile (Visual Inspector) для применения обученных моделей с использованием мобильных устройств для различных инспекций. Дополнительно следует отметить, что IBM Maximo Visual Inspection сейчас включает интеграцию с продуктом IBM Maximo Asset Monitor. Таким образом Maximo Visual Inspection может автоматически отправлять результаты распознаваний в Maximo Asset Monitor для дальнейшей обработки.

Кроме того, обученные в Maximo Visual Inspection модели можно использовать в продукте IBM Video Analytics, который позволяет подключать сотни и тысячи камер любых производителей, осуществлять трекинг объектов, имеет специальный интерфейс администратора, который позволяет настраивать правила поведения или состояния объектов, которые необходимо отслеживать, генерировать мгновенные оповещения в интерфейс оператора или как сигналы другим системам, а также индексировать видеопотоки описывая все происходящее в виде. метаданных, по которым в последствии оператор может выполнять поиск интересующих объектов или событий.

Пайплайн работы решения достаточно стандартный: загружаем в необходимые видео или изображения, которые становятся новым датасетом, размечаем его с помощью удобного функционала (в том числе доступны функции аугментации данных и авторазметки), выбираем требуемый тип сети для обучения в зависимости от задачи (нужна ли нам модель поточнее или побыстрее, распознавание прямоугольниками или по контуру и т.д., сделать правильный выбор легко), после этого, в один клик, запускаем процесс обучения и наблюдаем в реальном времени за графиком с основными параметрами качества обучения. В зависимости от выбранного типа сети обучение занимает ориентировочно от 2 до 30 минут. По завершении процесса обучения создается экземпляр модели, который может быть уже связан с существующей инфраструктурой, например, использован для распознавания на каком-либо Edge устройстве с помощью второй версии продукта Maximo Visual Inspection Edge.

Задачи, поддерживаемые решением, всем хорошо знакомы и являются наиболее типовыми для компьютерного зрения: классификация изображений, поиск объекта на изображении (как в варианте сегментации, то есть попиксельного выделения нужной области, так и поиска места на изображении с объектом), также есть инструмент для детекции действий на видео.

Во второй части моего поста (вы сможете прочитать ее завтра) я расскажу подробно об инструментах IBM Maximo VisualInspection и о том, как с их помощью можно решать конкретные задачи.

Царева Александра, ведущий специалист по машинному обучению Инфосистемы Джет

Какая ваша любимая компьютерная игра? Lineage, Doom, Cuphead, WOW, другая? Я обожаю играть в старые игры для приставок Dendy или Sega, например, в Марио, где, проходя уровень за уровнем, добираешься до финального босса. Игровой сюжет большинства консольных игр построен в целом одинаково: преодолей все преграды, страдай и не выключай приставку неделями, чтобы заставить босса отдать тебе принцессу.

В реальной жизни заработать

Сегодня пятница, а значит, специалисты Jet CSIRT снова собрали для вас ключевые новости в области ИБ. В ТОП-3 исправление критических уязвимостей у Apple и у VMware, а также взлом японских правительственных организаций. Подборку новостей собрал Игорь Фиц, аналитик Центра мониторинга и реагирования на инци

99,9 % всех серверов на рынке построены на базе Intel. Поэтому, говоря про серверное железо, мы невольно подразумеваем технику на базе Intel, как в свое время под ксероксом подразумевали копировальный аппарат от единственного производителя этих устройств.

С годами на р

Представьте, что ваш рекрутер опубликовал в интернете вакансию администратора корпоративных внешних веб-ресурсов и выложил в ней детали о составе стека используемых компонентов вплоть до версий отдельных плагинов. Или же кто-то слил в сеть данные ваших клиентов, либо вы внезапно обнаружили, что подрядчик опубликовал в открытом доступе на Github бэкап сайта с валидными учетными данными к вашей СУБД. Всё это опасности ци

Переезд сродни пожару. Накал страстей нужно умножить на 10, когда речь идет о перевозке целого ЦОДа крупного банка. Сомневаетесь, что за 24 часа можно перевести 25 стоек, которые содержали 150 единиц оборудования, включая СХД, высокопроизводительные серверы HP Superdome и це

Рыцари справедливости. Кадр из фильма

Многие, наверное, уже видели фильм Рыцари справедливости, где дата-сайнтисты на основе набора фактов о теракте чуть не раскрыли преступление, но сов

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на

Cодержание

Введение
Основные понятия и термины
Характеристика ИО как научной дисциплины
Этапы операционного исследования
- Постановка задачи
- Построени

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Давайте представим, что вы параноик, и параноик вдвойне, когда дело касается многопоточности. Предположим, что вы делаете backend некого функционала приложения, а приложение переодически дергает на вашем серверы какие-то методы. Все вроде хорошо, но есть одно но. Что если ваш функционал напрямую зависит от каких-либо других данных, того же банального профиля например? Встает вопрос, как гарантировать то, что сценарий отработает име

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Фиксация различных нарушений, контроль доступа, розыск и отслеживание автомобилей лишь часть задач, для которых требуется по фотографии определить номер автомобиля (государственный регистрационный знак или ГРЗ).

В этой статье мы рассмотрим создание модели для распознавания с помощью Catalyst одного из самых популярных высокоуровневых фрейм

Возможно ли обучить качественную модель, которая предсказывает 3D координаты поверхности тела животного по фотографии, без соответствующей DensePose разметки?

Исследователи из Facebook Artificial Intelligence Research затронули этот вопрос на конференции по машинному зрению CVPR 2020.

В 1998 году выпускник ННГУ им. Лобачевского Вадим Писаревский устроился на работу в небольшую IT-компанию и получил задание начать работать над технологией, о которой ничего не знал. В то время он и не предполагал, что эта работа затянется на десятилетия, а на основе созданных с его участием разработок в мире будет изготовлено несколько миллиардов гаджетов, и жизнь людей на планете Земля существенно изменится.

Как малая ком

Глубокое обучение интересная тема и моя любимая область исследований. Мне очень нравится играть с новыми исследовательскими разработками специалистов по глубокому обучению. Я только что наткнулся на удивительный репозиторий GitHub одного из моих товарищей по группе компьютерно

Привет, Хабр!

Осмелюсь сегодня рассказать, как мне довелось извлекать данные прямо из видеозаписей турнирных игр по игре League of Legends с помощью глубоких нейронных сетей: зачем это нужно, какие архитектуры и приёмы использовались, и с какими сложностями я столкнулс

Представлюсь

Всем привет! Меня зовут Влад Виноградов, я руководитель отдела компьютерного зрения в компании EORA.AI. Мы занимаемся глубоким обучением уже более трех лет и за это время реализовали множество проектов для российских и международных клиентов в которые входила исследовательская часть и обучение моделей. В последнее время мы фокусируемся на решении задач поиска похожих изображений и на текущий момент создали сис

Меня зовут Александра Царева. Я и мои коллеги работаем над проектами в сфере компьютерного зрения в Центре машинного обучения компании Инфоси

Компьютерное зрение. Свой алгоритм или решение из коробки?

Кастомные решения

Нейросети из коробки

Сейчас читают

Блог компании инфосистемы джет

Охотимся на БОССОВ

ТОП-3 ИБ-событий недели по версии Jet CSIRT

Переворот на инфраструктурном рынке ARM против Intel

DRP Обратная сторона интернет-погружения компании, или Как бороться с цифровыми рисками

Успеть за 24 часа история переезда оборудования между ЦОДами

Рыцари несправедливости. Дата-сайнтисты против смещения данных

Алгоритмы

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Геопространственное моделирование с применением методов машинного обучения

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Исследование операций

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Как синхронизировать сценарий без транзакций? Штатными средствами Java

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной