Русский
Русский
English
Статистика
Реклама

Обзор Gartner MQ 2020 Платформы Машинного Обучения и Искусственного Интеллекта

Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату можно здесь посмотреть: https://www.kdnuggets.com/2019/02/gartner-2019-mq-data-science-machine-learning-changes.html
А я буду говорить про квадрат 2020го года, тем более, что изменения там с 2019го минимальные: выехал SAP и Altair купил Datawatch.


Это не систематизированный разбор и не таблица. Индивидуальный взгляд, еще с точки зрения геофизика. Но мне всегда любопытно читать Gartner MQ, они прекрасно некоторые моменты формулируют. Так что тут вещи, на которые я обратил внимание и в техническом плане, и в рыночном, и в философском.


Это не для людей, которые глубоко в теме ML, но для людей, которые интересуются тем, что вообще происходит на рынке.


Сам DSML рынок логично гнездится между BI и Cloud AI developer services.



Сначала понравившееся цитаты и термины:


  • A Leader may not be the best choice Лидер рынка это совершенно необязательно то, что нужно вам. Очень насущно! Как следствие отсутствия функционального заказчика вечно ищут все лучшее решение, а не подходящее.
  • Model operationalisation сокращается как MOPs. И с мопсами у всех тяжеловато! (прикольная тема мопсик заставляет модель работать).
  • Notebook environment важный концепт, где код, комментарии, данные и результаты объединяются вместе. Это очень понятно, перспективно и может существенно сократить объем UI кода.
  • Rooted in OpenSource хорошо сказано укореняется в опенсорсе.
  • Citizen Data Scientists такие легкие чуваки, ламеры такие, не эксперты, которым нужна среда визуальная и всякие вспомогательные штуки. Кодить они не будут.
  • Democratise часто используется в значении сделать доступным более широкому кругу людей. Можно говорить democratise the data вместо опасного free the data, который мы раньше использовали. Democratise это всегда long tail и за ним все вендоры бегут. Потерять в наукоемкости выиграть в доступности!
  • Exploratory Data Analysis EDA рассматривание данными подручными средствами. Немного статистики. Немного визуализации. То, что все делают в той или иной степени. Не знал, что для этого есть название
  • Reproducability максимальное сохранение всех параметров среды, входов и выходов с тем, чтобы можно было повторить эксперимент однажды проведенный. Важнейший термин для экспериментальной тестовой среды!

Итак:


Alteryx


Прикольный интерфейс прямо игрушечный. С масштабируемостью, конечно, туговато. Соотвественно коммьюнити Citizen инженеров вокруг таких же с цацками поиграть. Аналитика своя все свое в одном флаконе. Напомнило мне комплекс спектрально-корреляционного анализа данных Coscad, который программировали в 90х.


Anaconda


Коммьюнити вокруг Python и R экспертов. Опенсорса большая соотвественно. Выяснилось, что мои коллеги постоянно используют. А я не знал.


DataBricks


Состоит из трех opensource проектов разработчики Spark денег подняли адово количество с 2013. Я прям должен процытировать wiki:

In September 2013, Databricks announced that it had raised $13.9 million from Andreessen Horowitz. The company raised additional $33 million in 2014, $60 million in 2016, $140 million in 2017, $250 million in 2019 (Feb) and $400 million in 2019 (Oct)!!!
Великие какие-то люди Spark пилили. Не знаком жаль!
А проекты такие:
  • Delta Lake ACID на Spark совсем недавно отрелизили (то о чем мы мечтали над Elasticsearch) превращает его в БД: жесткая схема, ACID, аудит, версии
  • ML Flow трекинг, упаковка, управление и хранение моделей.
  • Koalas Pandas DataFrame API на Spark Pandas Python API для работы с табличками и данными вообще.

Посмотреть можно про Spark, кто вдруг не знает или забыл: https://www.youtube.com/watch?v=TgiBvKcGL24&t=12s
Видосики посмотрел с примерами от немного занудных но детальных консалт-дятлов:
DataBricks для Data Science https://www.youtube.com/watch?v=GlICHrJ8MsE
и для Data Engineering https://www.youtube.com/watch?v=F92auAXqoPg
Короче Databricks вытаскивает Spark. Кто хочет Spark нормально поюзать в облаке берет DataBricks не задумываясь, как и задумывалось :) Spark здесь главный дифференциатор.
Узнал, что Spark Streaming это не настоящий fake realtime или microbatching. А если нужен настоящий Real Real time это в Apache STORM. Еще все говорят и пишут, что Spark круче MapReduce. Лозунг такой.


DATAIKU


Прикольная штучка end-to-end. Рекламы много. Не понял, чем от Alteryx отличается?


DataRobot


Paxata для подготовки данных классно это отдельная компания, которую в Декабре 2019 купили Дата Роботы. Подняли 20 MUSD и продались. Все за 7 лет.


Подготовка данных в Paxata, а не в Excel здесь посмотреть: https://www.youtube.com/watch?v=hn4HxRyj5fo
Автоматические лукапчики там и предложения joinов между двумя датасетами. Отличная вещь чтобы поразбираться с данными, еще бы побольше упора на текстовую информацию https://www.youtube.com/watch?v=YsK3H9rW1b0
Data Catalogue отличный каталог никому не нужных живых датасетов.
Тоже интересно как каталоги формируются в Paxata https://www.youtube.com/watch?v=XEEuw_itzzo


According to analyst firm Ovum, the software is made possible through advances in predictive analytics, machine learning and the NoSQL data caching methodology.[15] The software uses semantic algorithms to understand the meaning of a data table's columns and pattern recognition algorithms to find potential duplicates in a data-set.[15][7] It also uses indexing, text pattern recognition and other technologies traditionally found in social media and search software.

Основной продукт Data Robot это здесь: https://www.youtube.com/watch?v=RrbJLm6atwc
Их лозунг от Модели к корпоративному приложению! Обнаружил консалтинг для нефтянки в связи с кризисом, но очень банальный и неинтересный: https://blog.datarobot.com/leveraging-machine-learning-in-the-new-oil-gas-reality
Посмотрел их видео по Mops или MLops. https://www.youtube.com/watch?v=wb40aEVzf2g
Это такой Франкенштейн собранный из 6-7 аквизишенов различных продуктов.


Конечно становиться понятно, что большая команда Data Scientists должна иметь именно такую среду для работы с моделями, а то они наплодят их множество и ничего никогда не задеплоят. А в нашей нефтегазовой upstream реальности одну модельку бы удачную создать и это уже большой прогресс!


Сам процесс очень напомнил работу проектными системами в геологии-геофизике, например Petrel https://www.software.slb.com/products/petrel.
Все кому не лень делают и модифицируют модели. Собирают в модели данные. Потом сделали эталонную модель и передают в производство! Те между скажем геологической моделью и ML моделью можно найти много общего.


Domino


Упор на открытую платформу и на коллаборейшн. Бизнес пользователей пускают бесплатно. Их Data Lab сильно напоминает шарепоинт. (А от названия сильно отдает IBMом).
Все эксперименты линкуют к исходному датасету. Как это знакомо :)
Как в нашей практике какие-то данные в модель затащили, потом там в модели почистили и привели в порядок и все это там уже живет в модели и концов в исходных данных не найти.


У Domino крутая инфраструктурная виртуализация. Собрал машинку сколько надо ядер за секунду и поехал считать. Как сделано не совсем понятно сразу. Везде Docker. Много свободы! Любые воркспейсы последних версий можно подключать. Параллельный запуск экспериментов. Трэкинг и отбор удачных.
То же что и DataRobot результаты публикуются для бизнес пользователей в виде приложений. Для особо одаренных стейкхолдеров. И еще мониторится собственно использование моделей. Все для Мопсов!
Не понял до конца как сложные модели в продакшн уходят. Какое-то API предоставляется, чтобы их накормить данными и получать результаты.


H2O


Driveless AI очень компактная и понятная система для Supervised ML. Все в одной коробочке. Про бэкэнд не понятно до конца сразу.
Модель автоматически упаковывают в REST сервер или Java App. Это отличная идея. Многое сделано для Interpretability и Explainability. Интерпретация и объяснение результатов работы модели (Что по своей сути не должно быть объяснимо, иначе и человек может то же посчитать?).
Впервые подробно рассматривается кейс про неструктурированные данные и NLP: https://www.h2o.ai/products-dai-nlp/
Качественная архитектурная картинка. И вообще картинки понравились.
Есть большой опенсорс фреймворк H2O не совсем понятно (набор алгоритмов/библиотек?). Собственный ноутбук визуальный без програмирования как Jupiter https://towardsdatascience.com/getting-started-with-h2o-using-flow-b560b5d969b8
Еще почитал про Pojo и Mojo модели H2O обернутые в яву. Первое в лоб, второе с оптимизацией.
H20 -единственные!, кому Gartner вписал текстовую аналитику и NLP в сильные стороны, а так же их усилия в отношении Explanability. Это очень важно!
Там же: высокая производительность, оптимизация и стандарт для отрасли в области интеграции с железами и облаками.
А в слабости логично Driverles AI слабоват и узковат по сравнению с их же опенсорсом. Подготовка данных хромает по сравнению с той же Paxata! И игнорируют индустриальные данные stream, graph, geo. Ну не может прямо все быть хорошо.


KNIME


Понравились 6 очень конкретных очень интересных бизнес кейсов на заглавной странице. Сильный OpenSource.
Gartner из лидеров опустил в визионеры. Плохо деньги зарабатывают хороший знак для пользователей, учитывая что Лидер не всегда лучший выбор.
Ключевое слово как и в H2O augmented это значит помощь убогим citizen data scientists. Впервые кого-то в обзоре поругали за производительность!!! Интересно? То есть вычислительных мощностей столько, что производительность вообще не может быть системной проблемой?
Про это слово Augmented у Gartner есть отдельная статья, до которой добраться не удалось. https://www.gartner.com/en/documents/3956374/four-real-world-case-studies-implement-augmented-dsml-to
И KNIME в обзоре кажется первый неамериканец!
(И дизайнерам нашим очень их лэндинг понравился. Странные люди :)


MathWorks


MatLаb старый почетный товарищ известный всем! Тулбоксы для всех областей жизни и ситуаций. Что-то очень другое. Фактически много-много-много математики на все вообще случаи жизни!
Дополнительный продукт Simulink для дизайна систем. Закопался в тулбоксы для Цифровых Двойников ничего про это не понимаю, а тут прямо много написано.
https://www.mathworks.com/discovery/digital-twin.html для нефтянки: https://www.mathworks.com/videos/series/matlab-oil-and-gas-conference-2019.html
В общем это принципиально другой продукт из глубин математики и инженерии. Для подбора тулкитов математики конкретной.
Согласно Гартнеру у них проблемы все как у умных инженеров никакой коллаборации каждый в своей модели роется, никакой демократии, никакого эксплейнабилити.


RapidMiner


Много и сталкивался и слышал ранее (наряду с Матлабом) в контексте хорошего опенсорса. Закопался немного в TurboPrep как обычно. Интересует меня как из грязных данных чистые получать :)
Снова видно, что люди хорошие по маркетинговым материалам 2018 года и ужасно говорящим по английски людям на feature demo :)
А люди из Дортмунда с 2001 c сильным немецким прошлым)



Так и не понял из сайта что именно в опенсорсе доступно нужно глубже закапываться.
Хорошие видосики про деплоймент и AutoML их концепции.
Про бэкенд RapidMiner Server тоже ничего особого нет. Наверное это будет компактно и хорошо работать on premice out of the box. В Docker упаковывается. Шаред environment только на сервере RapidMiner. И еще есть Radoop, данные из хадупа, считалки из Spark в Studio workflow.
Подвинули их вниз как и ожидалось молодые горячие вендоры продавцы полосатых палочек. Гартнер однако пророчит им будущий успех в Enterprise пространстве. Денег там поднять можно. Немцы это умеют свят-свят :) Dont mention SAP!!!
Для ситизенов много делают! Но по странице видно как Gartner и говорит, что с инновационностью продаж туговато у них и они не борются за широту покрытия, но за прибыльность.


Остались SAS и Tibco типичные BI вендоры для меня И оба в самом топе, что подтверждает мою уверенность в том, что нормальный DataScience логически растет
из BI, а не из облаков и Hadoop инфраструктур. Из бизнеса т.е., а не из IT. Как в Газпромнефть например: https://admin.opensystems.ru/data/conf//bigdata2020//presentations/chernicyn.pdf зрелая DSML среда вырастает из прочной BI практики. Но может она и с душком и перекосом на MDM и прочие дела, кто знает.


SAS


Нечего сказать особо. Только очевидные вещи.


TIBCO


Стратегия читается в списке покупок на странице в Wiki длинной со страницу. Да, долгая история, но 28!!! Карл. подкупила BI Spotfire (2007) еще во времена моей техно-молодости. И еще репортинг Jaspersoft (2014), далее аж трех вендоров предиктивной аналитики Insightful (S-plus) (2008), Statistica (2017) and Alpine Data (2017), обработка событий и стриминг Streambase System (2013), MDM Orchestra Networks (2018) и Snappy Data (2019) in-memory платформа.
Привет, Фрэнки!


Источник: habr.com
К списку статей
Опубликовано: 18.08.2020 16:06:31
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Big data

Машинное обучение

Статистика в it

Искусственный интеллект

Data engineering

Dsml

Gartner

Data science

Artificial intelligence

Большие данные и машинное обучение

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru