НОВОСТИ Обзор Gartner MQ 2020: Платформы Машинного Обучения и Искусственного Интеллекта

NewsBot · 18.08.2020

Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 – Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату – можно здесь посмотреть:

You must be registered for see links

А я буду говорить про квадрат 2020го года, тем более, что изменения там с 2019го минимальные: выехал SAP и Altair купил Datawatch.

Это не систематизированный разбор и не таблица. Индивидуальный взгляд, еще с точки зрения геофизика. Но мне всегда любопытно читать Gartner MQ, они прекрасно некоторые моменты формулируют. Так что тут вещи, на которые я обратил внимание и в техническом плане, и в рыночном, и в философском.

Это не для людей, которые глубоко в теме ML, но для людей, которые интересуются тем, что вообще происходит на рынке.

Сам DSML рынок логично гнездится между BI и Cloud AI developer services.

Сначала понравившееся цитаты и термины:

«A Leader may not be the best choice» — Лидер рынка – это совершенно необязательно то, что нужно вам. Очень насущно! Как следствие отсутствия функционального заказчика вечно ищут все «лучшее» решение, а не «подходящее».
«Model operationalisation» — сокращается как MOPs. И с мопсами у всех тяжеловато! –(прикольная тема мопсик заставляет модель работать).
«Notebook environment» – важный концепт, где код, комментарии, данные и результаты объединяются вместе. Это очень понятно, перспективно и может существенно сократить объем UI кода.
«Rooted in OpenSource» — хорошо сказано – укореняется в опенсорсе.
«Citizen Data Scientists» — такие легкие чуваки, ламеры такие, не эксперты, которым нужна среда визуальная и всякие вспомогательные штуки. Кодить они не будут.
«Democratise» — часто используется в значении “сделать доступным более широкому кругу людей”. Можно говорить «democratise the data» вместо опасного «free the data», который мы раньше использовали. «Democratise» — это всегда long tail и за ним все вендоры бегут. Потерять в наукоемкости — выиграть в доступности!
«Exploratory Data Analysis – EDA» — рассматривание данными подручными средствами. Немного статистики. Немного визуализации. То, что все делают в той или иной степени. Не знал, что для этого есть название
«Reproducability» — максимальное сохранение всех параметров среды, входов и выходов с тем, чтобы можно было повторить эксперимент однажды проведенный. Важнейший термин для экспериментальной тестовой среды!

Итак:

Alteryx

Прикольный интерфейс прямо игрушечный. С масштабируемостью, конечно, туговато. Соотвественно коммьюнити Citizen инженеров вокруг таких же с цацками поиграть. Аналитика своя все свое в одном флаконе. Напомнило мне комплекс спектрально-корреляционного анализа данных

You must be registered for see links

, который программировали в 90х.

Anaconda

Коммьюнити вокруг Python и R экспертов. Опенсорса большая соотвественно. Выяснилось, что мои коллеги постоянно используют. А я не знал.

DataBricks

Состоит из трех opensource проектов — разработчики Spark денег подняли адово количество с 2013. Я прям должен процытировать wiki:

“In September 2013, Databricks announced that it had raised $13.9 million from Andreessen Horowitz. The company raised additional $33 million in 2014, $60 million in 2016, $140 million in 2017, $250 million in 2019 (Feb) and $400 million in 2019 (Oct)”!!!

Великие какие-то люди Spark пилили. Не знаком жаль!
А проекты такие:

Delta Lake — ACID на Spark совсем недавно отрелизили (то о чем мы мечтали над Elasticsearch) — превращает его в БД: жесткая схема, ACID, аудит, версии…
ML Flow — трекинг, упаковка, управление и хранение моделей.
Koalas — Pandas DataFrame API на Spark — Pandas — Python API для работы с табличками и данными вообще.

Посмотреть можно про Spark, кто вдруг не знает или забыл:

Видосики посмотрел с примерами от немного занудных но детальных консалт-дятлов:
DataBricks для Data Science

и для Data Engineering

Короче Databricks вытаскивает Spark. Кто хочет Spark нормально поюзать в облаке берет DataBricks не задумываясь, как и задумывалось

Spark – здесь главный дифференциатор.
Узнал, что Spark Streaming — это не настоящий fake realtime или microbatching. А если нужен настоящий Real Real time — это в Apache STORM. Еще все говорят и пишут, что Spark круче MapReduce. Лозунг такой.

DATAIKU

Прикольная штучка end-to-end. Рекламы много. Не понял, чем от Alteryx отличается?

DataRobot

Paxata для подготовки данных классно – это отдельная компания, которую в Декабре 2019 купили Дата Роботы. Подняли 20 MUSD и продались. Все за 7 лет.

Подготовка данных в Paxata, а не в Excel – здесь посмотреть:

Автоматические лукапчики там и предложения join’ов между двумя датасетами. Отличная вещь — чтобы поразбираться с данными, еще бы побольше упора на текстовую информацию

Data Catalogue – отличный каталог никому не нужных “живых” датасетов.
Тоже интересно как каталоги формируются в Paxata

«According to analyst firm

You must be registered for see links

, the software is made possible through advances in

You must be registered for see links

,

You must be registered for see links

and the

You must be registered for see links

data caching methodology.

You must be registered for see links

The software uses

You must be registered for see links

algorithms to understand the meaning of a data table's columns and pattern recognition algorithms to find potential duplicates in a data-set.

You must be registered for see links

It also uses indexing, text pattern recognition and other technologies traditionally found in social media and search software.»

Основной продукт Data Robot это здесь:

Их лозунг — от Модели к корпоративному приложению! Обнаружил консалтинг для нефтянки в связи с кризисом, но очень банальный и неинтересный:

You must be registered for see links

Посмотрел их видео по Mops или MLops.

Это такой Франкенштейн собранный из 6-7 аквизишенов различных продуктов.

Конечно становиться понятно, что большая команда Data Scientists должна иметь именно такую среду для работы с моделями, а то они наплодят их множество и ничего никогда не задеплоят. А в нашей нефтегазовой upstream реальности — одну модельку бы удачную создать и это уже большой прогресс!

Сам процесс очень напомнил работу проектными системами в геологии-геофизике, например Petrel

You must be registered for see links

.
Все кому не лень делают и модифицируют модели. Собирают в модели данные. Потом сделали эталонную модель и передают в производство! Те между скажем геологической моделью и ML моделью можно найти много общего.

Domino

Упор на открытую платформу и на коллаборейшн. Бизнес пользователей пускают бесплатно. Их Data Lab сильно напоминает шарепоинт. (А от названия сильно отдает IBMом).
Все эксперименты линкуют к исходному датасету. Как это знакомо

Как в нашей практике – какие-то данные в модель затащили, потом там в модели почистили и привели в порядок и все это там уже живет в модели и концов в исходных данных не найти.

У Domino крутая инфраструктурная виртуализация. Собрал машинку сколько надо ядер за секунду и поехал считать. Как сделано — не совсем понятно сразу. Везде Docker. Много свободы! Любые воркспейсы последних версий можно подключать. Параллельный запуск экспериментов. Трэкинг и отбор удачных.
То же что и DataRobot — результаты публикуются для бизнес пользователей в виде приложений. Для особо одаренных «стейкхолдеров». И еще мониторится собственно использование моделей. Все для Мопсов!
Не понял до конца как сложные модели в продакшн уходят. Какое-то API предоставляется, чтобы их накормить данными и получать результаты.

H2O

Driveless AI — очень компактная и понятная система для Supervised ML. Все в одной коробочке. Про бэкэнд не понятно до конца сразу.
Модель автоматически упаковывают в REST сервер или Java App. Это отличная идея. Многое сделано для Interpretability и Explainability. Интерпретация и объяснение результатов работы модели (Что по своей сути не должно быть объяснимо, иначе и человек может то же посчитать?).
Впервые подробно рассматривается кейс про неструктурированные данные и NLP:

You must be registered for see links

Качественная архитектурная картинка. И вообще картинки понравились.
Есть большой опенсорс фреймворк H2O не совсем понятно (набор алгоритмов/библиотек?). Собственный ноутбук визуальный без програмирования как Jupiter

You must be registered for see links

Еще почитал про Pojo и Mojo — модели H2O обернутые в яву. Первое в лоб, второе с оптимизацией.
H20 -единственные!, кому Gartner вписал текстовую аналитику и NLP в сильные стороны, а так же их усилия в отношении Explanability. Это очень важно!
Там же: высокая производительность, оптимизация и стандарт для отрасли в области интеграции с железами и облаками.
А в слабости логично — Driverles AI слабоват и узковат по сравнению с их же опенсорсом. Подготовка данных хромает по сравнению с той же Paxata! И игнорируют индустриальные данные — stream, graph, geo. Ну не может прямо все быть хорошо.

KNIME

Понравились 6 очень конкретных очень интересных бизнес кейсов на заглавной странице. Сильный OpenSource.
Gartner из лидеров опустил в визионеры. Плохо деньги зарабатывают — хороший знак для пользователей, учитывая что Лидер – не всегда лучший выбор.
Ключевое слово как и в H2O — augmented это значит помощь убогим citizen data scientists. Впервые кого-то в обзоре поругали за производительность!!! Интересно? То есть вычислительных мощностей столько, что производительность вообще не может быть системной проблемой?
Про это слово “Augmented” у Gartner есть отдельная статья, до которой добраться не удалось.

You must be registered for see links

И KNIME в обзоре кажется первый неамериканец!
(И дизайнерам нашим очень их лэндинг понравился. Странные люди

MathWorks

MatLаb – старый почетный товарищ известный всем! Тулбоксы для всех областей жизни и ситуаций. Что-то очень другое. Фактически много-много-много математики на все вообще случаи жизни!
Дополнительный продукт Simulink для дизайна систем. Закопался в тулбоксы для Цифровых Двойников — ничего про это не понимаю, а тут прямо много написано.

You must be registered for see links

для нефтянки:

You must be registered for see links

В общем это принципиально другой продукт из глубин математики и инженерии. Для подбора тулкитов математики конкретной.
Согласно Гартнеру у них проблемы все как у умных инженеров — никакой коллаборации — каждый в своей модели роется, никакой демократии, никакого эксплейнабилити.

RapidMiner

Много и сталкивался и слышал ранее (наряду с Матлабом) в контексте хорошего опенсорса. Закопался немного в TurboPrep как обычно. Интересует меня как из грязных данных чистые получать

Снова видно, что люди хорошие по маркетинговым материалам 2018 года и ужасно говорящим по английски людям на feature demo

А люди из Дортмунда с 2001 c сильным немецким прошлым)

Так и не понял из сайта что именно в опенсорсе доступно — нужно глубже закапываться.
Хорошие видосики про деплоймент и AutoML их концепции.
Про бэкенд RapidMiner Server тоже ничего особого нет. Наверное это будет компактно и хорошо работать on premice out of the box. В Docker упаковывается. Шаред environment только на сервере RapidMiner. И еще есть Radoop, данные из хадупа, считалки из Spark в Studio workflow.
Подвинули их вниз как и ожидалось молодые горячие вендоры «продавцы полосатых палочек». Гартнер однако пророчит им будущий успех в Enterprise пространстве. Денег там поднять можно. Немцы это умеют свят-свят

Don’t mention SAP!!!
Для ситизенов много делают! Но по странице видно как Gartner и говорит, что с инновационностью продаж туговато у них и они не борются за широту покрытия, но за прибыльность.

Остались SAS и Tibco типичные BI вендоры для меня… И оба в самом топе, что подтверждает мою уверенность в том, что нормальный DataScience логически растет
из BI, а не из облаков и Hadoop инфраструктур. Из бизнеса т.е., а не из IT. Как в Газпромнефть например:

You must be registered for see links

зрелая DSML среда вырастает из прочной BI практики. Но может она и с душком и перекосом на MDM и прочие дела, кто знает.

SAS

Нечего сказать особо. Только очевидные вещи.

TIBCO

Стратегия читается в списке покупок на странице в Wiki длинной со страницу. Да, долгая история, но 28!!! Карл. подкупила BI Spotfire (2007) еще во времена моей техно-молодости. И еще репортинг Jaspersoft (2014), далее аж трех вендоров предиктивной аналитики Insightful (S-plus) (2008), Statistica (2017) and Alpine Data (2017), обработка событий и стриминг Streambase System (2013), MDM Orchestra Networks (2018) и Snappy Data (2019) in-memory платформа.
Привет, Фрэнки!

НОВОСТИ Обзор Gartner MQ 2020: Платформы Машинного Обучения и Искусственного Интеллекта

NewsBot