НОВОСТИ Почему в машинном обучении используют «синтетические» данные

BDFINFO2.0
Оффлайн
Регистрация
14.05.16
Сообщения
11.398
Реакции
501
Репутация
0
Обсуждаем мнения ИТ-сообщества и экспертов индустрии. Также рассмотрим пару проектов, в рамках которых разрабатывают инструменты для генерации «искусственных» данных. Один из них представили выходцы из Агентства национальной безопасности США и Google.


Фото — — Unsplash

Проблема МО


Некоторым алгоритмам МО для работы требуются структурированные данные. Например, для решения задач машинного зрения их предоставляет проект — в его БД более 14 млн изображений, разбитых на 22 тыс. категорий. Работа с таким масштабном набором приносит свои плоды. Использующие его алгоритмы при определении объекта на фотографиях всего в 3,75% случаев. Для сравнения — у человека этот показатель превышает 5%.

Но сформировать датасеты подобные ImageNet для каждой задачи невозможно. Хотя бы потому что записи в них маркируются (или проверяются) вручную. При этом реальные данные — например, банковские или медицинские — могут быть закрыты и недоступны для всех разработчиков и дата-сайентистов. Но даже если такие данные есть, перед обработкой их необходимо анонимизировать.

С решением этих трудностей помогают синтетические данные. Они искусственные и сгенерированы компьютером, но выглядят аналогично реальным.

Кто работает в этой сфере


Проектами в этой области занимается множество университетов, ИТ-компаний и стартапов. Например, компания Gretel пишет программное обеспечение, искусственный свод данных на базе реального датасета. Фирму группа выходцев из Google, Amazon и Агентства национальной безопасности США (NSA).

В первую очередь их анализирует имеющуюся информацию. В качестве примера инженеры о поездках на электросамокатах Uber. Gretel их по категориям и расставляет метки, а затем анонимизирует с помощью методов . На выходе получается «полностью искусственный датасет». Код своего решения разработчики .

Аналогичный проект в Иллинойсском университете в Урбане-Шампейне. Инженеры написали Python-библиотеку, с помощью которой можно сгенерировать синтетические данные для структурированных форматов CSV, TSV и частично структурированных JSON, Parquet и Avro. В первом случае специалисты использовали , а во втором — .

Насколько эффективны синтетические данные


Они дают возможность дата-сайентистам и разработчикам обучать модели для проектов в тех областях, где пока еще нет big data. По Алекса Уотсона (Alex Watson), одного из основателей Gretel, во многих случаях достаточно значений, которые просто выглядят как реальные пользовательские.

По оценкам Gartner, к 2022 году 40% моделей МО будут натренированы на синтетических наборах данных.​

Глава компании Haze, занимающейся разработкой систем ИИ, распространение технологии с её «гибкостью». Искусственную информацию проще дополнять и модифицировать с целью повышения эффективности обучаемой модели.

Также существует ряд задач, связанных с компьютерным зрением, где трудно использовать что-то, кроме синтетического датасета — например, в робототехнике. При проектировании промышленных роботов и беспилотных автомобилей используют обучение с подкреплением ( ). В этом случае система искусственного интеллекта обучается, напрямую взаимодействуя с некоторой средой. В зависимости от отклика этой среды, робот корректирует свои действия.

Но беспилотник не может выехать на улицу и методом проб и ошибок определить, что «давить» пешеходов нельзя. Поэтому инженеры прибегают к синтетическим данным — они симулируют окружение в виртуальном пространстве. Например, решение для таких экспериментов Nvidia. Также проводились исследования по обучению машин при помощи .

kohlwhnbwmmxjzftidfjomzbft0.jpeg

Фото — — Unsplash

Несмотря на все преимущества искусственных данных, у них есть свои недостатки. Они менее точными — даже при условии генерации на реальных данных — и могут привести к получению моделей, генерирующих правдоподобные, но невоспроизводимые в реальном мире результаты. Однако один из резидентов Hacker News в тематическом треде , что это не такая уж большая проблема. Искусственные данные можно использовать для проверки алгоритмов интеллектуальной системы.

Другой пользователь Hacker News , что подобные технологии усложняют процесс обучения моделей и увеличивают стоимость разработки. Его слова специалист из Университета штата Иллинойс — разница может достигать 50%.

В любом случае синтетические датасеты нельзя считать «серебряной пулей». Это — лишь инструмент, способный помочь с решением определенного спектра задач. Но вполне возможно, что со временем этот спектр будет быстро расширяться.

[SUP]О чем мы пишем в нашем корпоративном блоге:

nh3bvginmatsrsxcu6loffpn5yc.png

nh3bvginmatsrsxcu6loffpn5yc.png

nh3bvginmatsrsxcu6loffpn5yc.png

nh3bvginmatsrsxcu6loffpn5yc.png
[/SUP]​
 
Сверху Снизу