- Регистрация
- 14.05.16
- Сообщения
- 11.398
- Реакции
- 501
- Репутация
- 0
Обсуждаем мнения ИТ-сообщества и экспертов индустрии. Также рассмотрим пару проектов, в рамках которых разрабатывают инструменты для генерации «искусственных» данных. Один из них представили выходцы из Агентства национальной безопасности США и Google.
Фото —
Проблема МО
Некоторым алгоритмам МО для работы требуются структурированные данные. Например, для решения задач машинного зрения их предоставляет проект
Но сформировать датасеты подобные ImageNet для каждой задачи невозможно. Хотя бы потому что записи в них маркируются (или проверяются) вручную. При этом реальные данные — например, банковские или медицинские — могут быть закрыты и недоступны для всех разработчиков и дата-сайентистов. Но даже если такие данные есть, перед обработкой их необходимо анонимизировать.
С решением этих трудностей помогают синтетические данные. Они искусственные и сгенерированы компьютером, но выглядят аналогично реальным.
Кто работает в этой сфере
Проектами в этой области занимается множество университетов, ИТ-компаний и стартапов. Например, компания Gretel пишет программное обеспечение,
В первую очередь их
Аналогичный проект
Насколько эффективны синтетические данные
Они дают возможность дата-сайентистам и разработчикам обучать модели для проектов в тех областях, где пока еще нет big data. По
Глава компании Haze, занимающейся разработкой систем ИИ,
Также существует ряд задач, связанных с компьютерным зрением, где трудно использовать что-то, кроме синтетического датасета — например, в робототехнике. При проектировании промышленных роботов и беспилотных автомобилей используют обучение с подкреплением (
Но беспилотник не может выехать на улицу и методом проб и ошибок определить, что «давить» пешеходов нельзя. Поэтому инженеры прибегают к синтетическим данным — они симулируют окружение в виртуальном пространстве. Например, решение для таких экспериментов
Фото —
Несмотря на все преимущества искусственных данных, у них есть свои недостатки. Они
Другой пользователь Hacker News
В любом случае синтетические датасеты нельзя считать «серебряной пулей». Это — лишь инструмент, способный помочь с решением определенного спектра задач. Но вполне возможно, что со временем этот спектр будет быстро расширяться.
You must be registered for see links
Фото —
You must be registered for see links
— UnsplashПроблема МО
Некоторым алгоритмам МО для работы требуются структурированные данные. Например, для решения задач машинного зрения их предоставляет проект
You must be registered for see links
— в его БД более 14 млн изображений, разбитых на 22 тыс. категорий. Работа с таким масштабном набором приносит свои плоды. Использующие его алгоритмы
You must be registered for see links
при определении объекта на фотографиях всего в 3,75% случаев. Для сравнения — у человека этот показатель превышает 5%.Но сформировать датасеты подобные ImageNet для каждой задачи невозможно. Хотя бы потому что записи в них маркируются (или проверяются) вручную. При этом реальные данные — например, банковские или медицинские — могут быть закрыты и недоступны для всех разработчиков и дата-сайентистов. Но даже если такие данные есть, перед обработкой их необходимо анонимизировать.
С решением этих трудностей помогают синтетические данные. Они искусственные и сгенерированы компьютером, но выглядят аналогично реальным.
Кто работает в этой сфере
Проектами в этой области занимается множество университетов, ИТ-компаний и стартапов. Например, компания Gretel пишет программное обеспечение,
You must be registered for see links
искусственный свод данных на базе реального датасета. Фирму
You must be registered for see links
группа выходцев из Google, Amazon и Агентства национальной безопасности США (NSA).В первую очередь их
You must be registered for see links
анализирует имеющуюся информацию. В качестве примера инженеры
You must be registered for see links
о поездках на электросамокатах Uber. Gretel
You must be registered for see links
их по категориям и расставляет метки, а затем анонимизирует с помощью методов
You must be registered for see links
. На выходе получается «полностью искусственный датасет». Код своего решения разработчики
You must be registered for see links
.Аналогичный проект
You must be registered for see links
в Иллинойсском университете в Урбане-Шампейне. Инженеры написали Python-библиотеку, с помощью которой можно сгенерировать синтетические данные для структурированных форматов CSV, TSV и частично структурированных JSON, Parquet и Avro. В первом случае специалисты использовали
You must be registered for see links
, а во втором —
You must be registered for see links
.Насколько эффективны синтетические данные
Они дают возможность дата-сайентистам и разработчикам обучать модели для проектов в тех областях, где пока еще нет big data. По
You must be registered for see links
Алекса Уотсона (Alex Watson), одного из основателей Gretel, во многих случаях достаточно значений, которые просто выглядят как реальные пользовательские.По оценкам Gartner, к 2022 году 40% моделей МО будут натренированы на синтетических наборах данных.
Глава компании Haze, занимающейся разработкой систем ИИ,
You must be registered for see links
распространение технологии с её «гибкостью». Искусственную информацию проще дополнять и модифицировать с целью повышения эффективности обучаемой модели.Также существует ряд задач, связанных с компьютерным зрением, где трудно использовать что-то, кроме синтетического датасета — например, в робототехнике. При проектировании промышленных роботов и беспилотных автомобилей используют обучение с подкреплением (
You must be registered for see links
). В этом случае система искусственного интеллекта обучается, напрямую взаимодействуя с некоторой средой. В зависимости от отклика этой среды, робот корректирует свои действия.Но беспилотник не может выехать на улицу и методом проб и ошибок определить, что «давить» пешеходов нельзя. Поэтому инженеры прибегают к синтетическим данным — они симулируют окружение в виртуальном пространстве. Например, решение для таких экспериментов
You must be registered for see links
Nvidia. Также проводились исследования по обучению машин при помощи
You must be registered for see links
.Фото —
You must be registered for see links
— UnsplashНесмотря на все преимущества искусственных данных, у них есть свои недостатки. Они
You must be registered for see links
менее точными — даже при условии генерации на реальных данных — и могут привести к получению моделей, генерирующих правдоподобные, но невоспроизводимые в реальном мире результаты. Однако один из резидентов Hacker News в тематическом треде
You must be registered for see links
, что это не такая уж большая проблема. Искусственные данные можно использовать для проверки алгоритмов интеллектуальной системы.Другой пользователь Hacker News
You must be registered for see links
, что подобные технологии усложняют процесс обучения моделей и увеличивают стоимость разработки. Его слова
You must be registered for see links
специалист из Университета штата Иллинойс — разница может достигать 50%.В любом случае синтетические датасеты нельзя считать «серебряной пулей». Это — лишь инструмент, способный помочь с решением определенного спектра задач. Но вполне возможно, что со временем этот спектр будет быстро расширяться.
[SUP]О чем мы пишем в нашем корпоративном блоге:
You must be registered for see links
You must be registered for see links
You must be registered for see links
You must be registered for see links
[/SUP]