НОВОСТИ [Перевод] Машинное обучение в Unity: учим МО-агентов перепрыгивать через стены

BDFINFO2.0
Оффлайн
Регистрация
14.05.16
Сообщения
11.398
Реакции
501
Репутация
0
За последние несколько лет в обучении с подкреплением (reinforcement learning, RL) произошли серьезные прорывы: от первого успешного его использования в обучении по сырым пикселям до обучения Open AI роборуки, ― и для дальнейшего прогресса становятся необходимы все более сложные среды, в чем на помощь приходит Unity.

Инструмент Unity ML-Agents ― это новый плагин в игровом движке Unity, позволяющий использовать Unity как конструктор среды для обучения МО-агентов.

От игры в футбол до ходьбы, прыжков со стен и обучения ИИ собаки игре с палкой, Unity ML-Agents Toolkit предоставляет широкий спектр условий для тренировки агентов.

В этой статье мы рассмотрим, как работают МО-агенты Unity, а затем научим одного из таких агентов перепрыгивать через стены.

9c65adbdbb38b939262c10e5ac728dde.gif



Что же такое Unity ML-Agents?


Unity ML-Agents ― новый плагин для игрового движка Unity, позволяющий создавать или использовать готовые среды для обучения наших агентов.

Плагин состоит из трех компонентов:

zomxm_3g9svsej0iarjpw1vbnta.png


Первый ― это Среда обучения (Learning Environment), содержащая сцену Unity и элементы среды.

Второй ― Python API, в котором расположены алгоритмы RL (такие как PPO ― Proximal Policy Optimization и SAC ― Soft Actor-Critic). Мы используем этот API для запуска обучения, тестирования и т. д. Он связан со средой обучения через третий компонент ― внешний коммуникатор.


Из чего состоит среда обучения


Учебный компонент состоит из различных элементов:

hy1upt9en2esnt-amk-iipklmn4.png


Первый агент ― актер сцены. Именно его мы будем тренировать, оптимизируя компонент под названием «мозг» (Brain), в котором записано, какие действия необходимо совершать в каждом из возможных состояний.

Третий элемент ― Академия (Academy) ― управляет агентами и процессом принятия ими решений и обрабатывает запросы от API Python. Чтобы лучше понять его роль, давайте вспомним процесс RL. Его можно представить как цикл, который работает следующим образом:

5ygeefzasafou6bkwggdnaq7ows.png


Допустим, агенту нужно научиться играть в платформер. Процесс RL в таком случае будет выглядеть так:

  • Агент получает состояние S[SUB]0[/SUB] из среды — это будет первым кадром нашей игры.
  • На основании состояния S[SUB]0[/SUB] агент выполняет действие A[SUB]0[/SUB] и смещается вправо.
  • Среда переходит в новое состояние S[SUB]1[/SUB].
  • Агент получает награду R[SUB]1[/SUB] за то, что он не мертв (Позитивная награда +1).

Этот цикл RL образует последовательность из состояния, действия и награды. Цель агента — максимизировать ожидаемое совокупное вознаграждение.

qmmrmlkz7urj8cywqpsg1ejajve.png


Таким образом, Academy отправляет инструкции агентам и обеспечивает синхронизацию в их выполнении, а именно:

  • Сбор наблюдений;
  • Выбор действия в соответствии с заложенными инструкциями;
  • Выполнение действия;
  • Сброс в том случае, если количество шагов исчерпано или цель достигнута.


Учим агента прыгать через стены


Теперь, когда мы знаем, как работают агенты Unity, обучим такового прыгать через стены.

Уже обученные модели также можно скачать на .

Среда для обучения прыжкам на стену


Цель этой среды ― научить агента доходить до зеленой плитки.

Рассмотрим три случая:

1. Стен нет, и нашему агенту нужно просто дойти до плитки.

17a8fdda8bbe767f64a34d8d05fd9be9.png


2. Агенту нужно научиться прыгать, чтобы достичь зеленой плитки.

d2c1490d0b90c4fdefb8eb4922f446b2.png


3. Самый сложный случай: стена слишком высока, чтобы агент мог ее перепрыгнуть, поэтому ему нужно сначала запрыгнуть на белый блок.

4581759b653a175597054fcf60a0050e.png


Научим агента двум сценариям поведения в зависимости от высоты стены:

  • SmallWallJump в случаях без стен или при малой высоте стены;
  • BigWallJump в случае с высокими стенами.

Так будет выглядеть система вознаграждений:

rtlohmnturcucyikrnhfsadztgi.png


В своих наблюдениях мы используем не обычный кадр, а 14 рейкастов, каждый из которых может обнаружить 4 возможных объекта. В данном случае рейкасты можно воспринимать как лазерные лучи, способные определить, проходят ли они через объект.

Также будем использовать в своей программе глобальную позицию агента.

a060fcfa26e80154ef988d76dc9b8f05.png


В нашем пространстве возможны четыре варианта действий:

nig6zskfzterisy_hskg3k-rsnk.png


Цель ― достичь зеленой плитки со средним вознаграждением 0,8.

Итак, приступим!


Прежде всего, откроем проект UnitySDK.

Среди примеров нужно найти и открыть сцену WallJump.

Как можно увидеть, на сцене располагается множество агентов, каждый из которых берется из одного и того же префаба, и у всех у них один и тот же «мозг».

bad195820da3e5b2c74309e9f44e9935.png


Как и в случае классического глубокого обучения с подкреплением (Deep Reinforcement Learning), после того как мы запустили несколько экземпляров игры (например, 128 параллельных сред), теперь мы просто копируем и вставляем агентов, чтобы иметь больше различных состояний. И поскольку мы хотим обучить нашего агента с нуля, в первую очередь нам нужно удалить у агента «мозг». Для этого необходимо перейти в папку prefabs и открыть Prefab.

Далее в иерархии Prefab нужно выбрать агента и перейти в настройки.

В параметрах поведения (Behavior Parameters) нужно удалить модель. Если в нашем распоряжении несколько графических процессоров, можно использовать Inference Device из CPU в качестве GPU.

d0dbdb6ec05655b6fecdf675d629d126.png


В компоненте Wall Jump Agent необходимо удалить Brains для случая с отсутствием стен, а также для низких и высоких стен.

618e81c8c3c0cb15ae5fbca791c33c8c.png


После этого можно начать обучать своего агента с нуля.

Для своего первого обучения просто изменим общее число шагов обучения для двух сценариев поведения: SmallWallJump и BigWallJump. Так мы сможем достичь цели всего за 300 тысяч шагов. Для этого в config / trainer config.yaml изменим max_steps на 3e5 для случаев SmallWallJump и BigWallJump.

b80bbb1b21f0f9e445fa8d2583c39d52.png


Чтобы обучить нашего агента, будем использовать (Proximal Policy Optimization). Алгоритм включает в себя накопление опыта взаимодействия с окружающей средой и использование его для обновления политики принятия решений. После ее обновления предыдущие события отбрасываются, а последующий сбор данных осуществляется уже на условиях обновленной политики.

Итак, сначала при помощи API Python нам нужно вызвать внешний коммуникатор, чтобы он дал Academy команду к запуску агентов. Для этого необходимо открыть терминал, где находится ml-agents-master, и набрать в нем:

mlagents-learn config/trainer_config.yaml — run-id=”WallJump_FirstTrain” — train

Эта команда попросит запустить сцену Unity. Для этого нужно нажать ► в верхней части редактора.

2128744fb143fec6308d95938e0383f7.png


Наблюдать за тренировками своих агентов можно в Tensorboard при помощи следующей команды:

tensorboard — logdir=summaries

Когда обучение закончится, нужно переместить сохраненные файлы моделей, содержащиеся в ml-agents-master / models, в UnitySDK / Assets / ML-Agents / examples / WallJump / TFModels. Затем снова откроем редактор Unity и выберем сцену WallJump, где откроем готовый объект WallJumpArea.

После этого выберем агента и в его параметрах поведения перетащим файл SmallWallJump.nn в Model Placeholder.

d0dbdb6ec05655b6fecdf675d629d126.png


Также переместим:

  1. SmallWallJump.nn в No Wall Brain Placeholder.
  2. SmallWallJump.nn в Small Wall Brain Placeholder.
  3. BigWallJump.nn в No Wall Brain Placeholder.

618e81c8c3c0cb15ae5fbca791c33c8c.png


После этого нажмем кнопку ► в верхней части редактора и готово! Алгоритм настройки обучения агентов завершен.

9c65adbdbb38b939262c10e5ac728dde.gif


Время экспериментов


Лучший способ обучения ― постоянно пытаться привнести что-то новое. Теперь, когда мы уже добились хороших результатов, попробуем поставить некоторые гипотезы и проверить их.


Снижение коэффициента дисконтирования до 0,95


Итак, мы знаем, что:

  • Чем больше гамма, тем меньше скидка. То есть, агент больше заботится о долгосрочном вознаграждении.
  • С другой стороны, чем меньше гамма, тем больше скидка. В таком случае в приоритете агента краткосрочное вознаграждение.

Идея этого эксперимента заключается в том, что, если мы увеличим скидку, уменьшив гамму с 0,99 до 0,95, приоритетным для агента станет краткосрочное вознаграждение ― что, возможно, поможет ему быстрее приблизиться к оптимальной политике поведения.

u_cmhvpc0dk-npolzz49loxofiq.png


Что интересно, в случае прыжка через невысокую стену агент будет стремиться к тому же результату. Это можно объяснить тем, что данный случай довольно простой: агенту нужно лишь двигаться к зеленой плитке и при необходимости прыгать, если впереди находится стена.

ycicttb0mkwxmwn5c1ghgm2iiiu.png


С другой стороны, в случае с Big Wall Jump это работает хуже, поскольку наш агент больше заботится о краткосрочной награде и поэтому не понимает, что ему нужно забраться на белый блок, чтобы перепрыгнуть через стену.

Увеличение сложности нейронной сети


Напоследок выдвинем гипотезу о том, станет ли наш агент умнее, если мы увеличим сложность нейронной сети. Для этого увеличим размер скрытого уровня с 256 до 512.

И обнаружим, что в этом случае новый агент работает хуже, чем наш первый агент. Это означает, что нам нет смысла увеличивать сложность нашей сети, потому что иначе увеличится и время обучения.

zog7qm1uemu7l7taqc5uuwlqauw.png


Итак, мы обучили агента перепрыгивать через стены, и сегодня на этом все. Напомним, что для сравнения результатов обученные модели можно скачать по .

af6f00ce3784c60469522296276d2651.gif
 
Сверху Снизу