В MPI-IS создали научившегося самостоятельно ходить за час робота

ИИ может помочь роботам освоить новые навыки и быстро адаптироваться к реальному миру.

Собака-робот машет лапами в воздухе, как разъяренный жук. После 10 минут борьбы ему удается перевернуться на перед. Через полчаса робот делает первые неуклюжие шаги, как новорожденный теленок. Но через час робот уверенно расхаживает по лаборатории.

Что делает этого четвероногого робота особенным, так это то, что он научился делать все это сам, без того, чтобы ему показывали, что делать в компьютерной симуляции.

Данияр Хафнер и его коллеги из Калифорнийского университета в Беркли использовали метод искусственного интеллекта, называемый обучением с подкреплением, который обучает алгоритмы, вознаграждая их за желаемые действия, чтобы научить робота ходить с нуля в реальном мире . Команда использовала тот же алгоритм для успешного обучения трех других роботов, например, одного, который мог поднимать мячи и перемещать их с одного лотка на другой.

Традиционно роботов обучают на компьютерном симуляторе, прежде чем они попытаются что-то сделать в реальном мире. Например, пара ног робота по имени Кэсси научилась ходить с помощью обучения с подкреплением, но только после того, как она сделала это в симуляции.

«Проблема в том, что ваш симулятор никогда не будет таким точным, как реальный мир. Всегда будут какие-то аспекты мира, которые вам не хватает», — говорит Хафнер, который работал над проектом вместе с коллегами Алехандро Эсконтрела и Филиппом Ву, а сейчас проходит стажировку в DeepMind. По его словам, адаптация уроков, полученных на симуляторе, к реальному миру, также требует дополнительных инженерных разработок.

Алгоритм команды под названием Dreamer использует прошлый опыт для построения модели окружающего мира. Dreamer также позволяет роботу проводить расчеты методом проб и ошибок в компьютерной программе, а не в реальном мире, предсказывая потенциальные будущие результаты своих потенциальных действий. Это позволяет ему учиться быстрее, чем он мог бы просто делать. Как только робот научился ходить, он продолжал учиться приспосабливаться к неожиданным ситуациям, например, сопротивляться тому, чтобы его не опрокинули палкой.

«Обучение роботов методом проб и ошибок — сложная задача, которая усугубляется длительным временем обучения, требуемым для такого обучения», — говорит Леррел Пинто, доцент кафедры компьютерных наук Нью-Йоркского университета, специализирующийся на робототехнике и машинном обучении. По его словам, Dreamer показывает, что глубокое обучение с подкреплением и модели мира могут научить роботов новым навыкам за очень короткий промежуток времени.

Джонатан Херст, профессор робототехники в Университете штата Орегон, говорит, что результаты, которые еще не прошли рецензирование, ясно показывают, что «обучение с подкреплением станет краеугольным камнем в будущем управления роботами».

Удаление тренажера из обучения роботов имеет много преимуществ. По словам Хафнера, алгоритм может быть полезен для обучения роботов тому, как осваивать навыки в реальном мире и адаптироваться к таким ситуациям, как сбои оборудования. Например, робот может научиться ходить с неисправным двигателем в одной ноге.

Этот подход также может иметь огромный потенциал для более сложных вещей, таких как автономное вождение, для которых требуются сложные и дорогие симуляторы, говорит Стефано Альбрехт, доцент кафедры искусственного интеллекта в Эдинбургском университете. Албрехт говорит, что новое поколение алгоритмов обучения с подкреплением может «очень быстро понять, как работает среда в реальном мире».

Но есть несколько больших нерешенных проблем, говорит Пинто.

При обучении с подкреплением инженеры должны указать в своем коде, какое поведение является хорошим и, таким образом, вознаграждается, а какое поведение нежелательно. В этом случае переворачиваться и ходить — хорошо, а не ходить — плохо. «Робототехник должен будет делать это для каждой задачи [или] проблемы, которую он хочет решить с помощью робота», — говорит Пинто. Это отнимает невероятно много времени, и трудно запрограммировать поведение для непредвиденных ситуаций.

И хотя симуляторы могут быть неточными, модели мира тоже могут быть неточными, говорит Альбрехт. «Мировые модели начинаются с нуля, поэтому изначально прогнозы моделей будут совершенно разными», — говорит он. Требуется время, пока они не получат достаточно данных, чтобы сделать их точными.

В будущем, говорит Хафнер, было бы неплохо научить робота понимать голосовые команды. Хафнер говорит, что команда также хочет подключить камеры к роботу-собаке, чтобы дать ему зрение. Это позволило бы ему ориентироваться в сложных ситуациях в помещении, например, ходить в комнату, находить предметы и — да! — играть в «принеси».