В США інженери навчили роботів імпровізувати
При навчанні «без учителя» робот самостійно вибирав дії випадковим чином
Алгоритм передбачає, що робот самостійно приймає рішення і оптимально застосовує їх в поточній ситуації. Також він дозволяє давати роботу задачу у вигляді візуальних маркерів, які стрілками показують, куди потрібно пересунути той чи інший предмет. Після цього алгоритм проводить розрахунки і керує маніпулятором, який відстежує свої дії за допомогою камери.
В основі алгоритму лежить наступний підхід: він планує можливі послідовності дій для маніпулятора, а потім віддає цей набір послідовностей нейромережі, яка створює відповіде відео.
Нейромережа бере попередній кадр і дію для поточного відрізка часу і видає у відповідь синтезований наступний кадр. Після цього алгоритм аналізує створені нейромережею відео і порівнює місцерозташування предметів на ньому із зображенням, на якому відображено завдання користувача.
Далі він сортує їх, відбирає найкращі дії і планує їх знову таким чином, щоб вони були більш вдалими для завдання. Нарешті, визначивши найкращу послідовність дій, робот виконує її, пересуваючи предмети.
Для навчання розробники поєднали два поширених підходи, що застосовуються в машинному навчанні — імітаційне навчання і навчання «без учителя». Під час імітаційного навчання розробники брали в руки маніпулятор і вручну показували роботу, як треба переставляти речі.
При навчанні «без учителя» робот самостійно вибирав дії випадковим чином. Завдяки цьому він отримав великий обсяг даних про взаємодію інструментів і предметів, але при цьому також побачив приклади оптимальних дій, яких він навряд чи досяг би за допомогою випадкового вибору.
Експерименти показали, що робот в багатьох випадках здатний схоплювати інструменти і пересувати предмети в задану область. Наприклад, він може взяти щітку і перемістити кілька предметів в совок за одну дію. Також експерименти показали, що в деяких випадках робот розуміє, що оптимальніше виконати завдання без інструменту — а лише за допомогою свого маніпулятора.