Группа исследователей из Университета Иллинойса в Урбана-Шампейн и Стэнфордского университета во главе с проф. Кэти Дриггс-Кэмпбелл недавно разработала новый метод обучения на основе глубокого подкрепления, который может улучшить способность мобильных роботов безопасно перемещаться в людных местах. Их метод, представленный в статье, предварительно опубликованной на arXiv, основан на идее использования людей в окружении робота в качестве индикаторов потенциальных препятствий.
"Наша статья основана на исследовательском направлении "люди как датчики" для картирования при наличии окклюзий", - рассказала TechXplore Маша Иткина, одна из исследователей, проводивших исследование. "Ключевая идея заключается в том, что мы можем делать пространственные выводы об окружающей среде, наблюдая за интерактивным поведением людей, таким образом, рассматривая людей как сенсоры. Например, если мы наблюдаем, как водитель резко тормозит, мы можем сделать вывод, что пешеход, возможно, выбежал на дорогу перед этим водителем". Идея использования людей и их интерактивного поведения для оценки наличия или отсутствия закрытых препятствий была впервые предложена Афолаби и соавторами в 2018 году, особенно в контексте самоуправляемых транспортных средств. В своей предыдущей работе Иткина и ее коллеги развили усилия этой группы, обобщив идею "люди как датчики" таким образом, чтобы она учитывала множество наблюдаемых человеческих факторов, а не один фактор (как рассматривалось в подходе команды Афолаби). Чтобы сделать это, они разработали "сенсорную" модель для всех различных водителей в окружении автономного транспортного средства. Каждая из этих моделей сопоставляла траекторию движения водителя с сеткой занятости, отображающей окружающую среду перед водителем. Впоследствии эти оценки занятости были включены в карту автономного робота с использованием методов слияния датчиков. "В нашей недавней статье мы замыкаем цикл, рассматривая вывод об окклюзии в рамках конвейера обучения с подкреплением", - сказала Иткина. "Наша цель состояла в том, чтобы продемонстрировать, что вывод о перекрытии полезен для планировщика пути вниз по течению, особенно когда пространственное представление зависит от задачи. Для достижения этой цели мы создали сквозную архитектуру, которая одновременно учится делать выводы о блокировках и вырабатывать политику, которая успешно и безопасно достигает цели". Большинство ранее разработанных моделей, рассматривающих людей как датчики, специально разработаны для применения в городских условиях, чтобы повысить безопасность автономных транспортных средств. С другой стороны, новая модель была разработана для улучшения способности мобильного робота ориентироваться в толпе людей. Задачи навигации в толпе, как правило, более сложны, чем задачи вождения в городе для автономных систем, поскольку поведение людей в толпе менее структурировано и, следовательно, более непредсказуемо. Исследователи решили решить эти задачи, используя модель обучения с глубоким подкреплением, интегрированную с латентным пространством с учетом окклюзии, изучаемым вариационным автоэнкодером (VAE). "Сначала мы представляем окружающую робота среду на карте локальной сетки занятости, очень похожей на вид с высоты птичьего полета или изображение препятствий вокруг робота сверху вниз", - сказал TechXplore Йе-Джи Мун, первый автор этого исследования. "Эта карта сетки занятости позволяет нам фиксировать насыщенное интерактивное поведение в пределах области сетки независимо от количества, размера и формы объектов и людей". Модель исследователей включает в себя модуль вывода окклюзии, который был обучен извлекать наблюдаемые социальные модели поведения, такие как замедление или поворот, чтобы избежать столкновений, из собранных последовательностей входных данных карты. Впоследствии он использует эту информацию для прогнозирования того, где могут находиться закрытые объекты или агенты, и кодирует эту "расширенную информацию о восприятии" в низкоразмерное скрытое представление, используя архитектуру VAE. "Поскольку наш модуль вывода о закрытии обеспечивает лишь частичное наблюдение за окружающими агентами-людьми, у нас также есть модель супервизора, чей скрытый вектор кодирует пространственное местоположение как наблюдаемых, так и закрытых агентов-людей во время обучения", - объяснил Мун. "Сопоставляя скрытое пространство нашего модуля окклюзии с пространством модели супервизора, мы увеличиваем информацию о восприятии, связывая наблюдаемое социальное поведение с пространственным расположением закрытых человеческих агентов". Полученное в результате скрытое представление с учетом окклюзии в конечном итоге передается в систему глубокого обучения с подкреплением, которая побуждает робота активно избегать столкновений при выполнении своей миссии. Иткина, Мун и их коллеги протестировали свою модель в серии экспериментов, как в моделируемой среде, так и в реальном мире, используя мобильного робота Turtlebot 2i. "Мы успешно внедрили концепцию "люди как датчики", чтобы улучшить ограниченное восприятие робота и осуществлять навигацию в толпе с учетом окклюзии", - сказал Мун. "Мы продемонстрировали, что наша политика, учитывающая окклюзию, обеспечивает гораздо лучшие навигационные характеристики (т.е. лучшее предотвращение столкновений и более плавные траектории навигации), чем навигация с ограниченным обзором, и сравнима с навигацией с всеведущим обзором. Насколько нам известно, эта работа является первой, в которой используется вывод о социальной окклюзии для навигации в толпе ". В своих тестах Иткина, Мун и их коллеги также обнаружили, что их модель генерирует несовершенные карты, которые не содержат точных местоположений как наблюдаемых агентов, так и предполагаемых агентов. Вместо этого их модуль учится фокусироваться на оценке местоположения близлежащих "критических агентов", которые могут быть заблокированы и могут блокировать путь робота к желаемому местоположению. "Этот результат подразумевает, что полная карта не обязательно является лучшей картой для навигации в частично наблюдаемой, переполненной среде, но более важно сосредоточиться на нескольких потенциально опасных агентах", - сказал Мун. Первоначальные результаты, собранные этой группой исследователей, являются весьма многообещающими, поскольку они подчеркивают потенциал их метода для уменьшения столкновений робота с препятствиями в переполненных помещениях. В будущем их модель может быть реализована как на существующих, так и на вновь разработанных мобильных роботах, предназначенных для навигации по торговым центрам, аэропортам, офисам и другим людным местам. "Основной мотивацией для этой работы было запечатлеть человеческую интуицию при навигации среди людей, особенно в закрытых условиях", - добавила Иткина. "Мы надеемся глубже погрузиться в изучение человеческих идей, чтобы улучшить возможности роботов. В частности, нас интересует, как мы можем одновременно делать прогнозы для окружающей среды и делать выводы о закупорках, поскольку исходные данные для обеих задач включают исторические наблюдения за поведением людей. Мы также думаем о том, как эти идеи могут быть перенесены в различные области, такие как склад и вспомогательная робототехника ". | |
Просмотров: 241 | |