Обучение агентов ИИ общению и действиям в фантастических мирах

  • Home
  • blog
  • Обучение агентов ИИ общению и действиям в фантастических мирах
blog image

В последние годы инструменты искусственного интеллекта (ИИ), в том числе методы обработки естественного языка (НЛП), становятся все более изощренными, достигая исключительных результатов в различных задачах. Методы НЛП специально разработаны для понимания человеческого языка и выработки подходящих ответов, что позволяет общаться между людьми и искусственными агентами.

В других исследованиях также были представлены целевые агенты, которые могут автономно перемещаться по виртуальной или видеоигровой среде. До сих пор техники НЛП и целевые агенты обычно разрабатывались индивидуально, а не объединялись в единые методы.

Исследователи из Технологического института Джорджии и Facebook AI Research недавно изучили возможность оснащения целевых агентов возможностями НЛП, чтобы они могли разговаривать с другими персонажами и выполнять желаемые действия в фантастических игровых средах. Их статья, предварительно опубликованная на arXiv, показывает, что в совокупности эти два подхода достигают замечательных результатов, создавая игровых персонажей, которые говорят и действуют таким образом, который согласуется с их общими мотивами.

«Агенты, которые общаются с людьми и другими агентами для достижения цели, все еще довольно примитивны», — сказал TechXplore Притхвирадж Амманабролю, один из исследователей, проводивших исследование. «Мы действуем на основе гипотезы, что это происходит потому, что большинство текущих задач и наборов данных НЛП статичны и, таким образом, игнорируют большой объем литературы, предполагающей, что интерактивность и языковая основа необходимы для эффективного изучения языка».

В других исследованиях также были представлены целевые агенты, которые могут автономно перемещаться по виртуальной или видеоигровой среде. До сих пор техники НЛП и целевые агенты обычно разрабатывались индивидуально, а не объединялись в единые методы.

Исследователи из Технологического института Джорджии и Facebook AI Research недавно изучили возможность оснащения целевых агентов возможностями НЛП, чтобы они могли разговаривать с другими персонажами и выполнять желаемые действия в фантастических игровых средах. Их статья, предварительно опубликованная на arXiv, показывает, что в совокупности эти два подхода достигают замечательных результатов, создавая игровых персонажей, которые говорят и действуют таким образом, который согласуется с их общими мотивами.

«Агенты, которые общаются с людьми и другими агентами для достижения цели, все еще довольно примитивны», — сказал TechXplore Притхвирадж Амманабролю, один из исследователей, проводивших исследование. «Мы действуем на основе гипотезы, что это происходит потому, что большинство текущих задач и наборов данных НЛП статичны и, таким образом, игнорируют большой объем литературы, предполагающей, что интерактивность и языковая основа необходимы для эффективного изучения языка».

Один из основных способов обучения агентов ИИ — научить их практиковать свои навыки в интерактивных смоделированных средах. Интерактивные повествовательные игры, также известные как текстовые приключения, могут быть особенно полезны для обучения как целевых, так и разговорных агентов, поскольку они обеспечивают широкий спектр вербальных и связанных с действием взаимодействий.

«Интерактивные повествовательные игры — это симуляции, в которых агент взаимодействует с миром исключительно через естественный язык -« воспринимая »,« действуя »и« разговаривая »с миром, используя текстовые описания, команды и диалоги», — сказал Амманабролю. «В рамках этих усилий команда ParlAI в FAIR создала LIGHT, крупномасштабную краудсорсинговую текстовую приключенческую игру в жанре фэнтези, в которой вы можете действовать и говорить как персонаж в этих мирах. Это платформа, на которой мы проводили наши эксперименты».

LIGHT, платформа, которую исследователи использовали для обучения своего целенаправленного разговорного агента, предлагает огромное количество фантастических миров, содержащих богатый ассортимент персонажей, локаций и объектов. Тем не менее, сама платформа не ставит конкретных целей или задач для каждого из персонажей, перемещающихся по этим средам.

Поэтому, прежде чем приступить к обучению своего агента, Амманабролю и его коллеги собрали набор данных квестов, которые можно было назначить персонажам в игре, которые они назвали LIGHT-Quests. Эти квесты были собраны с помощью краудсорсинга, и каждый из них предлагал краткосрочную, среднесрочную и долгосрочную мотивацию для конкретных персонажей LIGHT. Впоследствии команда попросила людей поиграть в игру и собрала демонстрации того, как они играли (то есть, как их персонаж действовал, разговаривал и перемещался по фантастическим мирам), когда они пытались выполнить эти квесты.

«Например, представьте, что вы дракон», — сказал Амманабролю. «На этой платформе ваша краткосрочная мотивация может заключаться в том, чтобы вернуть украденное золотое яйцо и наказать рыцаря, который это сделал, но основная долгосрочная мотивация будет заключаться в том, чтобы построить себе самый большой клад сокровищ».

Помимо создания набора данных LIGHT-Qests и сбора демонстраций того, как люди будут играть в игру, Амманабролю и его коллеги модифицировали ATOMIC, существующий граф здравого смысла (т. Е. Атлас здравых фактов, который можно использовать для обучения машин), чтобы он соответствовал требованиям. фантастические миры в СВЕТЕ. Новый атлас здравых фактов, связанных со СВЕТОМ, разработанный исследователями, был скомпилирован в другой набор данных, названный ATOMIC-LIGHT.

Впоследствии исследователи разработали систему, основанную на машинном обучении, и обучили ее на двух созданных ими наборах данных (LIGHT-Quests и ATOMIC-LIGHT), используя метод, известный как обучение с подкреплением. Благодаря этому обучению они, по сути, научили систему выполнять действия в СВЕТЕ, которые соответствовали мотивам виртуального персонажа, которого они воплощали, а также говорить другим персонажам вещи, которые могли бы помочь им выполнить квесты своего персонажа.

«Часть нейронной сети, в которой работает агент ИИ, была предварительно обучена на ATOMIC-LIGHT, а также на исходном LIGHT и других наборах данных, таких как Reddit, чтобы дать ему общее представление о том, как действовать и разговаривать в фантастических мирах», — сказал. «Входные данные, описание мира и диалоги от других персонажей отправляются через предварительно обученную нейронную сеть на коммутатор».

Когда предварительно обученная нейронная сеть отправляет входные данные на этот переключатель, коммутатор решает, должен ли агент выполнить действие или сказать что-то другому персонажу. Основываясь на своем решении, он перенаправляет сеть в одну из двух сетей политик, которые предназначены для определения, какое конкретное действие или какое предложение должен произнести персонаж, соответственно.

Амманабролю и его коллеги также разместили еще одного обученного агента ИИ, который может как действовать, так и разговаривать в среде обучения LIGHT. Этот второй агент служит партнером для основного персонажа, когда он пытается завершить свой квест.

Все действия, выполняемые двумя агентами, обрабатываются игровым движком, который также проверяет, насколько агенты продвинулись в выполнении своего квеста. Кроме того, все диалоги, выполняемые персонажами, просматриваются мастером подземелий (DM), который оценивает их в зависимости от того, насколько «естественна» произнесенная ими речь и насколько она подходит для фантастических миров. DM — это, по сути, еще одна модель машинного обучения, которая была обучена на демонстрациях игр людьми.

«Большинство тенденций, которые вы видите при обучении ИИ с использованием статических наборов данных, которые сейчас распространены в НЛП, не поддерживаются в интерактивных средах», — сказал Амманабролю. «Ключевой вывод из нашего исследования по абляции для нулевого обобщения новых квестов состоит в том, что крупномасштабное предварительное обучение в интерактивных условиях требует тщательного выбора предварительных заданий — баланса между предоставлением агенту« общих »априорных значений открытой области и те, которые более «специфичны» для последующей задачи, — тогда как статические методологии требуют только предварительной подготовки для конкретной предметной области для эффективной передачи, но в конечном итоге менее эффективны, чем интерактивные методы ».

Исследователи выполнили серию первоначальных оценок и обнаружили, что их агенты ИИ могли действовать и говорить таким образом, который соответствовал мотивам их персонажей в игровой среде СВЕТ. В целом, их результаты показывают, что интерактивное обучение нейронных сетей на данных, связанных с окружающей средой, может привести к созданию агентов ИИ, которые могут действовать и общаться «естественным» образом и в соответствии с их мотивацией.

Работа Амманабролю и его коллег поднимает некоторые интересные вопросы относительно возможностей предварительного обучения нейронных сетей и объединения NLP с RL. Разработанный ими подход может в конечном итоге проложить путь к созданию высокоэффективных целевых агентов с продвинутыми коммуникативными навыками.

«RL — это очень естественный способ формулирования целенаправленных проблем, но исторически было сравнительно небольшое количество работ, пытающихся совместить его с достижениями NLP, такими как преобразователи, такие как BERT или GPT», — сказал Амманабролю. «Это будет ближайшим следующим направлением работы, которое мне лично было бы интересно изучить, чтобы увидеть, как лучше смешивать эти вещи, чтобы более эффективно дать агентам ИИ более здравый смысл для действий и разговоров в этих интерактивных мирах».