ИИ учится предсказывать поведение человека по видео

  • Home
  • blog
  • ИИ учится предсказывать поведение человека по видео
blog image

Прогнозирование того, что кто-то собирается делать дальше на основе его языка тела, естественно для людей, но не для компьютеров. Когда мы встречаемся с другим человеком, он может приветствовать нас приветствием, рукопожатием или даже ударом кулака. Мы можем не знать, какой жест будет использоваться, но мы можем прочитать ситуацию и отреагировать соответствующим образом.

В новом исследовании исследователи Columbia Engineering раскрывают технику компьютерного зрения, которая дает машинам более интуитивное представление о том, что произойдет дальше, за счет использования ассоциаций более высокого уровня между людьми, животными и объектами.

«Наш алгоритм — это шаг к тому, чтобы машины могли лучше предсказывать поведение человека и, таким образом, лучше координировать свои действия с нашими», — сказал Карл Вондрик, доцент кафедры информатики Колумбийского университета, руководивший исследованием, которое было представлено на конференции. Международная конференция по компьютерному зрению и распознаванию образов 24 июня 2021 года. «Наши результаты открывают ряд возможностей для сотрудничества человека и робота, автономных транспортных средств и вспомогательных технологий».

Исследователи утверждают, что на сегодняшний день это самый точный метод прогнозирования событий видео действия на несколько минут в будущем. После анализа тысяч часов фильмов, спортивных игр и шоу, таких как «Офис», система учится предсказывать сотни действий, от рукопожатия до ударов кулаками. Когда он не может предсказать конкретное действие, он находит концепцию более высокого уровня, которая их связывает, в данном случае слово «приветствие».

Предыдущие попытки прогнозирующего машинного обучения, в том числе предпринятые командой, были сосредоточены на прогнозировании только одного действия за раз. Алгоритмы решают, следует ли классифицировать действие как объятие, дай пять, рукопожатие или даже бездействие, такое как «игнорирование». Но когда неопределенность высока, большинство моделей машинного обучения неспособны найти общие черты между возможными вариантами.

Колумбийский инженер, доктор философии. студенты Дидак Сурис и Руоши Лю решили взглянуть на проблему долгосрочного прогнозирования под другим углом. «Не все в будущем можно предсказать», — сказал Сурис, соавтор статьи. «Когда человек не может точно предвидеть, что произойдет, он перестраховывается и предсказывает на более высоком уровне абстракции. Наш алгоритм первым научился этой способности абстрактно рассуждать о будущих событиях».

Модель искусственного интеллекта распознает неопределенность будущего и способна «хеджировать ставку», как это сделал бы человек, соответственно.
Сурису и Лю пришлось вернуться к вопросам математики, восходящим к древним грекам. В старших классах ученики изучают знакомые и интуитивно понятные правила геометрии: прямые линии идут прямо, а параллельные никогда не пересекаются. Большинство систем машинного обучения также подчиняются этим правилам. Но другие геометрии, однако, обладают причудливыми, противоречащими интуиции свойствами; прямые линии изгибаются, а треугольники выпирают. Сурис и Лю использовали эту необычную геометрию для создания моделей искусственного интеллекта, которые организуют высокоуровневые концепции и предсказывают поведение человека в будущем.

«Прогнозирование — это основа человеческого интеллекта», — сказал Од Олива, старший научный сотрудник Массачусетского технологического института и содиректор лаборатории искусственного интеллекта Уотсона MIT-IBM, эксперт в области искусственного интеллекта и человеческого познания, не участвовавший в исследовании. . «Машины совершают ошибки, которых люди никогда не сделают, потому что им не хватает нашей способности абстрактно рассуждать. Эта работа является важным шагом на пути к преодолению этого технологического разрыва».

Математическая основа, разработанная исследователями, позволяет машинам организовывать события в зависимости от того, насколько они предсказуемы в будущем. Например, мы знаем, что плавание и бег — это формы упражнений. Новая методика самостоятельно учит классифицировать эти действия. Система осведомлена о неопределенности, предлагая более конкретные действия, когда есть определенность, и более общие прогнозы, когда ее нет.

По словам исследователей, этот метод может приблизить компьютеры к способности оценивать ситуацию и принимать взвешенное решение вместо заранее запрограммированных действий. «Это важный шаг в построении доверия между людьми и компьютерами», — сказал Лю, соавтор статьи. «Доверие возникает из чувства, что робот действительно понимает людей», — пояснил он. «Если машины смогут понимать и предвидеть наше поведение, компьютеры смогут беспрепятственно помогать людям в повседневной деятельности».

По словам Вондрика, хотя новый алгоритм делает более точные прогнозы для тестовых задач, чем предыдущие методы, следующие шаги — убедиться, что он работает вне лаборатории. Исследователи говорят, что если система может работать в различных условиях, есть много возможностей для развертывания машин и роботов, которые могут улучшить нашу безопасность, здоровье и безопасность. Группа планирует продолжать улучшать производительность алгоритма с помощью больших наборов данных и компьютеров, а также других форм геометрии.

«Человеческое поведение часто вызывает удивление», — прокомментировал Вондрик. «Наши алгоритмы позволяют машинам лучше предвидеть, что они собираются делать дальше».

Исследование называется «Изучение предсказуемости будущего».