Когда алгоритмы соревнуются, кто выигрывает?

  • Home
  • blog
  • Когда алгоритмы соревнуются, кто выигрывает?
blog image

Со временем алгоритмы прогнозирования становятся специализированными для все более узкой части населения, и среднее качество их прогнозов снижается.

Такие компании, как Netflix и Hulu, соревнуются за подписчиков, чтобы обеспечить процветание своего бизнеса. Но есть еще один вид конкуренции, которому уделяется гораздо меньше внимания, — конкуренция между алгоритмами машинного обучения, используемыми такими компаниями-конкурентами.

Джеймс Зоу, доцент кафедры биомедицинских данных и член факультета Стэнфордского института искусственного интеллекта, ориентированного на человека, говорит, что по мере того, как алгоритмы конкурируют за клики и связанные с ними пользовательские данные, они становятся более специализированными для групп населения, которые тянутся к их сайтам . И это, как он обнаруживает в новой статье с аспирантом Антонио Гинартом и студенткой Евой Чжан, может иметь серьезные последствия как для компаний, так и для потребителей.

Возможно, потребители не возражают, если рекомендации Hulu кажутся предназначенными для городских подростков или Netflix предлагает лучший выбор для сельских мужчин среднего возраста, но когда дело доходит до прогнозирования, кто должен получить банковский кредит или чье резюме должно быть доставлено менеджеру по найму, эти алгоритмы последствия в реальном мире.

«Ключевой момент заключается в том, что это происходит не потому, что предприятия выбирают специализацию для определенной возрастной или демографической группы», — говорит Гинарт. «Это происходит из-за обратной связи с конкурентами».

Неизбежная специализация

Перед тем, как начать свое исследование, команда Цзоу осознала, что существует динамика обратной связи, если алгоритмы машинного обучения компаний конкурируют за пользователей или клиентов и в то же время используют данные клиентов для обучения своей модели. «Привлекая клиентов, они получают новый набор данных от этих клиентов, а затем, обновляя свои модели на этом новом наборе данных, они фактически затем меняют модель и смещают ее в сторону новых клиентов, которых они выиграли. «, — говорит Джинарт.

Команда задалась вопросом: как эта обратная связь может повлиять на способность алгоритмов предоставлять рекомендации по качеству? Чтобы получить ответ, они проанализировали алгоритмическую конкуренцию математически и смоделировали ее, используя некоторые стандартные наборы данных. В конце концов, они обнаружили, что, когда алгоритмы машинного обучения конкурируют, они в конечном итоге (и неизбежно) специализируются, становясь лучше в прогнозировании предпочтений подгруппы пользователей.

«Неважно, сколько у вас данных, вы всегда будете видеть эти эффекты», — говорит Цзоу. Более того, «несоответствие становится все больше и больше со временем — оно усиливается из-за петель обратной связи».

Кроме того, команда показала, что помимо определенного математически вычисляемого числа конкурентов, качество прогнозов ухудшается для населения в целом. «На самом деле есть золотая середина — оптимальное количество конкурентов, которое оптимизирует взаимодействие с пользователем», — говорит Гинарт. Помимо этого числа, каждый агент ИИ имеет доступ к данным от меньшей части пользователей, что снижает их способность генерировать качественные прогнозы.

По словам Гинарта, математические теоремы команды применимы всякий раз, когда цифровая онлайн-платформа конкурирует за предоставление пользователям прогнозов. Примеры в реальном мире включают компании, которые используют машинное обучение для прогнозирования развлекательных предпочтений пользователей (Netflix, Hulu, Amazon) или вкусов ресторанов (Yelp, TripAdvisor), а также компании, специализирующиеся на поиске, такие как Google, Bing и DuckDuckGo. .

«Если мы зайдем в Google или Bing и введем поисковый запрос, можно сказать, что Google пытается предсказать, какие ссылки мы сочтем наиболее релевантными», — говорит Гинарт. И если Bing лучше справляется с этими прогнозами, возможно, мы будем более склонны использовать эту платформу, которая, в свою очередь, изменяет ввод данных в эту систему машинного обучения и изменяет способ ее прогнозирования в будущем.

Эти теоремы также применимы к компаниям, которые прогнозируют кредитный риск пользователей или даже вероятность того, что они откажутся от залога. Например, банк может очень хорошо прогнозировать кредитоспособность очень определенной группы людей — скажем, людей старше 45 лет или людей с определенным уровнем дохода — просто потому, что они собрали много данных для этой группы . «Чем больше у них данных по этой когорте, тем лучше они смогут их обслуживать», — говорит Гинарт. И хотя эти алгоритмы становятся лучше при выполнении точных прогнозов для одной подгруппы населения, среднее качество обслуживания фактически снижается, поскольку их прогнозы для других групп становятся все менее и менее точными.

Представьте себе алгоритм банковского кредитования, который опирается на данные от белых клиентов среднего возраста и, следовательно, умеет предсказывать, какие члены этого населения должны получать кредиты. Эта компания фактически упускает возможность точно идентифицировать членов других групп (например, латиноамериканских миллениалов), которые также представляют собой хороший кредитный риск. Этот сбой, в свою очередь, отправляет клиентов в другое место, усиливая специализацию алгоритма по данным, не говоря уже о структурном неравенстве.

Поиск решений

Что касается следующих шагов, команда изучает влияние, которое покупка наборов данных (а не сбор данных только от клиентов) может оказать на алгоритмическую конкуренцию. Цзоу также заинтересован в определении некоторых предписывающих решений, которые его команда может рекомендовать политикам или отдельным компаниям. «Что мы делаем, чтобы уменьшить такого рода предубеждения теперь, когда мы определили проблему?» он говорит.

«Это все еще очень новая и передовая работа», — говорит Цзоу. «Я надеюсь, что эта статья побудит исследователей изучить конкуренцию между алгоритмами искусственного интеллекта, а также ее социальное влияние».