ИИ превосходит людей в распознавании речи

  • Home
  • blog
  • ИИ превосходит людей в распознавании речи
blog image

Следование разговору и его точная расшифровка — одна из самых сложных задач в исследованиях искусственного интеллекта (ИИ). Впервые исследователям из Технологического института Карлсруэ (KIT) удалось разработать компьютерную систему, которая превосходит людей в распознавании такого спонтанно разговорного языка с минимальной задержкой. Об этом сообщает arXiv.org.

«Когда люди разговаривают друг с другом, возникают остановки, заикания, колебания, такие как« ээ »или« хммм», смех и кашель», — говорит Алекс Вайбель, профессор информатики в KIT. «Часто слова произносятся нечетко». Это мешает даже людям делать точные записи разговора. «И до сих пор это было еще труднее для ИИ». Ученые KIT и сотрудники KITES, начинающей компании из KIT, запрограммировали компьютерную систему, которая выполняет эту задачу лучше, чем люди и быстрее, чем другие системы.

Waibel уже разработал автоматический переводчик в режиме реального времени, который напрямую переводит университетские лекции с немецкого или английского языка на языки, на которых говорят иностранные студенты. Этот «Переводчик лекций» используется в лекционных залах KIT с 2012 года. «Распознавание спонтанной речи является наиболее важным компонентом этой системы, — объясняет Вайбель, — поскольку ошибки и задержки в распознавании делают перевод непонятным. В разговорной речи, уровень человеческих ошибок составляет около 5,5%. Наша система теперь достигает 5,0% ». Однако, помимо точности, не менее важна скорость работы системы для вывода результатов, поэтому студенты могут следить за лекцией в живую. Теперь исследователям удалось уменьшить эту задержку.до одной секунды. По словам Вайбела, это наименьшая задержка, о которой сообщалось, на сегодняшний день для системы распознавания речи такого качества.

Частота ошибок и время ожидания измеряются с помощью стандартизированного и признанного во всем мире научного теста «коммутатор-эталон». Этот тест (определенный NIST США) широко используется международными исследователями ИИ в их соревнованиях по созданию машины, которая приближается к людям в распознавании спонтанной речи в сопоставимых условиях или даже превосходит их.

По словам Вайбела, быстрое и точное распознавание речи — важный шаг для дальнейшей обработки. Он позволяет использовать диалоги, перевод и другие модули ИИ для улучшения голосового взаимодействия с машинами.