Машинное обучение и большие данные открывают доступ к архивам Европы

  • Home
  • blog
  • Машинное обучение и большие данные открывают доступ к архивам Европы
blog image

История Европы, от войн до свадеб, хранится на миллиардах архивных страниц по всему континенту. Хотя многие архивы пытаются сделать свои документы общедоступными, поиск информации в них остается делом с низким уровнем технологий. Простое сканирование страницы не предлагает метаданных, таких как даты, имена и местоположения, которые часто интересуют исследователей. Копирование этой информации для дальнейшего использования также занимает много времени.

Эти проблемы хорошо известны в Амстердаме, который пытается раскрыть все свои архивы. Для одних только нотариальных записей «около трех с половиной километров бумаги», — сказала Полин ван ден Хеувел, архивист из Городского архива Амстердама в Нидерландах. Это около 11 800 страниц бумаги формата А4, уложенных встык. общая коллекция составляет около 50 км, что эквивалентно 170 000 страниц формата А4. «Мы знаем, что они действительно важны (документы), но на самом деле это черная дыра».

Она говорит, что ручная запись имен, имеющихся в этих документах, обычно требует десятилетий работы и финансирования.

Несколько лет назад архив стал партнером проекта READ и его платформы Transkribus , которая предлагает архивистам новый способ расшифровки и поиска своих исторических документов. Онлайн-платформа позволяет пользователям обучать компьютерную модель распознавания почерка расшифровывать исторические документы, написанные от руки на различных европейских языках.

Пользователи тренируют модель, содержащую от 50 до 100 страниц существующих транскрипций или те, которые вручную транскрибируются в систему. После обучения модель использует машинное обучение для сравнения известных ей шаблонов почерка с почерком документов, которые пользователь хочет расшифровать. Модель автоматически транскрибирует построчно. Чтобы это работало, новые документы должны быть написаны таким же или похожим почерком, что и модель, которую она видела раньше.

По словам доктора Гюнтера Мюльбергера из Университета Инсбрука, Австрия, который координировал проект, к настоящему времени пользователи обучили более 7700 отдельных моделей.

Пользователи могут обучать свою собственную модель или выбрать уже существующую модель. Одна из доступных моделей распознает почерк английского философа Джереми Бентама. Другой распознает стили почерка итальянских секретарей 17 века. Пользователь может использовать такие модели как отправную точку для собственного обучения.

После того, как Transkribus выполнит свою работу, пользователям часто просто нужно вычитать, чтобы исправить любые незначительные ошибки. Хотя это может показаться большой начальной работой, это может сэкономить архивистам, историкам и ученым сотни — если не тысячи — часов, сидя перед компьютером, вручную расшифровывая полный набор документов.

Машинное обучение

Transkribus — это результат работы проекта READ по разработке новой технологии для лучшего распознавания и автоматической расшифровки рукописных документов. Эти расшифровки могут затем помочь исследователям лучше искать слова или фразы среди миллиардов страниц, хранящихся в архивах континента.

Для Transkribus в проекте использовался алгоритм «контролируемого машинного обучения», который сопоставляет исторические данные по мере обучения. Эти данные можно использовать для обучения более крупных моделей.

Рукописная проповедь Генриха Бассерманна от 17 ноября 1871 года является одним из примеров документа, который может быть оцифрован с помощью программного обеспечения на основе ИИ. Предоставлено: Universitätsbibliothek Heidelberg / под лицензией CC-BY-SA 4.0.

Решающим для проекта являются «большие данные» — достаточное количество архивных документов, которые могут дать алгоритму комплексное понимание почерка и макетов страниц. Проект сотрудничал с более чем 70 архивами, университетами и исследовательскими организациями по всей Европе, включая Государственный архив земли Гессен в Германии и Archivio Storico Ricordi в Италии. «От средневековья до 20 века у нас были тысячи страниц с разным макетом и разным (типом) письма», — сказал д-р Мюльбергер.

Он говорит, что Transkribus, вероятно, является крупнейшим в мире сборником данных по обучению историческому почерку — более 700 000 документов.

По словам доктора Мюльбергера, их главная задача заключалась в том, чтобы также обучить алгоритм распознавать, как выглядит строка слов в рукописном документе. Он объясняет, что обычное программное обеспечение для «оптического распознавания символов», используемое, например, для преобразования PDF-файлов в текст, хорошо работает со старыми печатными документами, поскольку линии и интервалы между словами имеют фиксированный макет.

«Если вы попытаетесь сделать то же самое с почерком, — сказал он, — вы полностью потерпите неудачу». По его словам, более или менее невозможно выделить отдельные символы в рукописном письме.

Первоначальные алгоритмы машинного обучения проекта могли распознавать 85% рукописного текста. Однако вскоре проект понял, что для архивов, имеющих дело с тысячами рукописных архивных страниц, этого недостаточно.

«Восемьдесят пять процентов выглядят хорошо в исследовательской статье , но не для пользователя, сидящего перед (своим) компьютером», — сказал он.

Линии

Затем исследователи использовали два метода для повышения точности своей программы. Сначала они пересмотрели, как их программа распознает строки текста. Вместо того, чтобы искать всю блочную область текста, они обучили алгоритм искать общую «базовую линию», на которой опирается каждое слово, подобно тому, как страница с линейной линейкой учит детей писать равномерно на странице. «Это было очень важное упрощение», — сказал д-р Мюльбергер.

В ходе проекта было нарисовано более 100 000 линий, чтобы обучить алгоритм распознавать, как выглядит общая линия. Если Transkribus не может распознать строку текста, пользователи могут показать программу, нарисовав линию под ней — более простой метод, который в конечном итоге экономит часы времени.

Еще одно изменение касалось того, как Transkribus распознает языки. Ранее в проекте они использовали словари, чтобы помочь ему распознавать целые слова в документе. Но переключившись на распознавание только символов в учебных документах, команда смогла повысить точность еще на 10%. Распознавание букв также означает, что алгоритм полезен для старых форм языков и может работать с сокращениями. Недавнее дополнение позволяет Transkribus автоматически расширять сокращения.

Они хотят еще больше уточнить, как работает Transkribus. Один метод предполагает объединение различных алгоритмов, обученных пользователем, для улучшения возможностей распознавания текста Transkribus в целом. Другой — добавление новых функций, таких как расшифровка структурированной информации, включая таблицы и формы, и предоставление архивистам возможности массового поиска и исправления ключевых слов. Доктор Мюльбергер говорит, что они надеются улучшить пользовательский интерфейс и структуру платформы, чтобы даже небольшие семейные историки могли легко использовать Transkribus для загрузки и расшифровки отсканированной копии документа . Кооперативная структура Transkribus означает, что любые заработанные деньги возвращаются на платформу для улучшения ее услуг.

Архивы

С момента запуска в 2015 году количество людей, пользующихся Transkribus, значительно выросло. Платформа сейчас насчитывает более 45 000 пользователей, включая волонтеров из Городского архива Амстердама. Ван ден Хевел говорит , что архив кооптировано Transkribus в свою работу , когда они поняли , что индексировать имена, места и даты в своем 17 — м и 18 — м документам века Потребуются десятилетия работы. Подготовленный Transkribus алгоритм был в состоянии закончить расшифровку 18 проекта й документы века в год раньше , чем ожидалось. Она говорит, что, хотя волонтерам могут потребоваться месяцы, чтобы проиндексировать 50 000 отсканированных документов, обучение модели занимает всего несколько часов. По ее словам, теперь команде из 300 добровольцев нужно только перепроверить расшифровки.

«Это только начало», — сказала она. «Теперь вы можете исследовать закономерности в больших объемах данных, связи между людьми — это совершенно новое исследование». Работа все еще продолжается, хотя ван ден Хеувель говорит, что законченная работа будет подключена к сети учреждений Европейской машины времени, использующих записи, чтобы пролить свет на социальную и политическую эволюцию Европы с течением времени.

Есть и другие текущие проекты с архивами по всей Европе. Национальный архив Финляндии также работает над выпуском своих национальных архивов и использует Transkribus в своей работе с 2016 года. Мария Каллио, старший научный сотрудник Национальной архивной службы Финляндии, говорит, что архив впервые использовал Transkribus в нескольких дневниковых записях, которые у них были. Впечатленные результатами, они решили заняться более серьезной задачей.

«Мы начали расшифровывать эти судебные протоколы XIX века, это огромная коллекция, просто бит XIX века — это миллионы страниц», — сказала она. «Чтобы упростить исследование… записей, мы подумали, что было бы неплохо опробовать на них технологию».

Их работу с проектом READ привела к финским Архивам выпускающих около 800000 , транскрибированной документы для общественности, в том числе юридических отчетов о делах, закладных, и случаях попечительства через большую часть Финляндии , уходящую в 16 — м века. Теперь люди могут использовать эти записи для изучения семейной истории и отслеживания владения собственностью.

У технологии все еще есть ограничения. Ван ден Хеувель говорит, что для всех разновидностей почерка 17- го века требуется много обучающего материала, чтобы создать общую модель, которая могла бы работать с такой большой и разнообразной коллекцией, как их. Коллекции с большим количеством страниц также должны покрыть расходы на использование технологии Transkribus, которую можно бесплатно использовать для первых 500 страниц, прежде чем возникнет необходимость покупать «кредиты» для расшифровки большего количества страниц. Например, 18 евро за следующие 120 рукописных страниц.

Тем не менее, исследователи приветствовали эту технологию. «Можно задавать вопросы такого рода, чтобы ответить на более широкие вопросы о том, как развивались вещи», — сказал Каллио. «Теперь вы действительно можете понять весь материал и задать вопросы, которые раньше были невозможны».

В конце сентября 2020 года проект READ и его программное обеспечение Transkribus были названы одним из победителей премии Европейской комиссии Horizon Impact .