Новый алгоритм ищет в исторических документах известных людей

14.10.202166

Поделитесь

Старые газеты открывают окно в наше прошлое, а новый алгоритм, совместно разработанный исследователем из Университета при Школе менеджмента Буффало, помогает превратить эти исторические документы в полезные данные с возможностью поиска.

Алгоритм, опубликованный в Decision Support Systems, может находить и ранжировать имена людей в порядке важности на основе результатов, полученных с помощью оптического распознавания символов (OCR), компьютеризированного метода преобразования отсканированных документов в текст, который часто бывает беспорядочным.

«Это известный факт, что при запуске программного обеспечения OCR очень часто текст искажается», - говорит Хаймонти Дутта, доктор философии, доцент кафедры менеджмента и систем в Школе менеджмента UB. «Со старыми газетами, книгами и журналами проблемы могут возникнуть из-за низкого качества чернил, мятой или рваной бумаги или даже из-за необычного макета страниц, которого программа не ожидает».

$\"Новый$

Чтобы разработать алгоритм, исследователи в партнерстве с Нью-Йоркской публичной библиотекой (NYPL) проанализировали более 14 000 статей из нью-йоркской газеты The Sun, опубликованных в течение ноября и декабря 1894 года. NYPL отсканировало более 200 000 газетных страниц в рамках Хроники Америки, инициатива Национального фонда гуманитарных наук и Библиотеки Конгресса, которая работает над созданием интерактивной базы данных исторических газет с возможностью поиска с 1777 по 1963 год.

Их алгоритм ранжирует имена людей по важности на основе ряда атрибутов, включая контекст имени, заголовок перед именем, длину статьи и частоту упоминания имени в статье.

Алгоритм узнает эти атрибуты только из текста - он не полагается на внешние источники информации, такие как Википедия или другие базы знаний. Но поскольку текст OCR искажен, он не может определить, насколько эффективны эти атрибуты для ранжирования имен людей. Поэтому исследователи использовали статистические показатели для моделирования множества атрибутов данных, которые помогли обеспечить желаемое ранжирование имен.

Исследователи использовали два набора исторических статей для проверки своего алгоритма: один набор представлял собой необработанный текст, созданный с помощью программного обеспечения OCR, другой набор был очищен вручную школьниками Нью-Йорка, которые используют статьи для написания биографий местных жителей. , знатные люди того времени.

По сравнению с очищенными версиями историй, алгоритм ранжирования может сортировать имена людей с высокой степенью точности даже по зашумленному тексту OCR.

Датта говорит, что их процесс имеет большое значение для выявления важных людей на протяжении всей истории.

«Недавно мы применили эту технику к афроамериканской литературе времен Гражданской войны, чтобы больше узнать о важных людях в эпоху рабства», - говорит Датта. «В дальнейшем мы будем расширять методику изучения отношений между людьми и построения социальных сетей прошлого».

В нашем Telegram‑канале, вы найдёте новости о непознанном, НЛО, мистике, научных открытиях, неизвестных исторических фактах. Подписывайтесь, чтобы ничего не пропустить.

Поделитесь:

Назад Ураган Памела обрушился на Мексику и должен вызвать сильное наводнение в Техасе и Оклахоме

Далее Произошла ли черная дыра, поедающая звезду, нейтрино? - Новое исследование