Секреты 160000 древних текстов, хранящихся в библиотеке аббатства Санкт-Галла, скоро могут быть раскрыты

 

Библиотека аббатства Санкт-Галля в Швейцарии хранит около 160 000 томов литературных и исторических рукописей, относящихся к восьмому веку, и все они написаны от руки на пергаменте на языках, на которых редко говорят в наше время.

Чтобы сохранить эти исторические свидетельства человечества, такие тексты, насчитывающие миллионы, надежно хранятся в библиотеках и монастырях по всему миру. Значительная часть этих коллекций доступна широкой публике через цифровые изображения, но эксперты говорят, что существует огромное количество материала, который никогда не читался, сокровищница понимания мировой истории, скрытая внутри.

Секреты 160000 древних текстов, хранящихся в библиотеке аббатства Санкт-Галла, скоро могут быть открыты AI
Библиотека аббатства Сент-Галл. 

Теперь исследователи из Университета Нотр-Дам разрабатывают искусственную нейронную сеть для чтения сложного древнего почерка, основанного на человеческом восприятии, чтобы улучшить возможности транскрипции глубокого обучения.

«Мы имеем дело с историческими документами, написанными в стилях, которые давно вышли из моды, уходящие в прошлое, и на таких языках, как латынь, которые сейчас редко используются», — сказал Уолтер Шайрер, доцент кафедры Денниса О. Даути. в Департаменте компьютерных наук и инженерии в Нотр-Дам. «Вы можете получить красивые фотографии этих материалов, но мы решили автоматизировать транскрипцию таким образом, чтобы имитировать восприятие страницы глазами опытного читателя и обеспечить быстрое чтение текста с возможностью поиска. »

В исследовании, опубликованном в журнале Института инженеров по электротехнике и радиоэлектронике. Транзакции по анализу шаблонов и машинному анализу, Шайрер описывает, как его команда объединила традиционные методы машинного обучения с визуальной психофизикой — методом измерения связи между физическими стимулами и психическими явлениями, например, количество времени, которое требуется опытному читателю, чтобы распознать конкретного персонажа, измерить качество почерка или выявление использования определенных сокращений.

Прочитайте также  Ученые: первое слово малыша можно узнать заблаговременно

Команда Шайрера изучала оцифрованные латинские рукописи, написанные писцами монастыря Святого Галла в девятом веке. Читатели вводили свои ручные расшифровки в специально разработанный программный интерфейс. Затем команда измерила время реакции во время транскрипции, чтобы понять, какие слова, символы и отрывки были легкими или трудными. Шейрер объяснил, что включение такого рода данных создало сеть, более соответствующую поведению человека, уменьшило количество ошибок и обеспечило более точное и реалистичное чтение текста.

 

«Эта стратегия обычно не используется в машинном обучении», — сказал Шайрер. «Мы маркируем данные с помощью этих психофизических измерений, которые поступают непосредственно из психологических исследований восприятия — путем проведения поведенческих измерений. Затем мы информируем сеть об общих трудностях в восприятии этих персонажей и можем вносить исправления на основе этих измерений. »

Использование глубокого обучения для расшифровки древних текстов представляет большой интерес для ученых-гуманитариев.

«Есть разница между простым фотографированием и чтением, а также программой, обеспечивающей чтение с возможностью поиска», — сказала Хильдегунд Мюллер, доцент кафедры классической литературы в Нотр-Даме. «Если вы рассматриваете тексты, использованные в этом исследовании — рукописи девятого века — это ранняя стадия средневековья. До печатного станка прошло много времени. Это время, когда было создано огромное количество рукописей. всевозможная информация, скрытая в этих рукописях — неопознанные тексты, которые никто раньше не видел ».

Секреты 160000 древних текстов, хранящихся в библиотеке аббатства Санкт-Галла, скоро могут быть раскрыты AI
Страница 3 «Institutio de arte grammatica» в рукописи St. Gallen, Stiftsbibliothek. 

Шайрер сказал, что проблемы остаются. Его команда работает над повышением точности транскрипции, особенно в случае поврежденных или неполных документов, а также над тем, как учесть иллюстрации или другие аспекты страницы, которые могут сбивать с толку сеть.

Прочитайте также  Производители ПК оказались не в восторге от новейшей Windows 10

Тем не менее, команда смогла настроить программу для расшифровки эфиопских текстов, адаптировав ее к языку с совершенно другим набором символов — первый шаг к разработке программы с возможностью расшифровки и перевода информации для пользователей.

«В литературной сфере это могло бы быть действительно полезно. Каждое хорошее литературное произведение окружено огромным количеством исторических документов, но где оно действительно будет полезно, так это в исторических архивных исследованиях», — сказал Мюллер. «Существует большая потребность в продвижении цифровых гуманитарных наук. Когда вы говорите о Средневековье и начале Нового времени, если вы хотите понять детали и последствия исторических событий, вы должны просмотреть письменный материал, и эти тексты единственное, что у нас есть.

Проблема может быть еще более серьезной за пределами западного мира. Подумайте о языках, которые исчезают в культурах, находящихся под угрозой. Мы должны в первую очередь сохранить эти работы, сделать их доступными и в какой-то момент включить переводы, чтобы сделать их частью культурных процессов, которые все еще продолжаются — а мы бежим со временем ».

 

В нашем Telegram‑канале, и группе ВК вы найдёте новости о непознанном, НЛО, мистике, научных открытиях, неизвестных исторических фактах. Подписывайтесь, чтобы ничего не пропустить.
Поделитесь в вашей соцсети👇

Похожие статьи


ДРУГИЕ НОВОСТИ

 

 

Добавить комментарий