Huxley
Автор: Huxley
© Huxley — альманах о философии, бизнесе, искусстве и науке

Нейросеть восстанавливает древние тексты лучше, чем ученые

Нейросеть восстанавливает древние тексты лучше, чем ученые
Photo: monateka.com

 

Сотрудники Оксфордского университета и команда DeepMind разработали программу PYTHIA, названную в честь жриц дельфийского оракула. Она восстанавливает утраченные фрагменты текста с погрешностью в 30,1%, в то время как эпиграфисты ошибаются в 57,3% случаев

 

Эпиграфика изучает древние надписи на твердых материалах: камнях, керамике, металле. Но целый, разборчивый текст — это огромная удача. К сожалению, большинство надписей повреждены: иногда им недостает не только отдельных символов, но и целых фраз.

Ученые при восстановлении текстов опираются на список распространенных слов и аналогичные надписи. Нейросеть может стать прекрасным помощником в этом деле.

Сотрудники Оксфордского университета и команда DeepMind разработали программу PYTHIA, названную в честь жриц дельфийского оракула. В основе модели лежит глубокая нейросеть. Она восстанавливает утраченные фрагменты текста с погрешностью в 30,1%, в то время как эпиграфисты ошибаются в 57,3% случаев.

Объем работы, который занимает у профессионального эпиграфиста 2 часа, нейросеть выполняет за несколько секунд.

Кроме того, PYTHIA предлагает множество вариантов пропущенных символов, и чаще всего правильный ответ находится в ТОП-20 предложений. При этом программа не просто угадывает пропущенные фрагменты, но и учитывает контекст.

Для обучения нейросети использовались 35 тысяч древнегреческих надписей. Все они датированы V-VII веками до нашей эры. Среди них были и такие известные тексты, как надпись в храме Аполлона в Дельфах.

Также ученые создали стандартизированный алфавит, которые включал все буквы с ударениями, цифры, пробелы и знаки препинания. В тексты включили специальные обозначения для пропущенных символов, на которые реагировала нейросеть. Затем был сгенерирован список из 100 тысяч наиболее распространенных слов.

Благодаря этому, PYTHIA одновременно работает и со словами, и с отдельными буквами. Лучше всего ей удается расшифровывать тексты длиной около 500 символов, а наибольшую сложность представляют короткие надписи до 20 букв, потому что они практически лишены контекста.

По словам разработчиков, программа может работать и с другими древними и современными языками. Для этого ее нужно обучить на большом количестве подобных текстов. Кроме того, она пригодится специалистам из смежных дисциплин — таких, как филология и папирология.

Источник: DeepMind

Вступая в клуб друзей Huxley, Вы поддерживаете философию, науку и искусство

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Получайте свежие статьи

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: