Photo: monateka.com
Сотрудники Оксфордского университета и команда DeepMind разработали программу PYTHIA, названную в честь жриц дельфийского оракула. Она восстанавливает утраченные фрагменты текста с погрешностью в 30,1%, в то время как эпиграфисты ошибаются в 57,3% случаев
Эпиграфика изучает древние надписи на твердых материалах: камнях, керамике, металле. Но целый, разборчивый текст — это огромная удача. К сожалению, большинство надписей повреждены: иногда им недостает не только отдельных символов, но и целых фраз.
Ученые при восстановлении текстов опираются на список распространенных слов и аналогичные надписи. Нейросеть может стать прекрасным помощником в этом деле.
Сотрудники Оксфордского университета и команда DeepMind разработали программу PYTHIA, названную в честь жриц дельфийского оракула. В основе модели лежит глубокая нейросеть. Она восстанавливает утраченные фрагменты текста с погрешностью в 30,1%, в то время как эпиграфисты ошибаются в 57,3% случаев.
Объем работы, который занимает у профессионального эпиграфиста 2 часа, нейросеть выполняет за несколько секунд.
Кроме того, PYTHIA предлагает множество вариантов пропущенных символов, и чаще всего правильный ответ находится в ТОП-20 предложений. При этом программа не просто угадывает пропущенные фрагменты, но и учитывает контекст.
Для обучения нейросети использовались 35 тысяч древнегреческих надписей. Все они датированы V-VII веками до нашей эры. Среди них были и такие известные тексты, как надпись в храме Аполлона в Дельфах.
Также ученые создали стандартизированный алфавит, которые включал все буквы с ударениями, цифры, пробелы и знаки препинания. В тексты включили специальные обозначения для пропущенных символов, на которые реагировала нейросеть. Затем был сгенерирован список из 100 тысяч наиболее распространенных слов.
Благодаря этому, PYTHIA одновременно работает и со словами, и с отдельными буквами. Лучше всего ей удается расшифровывать тексты длиной около 500 символов, а наибольшую сложность представляют короткие надписи до 20 букв, потому что они практически лишены контекста.
По словам разработчиков, программа может работать и с другими древними и современными языками. Для этого ее нужно обучить на большом количестве подобных текстов. Кроме того, она пригодится специалистам из смежных дисциплин — таких, как филология и папирология.
Источник: DeepMind