Код Войнича: почему нейросети не смогли прочесть самую загадочную книгу
Искусственный интеллект впервые попытался расшифровать самую загадочную средневековую книгу, известную как рукопись Войнича. Кто и когда составил всемирно известный манускрипт, точно не известно. Этот вопрос уже несколько сотен лет будоражит умы лингвистов и криптологов всего мира. Ученые Альбертовского университета Канады сообщили, что приблизились к разгадке и смогли расшифровать первую фразу книги. Однако многие специалисты отнеслись к известию скептически. О том, почему канадские ученые не совершили прорыв, а рукопись все еще остается загадкой, в интервью «МИР 24» рассказал доцент кафедры компьютерной лингвистики Института лингвистики РГГУ, научный сотрудник школы филологии НИУ ВШЭ Александр Пиперски.
Что такое манускрипт Войнича
Иллюстрированная рукопись датирована XV веком и названа так по имени польско-литовского библиофила и антиквара Михаила Леонардовича Войнича. Необычную 240-страничную книгу он купил на вилле Мондрагоне близ Рима в 1912 году во время секретной распродажи архива библиотеки иезуитского колледжа. Войнич был страстным охотником до редких книг, поэтому не смог пройти мимо рукописи с картинками-головоломками, написанной на неизвестном языке. Антиквар предположил, что перед ним не диковинный алфавит, а некое зашифрованное послание. Все оставшиеся 18 лет жизни он посвятил расшифровке, но так и не узнал о книге ровным счетом ничего.
После смерти Войнича его супруга Этель, автор популярного в СССР романа «Овод», продала рукопись известному букинисту Хансу Краусу, а он, в свою очередь, передал ее исследователям. С 1969 года манускрипт хранится в библиотеке редких книг Бейнеке Йельского университета. Она полностью оцифрована, поэтому любой желающий может попробовать расшифровать загадочные графические элементы и буквы.
В чем загадка рукописи
Лучшие криптоаналитики мира не могут понять, что скрывает средневековый фолиант, потому что неизвестно, на каком языке он написан. Многие специалисты в разное время подступались к расшифровке, но так и не установили, какой язык использовал автор. Как рассказал Пиперски, это и есть главное и единственное препятствие на пути к научному открытию. Среди множества предположений о том, на каком языке написана рукопись, ни одно не является точным.
Обилие иллюстраций также не приближает ученых к разгадке. Наоборот, в них можно свободно искать обоснование для совершенно любой теории о происхождении манускрипта. Так, популярную догадку о том, что книга может быть трактатом о женском здоровье, подтверждают картинки со сценами купания женщин. Рисунки с цветами и корневыми системами дают понять, что еще одна часть книги может быть посвящена ботанике и народной медицине, а знаки зодиака и карты небесных светил указывают на астрологическую составляющую. Связь астрологии и ботаники ученые объясняли тем, что средневековые лекари не могли лечить человека без знания его знака Зодиака. Впрочем, в научном сообществе и сегодня не отрицают, что картинки могут оказаться выдумкой автора, ведь почти ни одна иллюстрация не соотносится с реально существующим растением.
Пожалуй, уверены исследователи лишь в том, что книга имеет четкую структуру и строгое лингвистическое построение. Эту особенность помогли обнаружить повторяемые слова. Так, в разделе о растениях употребляются одни специфические слова, а в астрономическом – совершенно другие. Это означает, что манускрипт никак не может быть искусной подделкой.
Версии
Вместе с рукописью Войнич обнаружил письмо 1666 года, где говорилось, что книгу написал английский монах и философ XIII века Роджер Бэкон. Но письмо сбило с толку библиофила, поскольку позже было найдено более раннее упоминание рукописи – в послании 1639 года. Войнич так и не сумел приблизиться к правде и к тому же впал в немилость современников.
Популярную гипотезу о том, что язык рукописи является искусственным, первым выдвинул главный криптолог Агентства национальной безопасности США Уильям Фридман. Он предположил, что специально для написания манускрипта его автор создал абсолютно новый язык. В начале Второй мировой войны Фридману удалось взломать сложный код шифровальной машины Purple, которую использовало министерство иностранных дел Японии. Однако проделать то же самое с таинственной средневековой рукописью опытному криптологу не удалось.
Что же представляет собой язык рукописи? В 1943 году нью-йоркский юрист Джозеф Мартин Фили опубликовал работу «Шифр Роджера Бэкона: настоящий ключ найден». В исследовании говорилось, что Бэкон использовал в тексте сокращенные слова средневековой латыни. В 1978 году филолог Джон Стожко предположил, что в манускрипте использован украинский язык, из которого исключены гласные буквы. В 1987 году физик Лео Левитов заявил, что таинственный фолиант создали еретики-катары, населявшие средневековую Францию. В тексте рукописи он увидел микс из разных языков. Все три гипотезы показались современникам неубедительными и были опровергнуты.
Доказать, что рукопись Войнича является связным текстом на забытом языке, удалось лишь в 2013 году. Физик Марчело Монтемурро из Манчестерского университета опубликовал доклад, где говорилось, что текст рукописи Войнича – не бесполезный набор символов, в нем на самом деле содержится некое послание на забытом языке. Долгое время Монтемурро изучал, как информация кодируется в процессе работы нейронов. Он пришел к выводу, что рукопись Войнича не имеет шифра, поскольку у текста есть естественные статистические особенности. Тем не менее, ни Монтемурро, ни его многочисленные предшественники так и не выдвинули обоснованную теорию о том, что содержится в рукописи.
Почему о загадке снова вспомнили
Канадские ученые из Альбертовского университета при помощи искусственного интеллекта попробовали определить язык рукописи и перевести ее первое предложение. Алгоритм показал, что манускрипт написан на зашифрованном иврите. Первую фразу книги нейросети перевели так: «Она дала рекомендации священнику, главе дома, и мне и людям». Ранее алгоритм проходил проверку на Всеобщей декларации прав человека, переведенной на 380 языков. Язык рукописи Войнича с использованием этого алгоритма был определен как иврит.
По словам Пиперски, хоть алгоритм и ошибся с выбором языка, исследование прошло не зря. Теперь ученые знают, что имеют дело с реальным языком. При этом, вне зависимости от того, имеет ли текст шифр, понять смысл послания искусственный интеллект пока не умеет.
Для лингвистов и филологов рукопись Войнича неинтересна просто потому, что непонятно, на каком языке она написана. Пока только криптологи видят в ней интересный объект, который нужно попытаться разгадать. Однако если появятся убедительные аргументы в прочтении манускрипта Войнича, то это будет большим событием для тех, и других специалистов.
«Ни одно предположение о том, что такое манускрипт Войнича, не приближает нас к пониманию текста. В криптографии встречаются случаи, когда неизвестен язык оригинала, но известен язык перевода. Так, к примеру, Жан Франсуа Шампольон расшифровал египетские иероглифы, сопоставляя их с греческими словами. Но рукопись Войнича к таким случаям не относится. Точно можно сказать только то, что она никак не относится к языкам, которые хорошо изучены историками. Например, к латыни. Маловероятно, что за сто лет никто не понял зашифрованный на латинском языке текст».
По мнению эксперта, символы в книге имеют логическую последовательность, а значит, у автора рукописи не было цели создать мистификацию и зашифровать ее так тщательно, чтобы никто не мог понять содержание. Поэтому однажды криптологи все-таки смогут разгадать и язык, и смысл рукописной загадки.