ЗАКОН ЦИПФА: как «математика языка» отличает нас от животных
Photo by Raphael Schaller on Unsplash
Связь математики и физической реальности — одна из наиболее интересных проблем, которые пытается разрешить философия науки. Но оказывается, что математика работает не только во внешнем мире. «Математически» устроена даже наша с вами речь. Большинство языков мира следуют уравнению, известному как закон Ципфа. И ученые понятия не имеют, почему это происходит.
МАТЕМАТИЧЕСКАЯ ВСЕЛЕННАЯ
С
огласно Гипотезе математической вселенной, которую выдвинул астрофизик, профессор Массачусетского университета Макс Тегмарк, наша внешняя физическая реальность является математической структурой. Понятно, что это лишь гипотеза, и соглашаются с ней далеко не все ученые.
Тем не менее вразумительного ответа на вопрос, почему математика так хорошо описывает происходящее во Вселенной, нет даже у оппонентов Тегмарка. Мы можем лишь констатировать тот факт, что математика стала основой для описания многих физических законов, хотя сама она формировалась без какого-либо участия физики.
Кроме того, некоторые объекты сначала были открыты чисто математически и только потом обнаружены в реальности. Так, например, Урбен Леверье «высчитал» существование планеты Нептун задолго до того, как люди воочию убедились в ее существовании.
Дирак математически вычислил существование позитронов Максвелла — волн, которые порождают колебания в электрическом или магнитном поле. Энштейновской теории относительности предшествовала неевклидова геометрия, а кеплеровским описаниям планетарных орбит — древнегреческие труды о конических сечениях.
Лауреат Нобелевской премии по физике Юджин Вигнер в 60-х годах XX века писал: «Невероятная эффективность математики в естественных науках есть нечто граничащее с мистикой, ибо никакого рационального объяснения этому факту нет».
НА ГРАНИ МИСТИКИ
Граничит с мистикой и закон Ципфа, для которого до сих пор не существует внятного научного обоснования. Джордж Кингсли Ципф — американский ученый, который работал в Гарвардском университете и специализировался на изучении психобиологии языка и методах статистики.
В результате своих изысканий он заметил, что некоторые слова люди используют намного чаще, чем другие. При этом самое популярное слово всегда будет употребляться вдвое чаще, чем второе по популярности.
В английском, например, самое часто используемое слово the. Его произносят в два раза чаще, чем следующее по частоте слово, в три раза чаще, чем следующее, в четыре раза чаще, чем следующее, и так далее. Но самое поразительное — что точно такая же закономерность была обнаружена и в других областях.
В частности, в распределении доходов и величины городов: человек с самым большим доходом ровно в два раза богаче следующего за ним богача. А в первом по величине населения городе страны жителей будет вдвое больше, чем в том, который находится на втором месте.
ЧТО ИМЕННО ОТКРЫЛ ЦИПФ?
Если вернуться к языку, то Ципф обнаружил здесь еще одну странность. Для начала ученый присвоил словам номера: самые часто употребляемые слова — номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее. После этого он вычислил вероятность встретить слово Икс в тексте. Для этого количество слов Икс в тексте он разделил на количество всех слов.
Далее, умножая вероятность для слова Икс на порядковый номер ранга, в котором оно оказалось, Ципф каждый раз получал приблизительно одну и ту же величину. Так, для английского языка эта константа равна примерно 0,1, а для русского — приблизительно 0,06. И как, скажите, после этого открытия не случиться экзистенциальному кризису?
Ведь нам по-прежнему нравится думать, что люди — непредсказуемые существа, управляемые собственной свободной волей, возникающей каким-то образом из физических процессов. Между тем, лингвистические исследования ставят человеческое самомнение под большой вопрос.
ОЦИПФРОВАННЫЙ ГУТЕНБЕРГ
Похоже, что закону Ципфа следует большинство языков мира. Совершенно неважно, говорите ли вы на английском, хинди, французском, мандаринском или испанском: закон Ципфа применим к первым 10 миллионам слов на 30 различных языках. Более того, он верен и для тех языков, которые еще не расшифровали.
К примеру, этот закон верен в отношении таинственного Манускрипта Войнича, написанного в XV веке неизвестным алфавитом на неизвестном языке. Закон Ципфа работает не только в отношении языков, но и в отношении научных и художественных текстов. Будь то «Происхождение видов» Чарльза Дарвина или «Гамлет» Уильяма Шекспира. Правда, с книгами не все так однозначно.
Однажды математики решили проверить закон Ципфа на большом массиве данных проекта «Гутенберг» — электронной универсальной библиотеки, которая включает 31 075 книг на английском языке. Оказалось, что на больших массивах данных закон Ципфа работает не абсолютно, но все равно в 55 процентах случаев работает.
При этом, видимо, существует какой-то класс текстов, которые в эту математическую закономерность не вписываются. Но где гарантия, что этот класс не описывается каким-то другим, пока еще не открытым законом?
ВОПРОСОВ СТАЛО НАМНОГО БОЛЬШЕ
В любом случае закон Ципфа, безусловно, является нетривиальным свойством человеческого языка. До его открытия можно было логично, но ошибочно предполагать, что в языковой практике все слова используются с примерно одинаковой частотой. Однако и после открытия ученым легче не стало, ведь теперь приходится искать ответ на вопрос: почему слова следуют именно этому точному математическому правилу?
Существует множество потенциальных объяснений — от статистических искажений до ограничений, налагаемых человеческой памятью и словарным запасом. Сам Джордж Ципф предположил, что закон исходит из баланса минимизации усилий говорящих и слушающих.
Люди пытаются передать смысл как можно эффективнее, поэтому стремятся использовать слова, которые помогают максимизировать объем информации. Дело в том, что Ципф заметил еще одну важную деталь: чем выше слово оказывается в этом списке, тем оно короче. Есть и другие объяснения, но ни одно из них не признается удовлетворительным.
ВСЕ ДЕЛО В ЭВОЛЮЦИИ?
Вероятно, основы языка имеют очень глубокие, не до конца понимаемые нами эволюционные корни. К примеру, изучая поведение макак, шимпанзе и дельфинов, лингвисты обнаружили, что их крики и модели общения отчасти подчиняются принципам, характерным для естественных человеческих языков.
В частности, закону Мензерата, который утверждает, что более длинные языковые единицы состоят из более коротких блоков: слоги в относительно длинном слове будут короче, чем слоги в коротком слове. А вот с законом Ципфа все оказалось не так просто.
В результате масштабного анализа ученые вынуждены были констатировать: в целом закон Ципфа — чисто человеческая особенность, у животных он не работает. У шимпанзе обнаружилась лишь подмеченная Ципфом обратная зависимость между длиной жеста и его регулярностью, которая присутствовала в группе самых коротких жестов.
Оригинальные исследования:
- Almost All Languages Appear To Follow Zipf’s Law, And We Have No Idea Why
- Zipf’s word frequency law in natural language: A critical review and future directions
При копировании материалов размещайте активную ссылку на www.huxley.media
Выделите текст и нажмите Ctrl + Enter