Меню
По вопросам совместных проектов editor@huxley.media
По вопросам сотрудничества c авторами chiefeditor@huxley.media
Телефон

ЗАКОН ЦИПФА: как «математика языка» отличает нас от животных

Huxley
Автор: Huxley
© Huxley — альманах о философии, бизнесе, искусстве и науке
ЗАКОН ЦИПФА: как «математика языка» отличает нас от животных
Photo by Raphael Schaller on Unsplash

 

Связь математики и физической реальности — одна из наиболее интересных проблем, которые пытается разрешить философия науки. Но оказывается, что математика работает не только во внешнем мире. «Математически» устроена даже наша с вами речь. Большинство языков мира следуют уравнению, известному как закон Ципфа. И ученые понятия не имеют, почему это происходит.

 

МАТЕМАТИЧЕСКАЯ ВСЕЛЕННАЯ

 

С

огласно Гипотезе математической вселенной, которую выдвинул астрофизик, профессор Массачусетского университета Макс Тегмарк, наша внешняя физическая реальность является математической структурой. Понятно, что это лишь гипотеза, и соглашаются с ней далеко не все ученые.

Тем не менее вразумительного ответа на вопрос, почему математика так хорошо описывает происходящее во Вселенной, нет даже у оппонентов Тегмарка. Мы можем лишь констатировать тот факт, что математика стала основой для описания многих физических законов, хотя сама она формировалась без какого-либо участия физики.

Кроме того, некоторые объекты сначала были открыты чисто математически и только потом обнаружены в реальности. Так, например, Урбен Леверье «высчитал» существование планеты Нептун задолго до того, как люди воочию убедились в ее существовании.

Дирак математически вычислил существование позитронов Максвелла — волн, которые порождают колебания в электрическом или магнитном поле. Энштейновской теории относительности предшествовала неевклидова геометрия, а кеплеровским описаниям планетарных орбит — древнегреческие труды о конических сечениях.

Лауреат Нобелевской премии по физике Юджин Вигнер в 60-х годах XX века писал: «Невероятная эффективность математики в естественных науках есть нечто граничащее с мистикой, ибо никакого рационального объяснения этому факту нет».

 

НА ГРАНИ МИСТИКИ

 

Граничит с мистикой и закон Ципфа, для которого до сих пор не существует внятного научного обоснования. Джордж Кингсли Ципф — американский ученый, который работал в Гарвардском университете и специализировался на изучении психобиологии языка и методах статистики.

В результате своих изысканий он заметил, что некоторые слова люди используют намного чаще, чем другие. При этом самое популярное слово всегда будет употребляться вдвое чаще, чем второе по популярности.

В английском, например, самое часто используемое слово the. Его произносят в два раза чаще, чем следующее по частоте слово, в три раза чаще, чем следующее, в четыре раза чаще, чем следующее, и так далее. Но самое поразительное — что точно такая же закономерность была обнаружена и в других областях.

В частности, в распределении доходов и величины городов: человек с самым большим доходом ровно в два раза богаче следующего за ним богача. А в первом по величине населения городе страны жителей будет вдвое больше, чем в том, который находится на втором месте. 

 

ЧТО ИМЕННО ОТКРЫЛ ЦИПФ?

 

Если вернуться к языку, то Ципф обнаружил здесь еще одну странность. Для начала ученый присвоил словам номера: самые часто употребляемые слова — номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее. После этого он вычислил вероятность встретить слово Икс в тексте. Для этого количество слов Икс в тексте он разделил на количество всех слов.

Далее, умножая вероятность для слова Икс на порядковый номер ранга, в котором оно оказалось, Ципф каждый раз получал приблизительно одну и ту же величину. Так, для английского языка эта константа равна примерно 0,1, а для русского — приблизительно 0,06. И как, скажите, после этого открытия не случиться экзистенциальному кризису?

Ведь нам по-прежнему нравится думать, что люди — непредсказуемые существа, управляемые собственной свободной волей, возникающей каким-то образом из физических процессов. Между тем, лингвистические исследования ставят человеческое самомнение под большой вопрос. 

 

Вступая в клуб друзей Huxley, Вы поддерживаете философию, науку и искусство

 

ОЦИПФРОВАННЫЙ ГУТЕНБЕРГ

 

Похоже, что закону Ципфа следует большинство языков мира. Совершенно неважно, говорите ли вы на английском, хинди, французском, мандаринском или испанском: закон Ципфа применим к первым 10 миллионам слов на 30 различных языках. Более того, он верен и для тех языков, которые еще не расшифровали.

К примеру, этот закон верен в отношении таинственного Манускрипта Войнича, написанного в XV веке неизвестным алфавитом на неизвестном языке. Закон Ципфа работает не только в отношении языков, но и в отношении научных и художественных текстов. Будь то «Происхождение видов» Чарльза Дарвина или «Гамлет» Уильяма Шекспира. Правда, с книгами не все так однозначно.

Однажды математики решили проверить закон Ципфа на большом массиве данных проекта «Гутенберг» — электронной универсальной библиотеки, которая включает 31 075 книг на английском языке. Оказалось, что на больших массивах данных закон Ципфа работает не абсолютно, но все равно в 55 процентах случаев работает.

При этом, видимо, существует какой-то класс текстов, которые в эту математическую закономерность не вписываются. Но где гарантия, что этот класс не описывается каким-то другим, пока еще не открытым законом?

 

ВОПРОСОВ СТАЛО НАМНОГО БОЛЬШЕ

 

В любом случае закон Ципфа, безусловно, является нетривиальным свойством человеческого языка. До его открытия можно было логично, но ошибочно предполагать, что в языковой практике все слова используются с примерно одинаковой частотой. Однако и после открытия ученым легче не стало, ведь теперь приходится искать ответ на вопрос: почему слова следуют именно этому точному математическому правилу?

Существует множество потенциальных объяснений — от статистических искажений до ограничений, налагаемых человеческой памятью и словарным запасом. Сам Джордж Ципф предположил, что закон исходит из баланса минимизации усилий говорящих и слушающих.

Люди пытаются передать смысл как можно эффективнее, поэтому стремятся использовать слова, которые помогают максимизировать объем информации. Дело в том, что Ципф заметил еще одну важную деталь: чем выше слово оказывается в этом списке, тем оно короче. Есть и другие объяснения, но ни одно из них не признается удовлетворительным.

 

ВСЕ ДЕЛО В ЭВОЛЮЦИИ?

 

Вероятно, основы языка имеют очень глубокие, не до конца понимаемые нами эволюционные корни. К примеру, изучая поведение макак, шимпанзе и дельфинов, лингвисты обнаружили, что их крики и модели общения отчасти подчиняются принципам, характерным для естественных человеческих языков.

В частности, закону Мензерата, который утверждает, что более длинные языковые единицы состоят из более коротких блоков: слоги в относительно длинном слове будут короче, чем слоги в коротком слове. А вот с законом Ципфа все оказалось не так просто.

В результате масштабного анализа ученые вынуждены были констатировать: в целом закон Ципфа — чисто человеческая особенность, у животных он не работает. У шимпанзе обнаружилась лишь подмеченная Ципфом обратная зависимость между длиной жеста и его регулярностью, которая присутствовала в группе самых коротких жестов. 

 

Оригинальные исследования:

 


При копировании материалов размещайте активную ссылку на www.huxley.media
Нашли ошибку?
Выделите текст и нажмите Ctrl + Enter