Есть такой закон - закон Ципфа - который не перестает будоражить мой интеллект тем, что на него натыкаешься повсеместно, но не можешь понять его причину. Он упорно не желает выводиться из каких-либо более фундаментальных законов природы, но существует как будто бы сам по себе, как будто он сам является фундаментальным законом природы.
Его открыл лингвист, Ципф, который обнаружил, что частотные словари любого языка на земле устроены таки образом, что частота N-го слова в частотном списке относится к частоте M-го как N/M. Говоря популярно, сотое по частоте слово встречается в текстах в сто раз реже чем первое, а тысячное слово - в тысячу раз реже чем первое.
Потом этого Ципфа открывали везде подряд и все кому не лень. Этому закону подчиняются, например, футболисты, если их упорядочить по числу забитых голов. Ципфу покорны города, если упорядочить их по числу жителей. Человеческие языки, если их упорядочить по числу говорящих. Словом, он встречается едва ли не в любой статистике, где только место не занято какими-то более понятными и простыми законами типа закона Гаусса. Лично я болею Ципфом. Как минимум раз в два года меня "переклинивает" и я снова и снова пытаюсь вывести закон Ципфа из каких-нибудь боле общих и очевидных соображений. Но всё безуспешно. Эта крепость выглядит пока совершенно неприступной.
Этот закон можно переформулировать таким образом: частота встречаемости N самых частых слов текста пропорциональна логарифму N. То есть, если самые частые 100 слов покрывают 30% любого текста данного языка, то самые частые 1000 слов покрывают 60% текста, а 10000 слов - 90% текста и так далее. Соответственно, в этом случае самые частые 10 слов, как легко догадаться, покроют 15% любого текста на данном языке. Любой язык поначалу учить бывает очень весело в точности по той же причине, по которой потом это становится грустно. То и другое происходит по закону Ципфа.palaman.livejournal.com/243479.html

Смотрите также