Лингвистический энциклопедический словарь

Лингвисти́ческая стати́стика

(лингвостатистика) — 1) в широком смысле: область применения статистических методов в языко­зна­нии (см. Количественные методы в языкознании); 2) в узком смысле: изучение некоторых матема­ти­че­ских проблем, связанных с лингвистическим материалом, главным образом с типами статистических распределений языковых единиц в тексте. Наиболее распространён метод анализа, основанный на так называемом законе Ципфа, сводящемся к уравнению вида: F × i = const, где F — частота слова в частот­ном словаре, а i — ранг этого слова, т. е. номер в списке слов, упорядоченном по уменьшающейся частоте. С поправочными коэффициентами Б. Мандельброта закон подтвержда­ется на многих и разно­образ­ных текстах. Таким образом, закон Ципфа выступает как модель описания распределения слов по частоте, однако вводимые на каждый случай поправочные коэффициенты в значительной мере лишают его предска­за­тель­ной силы. Существуют и другие подоб­ные модели (работы Г. Хердана, Дж. Б. Кэрролла). Проблема связи частоты слова и его ранга смыкается с проблемой оценки лекси­че­ско­го богатства текста или совокупности текстов. Обычно Л. с. рассматривается как лингвистическая дисциплина, однако, будучи связанной с языкознанием по материалу, она ещё не наполнилась собствен­но лингвистическим содержанием. В частно­сти, лингвистическая интерпретация закона Ципфа остаётся предметом дискуссий.

А. Я. Шайкевич.