Количественные методы

Коли́чественные ме́тоды

в языкознании — использование подсчётов и измерений при изучении языка и речи. В той мере, в какой К. м. опираются на математическую статистику, они могут быть названы статистическими методами. Как и все математические методы, К. м. могут применяться к объектам самой разной природы, поэтому в языкознании они используются для анализа единиц любого уровня. Во многих сферах языкознания применение К. м. ничем не отличается от применения их в других науках. Например, экспериментальная (инструментальная) фонетика использует тот же математический аппарат, что и физика. Применение выборочных методов статистики в языкознании аналогично их применению в других естественных и социальных науках. В психолингвистике и социолингвистике, где обрабатываются мнения информантов, применяются те же методы конструирования шкал, что и в психологии и социологии.

Вместе с тем в языкознании возникают специфические аспекты применения К. м., связанные с противопоставлением языка и речи. Непосредственно к системе языка К. м. применяются крайне редко и ограничиваются главным образом лексикой (количественное изучение этимологического состава словаря, процессов словообразования, распространённости разных типов полисемии). К. м. используются также в сравнительно-историческом языкознании (см. Глоттохронология).

Основным объектом применения К. м. обычно является речь, точнее, текст. Количественные показатели дают определённую информацию о самих текстах. На том факте, что различия между языковыми стилями и жанрами носят преимущественно статистический характер, основана так называемая статистическая стилистика. Возможность через лексику количественно отражать тематическую отнесённость текстов языка важна для некоторых приложений лингвистики (например, в информатике). Широкое применение К. м. для описания и классификации текстов (например, при атрибуции текстов, в частности при установлении авторства анонимных или псевдонимных текстов) связано с тем, что большинство двусторонних единиц и конструкций языка могут служить основой для различения текстов или для их квалификации.

С другой стороны, К. м., примененные к текстам, открывают путь к изучению самого языка, поскольку сегменты текстов, являющиеся объектами подсчётов, соотнесены с единицами языка. К. м. позволяют количественно описывать поведение различных языковых единиц (фонем, букв, морфем, слов) в тексте: частоту употребления единиц, их распределение в текстах разного жанра, сочетаемость с другими единицами и т. п. Одновременно накапливается обобщённая количеств, информация о классах единиц, о языковых конструкциях (например, данные о средней длине слова или предложения, о частоте употребления каких-либо грамматических форм в тех или иных синтаксических функциях и т. п.). Такая информация углубляет описание единиц языка. Например, простая констатация наличия форм именительного падежа единственного числа личных местоимений в английском, русском и латинском языках недостаточна для выявления типологических различий, если не учитывать количественные различия в текстовом поведении соответствующих единиц: почти абсолютная необходимость местоимения при глаголе в английском языке, его обычность — в русском языке и редкость и стилистическая маркированность — в латинском языке. Таким образом, создаётся перспектива превращения обычной структурной модели языка в структурно-вероятностную модель, в которой учитываются результаты статистического анализа текстов (в этой модели единицы языка обладают «весом», измеряемыми оказываются языковые противопоставления и связи). Структурно-вероятностная модель отличается большей реалистичностью, особенно эффективна она в диахронических и типологических исследованиях (например, при сличении и обработке исторически последовательных текстов).

Соединение статистических методов с идеями дистрибутивного анализа легло в основу дистрибутивно-статистического анализа, описывающего структуру языка и структуру текста на основе очень ограниченной исходной информации (например, принимая за данное письменный текст без каких-либо сведений о его семантике). В этом случае единицы языка и их отношения выделяются в процессе этого анализа, а не используются как готовый материал.

К. м. в языкознании предполагают исследование обширных массивов текстов, поэтому для их применения большое значение приобретают средства доступа к текстовым данным, допускающие многократное к ним обращение. К таким средствам относятся базы данных, хранимые в ЭВМ, издания, подготовленные с помощью ЭВМ (частотные словари, конкордансы — словари, фиксирующие все контексты употребления слова, и т. п.).

Создание машинных фондов национальных языков (см. Автоматическая обработка текста) расширяет возможность изучения языка, особенно с помощью К. м.

Андреев Н. Д., Статистико-комбинаторные методы в теоретическом и прикладном языковедении, Л., 1967;
Головин Б. Н., Язык и статистика, М., 1971;
Алексеев П. М., Статистическая лексикография, Л., 1975;
Шайкевич А. Я., Дистрибутивно-статистический анализ в семантике, в кн.: Принципы и методы семантических исследований, М., 1976;
Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А., Математическая лингвистика, М., 1977;
Квантитативная типология языков Азии и Африки, Л., 1982;
Guiraud P., Problèmes et méthodes de la statistique linguistique, Dordrecht, [1959].

А. Я. Шайкевич.

Лингвистический энциклопедический словарь

Коли́чественные ме́тоды