Лингвистический энциклопедический словарь

Коли́чественные ме́тоды

в языкознании — использование подсчётов и измерений при изучении языка и речи. В той мере, в какой К. м. опираются на математическую статистику, они могут быть названы статистическими методами. Как и все математические методы, К. м. могут приме­нять­ся к объектам самой разной природы, поэтому в языкознании они используются для анализа единиц любого уровня. Во многих сферах языкознания применение К. м. ничем не отличается от применения их в других науках. Например, экспериментальная (инстру­мен­таль­ная) фонети­ка использует тот же математический аппарат, что и физика. Применение выборочных методов статистики в языкознании аналогично их применению в других естественных и социальных науках. В психолингвистике и социолингвистике, где обраба­ты­ва­ют­ся мнения информантов, применяются те же методы конструирования шкал, что и в психологии и социологии.

Вместе с тем в языкознании возникают специфические аспекты применения К. м., связан­ные с противо­по­став­ле­ни­ем языка и речи. Непосред­ствен­но к системе языка К. м. применя­ют­ся крайне редко и ограничиваются главным образом лексикой (количественное изучение этимо­ло­ги­че­ско­го состава словаря, процессов словообразования, распро­стра­нён­но­сти разных типов полисемии). К. м. используются также в сравнительно-историческом языкознании (см. Глотто­хро­но­ло­гия).

Основным объектом применения К. м. обычно является речь, точнее, текст. Количе­ствен­ные показатели дают опреде­лён­ную информацию о самих текстах. На том факте, что различия между языковыми стилями и жанрами носят преиму­ще­ствен­но статистический характер, основа­на так называ­е­мая статистическая стилистика. Возможность через лексику количе­ствен­но отражать тематическую отнесённость текстов языка важна для некоторых приложений лингви­сти­ки (например, в информа­ти­ке). Широкое применение К. м. для описания и класси­фи­ка­ции текстов (например, при атрибуции текстов, в частно­сти при установлении авторства анонимных или псевдонимных текстов) связано с тем, что большин­ство двусторонних единиц и конструкций языка могут служить основой для различения текстов или для их квалификации.

С другой стороны, К. м., примененные к текстам, открывают путь к изучению самого языка, поскольку сегменты текстов, являющиеся объектами подсчётов, соотнесены с единицами языка. К. м. позволяют количественно описывать поведение различных языковых единиц (фонем, букв, морфем, слов) в тексте: частоту употреб­ле­ния единиц, их распределение в текстах разного жанра, сочетаемость с другими единицами и т. п. Одновременно накап­ли­ва­ет­ся обобщённая количеств, информация о классах единиц, о языковых конструкциях (например, данные о средней длине слова или предложения, о частоте употребления каких-либо грамматических форм в тех или иных синтаксических функциях и т. п.). Такая информация углубляет описание единиц языка. Например, простая констатация наличия форм имени­тель­но­го падежа един­ствен­но­го числа личных местоимений в английском, русском и латинском языках недостаточна для выявления типологических различий, если не учитывать количе­ствен­ные различия в текстовом поведении соответствующих единиц: почти абсолютная необхо­ди­мость местоимения при глаголе в английском языке, его обычность — в русском языке и редкость и стилистическая маркированность — в латинском языке. Таким образом, создаётся перспектива превращения обычной структурной модели языка в структурно-вероятностную модель, в которой учиты­ва­ют­ся результаты статистического анализа текстов (в этой модели единицы языка обладают «весом», измеряемыми оказываются языковые противопоставления и связи). Структурно-вероят­ност­ная модель отличается большей реалистичностью, особенно эффективна она в диахро­ни­че­ских и типо­ло­ги­че­ских исследованиях (например, при сличении и обработке истори­че­ски последовательных текстов).

Соединение статистических методов с идеями дистрибутивного анализа легло в основу дистрибутивно-статистического анализа, описывающего структуру языка и струк­ту­ру текста на основе очень ограниченной исходной информации (например, принимая за данное письмен­ный текст без каких-либо сведений о его семантике). В этом случае единицы языка и их отношения выделяются в процессе этого анализа, а не используются как готовый материал.

К. м. в языкознании предполагают исследование обширных массивов текстов, поэтому для их приме­не­ния большое значение приобретают средства доступа к текстовым данным, допуска­ю­щие много­крат­ное к ним обращение. К таким сред­ствам относятся базы данных, хранимые в ЭВМ, издания, подготов­лен­ные с помощью ЭВМ (частотные словари, конкордансы — словари, фиксирующие все контексты употребления слова, и т. п.).

Создание машинных фондов национальных языков (см. Автоматическая обработка текста) расширя­ет возможность изучения языка, особенно с помощью К. м.

А. Я. Шайкевич.