Общее понятие о квантитативной лингвистике
Квантитативная лингвистика – это направление компьютерной лингвистики (которая в свою очередь является одним из разделов общей лингвистики), в рамках которого изучение языка основывается на применении статистических методов и теории вероятности.
Определение «квантитативная» произошло от латинского слова «quantitas», которое переводится на русский язык как «количество».
Квантитативная лингвистика образовалась в результате объединения следующих научных дисциплин, которые предоставляют как эмпирические данные, так и инструменты для их изучения:
- компьютерная лингвистика – занимается математическим и компьютерным моделированием процессов, протекающих в мышлении человека и животных и связанных с воспроизведением естественных языков;
- корпусная лингвистика – осуществляет разработку и создание текстовых корпусов (многочисленных массивов языковых данных – текстов, специально подобранных для решения лингвистических задач) для их последующего исследования;
- языковая статистика – представляет собой совокупность вопросов, касающихся сбора, измерения, мониторинга и анализа большого массива статистических (как количественных, так и качественных) данных, характеризующих существующие в мире различные языковые системы;
- теория вероятностей – математически изучает свойства случайных событий и величин.
Основной целью квантитативной лингвистики принято называть выявление и формулирование законов и закономерностей функционирования языка. Конечным результатом квантитативной лингвистики должно считаться обнаружение взаимосвязи между этими законами, их объединение в единую совокупность и построение на основе этой совокупности общей теории языка.
История квантитативной лингвистики
Впервые о необходимости использования математических методов в процессе исследования грамматических и этимологических вопросов писал российский математик XIX века В.Я. Буняковский.
Практическую попытку применить методы статистики в лингвистическом исследовании предпринял австрийский естествоиспытатель XIX века Грегор Иоганн Мендель, который имел успешный опыт их апробирования в области ботаники.
Выдающийся русский лингвист И.А. Бодуэн де Куртенэ констатировал необходимость применения в лингвистике математического (то есть количественного) мышления. По его мнению, это должно способствовать все большему приближению лингвистики к категории точных наук. Впоследствии, Бодуэн применил квантитативную методику при изучении как грамматических (была описана типология склонений), так и фонетических (были исчислены чередования) вопросов.
Ученик И.А. Бодуэна де Куртенэ Е.Д. Поливанов подробно изучил области взаимосвязи лингвистики и математики. В результате своей деятельности он осуществил систематизацию некоторой части этого вопроса и выделил следующие сферы, обращая на них особое внимание:
- анализ кимографических кривых, который преимущественно выражался в применении в экспериментальной фонетике математических методов;
- диалектологическая статистика, которая демонстрировала количественное соотношение существующих на определенной территории социальных и этнических диалектов;
- практическое применение теории вероятностей, которая прилагалась к определению относительной вероятности этимологий —достоверных, гипотетических и фантастических.
Таким образом, применение математического и лингвистического аппарата при изучении вопросов языкознания стало активно увеличиваться с начала ХХ века, что вынудило лингвистов выделить в рамках общего языкознания отдельное направление – квантитативную лингвистику.
Однако не только математика повлияла на лингвистику, но и имел место обратный процесс: лингвистические идеи способствовали появлению и разработке оригинальных концепций в математике. Например, при изучении романа «Евгений Онегин» известный математик А.А. Марков выявил значимые в математике «марковские цепи».
Языковые законы в квантитативной лингвистике
Центральным понятием квантитативной лингвистики является языковой закон, который представляет собой теоретически выведенную гипотезу, которая была сформулирована на основе применения математических методов и согласованности (отсутствия противоречий) с уже существующими языковыми законами и успешно проверена на эмпирических данных.
То есть языковым законом можно назвать только ту гипотезу, которую нельзя опровергнуть при использовании самых разных методов.
Языковые законы по своей сущности могут быть универсальными, то есть сформулированными строго математически таким же образом, как и законы естественных наук. Однако стоит указать, что данные законы характеризуются стохастичностью, то есть они демонстрируют не четко зафиксированные события, а только вероятности их наступления, колеблющиеся вокруг статистического среднего.
В качестве примеров языковых законов, выявленных квантитативной лингвистикой, следует привести следующие законы, считающиеся одними из основных:
- закон диверсификации, который заключается в контроле частот появления лингвистических категорий в различных формах;
- закон многокомпонентности, который заключается в выявлении распределений длин различных языковых единиц (морф, ритмических единиц, слогов, слов, предложений);
- закон Мартина, который заключается в определении длин лексических цепочек (цепочек дефиниций);
- закон Менцерата, который заключается в обратной пропорциональности размеров языковой конструкции и размеров его составляющих;
- закон частотно-рангового распределения, который заключается в присвоении лингвистическим единицам номера ранга в соответствии с частотой их появления в тексте;
- закон Пиотровского, который заключается в таких процессах изменения языка, как появление новых слов, в том числе заимствованных, и исчезновение старых слов;
- закон текстового блока, который заключается в демонстрации лингвистических единиц определенных распределений частот в одинаково больших блоках текстов;
- закон Ципфа, который заключается в обратной пропорциональности частоты слов и их порядковых номеров в списках частотности.