Корпусная лингвистика: понятие, виды корпусов
Корпусная лингвистика иногда рассматривается как часть компьютерной лингвистики, но в аспекте формирования текстовых бах данных – корпусов, включающих совокупность речевых реализаций в какой-либо области.
Перед современной корпусной лингвистикой стоит ряд проблем, которые связаны с необходимостью обработки большого количества неструктурированной информации, поскольку объем текстов, входящих в состав корпусов настолько велик, что нуждается в специальных критериях отбора и обработки.
Базовым понятием для корпусной лингвистики является понятие корпуса данных, которые выступает как совокупность текстовых сведений, отобранных на основании каких-либо критериев.
В зависимости от критерия, по которому осуществляется отбор данных, выделяют единицу хранения как репрезентант совокупности данных, отвечающих условиям формирования выборки. Применительно к речевым корпусам это могут быть отдельные слова, а также их формы, синтагмы разной длины и состава. Помимо самой единицы хранения корпус включает ряд дескрипций, относящихся к этой единицы: ее источник, сфера употребления, предметная область, вид или тип и проч. Если в качестве единицы хранения выступают тексты или высказывания, которые могут быть отнесены к ним, то в таком случае речь идет о текстовых корпусах.
В прикладной лингвистике также используются исследовательские корпусы, которые специально конструируются для изучения особенностей реализации и функционирования системы языка. Для проведения лингвистических исследований также создаются иллюстративные корпусы, которые предназначены для подтверждения каких-либо языковых теорий или гипотез. Например, лингвист предлагает новую семантическую классификацию какой-либо группы лексем и формирует иллюстративный корпус, в который включает большое количество текстовых реализаций, подтверждающих истинность предложенной классификации.
Современные лингвистические корпусы представляют собой динамические образования, главная особенность которых заключается в том, что состав корпуса постоянно пополняется новыми единицами хранения. Такие корпусы позволяют изучать языковые явления в процессе их трансформации и изменения, поэтому они получили название мониторных. Специфика использования такого корпуса заключается в том, что при обращении к нему исследователь может работать не со всей базой данных, а лишь с ее фрагментом, необходимым для непосредственных задач исследования.
В практике изучения иностранных языков используются так называемые параллельные корпусы текстов, которые необходимы для нужд перевода, изучения лексики, стилистики, грамматики и других особенностей языков.
Другим видов корпусов является так называемые дискурсивные корпусы, которые представляют собой выборки из разных сфер речевой практик. Это могут быть совокупности публицистических или художественных текстов, корпусы разговорной речи, корпусы идиом и крылатых выражений и иные.
Требования к составу корпусов данных
Современная корпусная лингвистика опирается на технологии машинной обработки баз данных, поэтому корпусы формируется автоматически с помощью специального программного обеспечения.
Корпусы текстов, которые создаются лингвистами, должны обладать рядом характеристик, которые подтверждают их надежность и объективность:
- Репрезентативность относительно тех единиц, которые корпус содержит в своем составе. Так, в состав синтаксического корпуса должны входить синтаксические конструкции разных типов, а морфологического – особенности реализации грамматических категорий и их значений в отдельных словосочетаниях или предложениях.
- Полнота и достаточность данных, которые представлены в выборке.
- Экономичность и способность к сужению поля описания без ущерба для полноты и репрезентативности корпуса.
- Структурированность материала и его удобство для использования.
- Наличие автоматической поддержки обработки и поиска для работы с корпусом. Корпус должен обладать интерфейсом, позволяющим осуществлять различные операции: осуществлять поиск по определенным параметрам, составлять конкордансы, выполнять поиск частотных слов и выражений, а также осуществлять иные виды обработки данных, которые затребованы пользователем.
- Удобный и понятный способ презентации результатов работы с текстом. Так, результаты выполнения запроса должны отображаться в том виде, который позволит лингвисту в дальнейшем работать с данным материалом, используя в его своих исследованиях.
Таким образом, корпусная лингвистика представляет собой область прикладного языкознания, которая активно развивается и требует решения таких проблем, как дальнейшее совершенствование принципов составления корпусов, внедрение нового программного обеспечения и создание фундаментальных корпусов текстов, объединяющих значительные массивы данных в области реализации одного языка.