Автоматизированная обработка текстов

Определение 1

Автоматизированная обработка текстов — это обработка текстов на искусственных или естественных языках при помощи компьютерного оборудования.

Введение

В глобальной сети интернет содержатся огромные объёмы разнообразной текстовой информации, и люди уже не в состоянии без посторонней помощи справиться с этими информационными потоками. Когда им необходимо отыскать нужные данные в этом огромном словесном массиве, они используют специальное техническое оснащение, такое как поисковые роботы, фильтры спама, сборники последних новостей и тому подобное. Задача успешной автоматизированной обработки текстов является сегодня одной из насущных проблем.

Формальное представление задачи

Чтобы решить изложенные выше проблемы, можно использовать методики машинного обучения. Для их применения нужен размеченный текстовый набор Т, предназначенный для системного обучения. То есть каждый учебный текст получает метку фактического класса. Кроме того, следует сделать выбор метода, позволяющего формализовать эти данные, то есть определённым методом сформировать отображение f из текстового набора Т в область признаков Х:

f:T→X

Функция f называется операцией выборки признаков или feature extraction. После определения отображения f и формирования области признаков Х, все тексты из набора Т получат в соответствие точку из области Х. После этого можно использовать все методы математики для подразделения набора точек Х на ряд подмножеств. Таким образом, проблема обнаружения одинаковых текстов становится задачей кластеризации набора точек из области Х, а проблема, состоящая в текстовой сортировке по разным темам, может быть сведена к задаче классификации точек из Х. Говоря формальным языком, требуется сформировать отображение g из набора векторов признаков Х на множестве меток L:

g:X→L

Подводя некоторый итог, можем отметить, что проблема обработки текста может быть поделена на следующие этапы:

Формирование пространства признаков (выборка признаков).
Подразделение области признаков на зоны.

Выборка текстовых признаков

Чтобы сформировать векторы признаков текста, можно использовать методику частотного анализа, а именно считать число повторений всех слов в тексте. Более подробный алгоритм частотного анализа состоит из следующих шагов:

Сформировать словарь V, который включает все слова, применяемые в обрабатываемых текстах Т.
Для всех текстов ti ∈T и для всех слов, входящих в словарь, vj ∈V, нужно определить количество вложений xij слова vj в текст ti.

В итоге, можно получить для всех текстов ti ∈T вектор целочисленных неотрицательных значений xi, размер которого равен числу слов в словаре V. Это основной вид методики частотного текстового анализа.

Для различного текстового объёма значение частоты х может иметь большие отличия, то есть чем объёмнее текстовый документ, тем количество повторений конкретного слова может быть больше. Чтобы уменьшить влияние такого эффекта, можно использовать методику нормализованного частотного анализа или TF (term frequency). Согласно этой методике величину частоты х нужно поделить на количество слов в тексте t.

Словарь частотного анализа

Очень важной частью функционирования системы автоматизированной текстовой обработки является реализация словаря. Его словарный набор напрямую влияет на информативность векторов признаков и, естественно, эффективность системной работы. В словарь входят слова из всего текстового набора исходной задачи. Но, к примеру, предлоги можно встретить практически в каждом тексте. Чтобы решить задачу текстовой сортировки по разной тематике, эти слова следует исключить из словаря, поскольку они не являются информативными. Но с другой стороны, для решения проблемы нахождения автора текста, частота использования предлогов способна стать достаточно полезным признаком. Для решения этой проблемы есть версия задания вектора признаков на компромиссной основе TF-IDF. Согласно этой методике слова, которые очень часто употребляются, не отбрасываются, но их весовой параметр в векторе признаков уменьшается. С этой целью для каждого словарного слова определяется коэффициент обратной частоты IDF (inverse document frequency). Результирующая частотная характеристика будет являться произведением частотной характеристики TF на коэффициент обратной частоты IDF.

TFIDF(t,T,v) = TF(t,v) ⋅ IDF(t,T,v)

Существует ещё один метод формирования словаря, а именно применение N-грамм (N-grams). В словарь частотного анализа могут быть включены помимо отдельных слов ещё и словесные сочетания (упорядоченная словесная последовательность), размером не больше N слов. Эта методика увеличивает словарный объём, что снижает производительность, но часто повышает качественные показатели действия системы.

Предварительная текстовая обработка

Сложные естественные языки, к примеру, русский язык, имеют много различных форм одного и того же слова (в разных падежах), и в словарь частотного анализа попадают все словесные формы, которые отличаются разными предлогами и/или окончаниями. Это обстоятельство способно значительно увеличить объём словаря, и вместе с этим объём набора данных, предназначенных для обучения. Это вызовет снижение производительности системы и ухудшение обобщающих способностей классификаторов. Возможны разные варианты решения этой проблемы. Первым вариантом является лематизация, то есть приведение всех слов в тексте к нормальному формату (слово в единственном числе и именительном падеже). Лематизация предполагает наличие языковых словарей, на которых выполнен текстовый документ. Она осуществляет нахождение для всех слов, встречающихся в тексте, их нормализованного формата при помощи словарей, но это способно также уменьшать производительность.

Вторым методом является стеминг, то есть определение основания слов методом удаления приставок и окончаний. Данный метод, нормализующий текст, действует существенно более быстро, чем лематизация. Правда качество у него ниже, но для выполнения частотного анализа его хватает.

Дата написания статьи: 29.05.2020