Автоматический графематический анализ
выделение в тексте слов, чисел, нахождение границ устойчивых сочетаний и предложений; выделяемые текстовые единицы называются токенами.
одна из центральных проблем автоматической обработки текста; разрешение грамматической омонимии (дизамбигуация, таггинг) осуществляется при помощи постморфологического анализа и дальнейшего автоматического синтаксического анализа.
Описаны подходы к решению некоторых проблем, возникающих при компьютерном анализе русскоязычного текста. Затронуты вопросы, связанные со снятием лексической и морфологической неоднозначности, с выделением в тексте сложных объектов-словосочетаний и с использованием особенностей контекста для повышения точности разбора текста. Показано, что применение словарной информации может сыграть решающую роль при снятии как морфологической, так и частеречной и лексической омонимии.
В статье рассматривается вопрос построения трёхсловных моделей управления для снижения уровня неоднозначности в тексте на русском языке. Освещается проблема локальной и глобальной оптимизации совокупности лексических признаков в предложении. Предлагается гибридная система для частичного снятия омонимии с помощью связок из трёх слов и итерационного применения триграммных правил. На основании разрешенной неоднозначности строится база сочетаний слов между собой в корпусе общей лексики (и любой направленности). С помощью моделей глагольного управления проводится поверхностный синтаксический анализ предложения.
выделение в тексте слов, чисел, нахождение границ устойчивых сочетаний и предложений; выделяемые текстовые единицы называются токенами.
то, на что указывает знак.
устаревшее научное и просторечное название шипящего сигматизма.