Автоматический синтаксический анализ (парсинг)
процедура, позволяющая получить при помощи алгоритмов формализованную синтаксическую структуру предложения.
приведение слова к начальной форме (лемме); обычно является частью процедуры автоматического морфологического анализа.
Лемматизация, то есть приведение всех словоформ к их базовым формам....
несут конкретного смысла, таких как предлоги, союзы, междометия), приведение текста к общей структуре (лемматизация
В данной статье рассмотрены механизмы стемминга и лемматизации. Под стеммингом понимают приближенный эвристический процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в большинстве случаев это себя оправдает. Стемминг основан на правилах морфологии языка и не требует хранения словаря всех слов. Под лемматизацией понимается преобразование слова в словарный вид или лемму. Данный метод используется в алгоритмах поисковиков при индексировании интернет-страниц. Процесс дает возможность хранения данных страницы набором слов в индексе для удобной схематизации файлов. Это позволяет ускорить индексацию и сформировать более четкий ответ на поисковый запрос, так как сокращенную форму слова поисковик анализирует быстрее. Выделена цель стемминга и лемматизации. Показано применение стемминга и лемматизации в библиотеке полнотекстового поиска Lucene.Net. Lucene.Net это перенесенный с платформы Java поисковый движок Lucene. Lucene это высокопроизводительная, масштабируемая...
Лемматизация представляет собой сведение слова к его начальной грамматической форме (лемме)....
Лемматизация помогает сократить вариации словоформ и упрощает автоматическое исследование текста.
Рассматривается вопрос снижения трудоемкости изучения информационно-терминологического базиса за счет уменьшения объема частотного словаря, на основе которого строится базис. Рассматривается вопрос построения частотных словарей на основе исходных текстов с применением лемматизации для последующего формирования информационно-терминологического базиса. Приводится алгоритм построения частотного словаря на основе исходных текстов с применением лемматизации, а также модификация данного алгоритма с использованием проверки терминов формируемого частотного словаря по специализированному словарю.
процедура, позволяющая получить при помощи алгоритмов формализованную синтаксическую структуру предложения.
то, на что указывает знак.
член пары или ряда взаимно обусловленных, соотносительных языковых единиц.