Автоматический графематический анализ
выделение в тексте слов, чисел, нахождение границ устойчивых сочетаний и предложений; выделяемые текстовые единицы называются токенами.
приведение слова к начальной форме (лемме); обычно является частью процедуры автоматического морфологического анализа.
Лемматизация, то есть приведение всех словоформ к их базовым формам....
несут конкретного смысла, таких как предлоги, союзы, междометия), приведение текста к общей структуре (лемматизация
В данной статье рассмотрены механизмы стемминга и лемматизации. Под стеммингом понимают приближенный эвристический процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в большинстве случаев это себя оправдает. Стемминг основан на правилах морфологии языка и не требует хранения словаря всех слов. Под лемматизацией понимается преобразование слова в словарный вид или лемму. Данный метод используется в алгоритмах поисковиков при индексировании интернет-страниц. Процесс дает возможность хранения данных страницы набором слов в индексе для удобной схематизации файлов. Это позволяет ускорить индексацию и сформировать более четкий ответ на поисковый запрос, так как сокращенную форму слова поисковик анализирует быстрее. Выделена цель стемминга и лемматизации. Показано применение стемминга и лемматизации в библиотеке полнотекстового поиска Lucene.Net. Lucene.Net это перенесенный с платформы Java поисковый движок Lucene. Lucene это высокопроизводительная, масштабируемая...
Лемматизация представляет собой сведение слова к его начальной грамматической форме (лемме)....
Лемматизация помогает сократить вариации словоформ и упрощает автоматическое исследование текста.
Рассматривается вопрос снижения трудоемкости изучения информационно-терминологического базиса за счет уменьшения объема частотного словаря, на основе которого строится базис. Рассматривается вопрос построения частотных словарей на основе исходных текстов с применением лемматизации для последующего формирования информационно-терминологического базиса. Приводится алгоритм построения частотного словаря на основе исходных текстов с применением лемматизации, а также модификация данного алгоритма с использованием проверки терминов формируемого частотного словаря по специализированному словарю.
выделение в тексте слов, чисел, нахождение границ устойчивых сочетаний и предложений; выделяемые текстовые единицы называются токенами.
(от греч. antiphrasis – противоположный по смыслу) – употребление слова, а также словосочетания и предложения в значении, противоположном обычному, что достигается с помощью контекста и особой интонации (в устной речи).
шрифт, введенный в России для печатания светских изданий в результате осуществленной Петром I в 1708-10 гг. первой реформы русского письма.