Справочник от Автор24
Найди эксперта для помощи в учебе
Найти эксперта
+2

Частота слова в документах

Предмет Языкознание и филология
👍 Проверено Автор24

(document frequency, DF) — число документов в коллекции, содержащих данное слово.

Научные статьи на тему «Частота слова в документах»

Поиск информации в интернете

Присутствие ключевого слова в доменном имени или адресе страницы....
Анализируется частота использования ключевого слова на странице, то есть «плотность» применения ключевого...
слова....
Наиболее часто пользователи ищут поиском в интернете следующие темы (они расположены в порядке убывания частоты...
При этом возможно, к примеру, скачивание шаблона каких-либо документов или самих документов, если они

Статья от экспертов

Селективный отбор понятия «Документ»

В статье предпринята попытка селективного отбора понятия «документ». Методом контент-анализа исследованы 120 определений термина «документ», выявленные в законодательстве, стандартах, справочной и научной литературе. Контент-анализ проводился с учетом различных подходов к определению понятия «документ»: правового, информационного, исторического, коммуникационного, управленческого, социетального. Установлена частота использования слов и словосочетаний, обозначающих другие, более общие понятия, через которые определяется понятие «документ». Также установлена частота упоминаний в определениях документа его сущностных признаков, свойств и функций. Интерпретация результатов контент-анализа позволила сделать выводы о конвенциональном понимании документа. На основе результатов контент-анализа сформулировано авторское определение понятия «документ».

Научный журнал

Автоматизированная обработка текстов

Для различного текстового объёма значение частоты х может иметь большие отличия, то есть чем объёмнее...
текстовый документ, тем количество повторений конкретного слова может быть больше....
Согласно этой методике величину частоты х нужно поделить на количество слов в тексте t....
С этой целью для каждого словарного слова определяется коэффициент обратной частоты IDF (inverse document...
Лематизация предполагает наличие языковых словарей, на которых выполнен текстовый документ.

Статья от экспертов

Векторная модель представления знаний на основе семантической близости термов

Большинство методов интеллектуального анализа текстов используют векторную модель представления знаний. Векторная модель использует частоту (вес) терма, чтобы определить его важность в документе. Термы могут быть схожи семантически, но отличаться лексикографически, что,в свою очередь, приведет к тому, что классификация, основанная на частоте термов, не даст нужного результата. Причиной ошибок является отсутствие учета таких особенностей естественного языка, как синонимия и полисемия. Неучет этих особенностей, а именно синонимии и полисемии, увеличивает размерность семантического пространства, от которой зависит быстродействие конечного программного продукта, разработанного на основе алгоритма. Кроме того, результаты работы многих алгоритмов сложно воспринимаются экспертом предметной области, который подготавливает обучающую выборку, что, в свою очередь, также сказывается на качестве выдачи алгоритма. В работе предлагается модель, которая помимо веса терма в документе, так же использ...

Научный журнал

Еще термины по предмету «Языкознание и филология»

Корпусная лингвистика

раздел прикладной лингвистики, теория и практика создания лингвистических корпусов с использованием современных компьютерных технологий.

🌟 Рекомендуем тебе

Спектр звука

относительная амплитуда всех его частотных составляющих.

🌟 Рекомендуем тебе
Смотреть больше терминов

Повышай знания с онлайн-тренажером от Автор24!

  1. Напиши термин
  2. Выбери определение из предложенных или загрузи свое
  3. Тренажер от Автор24 поможет тебе выучить термины с помощью удобных и приятных карточек
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot