Частотный словарь

👀 1688 просмотров
📌 1628 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Частотный словарь», doc

Загружаем конспект в формате doc

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Частотный словарь», Word формат

Лекция 4 Краткий обзор основных аспектов работы с частотными словарями Частотный словарь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т.п.), по типичности (слова, частотные для большинства текстов) и т.д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии и т.д. Первый частотный словарь русского языка Г.Г. Йосельсона был издан в 1953 г. в США. В настоящее время для русского языка наиболее известны следующие частотные словари: –– частотный словарь русского языка Л.Н. Засориной (1977); –– частотный словарь современного русского литературного языка Э.А. Штейнфельдт (1963). Построение частотных списков Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку). Проблемы при создании частотных списков заключаются: –– в воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе); –– всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию во всем частотном списке); –– сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время как слово хрюкнуть находится за пределами списка первых 40 тысяч. Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова «и» (самого частотного слова русского языка) примерно в 10 раз выше частоты слова «о», которое, в свою очередь, встречается в 100 раз чаще таких обыденных слов как «путешествие», «старость» или «мода». Для описания всплесков частоты можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска): если проанализировать несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частоты можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частоте. Сравнение текстов Частотные словари обеспечивают возможность сравнить тексты разных авторов, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры текстов могут быть различны, более надежная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, ipm, instances per million words). Например, слово «и» имеет частоту около 30 000 чмс, слово «старость» — около 30. Частота на миллион словоупотреблений (относительная частота употребления слова) рассчитывается как отношение количества употреблений слова в тексте (x) к общему количеству словоупотреблений в тексте (y): Задание 4. Создание и работа с частотным словарем к заданному тексту. 1. С помощью программы «Wordstat» или «Webscript» создайте частотный словарь по заданному тексту. Я по первому снегу бреду, В сердце ландыши вспыхнувших сил. Вечер синею свечкой звезду Над дорогой моей засветил. Я не знаю — то свет или мрак? В чаще ветер поет иль петух? Может, вместо зимы на полях, Это лебеди сели на луг. Хороша ты, о белая гладь! Греет кровь мою легкий мороз. Так и хочется к телу прижать Обнаженные груди берез. О лесная, дремучая муть! О веселье оснеженных нив! Так и хочется руки сомкнуть Над древесными бедрами ив. Я покинул родимый дом, Голубую оставил Русь. В три звезды березняк над прудом Теплит матери старой грусть. Золотою лягушкой луна Распласталась на тихой воде. Словно яблонный цвет, седина У отца пролилась в бороде. Я не скоро, не скоро вернусь! Долго петь и звенеть пурге. Стережет голубую Русь Старый клен на одной ноге. И я знаю, есть радость в нем Тем, кто листьев целует дождь, Оттого, что тот старый клен Головой на меня похож. 2. С помощью программы «MS Exсel» представьте частотный словарь в виде таблицы со столбцами «Ранг», «Слово», «Частота», «Часть речи», «Процент». 2.1. На основе полученных с помощью программы «Wordstat» результатов заполните первый и второй столбцы. 2.2. Третий столбец заполните вручную или же проанализируйте слова из списка при помощи программы «Russian Morphological Analyzer». Для англоязычных текстов можно использовать «MorphAdorner». Когда третий столбец будет заполнен, высчитайте проценты. Проведите лексико-грамматический анализ. Для определения общего количества слов вставьте текст в программу «MS Word», полная статистика по всем параметрам будет представлена в строке состояния. Остальные аспекты посчитайте вручную. 3. На основе частотного словаря проведите лексико-грамматический анализ текста. По результатам с помощью программы «MS Exсel» создайте описание текста в виде таблицы, содержащей: –– общее количество слов; –– количество разных слов; –– количество слов, встречающихся в тексте лишь один раз; –– количество слов, встречающихся в тексте несколько раз; –– количество повторений самого популярного слова; –– количество существительных; –– количество глаголов; –– количество прилагательных.

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

#Лекция

Частотный словарь

Тебе могут подойти лекции

История возникновения и развития информационно-аналитической деятельности

Методы сжатия информации

Введение в современный русский язык

Предмет и задачи культуры речи. Языковая норма. Разговорный стиль

Основы стилистики и литературного редактирования текстов

Лексикология современного русского языка. Активный и пассивный словарный запас в составе русской лексики

Лексика СРЯ в социолингвистическом рассмотрении

Лексика СРЯ в социолингвистическом рассмотрении

Особенности юридической документации на английском языке. Специфика перевода юридических терминов

Научно-популярный текст

Частотный словарь

Тебе могут подойти лекции

Другие гуманитарные предметы

Помощь с написанием учебных работ