Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Регрессия
Продолжение
Мондрус О.В.
Логистическая регрессия
• Зависимая переменная –дихотомическая.
• Строим модель прогноза вероятности события {Y=1} в зависимости от независимых переменных X1,…,Xp путём
подгонки данных к логистической кривой.
• Отношение вероятности того, что событие произойдет к вероятности того, что оно не произойдет 𝑃𝑃/(1−𝑃𝑃)
называется отношением шансов.
Уравнение логистической регрессии похоже на обычную регрессию, но интерпретация полученных
коэфициентов производится через экспоненту:
𝑍𝑍=𝐵𝐵0+𝐵𝐵1*𝑋𝑋1+…+𝐵𝐵𝑝𝑝*Х𝑝𝑝
• Отношение шансов может быть записано в следующем виде:
• 𝑃𝑃/(1−𝑃𝑃)=e^(𝐵𝐵0+𝐵𝐵1*𝑋𝑋1+…+𝐵𝐵𝑝𝑝*Х𝑝𝑝)
• Интерпретация: если модель верна, при независимых X1,… , Х𝑝𝑝, то изменение X𝑘𝑘 на единицу вызывает
изменение отношения шансов в 𝑒𝑒^B𝑘𝑘 раз.
Выживаемость = Количество
новеньких, кто остался за
выбранный период/Количество
всех новеньких за период
Выживаемость
Зачем: ответить на вопрос, почему
происходит выбытие сотрудников.
Процедура Каплана-Мейера
Выживаемость
Процедура
КапланаМейера
Выживаемость
• Лог-ранг (Log Rank) – берёт все
промежутки как равновзвешенные
• Бреслоу (Breslow)– придает веса
значениям в зависимости от
количества случаев
• Тарон-Уэр (Taron-Ware) – придает
веса значениям на основании
квадратного корня от количества
случаев в каждом периоде.
Анализ текста
продолжение
Принципы анализа текста
• Считать текст
• Привести к единому формату
• Привести к единому регистру
• Убрать пунктуацию
• Разбить на токены (текстовые данные, разделенные пробелом)
• Убрать стоп-слова
• Убрать короткие слова
• Убрать длинные слова
• Стеммировать/лемматировать
• Собрать мешок слов
• Разбить слова согласно коннотации (сентименту)
Стеммирование/лемматирование
Стеммирование Портера - нормализация слов согласно их основанию:
удаление суффиксов и других аффиксов.
• По сути оставляет «огрызки» слов
• Сложность работы с русским языком: более сложное образование слов
• Изначальное предположение стемминга, что стем – основа слова не
меняется, не работает в русском языке
Лемматирование – приведение к основному смыслообразующему слову
• Заменяет однокоренные слова и слова с одинаковым значением на одно
• Сложность работы с русским языком: вариация значений синонимов
крайне высока
Cентимент-анализ
• Разбить слова согласно коннотации (сентименту)
• Разбить мешок слов на положительные/отрицательные коннотации в зависимости от мешков-образцов
Для финального проекта:
У Вас есть готовый код.
Ваша задача:
*построить облака слов только для молодых талантов
*построить облака слов для других категорий (если обнаружатся)
**посчитать количество положительных/отрицательных отзывов среди молодых
талантов по построенному мешкам-образца положительных/отрицательных слов