Справочник от Автор24
Поделись лекцией за скидку на Автор24

Регрессия

  • ⌛ 2020 год
  • 👀 356 просмотров
  • 📌 343 загрузки
  • 🏢️ Департамент ОП&УЧР ВШБ НИУ ВШЭ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Регрессия» pdf
Регрессия Продолжение Мондрус О.В. Логистическая регрессия • Зависимая переменная –дихотомическая. • Строим модель прогноза вероятности события {Y=1} в зависимости от независимых переменных X1,…,Xp путём подгонки данных к логистической кривой. • Отношение вероятности того, что событие произойдет к вероятности того, что оно не произойдет 𝑃𝑃/(1−𝑃𝑃) называется отношением шансов. Уравнение логистической регрессии похоже на обычную регрессию, но интерпретация полученных коэфициентов производится через экспоненту: 𝑍𝑍=𝐵𝐵0+𝐵𝐵1*𝑋𝑋1+…+𝐵𝐵𝑝𝑝*Х𝑝𝑝 • Отношение шансов может быть записано в следующем виде: • 𝑃𝑃/(1−𝑃𝑃)=e^(𝐵𝐵0+𝐵𝐵1*𝑋𝑋1+…+𝐵𝐵𝑝𝑝*Х𝑝𝑝) • Интерпретация: если модель верна, при независимых X1,… , Х𝑝𝑝, то изменение X𝑘𝑘 на единицу вызывает изменение отношения шансов в 𝑒𝑒^B𝑘𝑘 раз. Выживаемость = Количество новеньких, кто остался за выбранный период/Количество всех новеньких за период Выживаемость Зачем: ответить на вопрос, почему происходит выбытие сотрудников. Процедура Каплана-Мейера Выживаемость Процедура КапланаМейера Выживаемость • Лог-ранг (Log Rank) – берёт все промежутки как равновзвешенные • Бреслоу (Breslow)– придает веса значениям в зависимости от количества случаев • Тарон-Уэр (Taron-Ware) – придает веса значениям на основании квадратного корня от количества случаев в каждом периоде. Анализ текста продолжение Принципы анализа текста • Считать текст • Привести к единому формату • Привести к единому регистру • Убрать пунктуацию • Разбить на токены (текстовые данные, разделенные пробелом) • Убрать стоп-слова • Убрать короткие слова • Убрать длинные слова • Стеммировать/лемматировать • Собрать мешок слов • Разбить слова согласно коннотации (сентименту) Стеммирование/лемматирование Стеммирование Портера - нормализация слов согласно их основанию: удаление суффиксов и других аффиксов. • По сути оставляет «огрызки» слов • Сложность работы с русским языком: более сложное образование слов • Изначальное предположение стемминга, что стем – основа слова не меняется, не работает в русском языке Лемматирование – приведение к основному смыслообразующему слову • Заменяет однокоренные слова и слова с одинаковым значением на одно • Сложность работы с русским языком: вариация значений синонимов крайне высока Cентимент-анализ • Разбить слова согласно коннотации (сентименту) • Разбить мешок слов на положительные/отрицательные коннотации в зависимости от мешков-образцов Для финального проекта: У Вас есть готовый код. Ваша задача: *построить облака слов только для молодых талантов *построить облака слов для других категорий (если обнаружатся) **посчитать количество положительных/отрицательных отзывов среди молодых талантов по построенному мешкам-образца положительных/отрицательных слов
«Регрессия» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

Тебе могут подойти лекции

Смотреть все 270 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot