Справочник от Автор24
Поделись лекцией за скидку на Автор24

Машинное обучение

  • 👀 252 просмотра
  • 📌 183 загрузки
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Машинное обучение» pdf
Лекция 2 текст 1 Аккур-ть=16/20 Tp = 7 Fp = 1 Fn = 3 tn = 9 precision - доля полож к общему числу объектов, кот классиф-р назвал полож-ми = 7/(7+1) recall – число полож среди всех объектов в ыборке, кот явл полож = 7/(7+3) часто эти 2 пар-ра зависят друг от друга с отриц знаком (выше точность, ниже полнота) бета 1, 0,5 или 2 обычно 1 – одинаково важны полнота и точность 2 – предпочтение полноте 0,5 – предпочтение точности Пример: + спам, - не спам, больше важна точность. Плохо, если в спам попадет важная почта, не так страшно, если спам во входящие. Если + почта, - спам, больше важна полнота, лучше все полезные письма, не страшно, если есть спам во входящих. – бинарная класс-ция. Точность для 3 класс = 6/(6+3+2+1), в зн-ле сумма по строке, в числ-ле гл диаг Полнота – по столбцу Несбалансированная выборка –в классах разное число эл-в Ф-мера чаще исп-ся при микроусреднении 2 Чем площать под графиком ближе к 1,тем лучше. Кривая всегда нач-ся из 0, кончается в 1. Нужны еще эксперты Или откинуть данный объект 1 – между объектом и центроидом класса. 2 – каждыми двумя объектами 3 3 – между объектами разных классов Лучше, чтобы q1. Q2 были меньше,q3 больше. Существует и недообучение 4 5 6 Признаковое пространство большой размерности. Если слова нет в доке, его вес равен 0. Если много уникальных слов, матрица очень разреженная (много нулей). Слова упорядоченыпо частоте встречаемости в выборке. Примерно такая же зависимость для любого дока. Быстрый спал, длинный хвост. Низкочастотные, среднечаст, высокочастотные слова. Частота n-го слова будет близка первого самого частотного слова, деленного на порядковый номер n. Самые информативные – среднечастотные слова. Высокочаст обычно не несут большой информ-ции с точки зрения разделения по классам:предлоги, местоимения. Низкочаст слова ближе к концу – слова, кот встречались в выборк ровно 1 раз. Модель не может обучиться на одном слове в доке, в текстовой выборке врядли будет да и др доках 7 вряд ли будет. Если нет в обуч, но есть в тестовой – либо хуже класс-ция, либо будет игнор. Можно сократить в 10 раз выборку слов, оставив только среднечаст слова, при этом не будет потеря точности сущ-ная. Стоп-слова – неинформативные термины. Стеминг – отсечение окончаний и суффиксов, приставки оставляем. приведение слова к норм форме – ед ч, м род, им падеж. Векторное представление слова. 8 Числа – частота слов из выборки 9 Реком-ся 5-20 негат контекстов, для больших выборок – 2-5 негат контекста. 10 11 Можем отсечь редкие, но несущие разделительную способность термины 12 13
«Машинное обучение» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

Тебе могут подойти лекции

Смотреть все 588 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot