Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 2 текст
1
Аккур-ть=16/20
Tp = 7
Fp = 1
Fn = 3
tn = 9
precision - доля полож к общему числу объектов, кот классиф-р назвал полож-ми = 7/(7+1)
recall – число полож среди всех объектов в ыборке, кот явл полож = 7/(7+3)
часто эти 2 пар-ра зависят друг от друга с отриц знаком (выше точность, ниже полнота)
бета 1, 0,5 или 2 обычно
1 – одинаково важны полнота и точность
2 – предпочтение полноте
0,5 – предпочтение точности
Пример: + спам, - не спам, больше важна точность. Плохо, если в спам попадет важная
почта, не так страшно, если спам во входящие. Если + почта, - спам, больше важна
полнота, лучше все полезные письма, не страшно, если есть спам во входящих. – бинарная
класс-ция.
Точность для 3 класс = 6/(6+3+2+1), в зн-ле сумма по строке, в числ-ле гл диаг
Полнота – по столбцу
Несбалансированная выборка –в классах разное число эл-в
Ф-мера чаще исп-ся при микроусреднении
2
Чем площать под графиком ближе к 1,тем лучше.
Кривая всегда нач-ся из 0, кончается в 1.
Нужны еще эксперты
Или откинуть данный объект
1 – между объектом и центроидом класса. 2 – каждыми двумя объектами
3
3 – между объектами разных классов
Лучше, чтобы q1. Q2 были меньше,q3 больше.
Существует и недообучение
4
5
6
Признаковое пространство большой размерности.
Если слова нет в доке, его вес равен 0.
Если много уникальных слов, матрица очень разреженная (много нулей).
Слова упорядоченыпо частоте встречаемости в выборке.
Примерно такая же зависимость для любого дока.
Быстрый спал, длинный хвост.
Низкочастотные, среднечаст, высокочастотные слова.
Частота n-го слова будет близка первого самого частотного слова, деленного на
порядковый номер n.
Самые информативные – среднечастотные слова.
Высокочаст обычно не несут большой информ-ции с точки зрения разделения по
классам:предлоги, местоимения.
Низкочаст слова ближе к концу – слова, кот встречались в выборк ровно 1 раз. Модель не
может обучиться на одном слове в доке, в текстовой выборке врядли будет да и др доках
7
вряд ли будет. Если нет в обуч, но есть в тестовой – либо хуже класс-ция, либо будет
игнор.
Можно сократить в 10 раз выборку слов, оставив только среднечаст слова, при этом не
будет потеря точности сущ-ная.
Стоп-слова – неинформативные термины.
Стеминг – отсечение окончаний и суффиксов, приставки оставляем.
приведение слова к норм форме – ед ч, м род, им падеж.
Векторное представление слова.
8
Числа – частота слов из выборки
9
Реком-ся 5-20 негат контекстов, для больших выборок – 2-5 негат контекста.
10
11
Можем отсечь редкие, но несущие разделительную способность термины
12
13