Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
5. Логистическая регрессия
Во многих приложениях наряду с классификацией объектов требуется ещё оценивать степень их принадлежности тому или иному классу или «степень уверенности» классификации. Это позволяет делать логистическая регрессия – распространенный статистический инструмент для решения задач регрессии и классификации. Иными словами, с помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.).
Логистическая регрессия – это разновидность множественной регрессии, общее назначение которой состоит в анализе линейной связи между несколькими независимыми переменными и зависимой переменной. Когда предсказываемых классов два, то говорят о бинарной логистической регрессии. В традиционной множественной линейной регрессии существует следующая проблема: алгоритм не «знает», что переменная отклика бинарна по своей природе. Это неизбежно приведет к модели с предсказываемыми значениями большими 1 и меньшими 0. Но такие значения вообще не допустимы для первоначальной задачи. Таким образом, множественная регрессия просто игнорирует ограничения на диапазон значений для y.
Для решения проблемы задача регрессии может быть сформулирована иначе: вместо предсказания бинарной переменной мы предсказываем непрерывную переменную со значениями на отрезке [0,1] при любых значениях независимых переменных. Это достигается применением логит-преобразования вида: P=1/(1+e-y), где P – вероятность того, что произойдет интересующее событие; e – основание натуральных логарифмов 2,71…; y – стандартное уравнение регрессии:
y = a + b1x1 + b2x2 + ... + bnxn .
Существует несколько способов нахождения коэффициентов логистической регрессии. На практике часто используют метод максимального правдоподобия. Он применяется в статистике для получения оценок параметров генеральной совокупности по данным выборки. Основу метода составляет функция правдоподобия, выражающая плотность вероятности (вероятность) совместного появления результатов выборки. Для поиска максимума, как правило, используется оптимизационный метод Ньютона, для которого здесь всегда выполняется условие сходимости. Для облегчения вычислительных процедур максимизируют не саму функцию правдоподобия, а ее логарифм.
Подготовка обучающей выборки.
Для построения модели логистической регрессии готовится обучающая выборка так же, как это описано для нейросети. Но выходное поле может быть только дискретного типа и бинарное (т.е. количество уникальных значений по нему должна быть равна 2).
На этапе определения входов модели необходимо помнить, что естественное стремление учесть как можно больше потенциально полезной информации приводит к включению избыточных шумовых признаков. Экспериментально установлено, что для успешного обучения число примеров должно в несколько раз (примерно в 5) превосходить число входных признаков. Но даже если все признаки информативны, количества обучающих примеров может просто не хватить для надёжного определения коэффициентов регрессии при всех признаках. Когда данных мало, приходится искусственно упрощать структуру регрессионной модели, оставляя наиболее существенные признаки.
Нормализация значений полей.
Для полей, подаваемых на входы, задается нормализация. Можно задать либо нормализацию битовой маской, либо нормализацию уникальными значениями (описание см. в разделе по нейросетям).
Для выходного поля (зависимой переменной) необходимо определиться с тем, что является отрицательным, а что – положительным событием. Это зависит от конкретной задачи. Например, если мы прогнозируем вероятность наличия заболевания, то положительным исходом будет класс «Больной пациент», отрицательным – «Здоровый пациент». И наоборот, если мы ходим определить вероятность того, что человек здоров, то положительным исходом будет класс «Здоровый пациент» и так далее. Отрицательное событие должно следовать в списке уникальных значений первым, положительное – вторым. По умолчанию они сортируются по алфавиту. Для переопределения типа события используйте окно «Нормализация», вкладку «Параметры нормализации».
Настройка обучающей выборки.
Настройка обучающей выборки такая же, как для нейросети и других алгоритмов построения моделей.
Пример.
Продолжим пример об оценке кредитоспособности физических лиц, рассмотренный в пункте, посвященном нейронным сетям. Покажем, как при помощи логистической регрессии построить несложную скоринговую карту – список характеристик заемщика с их весами (баллами). Всех заемщиков можно разделить на два класса – кредитоспособных и некредитоспособных. Поскольку в кредитовании общепринято, что чем выше кредитоспособность клиента, тем больше его рейтинговый балл, обозначим в обучающем множестве положительным исходом успешный возврат кредита, а отрицательным – дефолт по займу. Для лучшей интерпретации регрессионных коэффициентов всем качественным переменным рекомендуется делать нормализацию битовой маской по способу кодирования «Позиция бита», в этом случае для каждого уникального значения качественного признака будет подбираться свой коэффициент (балл). От фактора «Автомобиль» здесь откажемся. Тогда при бинаризации качественной переменной «Образование» в уравнение регрессии будут введены 2 дополнительных независимых переменных. В итоге получим 7 переменных плюс 1 переменная для константы. Рассчитанные коэффициенты логистической регрессии сведем в таблицу (коэффициенты регрессии можно посмотреть в визуализаторе «Коэффициенты регрессии»).
В таблице мы наблюдаем пример простой скоринговой карты. Увеличение суммы кредита, как и возраста, уменьшают кредитный рейтинг (знак у коэффициента отрицательный). У кандидатов с высшим образованием рейтинг будет больше. За каждый год проживания в регионе и каждый дополнительный квадратный метр жилой площади в собственности заемщику будет начислено по 0.018 и 0.027 балла (но не в общий итог, а в сумму перед логит-преобразованием).
Расчет рейтинга по такой скоринговой карте можно вести даже вручную. Но лучше воспользоваться инструментом «Что-если». На диаграмме «Что-если» можно, к примеру, увидеть, как будет изменяться рейтинг этого заемщика с увеличением возраста.
6. Деревья решений
Деревья решений являются одним из наиболее популярных подходов к решению задач добычи данных. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ…ТО…» (if-then), имеющую вид дерева. Чтобы принять решение, к какому классу следует отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид «значение параметра А больше В?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня. Затем снова следует вопрос, связанный с соответствующим узлом, и т. д. Приведенный пример иллюстрирует работу так называемых бинарных деревьев решений, в каждом узле которых ветвление производится по двум направлениям (т. е. на вопрос, заданный в узле, имеется только два варианта ответов, например, Да или Нет). Однако, в общем случае ответов и, следовательно, ветвей, выходящих из узла, может быть больше.
Дерево решений состоит из узлов, где производится проверка условия и листьев - конечных узлов дерева, указывающих на класс (узлов решения).
Область применения деревьев решений в настоящее время весьма широка, но все задачи, решаемые этим аппаратом, могут быть объединены в три класса.
1. Описание данных. Деревья решений позволяют хранить информацию о данных в компактной форме. Вместо громоздких массивов данных можно хранить дерево решений, которое содержит точное описание объектов.
2. Классификация. Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов.
3. Регрессия. Если целевая переменная является непрерывной, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).
В Deductor 5 в основе обработчика «Дерево решений» лежит модифицированный алгоритм C4.5, который позволяет решать только задачи классификации.
Подготовка обучающей выборки.
Для построения дерева решений готовится обучающая выборка так же, как это описано для нейросети. Разница заключается в том, что выходное поле для дерева решений может быть только одно и только дискретно.
Нормализация значений полей.
Для полей, подаваемых на входы и выход дерева решений, также задается нормализация. Можно задать либо линейную нормализацию, либо нормализацию уникальными значениями (описание в разделе по нейросетям).
Настройка обучающей выборки.
Настройка обучающей выборки такая же, как для нейросети.
7. Карты Кохонена
Самоорганизующиеся карты – это одна из разновидностей нейросетевых алгоритмов. Основным отличием данной технологии от рассмотренных нами ранее нейросетей, обучаемых по алгоритму обратного распространения, является то, что при обучении используется метод обучения без учителя, то есть результат обучения зависит только от структуры входных данных. Нейронные сети данного типа часто применяются для решения самых различных задач, от восстановления пропусков в данных до анализа данных и поиска закономерностей, например, в финансовой задаче.
Самоорганизующаяся карта Кохонена (англ. Self-organizing map — SOM) — соревновательная нейронная сеть с обучением без учителя, выполняющая задачу визуализации и кластеризации. Является методом проецирования многомерного пространства в пространство с более низкой размерностью (чаще всего, двумерное), применяется также для решения задач моделирования, прогнозирования и др. Является одной из версий нейронных сетей Кохонена.
8. Ассоциативные правила
Ассоциативные правила позволяют находить закономерности между связанными событиями. Примером такого правила служит утверждение, что покупатель, приобретающий 'Хлеб', приобретет и 'Молоко' с вероятностью 75%. Впервые эта задача была предложена для поиска ассоциативных правил для нахождения типичных шаблонов покупок, совершаемых в
супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины.
Транзакция – это множество событий, произошедших одновременно. Пусть имеется база данных, состоящая из покупательских транзакций. Каждая транзакция – это набор товаров, купленных покупателем за один визит. Такую транзакцию еще называют рыночной корзиной.
После определения понятия транзакция можно перейти к определению ассоциативного правила. Пусть имеется список транзакций. Необходимо найти закономерности между этими событиями. Как в условии, так и следствии правила должны находиться элементы транзакций.
Пусть I={i1,i2,…,in} – множество элементов, входящих в транзакцию. D – множество транзакций.
Покажем на конкретном примере: '75% транзакций, содержащих хлеб, также содержат молоко. 3% от общего числа всех транзакций содержат оба товара сразу'. 75% – это достоверность (confidence) правила, 3% это поддержка (support) или «Если 'Хлеб', то 'Молоко'» с вероятностью 75%.
Другими словами, целью анализа является установление следующих зависимостей: если в транзакции встретился некоторый набор элементов X, то на основании этого можно сделать вывод о том, что другой набор элементов Y также должен появиться в этой транзакции. Установление таких зависимостей дает нам возможность находить очень простые и интуитивно понятные правила.
Поиск ассоциативных правил совсем не тривиальная задача, как может показаться на первый взгляд. Одна из проблем – алгоритмическая сложность при нахождении часто встречающих наборов элементов, т.к. с ростом числа элементов экспоненциально растет число потенциальных наборов элементов.
Обычные ассоциативные правила – это правила, в которых как в условии, так и в следствии присутствуют только элементы транзакций и при вычислении которых используется только информация о том, присутствует ли элемент в транзакции или нет. Фактически все приведенные выше примеры относятся к обычным ассоциативным правилам.
Для поиска обычных ассоциативных правил в программе служит обработчик «Ассоциативные правила».
9. Пользовательские модели
В процессе анализа данных встречаются такие ситуации, когда сложные аналитические модели, основанные на линейной регрессии и нейронных сетях, не могут описать предметную область. Например, в тех случаях, когда объем исходной выборки мал либо ее качество недостаточно для того, чтобы обучить нейронную сеть. Кроме того, иногда заранее известны модели некоторых процессов, т.е. описывающие их формулы и оценки коэффициентов. Например, в задачах оценки рисков существуют несколько хорошо известных моделей, в которые эксперту требуется лишь подставить коэффициенты, описывающие конкретную ситуацию. Для того чтобы дать аналитику возможность самому строить модели, основанные на экспертных оценках, в Deductor включен обработчик «Пользовательские модели».
Пользовательская модель позволяет на основании исходных данных и формул, указанных аналитиком, построить произвольную модель и работать с ней так же, как с моделями на основе, скажем, нейросетей. Примерами такой модели может служить модель прогноза на основе авторегрессии с коэффициентами, задаваемыми экспертом либо прогноз на основании скользящего среднего.
При создании пользовательской модели нужно пройти, в основном, те же шаги, что и при настройке других моделей Deductor.