Принципы и методы отбора факторов в модель множественной линейной регрессии
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекции 9-10. ПРИНЦИПЫ И МЕТОДЫ ОТБОРА ФАКТОРОВ
В МОДЕЛЬ МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ
к.э.н., доцент Просвирина Мария Евгеньевна
Порядок отбора факторов в модель
Исключение квазинеизменных переменных
Вектор и матрица коэффициентов корреляции
Основные принципы отбора факторов модель множественной
линейной регрессии
Статистические методы отбора факторов в модель
2
Одним из важнейших этапов построения модели регрессии является подбор объясняющих
переменных, включаемых в модель
Объясняющие переменные (факторы), включаемые в модель регрессии, должны обладать
следующими свойствами:
1. Должны быть количественно измеримы. Если необходимо включить в модель качественный
фактор, не имеющий количественного измерения, то ему нужно придать количественную
определенность (например, если строится зависимость урожайности от качества почвы, то
фактор качества почвы должен быть выражен в каких либо единицах, например, в баллах)
2. Иметь высокую вариабельность
3. Должны быть сильно коррелированными с объясняемой переменной
4. Должны быть слабо коррелированными между собой. Включение в модель факторов с
высокой интеркорреляцией, т.е. когда коэффициент корреляции факторов превышает
коэффициенты (или один из коэффициентов) корреляции между фактором и зависимой
переменной, может привести к тому, что полученные оценки регрессии будут неустойчивыми и
ненадежными. Если между факторами существует высокая корреляция, то нельзя определить
их изолированное влияние на результативный показатель и параметры уравнения
оказываются неинтерпретируемыми
5. Должны быть сильно коррелированными с представляемыми ими другими переменными, не
используемыми в качестве объясняющих (т.е. объясняющие переменные хорошо должны
представлять те переменные, которые не включены в модель)
3
Процедура подбора переменных состоит из следующих этапов:
1. На основе накопленных знаний составляется множество так называемых
потенциальных объясняющих переменных (первичных переменных) Х1, …, Хm,
в которое включаются все важнейшие величины, влияющие на объясняемую
переменную Y
2. Собирается статистическая информация о реализациях как объясняемой
переменной, так и потенциальных объясняющих переменных, в течение n
периодов времени либо по n различным однородным объектам
3. Исключаются потенциальные объясняющие переменные, характеризующиеся
слишком низким уровнем вариабельности (квазинеизменные переменные)
4. Рассчитываются коэффициенты корреляции между всеми рассматриваемыми
переменными
5. Множество потенциальных объясняющих переменных
помощью выбранной статистической процедуры
редуцируется
с
4
Предварительным условием присвоения различным величинам статуса объясняющих
переменных считается достаточно высокая вариабельность. В качестве меры вариабельности
используется коэффициент вариации
где
- среднее выборочное значение переменной Xi,
переменной Xi
- среднеквадратическое отклонение
Задается критическое значение коэффициента вариации
, например, 0,1. Переменные,
удовлетворяющие неравенству
, признаются квазинеизменными и исключаются из
множества потенциальных объясняющих переменных, т.к. эти переменные не несут значимой
информации
5
Для оценивания силы линейной зависимости объясняемой переменной Y от потенциальных
объясняющих переменных X1, X2, … , Xm рассчитываются коэффициенты корреляции
Эти коэффициенты представляются в виде вектора корреляции
6
Коэффициенты между потенциальными объясняющими переменными X1, X2, … , Xm
рассчитываются по формуле
Эти коэффициенты представляются в виде матрицы корреляции
или в силу свойства симметричности коэффициента корреляции
7
Коэффициент детерминации
Включаемые во множественную регрессию факторы должны объяснить вариацию
независимой переменной. Если строится модель с набором р факторов, то для нее
рассчитывается показатель детерминации R2, который фиксирует долю объясненной вариации
результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других,
не учтенных в модели факторов, оценивается как 1–R2 с соответствующей остаточной
дисперсией. При дополнительном включении в регрессию (р+1)-го фактора коэффициент
детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если же этого не
происходит и данные показатели мало отличаются друг от друга, то включаемый в анализ
фактор Xр+1 не улучшает модель и практически является лишним фактором.
Для проверки целесообразности включения дополнительных факторов в модель применяется
частный критерий Фишера, который рассматривался выше
Число факторов
При включении факторов в модель следует придерживаться правила, согласно которому число
включаемых в модель объясняющих переменных должно быть в 5-6 раз меньше объема
совокупности, по которой строится регрессия. Насыщение модели лишними факторами не
только не снижает величину остаточной дисперсии и не увеличивает показатель
детерминации, но и приводит к тому, что число степеней свободы остаточной вариации будет
мало, и параметры уравнения регрессии окажутся статистически незначимы по t-критерию
Стьюдента. Таким образом, хотя теоретически регрессионная модель может учесть любое
число факторов, практически в этом нет необходимости
8
Коллинеарность факторов
Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными)
позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно
коллинеарны, т.е. находятся между собой в линейной зависимости, если коэффициент
корреляции между ними больше 0,7.
Поскольку одним из условий построения уравнения множественной регрессии является
независимость действия факторов, т.е. отсутствие корреляции между объясняющими
переменными, коллинеарность факторов нарушает это условие.
Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется
исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному
с результатом, а тому фактору, который при достаточно тесной связи с результатом
имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется
специфика множественной регрессии как метода исследования комплексного воздействия
факторов в условиях их независимости друг от друга
9
Статистические методы отбора объясняющих переменных в качестве исходных данных
рассматривают вектор коэффициентов корреляции объясняющих переменных с зависимой
переменной R0 и матрицу коэффициентов корреляции между объясняющими переменными R
Суть всех рассматриваемых методов сводится к выбору таких объясняющих переменных,
которые сильно коррелируют с объясняемой переменной и, одновременно, слабо
коррелируют между собой
СТАТИСТИЧЕСКИЕ МЕТОДЫ
Метод
последовательного
отбора факторов
Метод
показателей
информационной
емкости
Анализ значения
коэффициента
множественной
корреляции
10
Шаг 1. Определение критического значения коэффициента корреляции
где
- значение распределения Стьюдента для заданного уровня значимости α и для
(n-2) степеней свободы
Шаг 2. Исключение переменных, имеющих низкую корреляцию с зависимой переменной
Из множества потенциальных объясняющих переменных исключаются те, которые
удовлетворяют неравенству:
, т.е. те, которые имеют слабую корреляцию с
зависимой (объясняемой) переменной.
Шаг 3. Выбор объясняющей переменной
Из оставшихся переменных объясняющей признается такая переменная Хh, для которой:
, т.к. переменная Хh является носителем наибольшего количества
информации об объясняемой переменной
Шаг 4. Исключение переменных, имеющих высокую корреляцию с объясняющей переменной
Из оставшихся потенциальных объясняющих переменных исключаются все элементы, которые
удовлетворяют неравенству:
, поскольку эти переменные слишком сильно
коррелируют с объясняющей переменной Хh и, следовательно, только воспроизводят
представляемую ею информацию
Шаги 3-ий и 4-ый повторяются вплоть до момента перебора всего множества потенциальных
объясняющих переменных
11
Шаг 1. Определяются все возможные комбинации потенциальных объясняющих переменных,
общее количество которых составляет
где m – число потенциальных объясняющих переменных
Шаг 2. Для каждой комбинации последовательно рассчитываются индивидуальные и
интегральные показатели информационной емкости (показатели принимают значения в
интервале [0; 1])
Шаг 2.1. Рассчитываются индивидуальные показатели информационной емкости по формуле:
где l – номер комбинации, ml – количество переменных в комбинации l
Шаг 2.2. Рассчитываются интегральные показатели информационной емкости по формуле:
Шаг 3. В качестве объясняющих выбирается такая комбинация переменных, которой
соответствует максимальное значение интегрального показателя информационной емкости
12
Коэффициент множественной корреляции может выступать в роли критерия выбора
наилучшей комбинации объясняющих переменных из комбинаций, имеющих одинаковую
размерность
Шаг 1. Определяется общее количество рассматриваемых комбинаций :
где m – число потенциальных объясняющих переменных, p (p=1,…,m) – размерность
комбинации
Шаг 2. Для каждой комбинации рассчитывается значение коэффициента множественной
корреляции
Шаг 2.1. Для комбинации k (k=1,…,K) выписываются вектор корреляции R0k и матрица
коэффициентов корреляции Rk, получающиеся из исходных вектора и матрицы
коэффициентов корреляции вычеркиванием строк и столбцов с номерами переменных, не
участвующих в рассматриваемой комбинации
Шаг 2.2. Для полученных данных составляется матрица Wk
13
Шаг 2.3. Значение коэффициента
рассчитывается по формуле:
где
множественной
- определитель матрицы Rk;
корреляции
для
комбинации
k
- определитель матрицы Wk
Шаг 3. Среди полученных значений коэффициента множественной корреляции выбирается
максимальное. Соответствующая комбинация переменных признается наилучшей.
14
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Перечислите свойства, которыми должны обладать переменные, включаемые в модель
регрессии.
Назовите этапы отбора переменных в модель множественной линейной регрессии.
Запишите формулу для расчета коэффициента вариации. Дайте пояснение обозначений.
Для чего используется данный коэффициент?
Какие переменные называются квазинеизменными?
Запишите формулу для расчета коэффициента корреляции между зависимой переменной
и потенциальной объясняющей переменной. Дайте пояснение обозначений. Что измеряет
данный коэффициент?
Запишите формулу для расчета коэффициента корреляции между двумя потенциальными
объясняющими переменными. Дайте пояснение обозначений. Что измеряет данный
коэффициент?
Запишите общий вид вектора и матрицы коэффициентов корреляции.
Перечислите общие принципы отбора факторов в модель регрессии.
В чем суть статистических методов отбора факторов в модель регрессии?
Назовите известные Вам статистические методы отбора факторов в модель регрессии.
Перечислите и раскройте суть этапов метода последовательного отбора факторов в
модель.
Перечислите и раскройте суть этапов метода показателей информационной емкости.
Перечислите и раскройте суть этапов метода анализа значений коэффициента
множественной корреляции
15