«Фиктивные переменные; модели ANOVA и ANCOVA»

Конспект лекции по дисциплине «Фиктивные переменные; модели ANOVA и ANCOVA», Word формат

Лекция 8 Фиктивные переменные Вопросы: 1. Необходимость использования фиктивных переменных. 2. Модели ANOVA и ANCOVA. 3. Сравнение двух регрессий. Тест Чоу. 4. Фиктивная зависимая переменная. 1. Необходимость использования фиктивных переменных. До сих пор рассматривались модели, в которых все объясняющие переменные были количественными переменными (производительность труда, себестоимость, доход и т.п.). На практике часто возникает необходимость исследования влияния качественных признаков, имеющих два или несколько уровней. К числу таких признаков можно отнести: пол (мужской, женский), образование (начальное, среднее, высшее), фактор сезонности (зима, весна, лето, осень) и т.п. Качественные признаки могут существенно влиять на структуру линейных связей и приводить к скачкообразному изменению параметров регрессионной модели. В этом случае говорят об исследовании регрессионных моделей с переменной структурой или о построении регрессионных моделей по неоднородным данным. Например, необходимо изучить зависимость размера з/п Y не только от количественных факторов х1,…,хр, но и от качественного признака Z1 (например, пола). Можно получить оценки регрессионной модели для каждого уровня качественного признака, а затем изучать различия между ними. Другой подход позволяет оценивать влияние количественных переменных и качественных признаков по одному уравнению регрессии. Он связан с введением фиктивных переменных (структурных переменных). В качестве фиктивных переменных обычно используют булевы переменные, принимающие лишь значения «0» и «1». В этом случае первоначальная регрессионная модель з/п примет вид: , где Таким образом, принимая эту модель, считается, что з/п у мужчин на выше, чем у женщин. Проверка гипотезы Н0: может установить существенность влияния фактора «пол» на размер з/п. Следует отметить, что в принципе качественное различие можно формализовать с помощью любой переменной, принимающей два разных значения, не обязательно «0» или «1». Однако, в эконометрической практике почти всегда используются фиктивные переменные типа «0-1», так как при этом интерпретация полученных результатов выглядит наиболее просто. Если качественный признак имеет k уровней, то можно ввести дискретную переменную, принимающую k значений. Однако так не поступают из-за трудности содержательной интерпретации, а вводят (k-1) бинарную переменную. Например, для учета фактора образования можно ввести k = 3 – 1 = 2 бинарные переменные z21 и z22: , где Третьей переменной не требуется, так как если работник имеет начальное образование, то z21 = z22 = 0. Более того, z23 вводить нельзя, так как для любого работника z21 + z22 + z23 = 1, и получался бы столбец в матрице Х из 1 (т.е., уже два таких столбца). И ХТХ была бы вырожденной, следовательно, невозможно получить оценки коэффициентов. Такая ситуация получила название «ловушки». Чтобы избежать её, число вводимых бинарных переменных должно быть на 1 меньше числа уровней качественного признака. Название «фиктивной» переменной не совсем удачно, так как все процедуры регрессионного анализа (оценка параметров модели, проверка значимости коэффициентов и т.п.) проводятся при включении фиктивных переменных так же, как и количественных переменных. «Фиктивность» состоит только в том, что они количественным образом описывают качественный признак. 2. Модели ANOVA и ANCOVA. Значит, кроме моделей, содержащих только количественные объясняющие переменные, в регрессионном анализе рассматривают также модели, содержащие лишь качественные переменные, либо те и другие одновременно. Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA – моделями (моделями дисперсионного анализа). Например, пусть Y - начальная з/п, Зависимость можно описать моделью парной регрессии: , очевидно, , . При этом коэффициент определяет среднюю начальную з/п при отсутствии в.о. Коэффициент указывает, на какую величину отличаются средние начальные з/п при наличии и при отсутствии в.о. Проверяя статистическую значимость коэффициента с помощью t – статистики, либо значимость коэффициента детерминации R2 с помощью F - статистики, можно определить, влияет или нет наличие высшего образования на начальную з/п. Модели, в которых объясняющие переменные носят как количественный, так и качественный характер, называют ANCOVA – моделями (моделями ковариационного анализа). Рассмотрим простейшую ANCOVA – модель с одной количественной и одной качественной переменной, имеющей 2 уровня: , где Y – з/п сотрудника фирмы, х – стаж, z – пол, т.е. Ожидаемое значение з/п при х годах трудового стажа будет: -для женщин, - для мужчин. З/п является линейной функцией стажа, причем для мужчин и женщин з/п меняется с одним и тем же коэффициентом . Отличаются только свободные члены. Проверив с помощью t – статистики значимость коэффициентов и , можно определить, имеет ли место в фирме дискриминация по половому признаку. При > 0 она будет в пользу мужчин, при < 0 - в пользу женщин. Пример. Исследуется эффективность лекарств у в зависимости от возраста пациента х. При этом сравнивается эффективность лекарств а и b. лекарство y x z zx a 54 69 b 30 48 1 48 a 58 73 b 66 64 1 64 b 67 60 1 60 a 64 62 a 67 70 a 33 52 a 33 63 b 42 48 1 48 b 33 46 1 46 a 28 55 b 30 40 1 40 b 23 41 1 41 a 21 55 b 43 45 1 45 a 38 58 b 43 58 1 58 a 43 64 b 45 55 1 55 b 48 57 1 57 a 48 63 a 53 60 b 58 62 1 62 Решение Вводится фиктивная переменная z: Возможен один из трех вариантов: , или . Какой из вариантов предпочтительнее? ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,690350892 R-квадрат 0,476584354 Нормированный R-квадрат 0,452792733 Стандартная ошибка 10,42269343 Наблюдения 24 Дисперсионный анализ df SS MS F Значимость F Регрессия 1 2176,084158 2176,084158 20,03160557 0,000188762 Остаток 22 2389,915842 108,6325383 Итого 23 4566 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение -17,86138614 14,09491696 -1,267221807 0,218326504 -47,09245468 11,3696824 x 1,094059406 0,24444605 4,47566817 0,000188762 0,587109328 1,601009484 ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,818778974 R-квадрат 0,670399008 Нормированный R-квадрат 0,639008438 Стандартная ошибка 8,465498967 Наблюдения 24 Дисперсионный анализ df SS MS F Значимость F Регрессия 2 3061,041872 1530,520936 21,35670027 8,68719E-06 Остаток 21 1504,958128 71,66467277 Итого 23 4566 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение -53,19211823 15,23631493 -3,491140638 0,00217736 -84,87776958 -21,50646687 x 1,583743842 0,242565436 6,529140623 1,81395E-06 1,079301405 2,08818628 z 14,83743842 4,222311121 3,514056164 0,002062797 6,056661791 23,61821506 ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,820613512 R-квадрат 0,673406536 Нормированный R-квадрат 0,624417516 Стандартная ошибка 8,634887835 Наблюдения 24 Дисперсионный анализ df SS MS F Значимость F Регрессия 3 3074,774242 1024,924747 13,74607086 4,28274E-05 Остаток 20 1491,225758 74,56128792 Итого 23 4566 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение -61,67248908 25,13975551 -2,453185715 0,02345824 -114,1131 -9,231878171 x 1,720524017 0,403481811 4,264192264 0,00037931 0,87887571 2,562172325 z 27,60406803 30,05830936 0,918350653 0,369378456 -35,0964664 90,30460246 zx -0,219208228 0,510788146 -0,429156843 0,672396526 -1,284693626 0,84627717 Вывод. Значения фиктивной переменной можно изменять на противоположные. Суть модели от этого не меняется. У коэффициента изменится знак. Значение качественной переменной, для которой принимается Z = 0, называют базовым или сравнительным. Выбор базового значения обычно диктуется целями исследования, но может быть и произвольным. Коэффициент иногда называют дифференциальным коэффициентом свободного члена, так как он показывает, на какую величину отличается свободный член модели при значении фиктивной переменной, равной 1, от свободного члена модели при базовом значении фиктивной переменной. Рассмотрим модель с двумя объясняющими переменными, одна из которых количественная, другая – качественная, имеющая 3 альтернативы. Например, расходы на содержание ребенка могут быть связаны с доходами и возрастом ребёнка: дошкольный, младший школьный и старший школьный. Модель будет иметь вид: , где Y – расходы, х – доходы, Получим следующие зависимости: Средний расход на дошкольника: ; Средний расход на младшего школьника: ; Средний расход на старшего школьника: ; и - дифференциальные свободные члены. Базовым значением Z является «дошкольник». Таким образом, получаются три регрессионные прямые, параллельные друг другу. Если коэффициенты и окажутся статистически незначимыми, то можно сделать вывод, что возраст ребенка не оказывает существенного влияния на расходы по его содержанию. Чтобы учесть сезонные колебания аналогично можно вводить фиктивные переменные, например, 3. Сравнение двух регрессий. Тест Чоу. В рассматриваемых примерах предполагалось, что изменение значения качественного фактора влияет лишь на изменение свободного члена. В более сложных моделях может быть отражено влияние качественного фактора на сами параметры при переменных. Например, можно предположить, что до некоторого года в стране обменный курс валют был фиксированным, а затем плавающим. Или налог на ввозимые автомобили был одним, а затем он существенно изменился. Зависимость может быть выражена так: , где Тогда ожидаемое значение Y определяется следующим образом: и . Фиктивная переменная z1 в уравнении используется как в аддитивном виде (z1), так и в мультипликативном (z1x), что позволяет фактически разбивать рассматриваемую зависимость на две части, связанные с периодом изменения качественного фактора. Имеет ли смысл разбивать выборку на части или в этом нет необходимости можно решить с помощью теста Чоу. Задача может быть и противоположной: можно ли объединить две выборки в одну и рассматривать единую модель (без качественного фактора). Суть теста Чоу состоит в следующем. Пусть выборка имеет объем n, и есть основание предполагать, что целесообразно разбить её на две объёмами n1 и n2: n1 + n2 = n. Строят уравнение общей регрессии и уравнение регрессий по каждой подвыборке. Обозначим , , . Очевидно, что возможно лишь при совпадении коэффициентов регрессии для всех трех уравнений. Чем сильнее различие в поведении Y для двух подвыборок, тем больше S0 будет превосходить S1 + S2. Тогда S0 – (S1 + S2) может быть интерпретирована как улучшение качества модели при разбиении. Следовательно, дробь (S0 – (S1 + S2))/(p+1) определяет оценку уменьшения дисперсии регрессии. Проверку проводят с помощью критерия Фишера: (здесь n-2p-2 и р+1 – число степеней свободы необъясненной и объясненной дисперсий). Если F > Fкр(, р+1, n-2p-2), то разбиение целесообразно. Это означает необходимость введения в уравнение регрессии соответствующей фиктивной переменной. Если F < Fкр, то различие между S0 и S1 + S2 статистически незначимо и нет смысла разбивать уравнение регрессии на части. Пример. Рассматривая зависимость между доходом Х и сбережениями Y за 20 лет, обнаружено изменение экономической ситуации на 12-м году наблюдений. год Y X 75 4,7 100 76 6,1 105 77 6,5 108 78 6,8 111 79 5,2 115 80 6,5 122 81 7,5 128 82 8 135 83 9 143 84 9,1 142 85 8,7 147 86 12 155 87 16,2 167 88 18,5 177 89 18 188 90 17,6 195 91 20 210 92 23 226 93 22,5 238 94 24,3 255 Построить общее уравнение регрессии для всего интервала наблюдений, а также уравнение регрессии, учитывающее изменение ситуации. Проверить с помощью теста Чоу необходимость разбиения интервала наблюдений на два подынтервала. год Y X Z 75 4,7 100 76 6,1 105 77 6,5 108 78 6,8 111 79 5,2 115 80 6,5 122 81 7,5 128 82 8 135 83 9 143 84 9,1 142 85 8,7 147 86 12 155 1 87 16,2 167 1 88 18,5 177 1 89 18 188 1 90 17,6 195 1 91 20 210 1 92 23 226 1 93 22,5 238 1 94 24,3 255 1 1) строим уравнение для всего интервала. ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,975998 R-квадрат 0,952571 Нормированный R-квадрат 0,949936 Стандартная ошибка 1,500972 Наблюдения 20 Дисперсионный анализ df SS MS F Значимость F Регрессия 1 814,4655 814,4655 361,5159 2,3E-13 Остаток 18 40,55252 2,252918 Итого 19 855,018 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение -9,56407 1,208504 -7,91397 2,86E-07 -12,103 -7,02509 X 0,1394 0,007332 19,01357 2,3E-13 0,123997 0,154804 2) строим уравнение множественной регрессии с фиктивной переменной. ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,989934 R-квадрат 0,979969 Нормированный R-квадрат 0,977612 Стандартная ошибка 1,00373 Наблюдения 20 Дисперсионный анализ df SS MS F Значимость F Регрессия 2 837,8909 418,9455 415,8374 3,67E-15 Остаток 17 17,12706 1,007474 Итого 19 855,018 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение -5,43851 1,176906 -4,62103 0,000244 -7,92157 -2,95546 X 0,101714 0,009226 11,02452 3,64E-09 0,082248 0,121179 Z 4,093698 0,848963 4,821998 0,000159 2,302542 5,884853 3) строим уравнение парной регрессии для данных до 86 года. ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,91651 R-квадрат 0,83999 Нормированный R-квадрат 0,822211 Стандартная ошибка 0,62994 Наблюдения 11 Дисперсионный анализ df SS MS F Значимость F Регрессия 1 18,74858 18,74858 47,24651 7,28E-05 Остаток 9 3,571422 0,396825 Итого 10 22,32 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение -3,00135 1,481807 -2,02546 0,073471 -6,35343 0,350733 X 0,081943 0,011921 6,87361 7,28E-05 0,054975 0,108911 4) Парная регрессия для интервала с 86 по 94 годы. ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,946876 R-квадрат 0,896574 Нормированный R-квадрат 0,881799 Стандартная ошибка 1,316233 Наблюдения 9 Дисперсионный анализ df SS MS F Значимость F Регрессия 1 105,1283 105,1283 60,68116 0,000108 Остаток 7 12,12729 1,73247 Итого 8 117,2556 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение -2,5731 2,819436 -0,91263 0,391785 -9,24001 4,093808 Переменная X 1 0,107818 0,013841 7,789811 0,000108 0,075089 0,140546 5) Применим тест Чоу. S0 = 40,55; S1 = 3,57; S2 = 12,13; n = 20; p = 1; Так как F > Fkp, то разбиение целесообразно, т.е. целесообразно использование фиктивной переменной. 4. Фиктивная зависимая переменная. Иногда фиктивные переменные могут быть использованы для объяснения поведения зависимой переменной. Например, если исследовать зависимость наличия автомобиля от дохода, пола и т.п., то зависимая переменная имеет два возможных значения: 0 – нет машины, 1 – есть. Если для моделей такого типа использовать обыкновенный МНК, то оценки не будут обладать свойствами наилучших линейных несмещенных оценок. Для определения коэффициентов используют другие методы (например, взвешенный МНК). Модель LPM. Рассмотрим модель, в которой зависимая переменная – фиктивная переменная. Объясняющие переменные могут быть и качественными, и количественными. Например, анализ наличия работы у субъекта в зависимости от возраста, образования, семейного положения, доходов остальных членов семьи и т.д. Или, исследование торгового баланса (отрицательный или положительный). Пусть , (*) где y – результат сдачи экзамена в ГАИ с 1-й попытки, x1- количество часов вождения в автошколе, x2 - средний процент выпускников, сдающих экзамен с 1-й попытки, D1- использование компьютерной методики обучения: Получим модель: . Модели такого вида называют линейными вероятностными моделями (LPM). Применимость МНК к таким моделям имеет определенные ограничения: 1. Случайные отклонения в таких моделях не являются нормальными случайными величинами. Скорее всего, они имеют биномиальное распределение (при оно сходится к нормальному закону). 2. Случайные отклонения не обладают свойством постоянства дисперсии (гомоскедастичности). 3. Использование модели (*) может привести к тому, что некоторые уi будут либо меньше нуля, либо больше 1. 4. Применение модели LPM затруднено с содержательной точки зрения (увеличение x на 1 ед. приводит к изменению y на величину вне зависимости от конкретного значения x и т.п.). Поэтому, непосредственное использование МНК в модели LPM приводит к серьезным погрешностям и необоснованным выводам, его использование не рекомендуется. Пример. Исследуется вопрос о наличии собственного дома Y () в зависимости от совокупного дохода семьи Х по выборке объема 40. семья y x 1 10 ВЫВОД ИТОГОВ 2 1 20 3 1 22 Регрессионная статистика 4 18 Множественный R 0,72763199 5 9 R-квадрат 0,52944831 6 15 Нормированный R-квадрат 0,51706537 7 1 25 Стандартная ошибка 0,35013012 8 1 30 Наблюдения 40 9 1 40 10 16 Дисперсионный анализ 11 12 df SS MS F Значимость F 12 8 Регрессия 1 5,241538247 5,241538247 42,75627105 1,04143E-07 13 1 20 Остаток 38 4,658461753 0,122591099 14 19 Итого 39 9,9 15 1 30 16 1 50 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% 17 1 37 Y-пересечение -0,1694268 0,123166627 -1,37559031 0,17700343 -0,418764617 0,079911 18 1 28 x 0,03022802 0,00462285 6,538827957 1,04143E-07 0,020869548 0,0395865 19 1 45 20 1 38 21 1 30 Оценим LPM модель, её качество и вероятность того, что при доходе, равном 18, семья имеет доход. 22 12 23 16 24 1 27 P (Y=1 / X=18) = 0,3746775 25 19 26 15 27 1 32 28 18 29 1 43 30 13 31 1 22 32 14 33 10 34 17 35 1 36 36 1 45 37 14 38 1 2 39 1 41 40 1 34 Logit модель. Для преодоления недостатков LPM-моделей необходимо использовать такие модели, в которых не будут, по крайней мере, нарушаться неравенства , и зависимость между и х не будет линейной, а будет удовлетворять закону убывающей эффективности. Поясним суть logit модели. По модели LPM (для одной переменной) Представим , где . Здесь можно заметить, что при , неравенство не нарушается никогда. Формула зависимости pi от xi не является линейной. Однако, pi не является линейной функцией от параметров и . Это значит, что для их определения неприменим МНК. Преодолеем эту проблему. . Отношение является отношением вероятностей, характеризующим во сколько раз больше, чем . Прологарифмировав, получим . (**) Модель (**) называют logit моделью, она напоминает полулогарифмическую модель. Однако, для её построения невозможно использовать обычный МНК, так как не неизвестными являются значения . Поэтому предварительно необходимо определить pi. Если имеется выборка по сгруппированным данным, то (относительная частота). В случае несгруппированных данных для определения pi используют метод максимального правдоподобия. И в этом случае использование обычного МНК нецелесообразно в силу проблемы гетероскедастичности. Поэтому при расчетах коэффициентов обычно применяют ВМНК, устраняющий этот недостаток. Пример. В таблице представлены данные о количестве семей N, имеющих определенный уровень дохода Х, и количестве семей n, имеющих частные дома. Оценить logit модель по МНК. Оценить logit модель по ВМНК, учитывая при этом, что дисперсии отклонений оцениваются по следующей формуле: ; . Сравните качество построенных регрессий. Составим таблицу Xi N n pi Zi a' X' Z' 10 35 5 0,142857 -1,79176 0,233333 0,483046 2,070197 20,70197 -3,70929 15 45 10 0,222222 -1,25276 0,128571 0,358569 2,788867 41,833 -3,49379 20 60 18 0,3 -0,8473 0,079365 0,281718 3,549648 70,99296 -3,00761 25 80 30 0,375 -0,51083 0,053333 0,23094 4,330127 108,2532 -2,21194 30 100 45 0,45 -0,20067 0,040404 0,201008 4,974937 149,2481 -0,99832 35 130 60 0,461538 -0,15415 0,030952 0,175933 5,683986 198,9395 -0,87619 40 90 55 0,611111 0,451985 0,046753 0,216225 4,624812 184,9925 2,090346 45 65 45 0,692308 0,81093 0,072222 0,268742 3,721042 167,4469 3,017505 50 50 38 0,76 1,15268 0,109649 0,331133 3,019934 150,9967 3,481016 55 30 24 0,8 1,386294 0,208333 0,456435 2,19089 120,499 3,037219 60 15 13 0,866667 1,871802 0,576923 0,759555 1,316561 78,99367 2,464342 ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,9956 R-квадрат 0,99122 Нормированный R-квадрат 0,990244 Стандартная ошибка 0,114177 Наблюдения 11 Дисперсионный анализ df SS MS F Значимость F Регрессия 1 13,24509 13,24509 1016,002 1,45E-10 Остаток 9 0,117328 0,013036 Итого 10 13,36241 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение -2,34572 0,08362 -28,0521 4,52E-10 -2,53488 -2,15655 Xi 0,0694 0,002177 31,87479 1,45E-10 0,064475 0,074326 ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,985839 R-квадрат 0,971879 Нормированный R-квадрат 0,857643 Стандартная ошибка 0,507898 Наблюдения 11 Дисперсионный анализ df SS MS F Значимость F Регрессия 2 80,23657 40,11829 155,5212 3,95E-07 Остаток 9 2,321642 0,25796 Итого 11 82,55822 Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Y-пересечение #Н/Д #Н/Д #Н/Д #Н/Д #Н/Д a' -2,28664 0,134015 -17,0626 3,67E-08 -2,5898 -1,98348 X' 0,067203 0,003817 17,6074 2,78E-08 0,058569 0,075837

Фиктивные переменные; модели ANOVA и ANCOVA

Тебе могут подойти лекции

Эконометрика

Спецификация переменных в уравнениях регрессии

Эконометрика

Эконометрика. Задачи и модели.

Эконометрическое моделирование. Регрессия. Гетероскедастичность.

Способ проверки остатков на случайный характер

Линейное уравнение множественной регрессии

Коэффициент корреляции

Экономико-математическая модель. Принятие решений в условиях риска

Понятие структуры явления и ее виды

Фиктивные переменные; модели ANOVA и ANCOVA

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ