Справочник от Автор24
Поделись лекцией за скидку на Автор24

Фиктивные переменные

  • 👀 525 просмотров
  • 📌 458 загрузок
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Фиктивные переменные» pdf
Фиктивные переменные Термин "фиктивные", присутствующий в заголовке раздела, является устоявшимся неудачным переводом английского слова "dummy", имеющего смысл: ненастоящий, поддельный, манекен. Из-за этого часто складывается неверное впечатление о незначительности "фиктивных переменных", хотя на самом деле они представляют собой простой и чрезвычайно эффективный инструмент включения в регрессионные модели качественных (не измеряющихся количественно) факторов и проверки сложных гипотез. Примерами таких факторов могут служить сезон года (зима, весна, лето, осень), пол (мужской, женский), цвет (черный, белый, другой), уровень образования (начальный, средний, высший) и т.д. Каким образом исследователь может прийти к выводу о необходимости включения в модель качественного фактора? Здесь возможны две ситуации: в первой исследователю точно известно, что имеется качественный фактор, оказывающий влияние на зависимую переменную и требуется только оценить степень этого влияния; во второй – ему ничего неизвестно или он только догадывается о возможном влиянии такого фактора и требуется это проверить. Причиной, по которой исследователь может "заподозрить" существование некоторого качественного фактора, влияющего на зависимую переменную, может послужить анализ диаграммы рассеяния. На рис. 1 представлены типичные варианты диаграмм рассеяния, когда на зависимую переменную Y вместе с количественным фактором X оказывает влияние качественный фактор. На диаграммах имеются хорошо заметные глазу "излом" и "расслоение" данных. Именно по наличию таких характерных признаков исследователь может прийти к выводу о влиянии качественного фактора на зависимую переменную. Более детальный анализ диаграммы рассеяния может подсказать исследователю способ включения качественного фактора в регрессионную модель. Так на четырех диаграммах рис. 1 демонстрируются две ситуации, отличающиеся типом воздействия качественного фактора на зависимую переменную: в первом случае качественный фактор приводит только к параллельному смещению переменной Y в большую или меньшую сторону, не оказывая при этом никакого воздействия на характер ее связи с фактором X (наклон прямой не меняется); во втором случае одновременно с параллель- 1 ным сдвигом зависимой переменной меняется и характер ее связи с переменной X (наклон прямой меняется). Параллельное смещение Y Y X X а) б) Параллельное смещение и изменение наклона Y Y X X г) в) Рис. 1. Характерный вид диаграммы рассеяния, когда на зависимую переменную оказывает влияние качественный фактор Рассмотрим простую ситуацию, когда на зависимую переменную Y действуют один количественный фактор X и один качественный фактор, принимающий два различных значения. Требуется построить модель зависимости Y от этих факторов. Введем фиктивную переменную Z следующим образом 0, если качественный фактор принял 1 − ое значение Z = (1) 1, если качественный фатор принял 2 − ое значение Теперь, если анализ диаграммы рассеяния показал, что имеет место параллельное смещение, будем оценивать параметры модели Y = β 0 + β1 X + β 2 Z + ε . (2) 2 Это уравнение, когда качественный фактор принимает свое первое значение (фиктивная переменная Z = 0 ), имеет вид обычной регрессии Y на константу и переменную X Y = β 0 + β1 X + ε , (3) а когда фактор принимает свое второе значение (фиктивная переменная Z = 1 ), у модели меняется только коэффициент сноса Y = β 0 + β1 X + β 2 + ε = ( β 0 + β 2 ) + β1 X + ε . (4) Если же анализ диаграммы рассеяния показал, что имеет место одновременный сдвиг и изменение наклона, то оценивать следует параметры регрессионного уравнения Y = β 0 + β1 X + β 2 Z + β 3 Z X + ε , (5) т.к. в этом случае, когда качественный фактор принимает свое первое значение (фиктивная переменная Z = 0 ), по-прежнему имеем обычную регрессионную модель (3), а когда фактор принимает свое второе значение (фиктивная переменная Z = 1 ), получаем уравнение с измененными коэффициентами сноса и наклона Y = ( β 0 + β 2 ) + ( β1 + β 3 ) X + ε . (6) В общем случае, когда качественный фактор принимает m различных значений, необходимо ввести m − 1 (на единицу меньше числа возможных значений) фиктивную переменную по следующему правилу: i–ая фиктивная переменная равна 1, если качественный фактор принял свое i–ое значение, в противном случае 0. Замечание 1. При таком способе построения значению качественного фактора с номером m соответствует ситуация, когда все фиктивные переменные одновременно равны нулю и никакой "потери" информации, как может показаться на первый взгляд, не происходит. Более того, если ввести в модель m фиктивных переменных, то матрица системы нормальных уравнений окажется вырожденной и система не будет иметь решения. Такая ситуация даже получила свое название в англоязычной литературе "dummy trap", что дословно можно перевести как "ловушка фиктивных переменных". Замечание 2. Выбор 0 и 1 в качестве значений фиктивных переменных не является единственным и обусловлен исключительно удобством дальнейшей интерпретации результатов. Вернемся к примеру с автомобилями Toyota Corolla. При внимательном рассмотрении диаграммы рассеяния хорошо видно, что наклон графика цены у автомобилей старше 11 лет (на 2008 год) не такой как у более новых автомобилей. Возникает вопрос: это случайное отклонение или закономерное, обусловленное какими-то 3 объективными причинами, произошедшими 11 лет назад в 1997 году? Вот, что по этому поводу пишут на сайте "Toyota Клуб Россия" в разделе, посвященном истории развития модели Toyota Corolla1: Дебют Короллы 8-го поколения состоялся в мае 1997 года... Это поколение короллы настолько пришлось по вкусу покупателям, что в 1997 году заслужило звание "Автомобиль года" в Европе… Новое поколение получило в наследство от предшественницы силовой каркас кузова, который обзавелся принципиально новыми кузовными панелями. Благодаря новым овальным, чуть выпуклым фарам и трапециевидной решетке радиатора в сеточку, 110-я Королла впервые перестала быть безликой и стала выгодно выделяться среди одноклассников. Таким образом, автомобили 12 летнего возраста и старше отличаются от своих "молодых собратьев" по крайней мере дизайном и, возможно, именно это является причиной излома графика цены. Чтобы проверить эту гипотезу создадим фиктивную переменную 1, если возраст автомобил я > 11 лет Z = (7) 0, если возраст автомобил я ≤ 11 лет и введем ее в модель так, чтобы учесть возможные сдвиг и изменение наклона прямой зависимости цены от возраста. Для этого добавьте столбцы Z и Z*X: 1 http://www.toyota-russia.ru/faq_models/corolla/history_corolla.htm 4 Результаты моделирования представлены на рис. 2 и рис. 3. Пусть Y – цена подержанного автомобиля, X – его возраст, Z – фиктивная переменная, определенная по формуле (7). Оценив по методу наименьших квадратов неизвестные параметры регрессионного уравнения Y = β0 + β1X + β2Z + β 3 ZX + ε, получим следующие результаты: • оценка неизвестного параметра β0 = 559.73; • оценка неизвестного параметра β1 = -36.21; • оценка неизвестного параметра β2 = -257.03; • оценка неизвестного параметра β3 = 24.07; • значения t-статистик оценок равны соответственно 97.72, -36.56, -8.5 и 11.49, превосходят по модулю критическое значение статистики Стьюдента 5% и 1% уровня значимости (1.96 и 2.59 соответственно), что свидетельствует о значимости параметров (основная гипотеза о равенстве параметров нулю отклоняется); • значение скорректированного коэффициента детерминации R2 = 0.91. Рис. 2. Результаты построения регрессии цены подержанного автомобиля на его возраст и константу с учетом качественного фактора Цена (тыс. руб.) 800 700 Цена 600 Прогноз 500 400 300 200 100 5 10 15 20 25 Возраст Рис. 3. Диаграмма рассеяния цен на подержанные автомобили Toyota Corolla в зависимости от возраста с нанесенными на нее прогнозными точками Сравнивая полученные результаты с первоначальными результатами (парной линейной и логарифмической), приходим к выводу, что модель стала лучше. В первую очередь об этом свидетельствуют значимость всех коэффициентов уравнения и более высокое значение коэффициента детерминации. Во-вторых, в модели отсутствуют недостатки первой модели: систематическое завышение цены у ав- 5 томобилей 9–12 возраста и отрицательные значения прогноза цен автомобилей старше 19 лет. Значимость коэффициентов уравнения также подтверждает предположение о влиянии типа кузова на стоимость автомобиля (по крайней мере, данные не отвергают эту гипотезу). Для автомобилей с новым кузовом, выпущенных после 1997 года, уравнение для определения прогноза цены имеет вид Yˆ = 559.73 − 36.21X , (8) т.е. при прочих равных условиях цена автомобиля с новым кузовом каждый год снижается в среднем на 36210 рублей, а для автомобилей, выпущенных до 1997 года, уравнение принимает вид Yˆ = (559.73 − 257.03) + (−36.21 + 24.07) X = 302.7 − 12.14 X , (9) и, следовательно, при прочих равных условиях цена автомобиля с каждым годом снижается в среднем на 12140 рублей. Рассмотренный пример наглядно демонстрирует, как с помощью фиктивных переменных можно вводить в регрессионные модели качественные факторы и оценивать их влияние на зависимую переменную. 6 Анализ остатков Анализ остатков – это простой, математически нестрогий, но в то же время очень эффективный графический метод проверки соответствия построенной регрессионной модели предпосылкам теоремы Гаусса-Маркова. Идею метода рассмотрим на простом примере модели парной линейной регрессии (10) Y =α + βX +ε , где α и β – неизвестные коэффициенты, ε – случайная составляющая. Пусть a и b – оценки неизвестных коэффициентов α и β соответственно. Тогда выражение для прогноза зависимой переменной имеет вид Yˆ = a + bX . (11) Разность между истинным значением зависимой переменной и ее прогнозом называется ошибкой прогноза или остатком e = Y − Yˆ . (12) Подставляя (11) в (12) и выражая из него Y , получим Y = a + bX + e . (13) Сравнивая выражения (10) и (13), замечаем, что если a – это оценка неизвестного параметра α , b – оценка неизвестного параметра β , то по аналогии величина e должна играть роль оценки ненаблюдаемой случайной составляющей ε . Теорема Гаусса-Маркова, утверждающая, что МНК-оценки неизвестных параметров являются наилучшими в классе всех линейных несмещенных оценок, имеет следующие две предпосылки относительно случайной составляющей: • для всех наблюдений E (ε ) = 0 (отсутствие систематического смещения); • для всех наблюдений V (ε ) = σ 2 (свойство гомоскедастичности). Следовательно, если построенная модель "хорошая" и указанные предпосылки теоремы Гаусса-Маркова выполняются, то остатки должны демонстрировать такое же поведение, а именно: иметь нулевое среднее и постоянную дисперсию. Если же наблюдается другое поведение остатков, то для исследователя это повод пересмотреть свои предположения относительно моделируемого явления и соответствующим образом изменить спецификацию модели. 7 График остатков – это график, у которого по оси абсцисс могут откладываться номер наблюдения, значения одной из объясняющих переменных, объясняемая переменная или ее прогноз, а по оси ординат – соответствующие значения остатков. Таким образом, для одной модели может строиться и анализироваться множество графиков. Так, например, для модели парной линейной регрессии (10) можно построить три графика: • график зависимости остатков от номера наблюдения, • график зависимости остатков от значения фактора X , • график зависимости остатков от значений зависимой переменной Y . Типичный вид графика остатков в "хорошей" регрессионной модели изображен на рис. 4. На графике видно, что остатки равномерно лежат вдоль оси абсцисс, формируя горизонтальную "полосу". Такой вид графика говорит об отсутствии каких-либо нарушений предпосылок теоремы Гаусса-Маркова. На рис. 5 изображены графики остатков, когда предпосылки теоремы Гаусса-Маркова нарушаются. e Рис. 4. Характерный график остатков регрессионной модели при выполнении предпосылок теоремы Гаусса-Маркова Графики остатков помогают исследователю, не только обнаружить факт нарушения предпосылок теоремы Гаусса-Маркова, но и указывают на проблемную переменную – ту, значения которой отложены по оси абсцисс. Более того, вид графика остатков может подсказать способ решения проблемы. Так на рис. 5 а) изображен график остатков в ситуации, когда имеет место гетероскедастичность (непостоянство дисперсии случайной составляющей). Для устранения последствий этого явления можно применить метод взвешенных наименьших квадратов или перейти от абсолютных значений исходного фактора к его средневзвешенным показателям. 8 На рис. 5 б) показана ситуация, когда на зависимую переменную оказывает влияние качественный фактор. В этом случае исследователю требуется дополнительно проанализировать моделируемую ситуацию, найти этот фактор и учесть его в модели с помощью фиктивных переменных. На рис. 5 в) и г) показаны ситуации, когда влияние фактора на зависимую переменную носит нелинейный характер. В этом случае необходимо пересмотреть спецификацию модели, произвести нелинейные преобразования исходных переменных или добавить в регрессионное уравнение слагаемые с более высокими показателями степени. e e а) б) e e в) г) Рис. 5. Характерный вид графиков остатков регрессионной модели при нарушении предпосылок теоремы Гаусса-Маркова Вернемся к примеру с автомобилями Toyota Corolla. Для каждой из рассмотренных ранее моделей построим и сравним графики остатков в зависимости от возраста (рис. 6) и прогноза цены (рис. 7). 9 250 200 Ошибка прогноза 150 100 50 -50 5 10 15 20 25 20 25 20 25 -100 -150 -200 -250 Возраст а) Линейная модель 2 1,5 Ошибка прогноза 1 0,5 5 10 15 -0,5 -1 -1,5 -2 Возраст б) Левая логарифмическая модель 250 200 Ошибка прогноза 150 100 50 -50 5 10 15 -100 -150 -200 -250 Возраст в) Линейная модель с фиктивной переменной Рис. 6. Графики зависимости остатков от возраста 10 250 200 Ошибка прогноза 150 100 50 -200 -100 -50 100 200 300 400 500 600 -100 -150 -200 -250 Прогноз цены а) Линейная модель 2 1,5 Ошибка прогноза 1 0,5 100 200 300 400 500 600 700 -0,5 -1 -1,5 -2 Прогноз цены б) Левая логарифмическая модель 250 200 Ошибка прогноза 150 100 50 -50 100 200 300 400 500 -100 -150 -200 -250 Прогноз цены в) Линейная модель с фиктивной переменной Рис. 7. Графики зависимости остатков от прогноза цены 11 600 Сравнительный анализ графиков позволяет сделать вывод, что наилучшей из трех рассмотренных моделей является последняя (с фиктивной переменной), т.к. на графиках остатков только этой модели наблюдается относительно равномерное расположение остатков вокруг нуля. Графики остатков двух других моделей имеют хорошо заметные изгибы и изломы, свидетельствующие об их неадекватности. Но даже модель с фиктивной переменной нельзя признать в полной мере удовлетворительной, т.к. ее графики остатков по своему виду похожи на график рис. 5 а), т.е. свидетельствуют о гетероскедастичности модели. Признаки "хорошей" регрессионной модели Заканчивая данный раздел, перечислим признаки, обладая которыми регрессионная модель может считаться "хорошей": • значение коэффициента детерминации близко к единице; • все коэффициенты, входящие в регрессионное уравнение, являются значимыми на принятом исследователем уровне значимости; • графики остатков имеют "правильный" вид. Наличие перечисленных свойств, дает исследователю уверенность в том, что • модель в целом "хорошо" согласуется с исходными данными; • он "хорошо" понимает ситуацию и включил в модель факторы, действительно влияющие на зависимую переменную; • выполнены предпосылки теоремы Гаусса-Маркова относительно свойств случайной составляющей (нулевое математическое ожидание, постоянная дисперсия). К сожалению, наличие у модели перечисленных свойств не всегда свидетельствует об ее адекватности, поэтому исследователю рекомендуется также обратить внимание на следующее: • знаки коэффициентов должны согласовываться с представлениями исследователя о моделируемом явлении; • если имеется какая-то априорная информация о соотношении влияющих на зависимую переменную факторов, в построенной модели это соотношение должно также выполняться; • при числе факторов больше двух судить о качестве подгонки регрессионного уравнения под исходные данные следует по значению скорректированного коэффициента детерминации; • нельзя использовать коэффициент детерминации для сравнения качества моделей с различными левыми частями. 12
«Фиктивные переменные» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ
Получи помощь с рефератом от ИИ-шки
ИИ ответит за 2 минуты

Тебе могут подойти лекции

Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot