Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Тема 5. Регрессионные модели с переменной структурой
(фиктивные переменные).
Вопросы:
1. Понятие регрессионных моделей с неоднородными данными.
2. Введение в регрессионную модель фиктивных переменных.
3. Множественные совокупности фиктивных переменных.
4. Фиктивные переменные для коэффициентов наклона.
Вопрос 1. Понятие регрессионных моделей с неоднородными данными.
Термин “фиктивные переменные” используется как противоположность “значащим” переменным, показывающим уровень количественного показателя, принимающего значения из непрерывного интервала. Как правило, фиктивная переменная — это индикаторная переменная, отражающая качественную характеристику. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В литературе можно встретить термины «структурные переменные» или «искусственные переменные»
Например, в результате опроса группы людей 0 может означать, что опрашиваемый — мужчина, а 1 — женщина. К фиктивным переменным иногда относят регрессор, состоящий из одних единиц (т.е. константу, свободный член), а также временной тренд.
Вопрос 2. Введение в регрессионную модель фиктивных переменных.
До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными.
Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе от цены. В общем виде для совокупности обследуемых уравнение регрессии имеет вид:
,
где – количество потребляемого кофе; – цена.
Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: и женского пола: .
Различия в потреблении кофе проявятся в различии средних и . Вместе с тем сила влияния на может быть одинаковой, т.е. . В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединяя уравнения и и, вводя фиктивные переменные, можно прийти к следующему выражению:
,
где и – фиктивные переменные, принимающие значения:
В общем уравнении регрессии зависимая переменная рассматривается как функция не только цены но и пола . Переменная рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда , то , и наоборот.
Для лиц мужского пола, когда и , объединенное уравнение регрессии составит: , а для лиц женского пола, когда и : . Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии: . Параметр является общим для всей совокупности лиц, как для мужчин, так и для женщин.
Однако при введении двух фиктивных переменных и в модель применение МНК для оценивания параметров и приведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение примет вид
.
Предполагая при параметре независимую переменную, равную 1, имеем следующую матрицу исходных данных:
.
В рассматриваемой матрице существует линейная зависимость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего столбцов. Поэтому матрица исходных факторов вырождена. Выходом из создавшегося затруднения может явиться переход к уравнениям
или
,
т.е. каждое уравнение включает только одну фиктивную переменную или .
Предположим, что определено уравнение
,
где принимает значения 1 для мужчин и 0 для женщин.
Теоретические значения размера потребления кофе для мужчин будут получены из уравнения
.
Для женщин соответствующие значения получим из уравнения
.
Сопоставляя эти результаты, видим, что различия в уровне потребления мужчин и женщин состоят в различии свободных членов данных уравнений: – для женщин и – для мужчин.
Теперь качественный фактор принимает только два состояния, которым соответствуют значения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.
Фиктивные переменные позволяют строить и оценивать кусочно-линейные модели, которые можно применять для исследования структурных изменений.
Пусть, например, мы исследуем зависимость выпуска продукции Y от размера основного фонда предприятия хt. При этом есть основания считать, что в момент времени t0 произошла структурная перестройка и характер зависимости изменился.
Чтобы оценить такую модель введем бинарную переменную
и запишем нашу модель в виде:
При t ≤ t0 линия регрессии имеет наклон , при t > t0 наклон равен и разрыва в точке xt не происходит. При приходим к выводу, что в момент t0 структурного изменения не происходит.
Вопрос 3. Множественные совокупности фиктивных переменных
В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т.е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выражение (цена, доход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитываются и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по полу, национальному составу и др. При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три социальные группы, три возрастные категории и ряд экономических переменных, то она примет вид:
,
где – потребление;
– экономические (количественные) переменные.
До сих пор мы рассматривали фиктивные переменные как факторы, которые используются в регрессионной модели наряду с количественными переменными. Вместе с тем возможна регрессия только на фиктивных переменных. Например, изучается дифференциация заработной платы рабочих высокой квалификации по регионам страны. Модель заработной платы может иметь вид:
,
где – средняя заработная плата рабочих высокой квалификации по отдельным предприятиям;
………………………………………………………………………..
Поскольку последний район, указанный в модели, обозначен , то в исследование включено район.
Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак, т.е. признак, который может принимать только два значения, играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 – во всех остальных случаях. Модель такой зависимой переменной имеет вид:
.
Модель является вероятностной линейной моделью. В ней принимает значения 1 и 0, которым соответствуют вероятности и . Поэтому при решении модели находят оценку условной вероятности события при фиксированных значениях . Для оценки параметров линейно-вероятностной модели применяются методы Logit-, Probit- и Tobit-анализа. Такого рода модели используют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив. Зависимая переменная представлена дискретными значениями (набор альтернатив), объясняющие переменные – характеристики альтернатив (время, цена), – характеристики индивидов (возраст, доход, уровень образования). Модель такого рода позволяет предсказать долю индивидов в генеральной совокупности, которые выбирают данную альтернативу.
В регрессионных моделях с временными рядами используется три основных вида фиктивных переменных:
1) Переменные-индикаторы принадлежности наблюдения к определенному периоду — для моделирования скачкообразных структурных сдвигов. Границы периода (моменты “скачков”) должны быть установлены из априорных соображений. Например, 1, если наблюдение принадлежит периоду 1941-45 гг. и 0 в противном случае. Это пример использования для моделирования временного структурного сдвига. Постоянный структурный сдвиг моделируется переменной равной 0 до определенного момента времени и 1 для всех наблюдений после этого момента времени.
2) Сезонные переменные — для моделирования сезонности. Сезонные переменные принимают разные значения в зависимости от того, какому месяцу или кварталу года или какому дню недели соответствует наблюдение.
Например, модель потребления, учитывающая сезонные колебания.
у = b0 + b1x1 + b2x2 + b3x3,
для зимних месяцев
иначе
для весенних месяцев
иначе
для летних месяцев
иначе
Следует отметить, что вводить четвертую переменную х4 для осенних месяцев не требуется, т.к. в этом случае все переменные оказались бы связанными тождеством
Xi +Х2+Хз+Х4= 1,
что привело бы их к полной коллинеарности и вырожденности информационной матрицы .
Для осенних месяцев коэффициенты b1, b2, b3 равны нулю и объем потребления составляет Y= b0
Для зимних месяцев: Y=b0 + b1,
Для весенних месяцев: Y=b0 + b2,
Для летних месяцев: Y=b0 + b3.
При этом, если в результате регрессионного анализа окажется, что b3 = 0, это означает, что между летними и осенними сезонами различие в потреблении несущественно. При b1 = b2 отсутствует различие между потреблением зимой и весной и т.д.
3) Линейный временной тренд — для моделирования постепенных плавных структурных сдвигов. Эта фиктивная переменная показывает, какой промежуток времени прошел от некоторого “нулевого” момента времени до того момента, к которому относится данное наблюдение (координаты данного наблюдения на временной шкале). Если промежутки времени между последовательными наблюдениями одинаковы, то временной тренд можно составить из номеров наблюдений.
Временной тренд отличается от бинарных фиктивных переменных тем, что имеет смысл использовать его степени: t2 , t3 и т. д. Они помогают моделировать гладкий, но нелинейный тренд. (Бинарную переменную нет смысла возводить в степень, потому что в результате получится та же самая переменная.)
Можно также комбинировать указанные виды фиктивных переменных, создавая переменные “взаимодействия” соответствующих эффектов.
Комбинация рассмотренных фиктивных переменных позволяет моделировать еще один эффект — изменение наклона тренда с определенного момента. Помимо тренда в регрессию следует тогда ввести следующую переменную: в начале выборки до некоторого момента времени она равна 0, а вторая ее часть представляет собой временной тренд (1, 2, 3 и т. д. в случае одинаковых интервалов между наблюдениями).
Вопрос 4. Фиктивные переменные для коэффициентов наклона.
Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная рассматривается как функция ряда экономических факторов и фиктивных переменных . Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т.е. в результате неоднородной структуры пространственного или временного характера.
Использование фиктивных переменных имеет следующие преимущества:
1) Интервалы между наблюдениями не обязательно должны быть одинаковыми. В выборке могут быть пропущенные наблюдения.
2) Коэффициенты при фиктивных переменных легко интерпретировать, они наглядно представляют структуру динамического процесса.
3) Для оценивания модели не приходится выходить за рамки классического метода наименьших квадратов.
Сопоставляя частные уравнения регрессии, видим, что эти уравнения регрессии отличаются значениями свободного члена, а соответствующие линии регрессии параллельны (см. рис.). График частного уравнения регрессии для мужчин будет располагаться выше, чем график частного уравнения регрессии для женщин.