Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Некоторые особенности при изучении многомерной регрессии
Мультиколлинеарность
На практике исследователю нередко приходится сталкиваться с ситуацией, когда полученная им регрессия является «плохой», т.е. t – статистики
критерия Стьюдента большинства оценок малы, что свидетельствует о незначимости соответствующих независимых переменных (регрессоров). В то
же время F – статистика критерия Фишера может быть достаточно большой,
что говорит о значимости регрессии в целом. Одна из возможных причин такого явления носит название мультиколлинеарности и возникает при наличии высокой корреляции между регрессорами. Эта проблема является обычной для регрессий временных рядов, т.е. когда данные состоят из ряда
наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный тренд, то они будут тесно
коррелированы, и это может привести к мультиколлинеарности.
Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы исходных данных X или,
что эквивалентно, матрица X T X имеет полный ранг k ( rankX k , где k –
число оцениваемых параметров модели). Это предположение потребовалось,
чтобы обеспечить обратимость матрицы X T X , необходимую для вычисле1
ния МНК-оценок Bˆ X T X X T Y . При нарушении этого условия, т.е. когда
один из столбцов матрицы X есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить единственную МНК-оценку B̂ , что формально следует из вырожденности матрицы X T X и невозможности решить систему нормальных
уравнений.
В общем случае можно показать, что если rank X T X l k , то оценить можно только l линейных комбинаций исходных коэффициентов (так
называемых параметрических функций). Если есть полная коллинеарность,
то можно выделить в матрице X максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.
На практике полная коллинеарность (т.е. когда все или некоторые из
объясняющих переменных подчиняются точной (функциональной) линейной
связи) встречается исключительно редко (так как ее несложно избежать уже
на предварительной стадии анализа и отбора множества объясняющих переменных). Гораздо чаще приходится сталкиваться с ситуацией, когда матрица
X имеет полный ранг, но между регрессорами имеется высокая степень корреляции, т. е. когда матрица X T X , говоря нестрого, близка к вырожденной,
det X T X 0 . Тогда говорят о наличии мультиколлинеарности. В этом слу-
чае МНК-оценки формально существуют, но обладают «плохими» свойствами. Это нетрудно объяснить, используя геометрическую интерпретацию
МНК.
Реальная (или частичная) мультиколлинеарность возникает в случаях,
когда между объясняющими переменными существуют достаточно тесные
линейные статистические связи. Точных количественных критериев для
определения наличия или отсутствия мультиколлинеарности не существует.
Тем не менее, возможны некоторые рекомендации по ее выявлению.
1. В первую очередь анализируют матрицу парных коэффициентов
корреляции, точнее, ту ее часть, которая относится к объясняющим переменным. Считается, что если значения коэффициентов корреляции по абсолютной величине больше 0,75 – 0,80, то это свидетельствует о присутствии мультиколлинеарности.
2. Если det X T X оказывается близким к нулю (допустим, одного порядка с накапливающимися ошибками вычислений), то это тоже свидетельствует о наличии мультиколлинеарности.
3. О присутствии явления мультиколлинеарности говорят и некоторые
внешние признаки построенной модели, которые являются его следствием. К
ним в первую очередь следует отнести такие:
а) небольшое изменение исходных статистических данных (добавление
или изъятие небольшой порции наблюдений) приводит к существенному изменению оценок коэффициентов модели, вплоть до изменения их знаков;
б) оценки имеют большие стандартные ошибки, малую значимость, в
то время, как модель в целом является значимой (высокое значение коэффициента детерминации R 2 и соответствующей F -статистики);
в) оценки коэффициентов имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения.
Для преодоления явления линейной зависимости между факторами используют такие способы, как:
- исключение одного из коррелирующих факторов (из нескольких коррелирующих факторов исключают тот, который более коррелирует с остальными факторами – здесь применяют корреляционный анализ).
(Однако здесь есть ряд особенностей: во многих ситуациях удаление
каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, отбрасывание так называемых существенных переменных, т. е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, может привести к смещенности
МНК-оценок).
- переход с помощью линейного преобразования к новым некоррелирующим независимым переменным;
Переход к смещенным оценкам, имеющим меньшую дисперсию, так
называемые «ридж-регрессии». Такие преобразования увеличивают определитель матрицы системы нормальных уравнений и повышают устойчивость
результатов.
Фиктивные переменные
Независимые переменные в регрессионных моделях, как правило,
имеют «непрерывные» области изменения (национальный доход, уровень
безработицы, размер зарплаты и т. д.). Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во
внимание какой-либо качественный признак. Например, при исследовании
зависимости зарплаты от различных факторов может возникнуть вопрос,
влияет ли на ее размер и, если да, то в какой степени, наличие у работника
высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно
оценивать соответствующие уравнения внутри каждой категории, а затем
изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.
Пример 1. Пусть y (руб.) – заработная плата работника,
x x1 , x 2 , , x k T – набор объясняющих (независимых) переменных или количественных признаков, от которых может зависеть величина y (трудовой
стаж, категория оплаты и т. д.). В действительности, y и x j – это логарифмы
соответствующих характеристик, так как связь между заработной платой и
определяющими ее признаками имеет мультипликативный (степенной) характер. Логарифмирование степенной зависимости позволяет перейти к линейной аддитивной модели:
yi b1xi1 b2 xi 2 bk xik i , i 1,, n,
где yi – размер зарплаты i –го работника.
Теперь нам интересно включить в рассмотрение такой фактор, как
наличие или отсутствие у работника высшего образования. Введем новую,
бинарную, переменную d , полагая
если в i - том наблюдении человек
1,
di
имеет высшее образование;
0, в противном случае.
Рассмотрим новую систему
yi b1xi1 b2 xi 2 bk xik cdi i , i 1, , n
Таким образом, мы считаем, что средняя зарплата есть X T B (в матричном обозначении) при отсутствии высшего образования и X T B c – при
его наличии. Величина c интерпретируется как среднее изменение зарплаты
при переходе из одной категории (без высшего образования) в другую (с
высшим образованием) при неизменных значениях остальных параметров. К
рассматриваемой модели с фиктивной переменной можно применить МНК и
получить оценки соответствующих коэффициентов. Тестируя гипотезу
H 0 : c 0 , мы проверяем предположение о несущественном различии в зарплате между категориями.
Если нас интересует влияние наличия образования на рассматриваемые
факторы x x1 , x 2 , , x k T , то в модель вводят дополнительные слагаемые:
yi b1 xi1 ... bk xik cd i a1 xi1d i ... ak xik d i i ,
которые учитывают влияние фиктивной переменной на имеющиеся
факторы.
В англоязычной литературе по эконометрике переменные указанного
выше типа называются dummy variables («фиктивные» переменные). Однако,
надо понимать, что d i такая же «равноправная» переменная, как и любой из
регрессоров x j j 1,, k . Ее «фиктивность» состоит только в том, что она
количественным образом описывает качественный признак.
Качественное различие можно формализовать с помощью любой переменной, принимающей два значения, и не обязательно значения 0 или 1. Однако в эконометрической практике почти всегда используют лишь фиктивные переменные типа «0 – 1», поскольку в этом случае интерпретация выглядит наиболее просто. Если бы в рассмотренном выше примере переменная d
принимала значение, скажем, 5 для работника с высшим образованием и 2
для работника без высшего образования, то коэффициент при этом регрессоре равнялся бы трети среднего изменения зарплаты при получении высшего
образования.
Если включаемый в рассмотрение качественный признак имеет не два,
а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений. Но этого фактически никогда не делают, так как тогда трудно дать содержательную интерпретацию соответствующему коэффициенту. В этих случаях целесообразно использовать несколько бинарных или фиктивных переменных.
Типичным примером подобной ситуации является исследование сезонных колебаний.
Пример 2. Пусть, например, yi – объем потребления некоторого продукта в i –ый месяц, например, мороженого, и есть все основания считать,
что потребление зависит от времени года. Для выявления влияния сезонности
можно ввести три фиктивные переменные d1 , d 2 , d 3 :
1, если месяц i является зимним
di1
в остальных случаях;
0,
1, если месяц i является весенним
di 2
в остальных случаях;
0,
1, если месяц i является летним
di 3
в остальных случаях
0,
и оценивать уравнение
yi b0 b1d i1 b2 d i 2 b3d i 3 i .
Отметим, что мы не вводим четвертую переменную d 4 , относящуюся к
осени, иначе тогда для любого месяца i выполнялось бы тождество
d i1 d i 2 d i3 d i 4 1, что означало бы линейную зависимость регрессоров в
уравнении и, как следствие, невозможность получения МНК-оценок. Интерпретация коэффициентов здесь будет такой:
среднемесячный объем потребления для осенних месяцев – b̂0 ,
для зимних – bˆ bˆ , для весенних – bˆ bˆ , для летних – bˆ bˆ .
0
1
0
2
0
3
Таким образом, оценки коэффициентов b̂i , i 1,2,3 , показывают средние сезонные отклонения в объеме потребления по отношению к осенним
месяцам. Тестируя, например, стандартную гипотезу H 0 : b3 0 , мы проверяем предположение о несущественном различии в объеме потребления между
летним и осенним сезоном. Гипотеза H 0 : b1 b2 эквивалентна предположению об отсутствии различия в потреблении между зимой и весной и т. д.
Фиктивные переменные, несмотря на свою внешнюю простоту, являются весьма гибким инструментом при исследовании влияния качественных
признаков. Кроме этого фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно применять
для исследования структурных изменений.
Частная корреляция
Для многомерной регрессии значения коэффициентов корреляции
между y и каждой из независимых переменных x1 ,, xk , вообще говоря,
неоднозначны. Из парных коэффициентов корреляции можно составить матрицу парных коэффициентов корреляции и сделать вывод о наличии или отсутствии в построенной модели мультиколлинеарности факторов.
Высокое значение коэффициента корреляции между исследуемой зависимой и какой-либо независимой переменной может, как и раньше, означать
высокую степень зависимости, но может быть обусловлено и другой причиной. А именно, есть третья переменная, которая оказывает сильное влияние
на две первые, что и служит в конечном счете причиной их высокой коррелированности. Поэтому возникает естественная задача найти «чистую» корреляцию между двумя переменными, исключая (линейное) влияние других
факторов. Это можно сделать с помощью коэффициента частной корреляции.
Для простоты предположим, что имеется обычная двумерная регрессионная модель
Y b0 b1 X 1 b2 X 2 , где
Y – n 1 вектор наблюдений зависимой переменной, X 1 , X 2 – n 1
векторы независимых переменных, b0 , b1 , b2 – (скалярные) параметры, –
n 1 вектор ошибок. Наша цель – определить корреляцию между y и,
например, первым регрессором x1 после исключения влияния x 2 .
Соответствующая процедура устроена следующим образом:
1) осуществим регрессию Y на X 2 и константу и получим прогнозные
значения Yˆ ˆ1 ˆ 2 X 2 ;
2) осуществим регрессию X 1 на X 2 и константу и получим прогнозные
значения Xˆ 1 ˆ1 ˆ 2 X 2 ;
3) удалим влияние X 2 , взяв остатки eY Y Yˆ и e X 1 X 1 Xˆ 1 ;
4) определим (выборочный) коэффициент частной корреляции между
y и x1 при исключении влияния x 2 как (выборочный) коэффициент корреляции между eY и e X 1 :
ryx1
x2
reY ,eX .
1
Из свойств МНК следует, что остатки eY и e X 1 не коррелированы с
X 2 . Именно в этом смысле указанная процедура соответствует интуитивному представлению об «исключении» (линейного) влияния переменной x 2 .
Прямыми вычислениями можно показать, что справедлива следующая
формула, связывающая коэффициенты частной и обычной корреляции:
ryx1 ryx2 rx1x2
ryx1 x2
.
1 ryx2 2 1 rx21x2
Здесь значения частного коэффициента корреляции ryx1
x2
лежат в ин-
тервале 1,1 как у обычного коэффициента корреляции. Если ryx1 x 2 0 , то
говоря нестрого, это означает отсутствие прямого (линейного) влияния переменной x1 на y . Из таких коэффициентов можно составить матрицу частных
коэффициентов корреляции.
Частные коэффициенты корреляции ryx i / x j позволяют ранжировать
факторы по степени влияния на результативный признак и находят применение в процедуре отбора факторов для включения их в уравнение регрессии
(учитываются факторы, которым соответствуют значимые коэффициенты
частной корреляции).
Статистическая значимость коэффициентов частной корреляции определяется по аналогии с обычным коэффициентом корреляции, используя
критерий Стьюдента.
Существует тесная связь между коэффициентом частной корреляции
ryx1 x 2 и коэффициентом детерминации R 2 , а именно:
2
2
1 R 2 1 r yx
1 r yx
2
1
x2
.
Пример 3. Изучается зависимость выработки продукции на одного работника ( y – млн. руб.) от ввода в действие новых основных фондов x1 (коэффициент обновления основных фондов, %) и от удельного веса рабочих
высокой квалификации в общей численности рабочих x 2 (%). По результатам наблюдений с использованием компьютерных расчетов были обоснова-
ны гипотезы, лежащие в основе множественного регрессионного анализа. В
результате получено уравнение
yˆ 1,8353 0,9459 x1 0,0856 x2 .
Здесь bˆ 1,8353 оценивает агрегированное влияние прочих (кроме
x1 , x2 ) факторов на объясняемую переменную y ; b̂1 и b̂2 указывают, что с
увеличением x1 и x 2 на единицу их значений, результат увеличивается, соответственно, на 0,9459 млн. руб. и на 0,0856 млн. руб. Сравнивать эти значения не следует, т.к. они зависят от единиц измерения каждого признака и потому несопоставимы между собой.
Соответствующие t – статистики:
tbˆ 3,9, tbˆ 4,45, tbˆ 1,42. Так как t крит 2 3 ,
1
2
то b2 – статистически незначим, т.е. x 2 можно исключить из модели
как несущественно влияющий или неинформативный.
Значения линейных коэффициентов парной корреляции, представленные ниже в матрице парных коэффициентов, определяют тесноту парных зависимостей переменных, указанных в данном уравнении множественной регрессии.
Парная корреляция
y
x1
x2
y
x1
x2
1
0,9699
0,9699
1
0,9408
0,9428
0,9408
0,9428
1
ryx1 0,9699 и ryx2 0,9408 говорит о весьма тесной связи выработки
« y » как с коэффициентом обновления основных фондов – x1 , так и с долей
рабочих высокой квалификации – x 2 .
Межфакторная связь rx1 x 2 0,9428 весьма тесная и превышает тесноту
связи x 2 с y , ryx2 0,9408. Связь между x1 , x2 : rx1 x 2 0,9428, т.е. имеет место мультиколлинеарность факторов.
Ниже в матрице приведены линейные коэффициенты частной корреляции, которые оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии:
Частная корреляция
y
x1
x2
y
x1
x2
1
0,7335
0,7335
1
0,3247
0,3679
0,3247
0,3679
1
Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной
пары признаков с другими признаками, представленными в модели.
Наиболее тесно связаны y и x1 , ryx1 x2 0,7335, связь y с x 2 гораздо
слабее, т. к. ryx2 x1 0,3247 , а межфакторная зависимость x1 и x 2 выше, чем
парная частная y и x 2 , rx1x2 y 0,3679 > ryx2 x1 0,3247 . Все это приводит к
выводу о необходимости исключить фактор x 2 – доля высококвалифицированных рабочих – из правой части уравнения множественной регрессии.
Если сравнить коэффициенты парной и частной корреляции, то можно
увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи:
ryx1 0,9699 ~ ryx1 x 2 0,7335
ryx2 0,9408 ~ ryx2 x1 0,3247 .
Именно по этой причине рекомендуется при наличии сильной коллинеарности (мультиколлинеарности) факторов исключать из исследования тот
фактор, у которого теснота парной зависимости меньше, чем теснота меж 0,9408 0,9428
факторной связи
.
,
3247
,
3679
Множественная регрессия в нелинейных моделях
Линейные модели регрессии могут быть описаны как линейные в двух
отношениях: как линейные по переменным и как линейные по параметрам
или коэффициентам регрессии. Для линейного регрессионного анализа требуется линейность только по параметрам, так как нелинейность по переменным может быть устранена либо изменением определений, либо, если это
возможно, логарифмированием.
Например, зависимость
y b0 b1 x12 b2 x2
является линейной по неизвестным параметрам b0 , b1 , b2 и нелинейной по переменным x1 , x2 . Для определения МНК-оценок этих параметров можно воспользоваться стандартной формулой для множественной линейной модели,
имея в виду, что первый столбец матрицы X будет состоять из единиц, второй – из квадратов наблюдений над переменной x1 , а третий – из корней
квадратных из данных для переменной x 2 . Если случайная составляющая
удовлетворяет предпосылкам, лежащим в основе метода наименьших квадратов, то свойства МНК-оценок, полученных при этом, будут совпадать со
свойствами МНК-оценок параметров линейной модели.
Нелинейность по параметрам является более серьезной проблемой. Если,
однако, правая часть модели состоит из членов вида x b или e bx , умноженных
друг на друга, а случайная составляющая мультипликативна, то модель может быть линеаризована логарифмированием обеих ее частей.
Пример 4. Функция спроса
y axb1 p b2 ,
где y – расходы на товар, x – доход, p – относительная цена, а – случайная составляющая, может быть преобразована в линейную по параметрам
модель:
ln y ln a b1 ln x b2 ln p ln .
Если вы оцениваете регрессию между данными для ln y, ln x и ln p , то коэффициент при ln x будет непосредственной оценкой b1 – эластичности
спроса по доходу, а коэффициент при ln p будет оценкой b2 – эластичности
спроса по цене.
В случае нелинейных регрессий степень концентрации распределения
наблюдаемых точек вблизи линии регрессии показывает корреляционное отношение или индекс корреляции
n
yˆ i y
i 1
n
2
yi y
,
2
i 1
где ŷi – рассчитанные по модели значения переменной y , yi – фактические
1 n
или наблюдаемые значения этой переменной, y yi – среднее значение
n i 1
y , найденное по n наблюдениям, i 1,, n .
Из определения индекса корреляции следует, что 0 1. Если 1,
имеет место функциональная зависимость (все точки сосредоточены на кривой регрессии), если 0 , оцененная модель непригодна.
В отличие от линейного коэффициента корреляции индекс корреляции
характеризует тесноту нелинейной связи между переменными в соответствии
с той функциональной зависимостью, по которой рассчитаны значения ŷi .
Он не характеризует направление связи. Очевидно, что если значения ŷi рассчитаны по уравнению множественной линейной регрессии, значения индекса корреляции и линейного коэффициента корреляции по абсолютной величине совпадут.
Здесь также определяется коэффициент детерминации R 2 2 , интерпретация которого дается в процентах. Как и в случае линейной регрессии, ко-
эффициент детерминации показывает ту долю вариации переменной y , которая объяснена вариацией фактора x , включенного в уравнение регрессии.