Коэффициент корреляции
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Коэффициент корреляции
При проведении эконометрического исследования, как правило,
помимо построения уравнения регрессии, рассчитывают также показатели
тесноты связи между параметрами. Один из таких показателей –
коэффициент корреляции. Он измеряет тесноту линейной связи между
переменными.
Коэффициент корреляции между переменными х и y рассчитывается
по формуле:
rxy =
где
Cov ( x , y ) =
Cov( x , y)
,
σ ( x )σ ( y )
1 m
∑ ( x i − x )( y i − y) = xy − x * y
m i=1
-
коэффициент
ковариации между этими переменными;
m – число наблюдений;
x1, x2, … xm; y1, y2, … ym – значения переменных;
1 m
1 m
1 m
x = ∑ x i , y = ∑ y i , xy = ∑ x i y i - средние значения x, y и xy;
m i=1
m i =1
m i =1
σ(x ) =
1 m
(x i − x )2 , σ(y ) =
∑
m i=1
(
)
2
1 m
y
−
y
∑ i
m i=1
среднеквадратические
(стандартные) отклонения значений переменных (СКО).
2
2
При этом Cov (x,x) = σ ( x ) а Cov (y,y) = σ ( y) , т.е. ковариация
переменной с самой собой равна ее дисперсии. Поэтому корреляция признака
с самим собой всегда равна единице.
Коэффициент корреляции может принимать значения в диапазоне от
-1 (отрицательная корреляция) до 1 (положительная корреляция). Чем ближе
он по модулю к единице, тем теснее линейная связь. Если модуль равен 1, то
связь функциональная (т.е. нет случайных отклонений). Если его значение
приближается к нулю, линейная связь между переменными отсутствует.
Отметим, что коэффициент корреляции может равняться нулю тогда и только
тогда, когда ковариация признаков равна нулю (это следует из формулы
(1.4)): rxy = 0 ⇔ Cov( x, y) = 0 .
Поскольку в числителе и знаменателе формулы находятся величины,
измеряемые в одних и тех же единицах измерения (перемножаются единицы
измерения показателей), коэффициент корреляции является величиной
безразмерной.
Существуют
и
другие
формулы
для
расчета
коэффициента
корреляции, которые дают тот же результат.
Для измерения тесноты связи используется также коэффициент
детерминации,
который
представляет
собой
квадрат
коэффициента
корреляции и будет впоследствии рассмотрен более подробно. Отметим
только, что этот коэффициент изменяется от 0 до 1, и чем он ближе к
единице, тем связь теснее.
Отбор факторов, включаемых в модель множественной регрессии
Методы отбора факторов. При построении моделей множественной
регрессии
одним
из
важнейших
этапов
является
отбор
факторов,
воздействующих на результирующий признак. Обычно он происходит в два
этапа:
I. Содержательный анализ факторов. Выделяют те факторы, которые
существенно влияют на результат.
II. Расчет количественных оценок, позволяющих оценить влияние
факторов на результат и друг на друга. На их сновании проводится
окончательный отбор факторов. Здесь могут использоваться различные
методы отбора факторов, например:
а) использование парных коэффициентов корреляции;
б) использование парных частных коэффициентов корреляции;
в) расчет вкладов факторов в объясненную дисперсию;
г) и т.п.
Рассмотрим более подробно использование парных коэффициентов
корреляции.
Матрица парных коэффициентов линейной корреляции. Пусть в
модели множественной регрессии предполагается использовать n признаковфакторов x1, x2, …, xn , а y – результативный признак. Тогда для этих
переменных может быть построена матрица парных коэффициентов
линейной корреляции, или корреляционная матрицу, которая по своей сути
представляет совокупность коэффициентов корреляции между всеми
возможными парами признаков:
y
y 1
x1 rx1y
x 2 rx 2 y
... ...
x n rx n y
x1
x2
rx1y
1
rx1x 2
...
rx1x n
rx 2 y
rx1x 2
1
...
rx 2x n
... x n
... rx n y
... rx1x n
... rx 2x n
... ...
... 1
Эта матрица всегда симметрична относительно главной диагонали, а
члены матрицы, стоящие на этой диагонали, равны 1, поскольку
представляют собой корреляцию признака с самим собой.
Анализ корреляционной матрицы позволяет выявить факторы, тесно
связанные между собой, т.е. коллинеарные.
Коллинеарность факторов – это тесная линейная связь между двумя
факторами. Считается, что переменные явно коллинеарны, если коэффициент
корреляции между ними по модулю превышает 0,7 .
При наличии коллинеарных признаков один из них нужно исключить
из модели, чтобы между оставшимися факторами не было тесных связей.
Разумеется, здесь речь идет именно о связи между признаками-факторами x1,
x2, …, xn. Коэффициенты корреляции между результатом y и факторами x1,
x2, …, xn должны быть как можно ближе к единице по модулю, т.е. связь
между ними должна быть тесной.
Мультиколлинеарность факторов – это тесная линейная связь между
несколькими переменными, коллинеарность многих факторов.
По парным коэффициентам корреляции можно заметить лишь явную
коллинеарность факторов. Чтобы оценить мультиколлинеарность всех
факторов,
имеет
смысл
построить
матрицу
парных
коэффициентов
корреляции между факторами (матрицу межфакторной корреляции) и
рассчитать ее определитель. Эта матрица может быть легко получена из
корреляционной
матрицы
вычеркиванием первых
строки и
столбца
(соответствующих признаку-результату).
Очевидно, что новая матрица в случае полного отсутствия корреляции
между факторами будет единичной матрицей (все недиагональные элементы
равнялись бы нулю), и ее определитель равнялся бы единице. В
противоположном случае, т.е. если бы между факторами была полная линейная зависимость, все элементы новой матрицы равнялись бы 1, и ее
определитель был бы равен 0. Таким образом, чем ближе определитель такой
матрицы к нулю, тем сильнее мультиколлинеарность факторов.
Мультиколлинеарность
факторов
отрицательно
сказывается
на
качестве модели, поскольку:
1) из-за связи между факторами затрудняется оценка влияния
отдельных факторов на результат, что затрудняет интерпретацию параметров
регрессии,
2) может привести к включению в модель лишних параметров;
3) уменьшается точность оценок коэффициентов регрессии, растет
дисперсия оценок и стандартные ошибки;
4) завышается коэффициент множественной корреляции (см. далее).
Требованиям к факторам, включаемым в модель множественной
регрессии.
Таким
образом,
основными
требованиями
к
факторам,
включаемым в модель множественной регрессии, являются следующие:
1) их существенное влияние на результативный признак;
2) отсутствие мультиколлинеарности;
3) количественная измеримость факторов. Если в модель включается
качественный фактор, для него необходимо разработать количественную
шкалу измерения, например, балльную, либо использовать фиктивные
переменные (см. далее).
Коэффициент множественной корреляции. Тесноту линейной связи
между результатом и всеми признаками-факторами можно измерить с
помощью множественного коэффициента корреляции, который для линейной
модели можно рассчитать по формуле:
R yx1x 2 ... x n = 1 −
где
∆м.п.к.к.
–
определитель
∆ м .п . к .к .
,
∆ м .м − ф.к .
матрицы
парных
коэффициентов
корреляции;
∆м.м-ф.к. – определитель матрицы межфакторной корреляции.
Этот показатель будет более подробно рассмотрен в дальнейшем при
изучении оценки качества модели.
Фиктивные переменные
Обычно в качестве признаков-факторов выступают переменные,
принимающие количественные значения. Однако иногда бывает необходимо
включить
в
модель
качественные
факторы,
номинальной шкале (шкале наименований).
обычно
измеряемые
Это может быть
в
пол, род
занятий, образование, сезон и т.п. В шкале наименований нельзя производить
арифметические действия, и задано только отношение тождества (объект
либо принадлежит некоторому множеству, либо нет).
Помимо номинальной шкалы, существуют также другие виды шкал, в
которых можно осуществлять далеко не все вычисления (например,
порядковая шкала, на которой заданы только отношения тождества и
больше-меньше; шкала разностей, на которой можно вычитать и складывать,
но умножать и делить нельзя и т.п.). Факторы, измеряемые в этих шкалах,
тоже могут включаться в эконометрическую модель.
Чтобы ввести такие переменные в модель, необходимо поставить им в
соответствие некоторые числа, с которыми удобно производить вычисления
в абсолютной шкале. Построенные таким образом переменные называют
фиктивными переменными.
Остальные переменные модели, в противоположность фиктивным,
иногда называют значащими.
Фиктивные переменные помогают отразить в модели неоднородность
структуры наблюдений по некоторому качественному признаку.
Чаще всего в качестве фиктивных переменных используются так
называемые бинарные (булевы, дихотомические) переменные, которые могут
принимать всего два значения - 0 или 1.
Например, введем фиктивную переменную d, обозначающую пол
респондента:
1 − мужской пол
d=
0 − женский пол
Пусть эконометрическая модель отражает линейную зависимость
спроса на некоторый продукт от цены на него в виде парной регрессии
y = ax + b + ε,
где y – спрос, как результативный признак;
x – цена на продукт (признак-фактор);
ε – случайная компонента;
а и b – параметры модели.
Предположим, что зависимость спроса на этот продукт, кроме того,
зависит еще и от пола предполагаемого покупателя, причем уравнения
отличаются только свободным членом, т.е. y = ax + b1 + ε для мужчин и для y
= ax + b2 + ε женщин. Эти два уравнения можно представить в виде одного
уравнения множественной регрессии с двумя признаками-факторами – x и d:
y = ax + db1 + (1-d)b2 + ε = ax + d(b1 - b2) + b2 + ε
В других случаях введение фиктивной переменной может отражать
влияние неоднородности наблюдений не только на свободный член, но и на
другие параметры регрессии.
Кроме того, может использоваться несколько фиктивных переменных.
Например, можно ввести фиктивные переменные d1 и d2:
1 − наличие высшего образования
d1 =
0 − отсутствие высшего образования
1 − наличие стажа работы
d2 =
0 − отсутствие стажа работы
Эти переменные можно перемножать между собой. Произведение d1d2
будет служить признаком одновременного наличия стажа и высшего
образования (только в этом случае оно будет равно 1; если хотя бы одно
условие отсутствует, d1d2 = 0).
Фиктивная переменная не обязательно должна быть бинарной. Если
она используется для отражения в модели качественного признака,
принимающего не два, а большее количество значений в номинальной шкале,
можно каждому такому значению поставить в соответствие значение
фиктивной переменной. Но на практике это делают редко, поскольку в этом
случае
сложно
интерпретацию.
дать
коэффициентам
регрессии
содержательную
Например, если фиктивная переменная соответствует одному из
четырех сезонов, она могла бы принимать значения 1, 2, 3 и 4, или любые
другие четыре разных значения. В этом случае переменная не была бы
бинарной. Однако обычно вводят не одну, а три переменных:
1 − зима
1 − весна
1 − лето
d1 =
d2 =
d3 =
0 − не зима
0 − не весна
0 − не лето
Четвертая переменная не вводится, поскольку если бы была введена
аналогичным образом переменная d4, то всегда выполнялась бы линейная
зависимость между признаками факторами d1 + d2 + d2 + d4 = 1. Такая
зависимость лишит исследователя возможности найти параметры регрессии с
помощью метода наименьших квадратов, поскольку нарушится одна из его
важных предпосылок (см. далее).
Пусть y = a1d1 + a2d2 + a3d3 + b + ε, где y – спрос на продукцию,
зависящий
от
сезона.
Тогда
смысл
параметров
регрессии
легко
интерпретировать. В самом деле, тогда зимой значение спроса будет a1 + b,
весной a2 + b, летом a2 + b, осенью b. Каждый из коэффициентов a1, a2, a3
представляет собой отклонение спроса в данном сезоне от осеннего спроса b.
В эконометрических моделях, отражающих зависимость результата от
времени, т.е регрессионных моделях с временными рядами, принято
использовать три основных типа фиктивных переменных:
1) индикаторы принадлежности наблюдения к определенному
периоду (для наблюдений от и до определенного момента времени они равны
1, а для всех остальных – нулю). Такие переменные используются для
моделирования скачкообразных сдвигов в структуре наблюдений. Например,
если предположить, что в деятельности экономической системы наблюдалась
определенная тенденция в период с 2000 по 2007 гг., а до и после этих лет
она резко отличалась, то имеет смысл использовать в модели переменную,
которая будет принимать единичные значения только для наблюдений из
этого периода.
2)
сезонные
переменные
—
индикаторы
принадлежности
наблюдений к определенному сезоны (месяцу, кварталу). Чаще всего
используются при исследовании экономических явлений, имеющих четкие
различия в своем сезонном протекании (например, моделирование спроса на
зимнюю одежду и обувь).
3) линейный временной тренд. Здесь фиктивная переменная по
сути своей представляет собой номер наблюдения. Она показывает, какой
промежуток времени прошел от условного начала отсчета времени (нулевого
момента) до того момента, к которому относится данное наблюдение.