Корреляционный анализ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
1. Корреляционный анализ
1.1 Выборочный коэффициент ковариации
Основная задача корреляционного анализа заключается в выявлении
взаимосвязи между случайными переменными путем точечной и
интервальной оценки парных (частных) коэффициентов корреляции,
вычисления и проверки значимости множественных коэффициентов
корреляции и детерминации. Кроме того, с помощью корреляционного
анализа решаются следующие задачи: отбор факторов, оказывающих
наиболее существенное влияние на результативный признак, на основании
измерения степени связи между ними; обнаружение ранее неизвестных
причинных связей.
Выборочная ковариация является мерой взаимосвязи между двумя
переменными.
Ковариация между двумя переменными X и Y вычисляется по формуле:
1 n
cov( x , y ) ( x i x )( y i y ) ,
n i 1
,
Другая формула для вычисления ковариации:
cov( x, y ) x y x y
(x1, y1), (x2 , y2 ),...,(xn , yn )
где
переменных X и Y.
-
1 n
y yi
n i 1
выборочные
.
значения
случайных
1 n
x xi .
n i 1
Ковариация - это статистическая мера взаимодействия двух случайных
переменных, таких, например, как доходности двух ценных бумаг.
Положительное значение ковариации показывает, что доходности этих
ценных бумаг имеют тенденцию изменяться в одну сторону.
Ковариация зависит от единиц, в которых измеряются переменные
X иY.
Поэтому для измерения силы связи между двумя переменными
используется
другая
статистическая
характеристика,
называемая
коэффициентом корреляции.
1.2 Выборочный коэффициент парной корреляции
В практических расчетах коэффициент корреляции
генеральной
совокупности обычно не известен. По результатам выборки может быть
найдена его точечная оценка – выборочный коэффициент корреляции r, так
как выборочная совокупность переменных X и Y случайна, то r – случайная
1
величина. Оценкой коэффициента корреляции ρ является выборочный
парный коэффициент корреляции:
rxy
cov( x, y ) xy x y
sx s y
sx s y
(3.1)
1
1
2
2
S
( yi y ) 2
(
x
x
)
y
i
n 1
n 1
- оценки выборочных дисперсий величин x и y.
Парный коэффициент корреляции является показателем тесноты связи
лишь в случае линейной зависимости между переменными и обладает
следующими основными свойствами:
1. Коэффициент корреляции принимает значение в интервале (-1,+1).
2. Случайные величины Х, Y, можно уменьшать (увеличивать) в α раз, а
также вычитать или прибавлять к значениям X и Y одно и тоже число β - это
не приведет к изменению коэффициента корреляции r.
3. При r = ±1 случайные величины X и Y связаны линейной функциональной
зависимостью, т.е. Y X . При r = 0 линейная корреляционная связь
отсутствует.
где
S x2
Для оценки значимости коэффициента корреляции применяется t - критерий
Стьюдента. При этом фактическое значение этого критерия определяется по
формуле:
tнабл
ry2, x
1 ry2, x
(n 2)
(3.2)
Вычисленное по этой формуле значение
tнабл сравнивается с
критическим значением t-критерия, которое берется из таблицы значений t
Стьюдента с учетом заданного уровня значимости и числа степеней свободы.
Если tнабл > tкр, то полученное значение коэффициента корреляции
признается значимым (то есть нулевая гипотеза, утверждающая равенство
нулю коэффициента корреляции, отвергается). И таким образом делается
вывод о том, что между исследуемыми переменными
есть тесная
статистическая взаимосвязь.
Если значение r близко к нулю, связь между переменными слабая.
Если случайные величины связаны положительной корреляцией, это
означает, что при возрастании одной случайной величины другая имеет
тенденцию в среднем возрастать. Если случайные величины связаны
отрицательной корреляцией, это означает, что при возрастании одной
случайной величины, другая имеет тенденцию в среднем убывать.
2
1.3 Коэффициент детерминации
При анализе качества модели регрессии используется основное
положение дисперсионного анализа, согласно которому общая сумма
квадратов отклонений зависимой переменной от среднего значения y
может быть разложена на две составляющие — объясненную и
необъясненную уравнением регрессии суммы квадратов (дисперсий):
n
n
n
2
2
2
( y y) ( yˆ y) y yˆ ,
i
i
i 1
где
i
i 1
yˆ i - значения
(3.11)
i
i1
y, вычисленные по модели ŷ = a + bx.
n
Разделив правую и левую часть (3.11)
( y y)
на
i
2
, получим
i 1
n
n
( yˆ
1
i
y)
2
i 1
n
(y
i
y)
2
i 1
n
(y
i 1
2
i
i
y)
2
.
i 1
Коэффициент детерминации определяется следующим образом:
n
R2
объясняемая сумма квадратов
общая сумма квадратов
n
( yˆ y )
Из определения видно, что 0 ≤
R
i
i 1
n
( yi y )2
i 1
2
2
1
2
i
i 1
n
( yi y )2
(3.12.)
i 1
≤1
1.4 Множественный коэффициент корреляции и детерминации
(двухфакторная модель)
В случае линейных многофакторных моделей вводится множественный
коэффициент корреляции. Для его вычисления введем матрицу
коэффициентов парной корреляции R (корреляционная матрица)
r11 r12 r13
R r21 r22 r23
r r
31 32 r33
(3.3)
Одной корреляционной матрицей нельзя полностью описать
зависимости между величинами. В связи с этим, в многомерном
корреляционном анализе рассматривается две задачи:
3
1.
Определение тесноты связи одной случайной величины с
совокупностью остальных ( n – 1) величин, включенных в анализ;
2. Определение тесноты связи между величинами при фиксировании
или исключении влияния остальных k .
Эти задачи решаются с помощью коэффициентов множественной и
частной корреляции, соответственно.
Вычисляем множественный коэффициент корреляции Ryx1x2 по
формуле:
R yx 1 x 2
1
R
R 11 ,
где R - определитель корреляционной матрицы R.
R11 - алгебраическое дополнение диагонального элемента
определитель матрицы межфакторной корреляции:
r11
матрицы R или
1 rx1x 2
,
rx 2 x1 1
2
равный 1 – (rx1x2) .
Если выразить множественный коэффициент корреляции Ryx1x2 через
элементы корреляционной матрицы, то получим формулу:
R yx 1 x 2
1
R
R 11
r yx2 1 r yx2 2 2 r yx2 1 r yx2 2 rx21 x 2
.
1 r x21 x 2
Множественный коэффициент корреляции оценивает тесноту совместного
влияния факторов на результат.
2
Квадрат коэффициента множественной корреляции (Ryx1x2)
называется множественным коэффициентом детерминации, который
показывает, какую долю вариации исследуемой величины y объясняет
вариация остальных случайных величин (факторов) x1 , x2.
R
2
yx 1 x 2
r yx2 1 r yx2 2 2 r yx2 1 r yx2 2 rx21 x 2
1 rx21 x 2
.
Коэффициенты множественной корреляции и детерминации являются
величинами положительными, принимающими значения в интервале от 0 до
1. При приближении коэффициента R2 к единице можно сделать вывод о
тесноте взаимосвязи случайных величин, но не о ее направлении.
4
Коэффициент
множественной
корреляции
может
только
увеличиваться, если в модель включать дополнительные переменные.
Это проходит потому, что остаточная дисперсия D(u)/n уменьшается при
введении дополнительных переменных. Если число факторов приблизится к
числу наблюдений, то D(u) = 0 и R2 = 1, хотя в действительности связь
между факторами и результатом слабая.
Для того, чтобы получить адекватную оценку этой связи, применяют
cкорректированный коэффициент детерминации:
Rскор
2
1 1 R2
n n k 1 1 ,
Проверка значимости коэффициента множественной корреляции
осуществляется путем сравнения фактического (расчетного) значения
критерия Фишера:
Fрасч
R2 / n m
1 R / m 1 ,
2
(3.5)
с табличным Fтабл. Табличное значение критерия определяется заданным
уровнем значимости и степенями свободы k1 = m и k2 = n – m –1.
Коэффициент R2 значимо отличается от нуля, если выполняется неравенство
Fфакт Fтабл .
1.4 Частные коэффициенты корреляции
Если рассматриваемые случайные величины коррелируют друг с
другом, то на величине коэффициента парной корреляции частично
сказывается влияние других величин. В связи с этим возникает
необходимость исследования частной корреляции между величинами при
исключении влияния одной или нескольких других случайных величин.
Выборочные частные коэффициенты корреляции определяются по
формулам:
ryx ryx rx x
2 1 2
1
ryx x
;
2
2
1 2
(1 ryx ) (1 rx x )
2
1 2
1
ryx ryx rx x
2
1 12 .
ryx x
2 ) (1 r 2 )
2 1
(1 ryx
xx
1
1 2
Данные формулы определяют коэффициенты корреляции при
исключенном влиянии на результат фактора x1 и x2 соответственно.
Частный коэффициент корреляции, так же как и парный коэффициент
корреляции изменяется от –1 до +1.
5
Пример. Вычисление коэффициентов парной, множественной и частной
корреляции.
В табл. 1.1. представлена информация об объёмах продаж и затратах на
рекламу одной фирмы, а также индекс потребительских расходов за ряд
текущих лет.
1. Определить степень влияния индекса потребительских расходов на
объёмы продаж (вычислить коэффициент парной корреляции).
2. Оценить значимость вычисленного коэффициента парной корреляции.
3. Построить матрицу коэффициентов парной корреляции по трем
переменным.
4. Найти оценку множественного коэффициента корреляции.
5. Найти оценки коэффициентов частной корреляции.
Таблица 1.1
Объем продаж, тыс. 126 137 148 191 274 370 432 445 367 367 321 307 331 345 364 384
руб., y
Затраты на рекламу,
4
4,8 3,8 8,7 8,2 9,7 14,7 18,7 19,8 10,6 8,6 6,5 12,6 6,5 5,8 5,7
x1
Индекс
потребительских
100 98,4 101,2 103,5 104,1 107 107,4 108,5 108,3 109,2 110,1 110,7 110,3 111,8 112,3 112,9
расходов, % , x2
Решение.
1. Вычисляем коэффициент парной корреляции rxy. Средние значения
случайных величин Х и Y, которые являются наиболее простыми показателями,
характеризующими последовательности x1, x2, …,x16 и y1, y2, …,y16,
рассчитаем по формулам:
1 n
x xi 107,2
n i1
1 n
y yi 306,8 .
n i1
Дисперсия характеризуют степень разброса значений
среднего x ( y , соответственно):
1
305, 474
S x2
( xi x ) 2
20,36
n 1
15
1
158718, 438
S y2
( yi y )2
10581,23.
n 1
15
вокруг своего
Стандартные ошибки случайных величин Х и Y рассчитаем по
формулам, соответственно:
n
Sx
1
n 1
x x
i
2
n
4,51; Sy
i 1
1
n 1
y
i
i 1
6
2
y 102,87
Коэффициент корреляции рассчитаем по формуле (3.1):
rx . y
1 n
( xi x )( yi y ) 1 5681, 99
n 1 i 1
15
= 0, 816
4, 51 102, 87
Sx Sy
3) Оценим значимость коэффициента корреляции.
рассчитаем значение t – статистики по формуле
r n 2
0,816 14
t расч
5,282.
2
1
0,666
1 r
Табличное значение критерия Стьюдента равно:
Для
этого
tтабл (α = 0,1; k = n – 2 = 14) =1,76.
Сравнивая числовые значения критериев, видно, что tрасч > tтабл, т.е.
полученное значение коэффициента корреляции значимо.
Таким образом, индекс потребительских расходов оказывает весьма
высокое влияние на объёмы продаж.
4) Матрица R коэффициентов парной корреляции, вычисленных по
формуле (3.1) для трех факторов будет иметь вид:
Объем
Затраты на
реализации рекламу
1
Объем реализации
Затраты на рекламу
Индекс потребительских расходов
1
2
3
Индекс
потребительских
расходов
2
1
0,646
0,816
3
0,646
1
0,273
0,816
0,273
1
4) Вычисление множественного коэффициента корреляции Ryx1x2. по
формуле:
R yx 1 x 2
1
R
R 11
1
0 ,1304
0 ,9269 ,
0 , 9253
где R - определитель корреляционной матрицы R равный 0,1304,
R11 - алгебраическое дополнение диагонального элемента r11 матрицы R.
R11 ( 1) 2
1
0, 273
0,9253 .
0, 273
1
5) Вычисление коэффициентов частной корреляции.
7
ryx ryx rx x
0,646 0,816 0,273
2 1 2
1
ryx1x 2
0,706.
2
2
2
2
(1 ryx ) (1 rx x )
(1 0,816 ) (1 0,273 )
2
1 2
ryx ryx rx x
0,816 0,646 0,273
2
1 12
ryx x
0,871.
2
2
2
2
2 1
(1 ryx ) (1 rx x )
(1 0,646 ) (1 0,273 )
1
1 2
1 . 5 О це н ка к о э ф ф и ц ие нт о в л и н е й н о й па р н о й ре г ре с с и и.
Под линейностью здесь имеется в виду, что переменная y
предположительно находиться под влиянием переменной x в следующей
зависимости:
ŷ = a + bx,
где a - постоянная величина (или свободный член уравнения), bкоэффициент регрессии, определяющий наклон линии, вдоль которой
рассеяны данные наблюдений.
Для оценки параметров регрессионного уравнения наиболее часто
используют метод наименьших квадратов (МНК), который минимизирует
сумму квадратов отклонения наблюдаемых значений yi от модельных
значений ŷ . Согласно методу наименьших квадратов, оценки a и b
находятся путем минимизации суммы квадратов
n
n
2
S ( a, b y i y i ( y i a b x i ) 2
(5)
i 1
i 1
Задача сводится к известной математической задаче поиска точки минимума
функции двух переменных. Точка минимума находится путем приравнивания
нулю частных производных функции S(a,b)
по переменным a и b
(необходимое условие экстремума). Это приводит к системе нормальных
уравнений
S(a, b)/ a 0,
S(a, b)/ a 0,
(6)
решением которой и является пара a, b. Подставляя (5) в (6) получим систему
уравнений:
n
n
na xi b y i
i 1
i 1
n
n
n
xi a xi2 b y i xi .
i 1
i 1
i 1
8
Эта система является системой двух линейных уравнений с двумя
неизвестными и может быть легко решена, например, методом подстановки.
В результате получаем
n
y
b
i
y x i x
i 1
,
n
x
x
2
i
i 1
a y b x.
Нетрудно видеть, что в это выражение входят уже знакомые нам суммы
квадратов, участвовавшие ранее в определении выборочной дисперсии
1 n
S
( xi x ) 2
n 1 i 1
2
x
и выборочной ковариации
1 n
cov(x, y)
(xi x)(yi y)
n 1 i1
так что, в этих терминах,
cov( x , y ) x y x y
,
2
2
x
x1 y1 x2 y2 ... xn yn
x12 x 22 ... x n2
2
где x y
, x
n
n
b
Пример. Бюджетное обследование семи случайно выбранных семей
дало следующие результаты (в тыс. $ ):
Табл. 3.2.
Наблюдение Накопления Доход
Y
Х
1
3
40
2
6
55
3
5
45
4
3.5
30
5
1.5
30
6
4.5
50
7
2
35
построить однофакторную модель регрессии.
Решение. Для вычисления параметров модели следует воспользоваться
формулами (3.7) и (3.8). Промежуточные расчеты приведены в таблице 3.3.
9
b
x y x y
x2
160 3,643 40 ,714
0,143
17 ,39 1657 ,653
a y b x 3, 643 0 .1431 40 ,714 - 2,184.
Построена модель зависимости накопления от дохода:
y 2,184 0,143 x.
(7)
1.6 Оценка качества модели парной регрессии
Проверка качества модели парной регрессии в целом может быть
осуществлена с помощью F-критерия Фишера. Для проверки гипотезы о
том, что линейная связь между x и у отсутствует, т.е.
H0: b = 0,
используется соотношение (значение F- статистики Фишера.):
R2
F ,1, n 2
(n 2) ,
1 R2
которое удовлетворят F-распределению Фишера с (1, n-2) степенями
свободы. При F > Fтабл нулевая гипотеза отклоняется и уравнение
множественной регрессии значимо. Fтабл означает критическое значение
статистики Фишера, которое берется в таблице, α – уровень значимости
(обычно равен 1%. 5%, 10%, чаще 5%).
Далее, проверяется статистическая значимость коэффициента регрессии,
которая определяется при помощи t-критерия Стьюдента.
Значение t - статистики для коэффициента регрессии можно определить по
формуле:
tb
b
,
Sb
где Sb - стандартная ошибка коэффициента регрессии b. Это значение
сравнивается с критическим значением tтабл, которое берется в таблице.
При │tфакт │> tтабл значение соответствующего коэффициента значимо
на уровне значимости α. (при числе степеней свободы равным (n – 2)).
Упражнение. Определите качество модели (7) в целом и статистическую
значимость коэффициента регрессии, если при уровне значимости 5%
Fтабл = 6,61, tтабл = 2,57.
10
1.7 Линейная множественная регрессия
Модель линейной множественной регрессии – это линейная
зависимость между результативными признаками и объясняющими
переменными
y = α+b1x1+ b2x2+…+ bkxk + u
(1)
xi- объясняющие переменные или факторы, u – случайная составляющая.
Коэффициенты регрессии bi неизвестны и их надо вычислить.
О ц е н к а к о э ф ф и ц ие н т о в м н о ж е с т ве нн о й ре г ре с с и и.
Рассмотрим двухфакторную регрессию:
у= b0+ b1x1+ b2x2 + u
(2)
Как и в случае парной регрессии минимизируются остатки:
S
(y
i
b0 b1 x1i b 2 x 2 i ) 2 min
Дифференцируя функцию по неизвестным параметрам и приравнивая
нулю полученные производные (необходимое условие экстремума), получим
систему для определения коэффициентов регрессии :
S
2 ( y i b1 x1 b2 x 2 b0 )= 0
b0
S
2 x1 ( y b1 x1 b2 x 2 b0 ) = 0
(3 )
b1
S
2 x 2 ( y b1 x1 b2 x 2 b0 ) = 0
b2
Из системы (3) получаем:
cov( x1 , y ) S 2 ( x 2 ) cov( x 2 , y ) cov( x1 , x 2 )
b1
,
S 2 ( x1 ) S 2 ( x 2 ) (cov( x1 , x 2 )) 2
(4 )
cov( x 2 , y ) S 2 ( x1 ) cov( x1 , y ) cov( x1 , x 2 )
b2
,
S 2 ( x1 ) S 2 ( x 2 ) (cov( x1 , x 2 )) 2
(5 )
г д е c o v ( x, y ) =
2
2
xy - x · y ;
S 2 ( x) = x (x) ,
b 0 = у – b 1 ∙ x1 – b 2 ∙ x 2 .
11
Коэффициенты b1 и b2 можно записать через парные коэффициенты
корреляции. Именно, так как
cov(x1,x2) = r(x1,x2)∙Sx1∙ Sx2, то имеем:
r(y, x1) r(y, x2) r(x1, x2) s y
b1
1 r 2 (x1, x2)
s x1
r(y, x2) r(y, x1) r(x1, x2) s y
b2
s x2
1 r 2 (x1, x2)
(6)
(7)
b0 y b1 x1 b2 x2
Рассмотрим понятие регрессии в стандартизованном масштабе, в которой
коэффициенты приводятся к одному основанию и их можно сравнивать
между собой. В этом случае регрессия записывается в виде:
t y=
где
ty
1t1 2 t 2
yy
;
y
tx
xi xi
xi ;
i= 1,2.
S
П р и че м ,
xi
bi i S ;
y
i = 1,2.
(8 )
Упражнение: Показать, что
t y 0, t xi 0 ; s x s y 1
Формулы (6), (7), (8) позволяет выразить коэффициенты стандартизованной
регрессии через парные коэффициенты корреляции:
ryx1 ryx 2 rx1 x 2
1
1 r 2 x1 x 2
2
ryx 2 ryx1 rx1 x 2
1 r 2 x1 x 2
Ранее было сказано, что в уравнении t y = β 1 t 1 β 2 t 2 коэффициенты βi
приведены к одному основанию, следовательно, сравнивая их друг с другом
можно ранжировать факторы по силе их взаимодействия на результат.
12
1.8 Оценка качества модели множественной регрессии
Проверка качества модели множественной регрессии в целом может
быть осуществлена с помощью F-критерия Фишера. Для проверки
гипотезы о том, что линейная связь между x1, x2,..,xk и у отсутствует, т.е.
H0: b1 = b2 = 0,
используется соотношение (значение F- статистики Фишера.):
R2
n k 1
F
,
1 R2
k
которое удовлетворят F-распределению Фишера с (k, n-k-1) степенями
свободы. При F > Fтабл нулевая гипотеза отклоняется и уравнение
множественной регрессии значимо. Fтабл означает критическое значение
статистики Фишера, которое берется в таблице.
Далее, проверим статистическую значимость каждого из коэффициентов
регрессии в отдельности, которая определяется при помощи t-критерия
Стьюдента.
Значение
t
-
статистики
для
коэффициентов
регрессии
в
случае
множественной регрессии определяется по формуле:
t bi
bi
,
S bi
где Sbi
- стандартная ошибка коэффициента регрессии bi, которая
определяется по формуле:
S b1
Sb2
R yx2 1 x 2 r yx2 2
1 R
2
yx1 x 2
R yx2 1 x 2 r yx2 1
1 R
2
yx1 x 2
1
n k 1
1
n k 1
;
.
При │tфакт │> tтабл значение соответствующего коэффициента значимо на
уровне значимости α.
13
Пример. По 20 предприятиям региона изучается зависимость выборки
продукции на одного работника y (тыс. руб.) от ввода в действие новых
основных фондов x1 (% от стоимости фондов на конец года) и от удельного
веса рабочих высокой квалификации в общей численности рабочих x2 (%).
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
y
x1
x2
7,0
7,0
7,0
7,0
7,0
7,0
8,0
8,0
8,0
10,0
3,9
3,9
3,7
4,0
3,8
4,8
5,4
4,4
5,3
6,8
10,0
14,0
15,0
16,0
17,0
19,0
19,0
20,0
20,0
20,0
Номер
предприятия
11
12
13
14
15
16
17
18
19
20
y
x1
x2
9,0
11,0
9,0
11,0
12,0
12,0
12,0
12,0
14,0
14,0
6,0
6,4
6,8
7,2
8,0
8,2
8,1
8,5
9,6
9,0
21,0
22,0
22,0
25,0
28,0
29,0
30,0
31,0
32,0
36,0
1.
Построить линейную модель множественной регрессии. Записать
стандартизованное уравнение множественной регрессии. На основе
стандартизованных коэффициентов регрессия и средних коэффициентов
эластичности ранжировать факторы по степени их влияния результатов.
2.
Найти коэффициенты парной, частной и множественной
корреляции. Проанализировать их.
3.
Найти
скорректированный
коэффициент
множественной
детерминации.
Сравнить
его
с
нескорректированным
(общим)
коэффициентом детерминации.
4.
С помощью F-критерия Фишера оценить статистическую
2
надежность уравнения регрессии и коэффициента детерминации R yx1x2 .
Решение:
Найдем средние квадратические отклонения признаков:
2
97 ,9 9 , 6 2 2 ,396 ;
2
41,887 6 ,19 2 1,890 ;
sy
y2 y
sx
1
x12 x 1
sx
2
x 22 x 2
2
541 , 4 22 ,3 2 6 ,642 ;
1. Вычисление параметров линейного уравнения множественной
регрессии.
Для нахождения параметров линейного уравнения множественной
14
регрессии
ŷ a b1x1 b2 x 2
Воспользуемся готовыми формулами:
s
b
1 s
y
r
yx
r
1
yx
r
x x
2 1 2 ;
b
2 s
1 r 2
x x
1 2
x
1
sy
x
r
2
yx
r
yx
r
x x
2
1 1 2
1 r 2
x x
1 2
a y b1 x 2 .
Рассчитаем сначала парные коэффициенты корреляции:
cov( y , x1 ) 63 ,815 6 ,19 9 ,6
r yx
0 ,970 ;
1
s y sx
1,890 2 ,396
1
cov( y, x 2 ) 229,05 22,3 9,6
r yx
0,941;
s
s
6
,
642
2
,
396
2
y x2
rx x
1 2
cov( x1 , x 2 ) 149 ,87 6 ,19 22 ,3
0 ,943 .
sx sx
1,890 6 , 642
1
2
Находим
b1
2 , 396 0 , 970 0 , 941 0 ,943
0 ,946
2
1,890
1 0 , 943
b2
2 , 396 0 , 941 0 , 940 0 , 943
0 , 0856
2
6 , 642
1 0 , 943
15
;
;
a 9,6 0,946 6,19 0,0856 22 ,3 1,835 .
Таким образом получили следующие уравнение множественной
регрессии:
yˆ 1,835 0,946 x1 0.0856 x 2.
Коэффициенты 1 и 2 стандартизованного уравнения регрессии
t y 1t x1 2 t x2 ,
находятся по формулам:
1 b1
2 b2
s x1
sy
s x2
sy
0 ,946
1,890
0 , 746 ;
2 ,396
0,0856
6,642
0,237 .
2,396
Т.е. уравнение будет выглядеть следующим образом:
tˆy 0,746 t x1 0,237 t x2 .
Так как стандартизованные коэффициенты регрессии можно сравнить
между собой, то можно сказать, что ввод в действие новых основных фондов
оказывает большее влияние на выработку продукции, чем удельный вес
рабочих высокой квалификации.
Сравнивать влияние факторов на результат можно также при помощи
средних коэффициентов эластичности:
Э i bi
xi
.
y xi
Вычисляем:
Э1 0.946
6,19
0.61;
9,6
Э 2 0,0856
22 ,3
0 , 20 .
9 ,6
Т.е. увеличение только основных фондов (от своего среднего
значения) или только удельного веса рабочих высокой квалификации на 1%
увеличивает в среднем выработку продукции на 0,61 % или 0,20%
соответственно. Таким образом, подтверждается большее влияние
на результат y фактора x1, чем фактора x2.
2.
Коэффициенты парной корреляции мы уже нашли:
16
r yx 1 0 ,970 ;
ryx2 0,941;
rx1x 2 0,943.
Они указывают на весьма сильную связь каждого фактора с
результатом, а также высокую межфакторную зависимость (факторы х1 и х2
явно коллинеарны, т.к. rx1x2 = 0,943 > 0,7). При такой сильной
межфакторной зависимости рекомендуется один из факторов исключить из
рассмотрения.
Частные коэффициенты корреляции характеризуют тесноту связи
между результатом и соответствующим фактором при элиминировании
(устранении влияния) других факторов, включенных в уравнение регрессии.
При двух факторах частные коэффициенты корреляции
рассчитываются следующим образом:
ryx ryx rx x
0,970 0,941 0,943
2 12
1
ryx x
0,744.
2
2
2
2
1 2
(1 ryx ) (1 rx x )
(1 0,941 ) (1 0,943 )
2
12
ryx ryx rx x
0,941 0,970 0,943
2
1 1 2
ryx x
0,325.
2
2
2
2
2 1
(1 ryx ) (1 rx x )
(1 0,970 ) (1 0,943 )
1
1 2
Если сравнить коэффициенты парной и частной корреляции, то можно
увидеть, что из-за высокой межфакторной зависимости коэффициенты
парной корреляции дают завышенные оценки тесноты связи. Именно по этой
причине рекомендуется при наличии сильной коллинеарности (взаимосвязи)
факторов исключать из исследования тот фактор, у которого теснота парной
зависимости меньше, чем теснота межфакторной связи.
Коэффициент множественной корреляции
стандартизованные коэффициенты регрессии:
R yx1x 2
i
определяем
через
ryxi 0,746 0,970 0,237 0,941 0,973
Коэффициент множественной корреляции показывает на весьма
сильную связь всего набора факторов с результатом.
3. Нескорректированный
коэффициент
множественной
2
детерминации Ryx1x2 = 0,947 оценивает долю вариации результата за счет
представленных в уравнении факторов в общей вариации результата. Здесь
эта доля составляет 94,7% и указывает на весьма высокую степень
17
обусловленности вариации результата вариацией факторов, иными словами на весьма тесную связь факторов с результатом.
Скорректированный коэффициент множественной детерминации
R 2 1 (1 R 2 )
n 1
20 1
1 (1 0,947)
0,941
n m 1
20 2 1
определяет тесноту связи с учетом степеней свободы общей и остаточной
дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа
факторов и поэтому может сравниваться по разным моделям с разным
числом факторов. Оба коэффициента указывают на весьма высокую (более
94%) объясненность результата у в модели факторами х1 и х2.
4. Оценку надежности уравнения регрессии в целом и показателя
тесноты связи R yx 1x 2 дает F -критерий Фишера:
R2
n m 1
F
.
m
1 R2
В нашем случае фактическое значение F-критерия Фишера:
F факт
0 ,973 2
20 2 1
151 ,88 .
2
2
1 0 ,973
Получили, что Fфакт > Fтабл = 3,49 (при n = 20), т.е. вероятность
случайно получить такое значение F-критерия не превышает допустимый
уровень значимости 5%. Следовательно, полученное значение не случайно,
оно сформировалось под влиянием существенных факторов, т.е.
подтверждается статистическая значимость всего уравнения и показателя
тесноты связи
R yx2 1x2 .
Варианты индивидуальных заданий
По 20 предприятиям региона изучается зависимость выработки
продукции на одного работника у (тыс. руб.) от ввода в действие новых
основных фондов х, (% от стоимости фондов на конец года) и от удельного
веса рабочих высокой квалификации в общей численности рабочих x2 (%)
(смотри таблицу своего варианта).
Требуется:
1. Построить линейную модель множественной регрессии. Записать
стандартизованное уравнение множественной регрессии. На основе
стандартизованных коэффициентов регрессии и средних коэффициентов
эластичности ранжировать факторы по степени их влияния на результат.
18
2. Найти коэффициенты парной частной и множественной корреляции.
Проанализировав их.
3. Найти
скорректированный
коэффициент
множественной
детерминации.
Сравнить
его
с
нескорректированным
(общим)
коэффициентом детерминации.
4. С помощью F- критерия Фишера оценить статистическую надежность
2
уравнения регрессии и коэффициента детерминации R yx1x 2 .
Вариант 1
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
y
x1
x2
6
6
6
7
7
7
8
8
9
10
3,6
3,6
3,6
4,1
3,9
4,5
5,3
5,3
5,6
6,8
9
12
14
17
18
19
19
19
20
21
Номер
предприятия
11
12
13
14
15
16
17
18
19
20
y
x1
x2
9
11
11
12
12
13
13
13
14
14
6,3
6,4
7
7,5
7,9
8,2
8
8,6
9,5
9
21
22
24
25
28
30
30
31
33
36
Вариант 2
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
y
6
6
7
7
7
8
8
9
9
10
x1
3,5
3,6
3,9
4,1
4,2
4,5
5,3
5,3
5,6
6
Номер
предприятия
11
12
13
14
15
16
17
18
19
20
x2
10
12
15
17
18
19
19
20
20
21
19
y
10
11
11
12
12
13
13
14
14
15
x1
6,3
6,4
7
7,5
7,9
8,2
8,4
8,6
9,5
10
x2
21
22
23
25
28
30
31
31
35
36
Вариант 3
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
x1
3,7
3,7
3,9
4,1
4,2
4,9
5,3
5,1
5,6
6,1
Номер
предприятия
x2
9
11
11
12
11
13
15
14
17
15
19
16
19
17
20
18
20
19
21
20
Вариант 4
y
11
11
11
12
12
13
13
13
14
15
x1
6,3
6,4
7,2
7,5
7,9
8,1
8,4
8,6
9,5
9,5
x2
22
22
23
25
27
30
31
32
35
36
y
7
7
7
7
8
8
9
9
10
10
x1
3,5
3,6
3,9
4,1
4,2
4,5
5,3
5,5
5,6
6,1
Номер
предприятия
x2
9
11
10
12
12
13
17
14
18
15
19
16
19
17
20
18
21
19
21
20
Вариант 5
y
10
10
11
12
12
13
13
14
14
15
x1
6,3
6,5
7,2
7,5
7,9
8,2
8,4
8,6
9,5
9,6
x2
22
22
24
25
27
30
31
33
35
36
y
x1
x2
y
x1
x2
7
7
7
8
8
8
9
9
10
10
3,6
3,6
3,7
4,1
4,3
4,5
5,4
5,5
5,8
6,1
9
11
12
16
19
19
20
20
21
21
10
11
11
12
13
13
13
14
14
14
6,3
6,8
7,2
7,9
8,1
8,3
8,4
8,8
9,6
9,7
21
22
24
25
26
29
31
32
35
36
y
7
7
7
7
8
8
8
9
10
10
Номер
предприятия
11
12
13
14
15
16
17
18
19
20
Вариант 6
20
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
y
x1
7
7
7
7
8
8
9
9
10
10
3,5
3,6
3,8
4,2
4,3
4,7
5,4
5,6
5,9
6,1
x2
910
14
15
18
19
19
20
20
21
Номер
предприятия
11
12
13
14
15
16
17
18
19
20
y
x1
x2
10
10
11
12
12
13
13
13
14
14
6,3
6,8
7,2
7,9
8,1
8,3
8,4
8,8
9,6
9,7
21
22
24
25
26
29
31
32
35
36
Вариант 7
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
y
x1
x2
3,8
3,8
3,9
4,1
4,6
4,5
5,3
5,5
6,1
6,8
11
12
16
17
18
18
19
20
20
21
Номер
предприятия
11
12
13
14
15
16
17
18
19
20
10
11
11
12
12
12
13
13
13
14
6,8
7,4
7,8
7,5
7,9
8,1
8,4
8,7
9,5
9,7
21
23
24
26
28
30
31
32
33
35
x1
3,8
4,1
4,3
4,1
4,6
4,7
5,3
5,5
6,9
6,8
Вариант 8
Номер
x2
предприятия
9
11
14
12
16
13
17
14
17
15
18
16
20
17
20
18
21
19
21
20
y
11
11
12
12
12
13
13
14
14
15
x1
7,1
7,5
7,8
7,6
7,9
8,1
8,5
8,7
9,6
9,8
x2
22
23
25
27
29
30
32
32
33
36
y
x1
x2
7
7
7
7
7
8
8
9
9
10
y
7
7
7
7
8
8
9
9
11
10
21
Вариант 9
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
Номер
предприятия
1
2
3
4
5
6
7
8
9
10
y
7
7
7
7
8
8
9
9
10
10
y
7
7
7
7
7
8
8
8
9
10
x1
3,9
4,2
4,3
4,4
4,6
4,8
5,3
5,7
6,9
6,8
x1
3,6
4,1
4,3
4,4
4,5
4,8
5,3
5,6
6,7
6,9
Номер
предприятия
x2
12
11
13
12
15
13
17
14
18
15
19
16
19
17
20
18
21
19
21
20
Вариант 10
Номер
предприятия
11
12
13
14
15
16
17
18
19
20
x2
12
14
16
17
18
19
20
20
21
22
22
y
11
12
13
12
13
13
13
14
14
14
x1
7,1
7,5
7,8
7,9
8,1
8,4
8,6
8,8
9,6
9,9
x2
22
25
26
27
30
31
32
32
34
36
y
10
11
12
11
12
12
12
13
14
14
x1
7,2
7,6
7,8
7,9
8,2
8,4
8,6
8,8
9,2
9,6
x2
23
25
26
28
30
31
32
32
33
34