Справочник от Автор24
Поделись лекцией за скидку на Автор24

Корреляционный анализ

  • 👀 608 просмотров
  • 📌 569 загрузок
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Корреляционный анализ» pdf
1. Корреляционный анализ 1.1 Выборочный коэффициент ковариации Основная задача корреляционного анализа заключается в выявлении взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции, вычисления и проверки значимости множественных коэффициентов корреляции и детерминации. Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причинных связей. Выборочная ковариация является мерой взаимосвязи между двумя переменными. Ковариация между двумя переменными X и Y вычисляется по формуле: 1 n cov( x , y )   ( x i  x )( y i  y ) , n i 1 , Другая формула для вычисления ковариации: cov( x, y )  x  y  x  y (x1, y1), (x2 , y2 ),...,(xn , yn ) где переменных X и Y. - 1 n y   yi n i 1 выборочные . значения случайных 1 n x   xi . n i 1 Ковариация - это статистическая мера взаимодействия двух случайных переменных, таких, например, как доходности двух ценных бумаг. Положительное значение ковариации показывает, что доходности этих ценных бумаг имеют тенденцию изменяться в одну сторону. Ковариация зависит от единиц, в которых измеряются переменные X иY. Поэтому для измерения силы связи между двумя переменными используется другая статистическая характеристика, называемая коэффициентом корреляции. 1.2 Выборочный коэффициент парной корреляции В практических расчетах коэффициент корреляции генеральной совокупности обычно не известен. По результатам выборки может быть найдена его точечная оценка – выборочный коэффициент корреляции r, так как выборочная совокупность переменных X и Y случайна, то r – случайная 1 величина. Оценкой коэффициента корреляции ρ является выборочный парный коэффициент корреляции: rxy  cov( x, y ) xy  x  y  sx  s y sx  s y (3.1) 1 1 2 2 S  ( yi  y ) 2 ( x  x )  y  i n 1 n 1 - оценки выборочных дисперсий величин x и y. Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменными и обладает следующими основными свойствами: 1. Коэффициент корреляции принимает значение в интервале (-1,+1). 2. Случайные величины Х, Y, можно уменьшать (увеличивать) в α раз, а также вычитать или прибавлять к значениям X и Y одно и тоже число β - это не приведет к изменению коэффициента корреляции r. 3. При r = ±1 случайные величины X и Y связаны линейной функциональной зависимостью, т.е. Y   X   . При r = 0 линейная корреляционная связь отсутствует. где S x2  Для оценки значимости коэффициента корреляции применяется t - критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле: tнабл  ry2, x 1  ry2, x (n  2) (3.2) Вычисленное по этой формуле значение tнабл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы. Если tнабл > tкр, то полученное значение коэффициента корреляции признается значимым (то есть нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь. Если значение r близко к нулю, связь между переменными слабая. Если случайные величины связаны положительной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если случайные величины связаны отрицательной корреляцией, это означает, что при возрастании одной случайной величины, другая имеет тенденцию в среднем убывать. 2 1.3 Коэффициент детерминации При анализе качества модели регрессии используется основное положение дисперсионного анализа, согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения y может быть разложена на две составляющие — объясненную и необъясненную уравнением регрессии суммы квадратов (дисперсий): n n n 2 2 2 ( y  y)  ( yˆ  y)  y  yˆ  , i i i 1 где i i 1 yˆ i - значения (3.11) i i1 y, вычисленные по модели ŷ = a + bx. n Разделив правую и левую часть (3.11)  ( y  y) на i 2 , получим i 1 n n  ( yˆ 1 i  y) 2 i 1 n    (y i  y) 2 i 1 n  (y i 1 2 i i  y) 2 . i 1 Коэффициент детерминации определяется следующим образом: n R2  объясняемая сумма квадратов  общая сумма квадратов n  ( yˆ  y ) Из определения видно, что 0 ≤ R  i i 1 n  ( yi  y )2 i 1 2 2  1 2 i i 1 n  ( yi  y )2 (3.12.) i 1 ≤1 1.4 Множественный коэффициент корреляции и детерминации (двухфакторная модель) В случае линейных многофакторных моделей вводится множественный коэффициент корреляции. Для его вычисления введем матрицу коэффициентов парной корреляции R (корреляционная матрица)  r11 r12 r13    R   r21 r22 r23  r r   31 32 r33  (3.3) Одной корреляционной матрицей нельзя полностью описать зависимости между величинами. В связи с этим, в многомерном корреляционном анализе рассматривается две задачи: 3 1. Определение тесноты связи одной случайной величины с совокупностью остальных ( n – 1) величин, включенных в анализ; 2. Определение тесноты связи между величинами при фиксировании или исключении влияния остальных k . Эти задачи решаются с помощью коэффициентов множественной и частной корреляции, соответственно. Вычисляем множественный коэффициент корреляции Ryx1x2 по формуле: R yx 1 x 2  1 R R 11 , где R - определитель корреляционной матрицы R. R11 - алгебраическое дополнение диагонального элемента определитель матрицы межфакторной корреляции: r11 матрицы R или 1 rx1x 2    ,  rx 2 x1 1  2 равный 1 – (rx1x2) . Если выразить множественный коэффициент корреляции Ryx1x2 через элементы корреляционной матрицы, то получим формулу: R yx 1 x 2  1 R R 11  r yx2 1  r yx2 2  2 r yx2 1  r yx2 2  rx21 x 2 . 1  r x21 x 2 Множественный коэффициент корреляции оценивает тесноту совместного влияния факторов на результат. 2 Квадрат коэффициента множественной корреляции (Ryx1x2) называется множественным коэффициентом детерминации, который показывает, какую долю вариации исследуемой величины y объясняет вариация остальных случайных величин (факторов) x1 , x2. R 2 yx 1 x 2  r yx2 1  r yx2 2  2 r yx2 1  r yx2 2  rx21 x 2 1  rx21 x 2 . Коэффициенты множественной корреляции и детерминации являются величинами положительными, принимающими значения в интервале от 0 до 1. При приближении коэффициента R2 к единице можно сделать вывод о тесноте взаимосвязи случайных величин, но не о ее направлении. 4 Коэффициент множественной корреляции может только увеличиваться, если в модель включать дополнительные переменные. Это проходит потому, что остаточная дисперсия D(u)/n уменьшается при введении дополнительных переменных. Если число факторов приблизится к числу наблюдений, то D(u) = 0 и R2 = 1, хотя в действительности связь между факторами и результатом слабая. Для того, чтобы получить адекватную оценку этой связи, применяют cкорректированный коэффициент детерминации: Rскор 2   1 1 R2  n n k 1 1 , Проверка значимости коэффициента множественной корреляции осуществляется путем сравнения фактического (расчетного) значения критерия Фишера: Fрасч  R2 /  n  m  1  R  /  m  1 , 2 (3.5) с табличным Fтабл. Табличное значение критерия определяется заданным уровнем значимости  и степенями свободы k1 = m и k2 = n – m –1. Коэффициент R2 значимо отличается от нуля, если выполняется неравенство Fфакт  Fтабл . 1.4 Частные коэффициенты корреляции Если рассматриваемые случайные величины коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния одной или нескольких других случайных величин. Выборочные частные коэффициенты корреляции определяются по формулам: ryx  ryx  rx x 2 1 2 1 ryx x  ; 2 2 1 2 (1  ryx )  (1  rx x ) 2 1 2 1 ryx  ryx  rx x 2 1 12 . ryx x  2 )  (1  r 2 ) 2 1 (1  ryx xx 1 1 2 Данные формулы определяют коэффициенты корреляции при исключенном влиянии на результат фактора x1 и x2 соответственно. Частный коэффициент корреляции, так же как и парный коэффициент корреляции изменяется от –1 до +1. 5 Пример. Вычисление коэффициентов парной, множественной и частной корреляции. В табл. 1.1. представлена информация об объёмах продаж и затратах на рекламу одной фирмы, а также индекс потребительских расходов за ряд текущих лет. 1. Определить степень влияния индекса потребительских расходов на объёмы продаж (вычислить коэффициент парной корреляции). 2. Оценить значимость вычисленного коэффициента парной корреляции. 3. Построить матрицу коэффициентов парной корреляции по трем переменным. 4. Найти оценку множественного коэффициента корреляции. 5. Найти оценки коэффициентов частной корреляции. Таблица 1.1 Объем продаж, тыс. 126 137 148 191 274 370 432 445 367 367 321 307 331 345 364 384 руб., y Затраты на рекламу, 4 4,8 3,8 8,7 8,2 9,7 14,7 18,7 19,8 10,6 8,6 6,5 12,6 6,5 5,8 5,7 x1 Индекс потребительских 100 98,4 101,2 103,5 104,1 107 107,4 108,5 108,3 109,2 110,1 110,7 110,3 111,8 112,3 112,9 расходов, % , x2 Решение. 1. Вычисляем коэффициент парной корреляции rxy. Средние значения случайных величин Х и Y, которые являются наиболее простыми показателями, характеризующими последовательности x1, x2, …,x16 и y1, y2, …,y16, рассчитаем по формулам: 1 n x   xi  107,2 n i1 1 n y   yi  306,8 . n i1 Дисперсия характеризуют степень разброса значений среднего x ( y , соответственно): 1 305, 474 S x2  ( xi  x ) 2   20,36  n 1 15 1 158718, 438 S y2  ( yi  y )2   10581,23.  n 1 15 вокруг своего Стандартные ошибки случайных величин Х и Y рассчитаем по формулам, соответственно: n Sx  1 n 1  x  x  i 2 n  4,51; Sy  i 1 1 n 1  y i i 1 6 2  y   102,87 Коэффициент корреляции рассчитаем по формуле (3.1): rx . y 1 n ( xi  x )( yi  y ) 1  5681, 99  n  1 i 1   15 = 0, 816 4, 51  102, 87 Sx  Sy 3) Оценим значимость коэффициента корреляции. рассчитаем значение t – статистики по формуле r n  2 0,816 14 t расч    5,282. 2 1  0,666 1  r Табличное значение критерия Стьюдента равно: Для этого tтабл (α = 0,1; k = n – 2 = 14) =1,76. Сравнивая числовые значения критериев, видно, что tрасч > tтабл, т.е. полученное значение коэффициента корреляции значимо. Таким образом, индекс потребительских расходов оказывает весьма высокое влияние на объёмы продаж. 4) Матрица R коэффициентов парной корреляции, вычисленных по формуле (3.1) для трех факторов будет иметь вид: Объем Затраты на реализации рекламу 1 Объем реализации Затраты на рекламу Индекс потребительских расходов 1 2 3 Индекс потребительских расходов 2 1 0,646 0,816 3 0,646 1 0,273 0,816 0,273 1 4) Вычисление множественного коэффициента корреляции Ryx1x2. по формуле: R yx 1 x 2  1 R R 11  1 0 ,1304  0 ,9269 , 0 , 9253 где R - определитель корреляционной матрицы R равный 0,1304, R11 - алгебраическое дополнение диагонального элемента r11 матрицы R. R11  ( 1) 2  1 0, 273  0,9253 . 0, 273 1 5) Вычисление коэффициентов частной корреляции. 7 ryx  ryx  rx x 0,646  0,816  0,273 2 1 2 1 ryx1x 2    0,706. 2 2 2 2 (1  ryx )  (1  rx x ) (1  0,816 )  (1  0,273 ) 2 1 2 ryx  ryx  rx x 0,816  0,646  0,273 2 1 12  ryx x   0,871. 2 2 2 2 2 1 (1  ryx )  (1  rx x ) (1  0,646 )  (1  0,273 ) 1 1 2 1 . 5 О це н ка к о э ф ф и ц ие нт о в л и н е й н о й па р н о й ре г ре с с и и. Под линейностью здесь имеется в виду, что переменная y предположительно находиться под влиянием переменной x в следующей зависимости: ŷ = a + bx, где a - постоянная величина (или свободный член уравнения), bкоэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений. Для оценки параметров регрессионного уравнения наиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений yi от модельных значений ŷ . Согласно методу наименьших квадратов, оценки a и b находятся путем минимизации суммы квадратов n n  2 S ( a, b     y i  y i    ( y i  a  b x i ) 2 (5) i 1 i 1 Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Точка минимума находится путем приравнивания нулю частных производных функции S(a,b) по переменным a и b (необходимое условие экстремума). Это приводит к системе нормальных уравнений  S(a, b)/  a  0,  S(a, b)/  a  0, (6) решением которой и является пара a, b. Подставляя (5) в (6) получим систему уравнений: n   n  na    xi b   y i   i 1  i 1   n n n   xi  a    xi2 b   y i xi .  i 1  i 1  i 1  8 Эта система является системой двух линейных уравнений с двумя неизвестными и может быть легко решена, например, методом подстановки. В результате получаем n  y b  i  y x i  x  i 1 , n  x  x 2 i i 1 a  y  b x. Нетрудно видеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии 1 n S  ( xi  x ) 2  n  1 i 1 2 x и выборочной ковариации 1 n cov(x, y)  (xi  x)(yi  y)  n 1 i1 так что, в этих терминах, cov( x , y ) x  y  x  y  , 2 2 x x1 y1  x2 y2  ... xn yn x12  x 22  ...  x n2 2 где x  y  , x  n n b Пример. Бюджетное обследование семи случайно выбранных семей дало следующие результаты (в тыс. $ ): Табл. 3.2. Наблюдение Накопления Доход Y Х 1 3 40 2 6 55 3 5 45 4 3.5 30 5 1.5 30 6 4.5 50 7 2 35 построить однофакторную модель регрессии. Решение. Для вычисления параметров модели следует воспользоваться формулами (3.7) и (3.8). Промежуточные расчеты приведены в таблице 3.3. 9 b x y  x  y x2  160  3,643  40 ,714  0,143 17 ,39  1657 ,653 a  y  b x  3, 643  0 .1431  40 ,714  - 2,184. Построена модель зависимости накопления от дохода:  y  2,184  0,143  x. (7) 1.6 Оценка качества модели парной регрессии Проверка качества модели парной регрессии в целом может быть осуществлена с помощью F-критерия Фишера. Для проверки гипотезы о том, что линейная связь между x и у отсутствует, т.е. H0: b = 0, используется соотношение (значение F- статистики Фишера.): R2 F ,1, n  2   (n  2) , 1 R2 которое удовлетворят F-распределению Фишера с (1, n-2) степенями свободы. При F > Fтабл нулевая гипотеза отклоняется и уравнение множественной регрессии значимо. Fтабл означает критическое значение статистики Фишера, которое берется в таблице, α – уровень значимости (обычно равен 1%. 5%, 10%, чаще 5%). Далее, проверяется статистическая значимость коэффициента регрессии, которая определяется при помощи t-критерия Стьюдента. Значение t - статистики для коэффициента регрессии можно определить по формуле: tb  b , Sb где Sb - стандартная ошибка коэффициента регрессии b. Это значение сравнивается с критическим значением tтабл, которое берется в таблице. При │tфакт │> tтабл значение соответствующего коэффициента значимо на уровне значимости α. (при числе степеней свободы равным (n – 2)). Упражнение. Определите качество модели (7) в целом и статистическую значимость коэффициента регрессии, если при уровне значимости 5% Fтабл = 6,61, tтабл = 2,57. 10 1.7 Линейная множественная регрессия Модель линейной множественной регрессии – это линейная зависимость между результативными признаками и объясняющими переменными y = α+b1x1+ b2x2+…+ bkxk + u (1) xi- объясняющие переменные или факторы, u – случайная составляющая. Коэффициенты регрессии bi неизвестны и их надо вычислить. О ц е н к а к о э ф ф и ц ие н т о в м н о ж е с т ве нн о й ре г ре с с и и. Рассмотрим двухфакторную регрессию: у= b0+ b1x1+ b2x2 + u (2) Как и в случае парной регрессии минимизируются остатки: S  (y i  b0  b1 x1i  b 2 x 2 i ) 2  min Дифференцируя функцию по неизвестным параметрам и приравнивая нулю полученные производные (необходимое условие экстремума), получим систему для определения коэффициентов регрессии : S  2 ( y i  b1 x1  b2 x 2  b0 )= 0 b0 S  2 x1 ( y  b1 x1  b2 x 2  b0 ) = 0 (3 ) b1 S  2 x 2 ( y  b1 x1  b2 x 2  b0 ) = 0 b2 Из системы (3) получаем: cov( x1 , y ) S 2 ( x 2 )  cov( x 2 , y ) cov( x1 , x 2 ) b1  , S 2 ( x1 ) S 2 ( x 2 )  (cov( x1 , x 2 )) 2 (4 ) cov( x 2 , y ) S 2 ( x1 )  cov( x1 , y ) cov( x1 , x 2 ) b2  , S 2 ( x1 ) S 2 ( x 2 )  (cov( x1 , x 2 )) 2 (5 ) г д е c o v ( x, y ) = 2 2 xy - x · y ; S 2 ( x) = x  (x) , b 0 = у – b 1 ∙ x1 – b 2 ∙ x 2 . 11 Коэффициенты b1 и b2 можно записать через парные коэффициенты корреляции. Именно, так как cov(x1,x2) = r(x1,x2)∙Sx1∙ Sx2, то имеем: r(y, x1)  r(y, x2)  r(x1, x2) s y b1  1  r 2 (x1, x2) s x1 r(y, x2)  r(y, x1)  r(x1, x2) s y b2  s x2 1  r 2 (x1, x2) (6) (7) b0  y  b1 x1  b2 x2 Рассмотрим понятие регрессии в стандартизованном масштабе, в которой коэффициенты приводятся к одному основанию и их можно сравнивать между собой. В этом случае регрессия записывается в виде: t y= где ty  1t1   2 t 2 yy ; y tx xi  xi  xi ; i= 1,2. S П р и че м , xi bi   i S ; y i = 1,2. (8 ) Упражнение: Показать, что t y  0, t xi  0 ; s x  s y  1 Формулы (6), (7), (8) позволяет выразить коэффициенты стандартизованной регрессии через парные коэффициенты корреляции: ryx1  ryx 2 rx1 x 2 1  1  r 2 x1 x 2 2  ryx 2  ryx1 rx1 x 2 1  r 2 x1 x 2 Ранее было сказано, что в уравнении t y = β 1 t 1  β 2 t 2 коэффициенты βi приведены к одному основанию, следовательно, сравнивая их друг с другом можно ранжировать факторы по силе их взаимодействия на результат. 12 1.8 Оценка качества модели множественной регрессии Проверка качества модели множественной регрессии в целом может быть осуществлена с помощью F-критерия Фишера. Для проверки гипотезы о том, что линейная связь между x1, x2,..,xk и у отсутствует, т.е. H0: b1 = b2 = 0, используется соотношение (значение F- статистики Фишера.): R2 n  k 1 F   , 1 R2 k которое удовлетворят F-распределению Фишера с (k, n-k-1) степенями свободы. При F > Fтабл нулевая гипотеза отклоняется и уравнение множественной регрессии значимо. Fтабл означает критическое значение статистики Фишера, которое берется в таблице. Далее, проверим статистическую значимость каждого из коэффициентов регрессии в отдельности, которая определяется при помощи t-критерия Стьюдента. Значение t - статистики для коэффициентов регрессии в случае множественной регрессии определяется по формуле: t bi  bi , S bi где Sbi - стандартная ошибка коэффициента регрессии bi, которая определяется по формуле: S b1  Sb2  R yx2 1 x 2  r yx2 2 1 R 2 yx1 x 2 R yx2 1 x 2  r yx2 1 1 R 2 yx1 x 2   1 n  k 1 1 n  k 1 ; . При │tфакт │> tтабл значение соответствующего коэффициента значимо на уровне значимости α. 13 Пример. По 20 предприятиям региона изучается зависимость выборки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов x1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих x2 (%). Номер предприятия 1 2 3 4 5 6 7 8 9 10 y x1 x2 7,0 7,0 7,0 7,0 7,0 7,0 8,0 8,0 8,0 10,0 3,9 3,9 3,7 4,0 3,8 4,8 5,4 4,4 5,3 6,8 10,0 14,0 15,0 16,0 17,0 19,0 19,0 20,0 20,0 20,0 Номер предприятия 11 12 13 14 15 16 17 18 19 20 y x1 x2 9,0 11,0 9,0 11,0 12,0 12,0 12,0 12,0 14,0 14,0 6,0 6,4 6,8 7,2 8,0 8,2 8,1 8,5 9,6 9,0 21,0 22,0 22,0 25,0 28,0 29,0 30,0 31,0 32,0 36,0 1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессия и средних коэффициентов эластичности ранжировать факторы по степени их влияния результатов. 2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их. 3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации. 4. С помощью F-критерия Фишера оценить статистическую 2 надежность уравнения регрессии и коэффициента детерминации R yx1x2 . Решение: Найдем средние квадратические отклонения признаков: 2 97 ,9  9 , 6 2  2 ,396 ; 2 41,887  6 ,19 2  1,890 ; sy  y2  y  sx  1 x12  x 1  sx  2 x 22  x 2  2 541 , 4  22 ,3 2  6 ,642 ; 1. Вычисление параметров линейного уравнения множественной регрессии. Для нахождения параметров линейного уравнения множественной 14 регрессии ŷ  a  b1x1  b2 x 2 Воспользуемся готовыми формулами: s b  1 s y r  yx r 1 yx r x x 2 1 2 ; b  2 s 1 r 2 x x 1 2 x 1 sy x r  2 yx r yx r x x 2 1 1 2 1 r 2 x x 1 2 a  y  b1 x 2 . Рассчитаем сначала парные коэффициенты корреляции: cov( y , x1 ) 63 ,815  6 ,19  9 ,6 r yx    0 ,970 ; 1 s y  sx 1,890  2 ,396 1 cov( y, x 2 ) 229,05  22,3  9,6 r yx    0,941; s  s 6 , 642  2 , 396 2 y x2 rx x  1 2 cov( x1 , x 2 ) 149 ,87  6 ,19  22 ,3   0 ,943 . sx  sx 1,890  6 , 642 1 2 Находим b1  2 , 396 0 , 970  0 , 941  0 ,943   0 ,946 2 1,890 1  0 , 943 b2  2 , 396 0 , 941  0 , 940  0 , 943   0 , 0856 2 6 , 642 1  0 , 943 15 ; ; a  9,6  0,946  6,19  0,0856  22 ,3  1,835 . Таким образом получили следующие уравнение множественной регрессии: yˆ  1,835  0,946  x1  0.0856  x 2. Коэффициенты  1 и  2 стандартизованного уравнения регрессии t y   1t x1   2 t x2   , находятся по формулам:  1  b1  2  b2 s x1 sy s x2 sy  0 ,946  1,890  0 , 746 ; 2 ,396  0,0856  6,642  0,237 . 2,396 Т.е. уравнение будет выглядеть следующим образом: tˆy  0,746  t x1  0,237  t x2 . Так как стандартизованные коэффициенты регрессии можно сравнить между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации. Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности: Э i  bi  xi . y xi Вычисляем: Э1  0.946 6,19  0.61; 9,6 Э 2  0,0856  22 ,3  0 , 20 . 9 ,6 Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,61 % или 0,20% соответственно. Таким образом, подтверждается большее влияние на результат y фактора x1, чем фактора x2. 2. Коэффициенты парной корреляции мы уже нашли: 16 r yx 1  0 ,970 ; ryx2  0,941; rx1x 2  0,943. Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы х1 и х2 явно коллинеарны, т.к. rx1x2 = 0,943 > 0,7). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения. Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии. При двух факторах частные коэффициенты корреляции рассчитываются следующим образом: ryx  ryx  rx x 0,970  0,941 0,943 2 12 1 ryx x    0,744. 2 2 2 2 1 2 (1  ryx )  (1  rx x ) (1  0,941 )  (1  0,943 ) 2 12 ryx  ryx  rx x 0,941  0,970  0,943 2 1 1 2  ryx x   0,325. 2 2 2 2 2 1 (1  ryx )  (1  rx x ) (1  0,970 )  (1  0,943 ) 1 1 2 Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи. Коэффициент множественной корреляции стандартизованные коэффициенты регрессии: R yx1x 2   i определяем через  ryxi  0,746  0,970  0,237  0,941  0,973 Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом. 3. Нескорректированный коэффициент множественной 2 детерминации Ryx1x2 = 0,947 оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94,7% и указывает на весьма высокую степень 17 обусловленности вариации результата вариацией факторов, иными словами на весьма тесную связь факторов с результатом. Скорректированный коэффициент множественной детерминации R 2  1  (1  R 2 ) n 1 20  1  1  (1  0,947)  0,941 n  m 1 20  2  1 определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 94%) объясненность результата у в модели факторами х1 и х2. 4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи R yx 1x 2 дает F -критерий Фишера: R2 n  m 1 F  . m 1 R2 В нашем случае фактическое значение F-критерия Фишера: F факт 0 ,973 2 20  2  1    151 ,88 . 2 2 1  0 ,973 Получили, что Fфакт > Fтабл = 3,49 (при n = 20), т.е. вероятность случайно получить такое значение F-критерия не превышает допустимый уровень значимости 5%. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи R yx2 1x2 . Варианты индивидуальных заданий По 20 предприятиям региона изучается зависимость выработки продукции на одного работника у (тыс. руб.) от ввода в действие новых основных фондов х, (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих x2 (%) (смотри таблицу своего варианта). Требуется: 1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат. 18 2. Найти коэффициенты парной частной и множественной корреляции. Проанализировав их. 3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации. 4. С помощью F- критерия Фишера оценить статистическую надежность 2 уравнения регрессии и коэффициента детерминации R yx1x 2 . Вариант 1 Номер предприятия 1 2 3 4 5 6 7 8 9 10 y x1 x2 6 6 6 7 7 7 8 8 9 10 3,6 3,6 3,6 4,1 3,9 4,5 5,3 5,3 5,6 6,8 9 12 14 17 18 19 19 19 20 21 Номер предприятия 11 12 13 14 15 16 17 18 19 20 y x1 x2 9 11 11 12 12 13 13 13 14 14 6,3 6,4 7 7,5 7,9 8,2 8 8,6 9,5 9 21 22 24 25 28 30 30 31 33 36 Вариант 2 Номер предприятия 1 2 3 4 5 6 7 8 9 10 y 6 6 7 7 7 8 8 9 9 10 x1 3,5 3,6 3,9 4,1 4,2 4,5 5,3 5,3 5,6 6 Номер предприятия 11 12 13 14 15 16 17 18 19 20 x2 10 12 15 17 18 19 19 20 20 21 19 y 10 11 11 12 12 13 13 14 14 15 x1 6,3 6,4 7 7,5 7,9 8,2 8,4 8,6 9,5 10 x2 21 22 23 25 28 30 31 31 35 36 Вариант 3 Номер предприятия 1 2 3 4 5 6 7 8 9 10 Номер предприятия 1 2 3 4 5 6 7 8 9 10 Номер предприятия 1 2 3 4 5 6 7 8 9 10 x1 3,7 3,7 3,9 4,1 4,2 4,9 5,3 5,1 5,6 6,1 Номер предприятия x2 9 11 11 12 11 13 15 14 17 15 19 16 19 17 20 18 20 19 21 20 Вариант 4 y 11 11 11 12 12 13 13 13 14 15 x1 6,3 6,4 7,2 7,5 7,9 8,1 8,4 8,6 9,5 9,5 x2 22 22 23 25 27 30 31 32 35 36 y 7 7 7 7 8 8 9 9 10 10 x1 3,5 3,6 3,9 4,1 4,2 4,5 5,3 5,5 5,6 6,1 Номер предприятия x2 9 11 10 12 12 13 17 14 18 15 19 16 19 17 20 18 21 19 21 20 Вариант 5 y 10 10 11 12 12 13 13 14 14 15 x1 6,3 6,5 7,2 7,5 7,9 8,2 8,4 8,6 9,5 9,6 x2 22 22 24 25 27 30 31 33 35 36 y x1 x2 y x1 x2 7 7 7 8 8 8 9 9 10 10 3,6 3,6 3,7 4,1 4,3 4,5 5,4 5,5 5,8 6,1 9 11 12 16 19 19 20 20 21 21 10 11 11 12 13 13 13 14 14 14 6,3 6,8 7,2 7,9 8,1 8,3 8,4 8,8 9,6 9,7 21 22 24 25 26 29 31 32 35 36 y 7 7 7 7 8 8 8 9 10 10 Номер предприятия 11 12 13 14 15 16 17 18 19 20 Вариант 6 20 Номер предприятия 1 2 3 4 5 6 7 8 9 10 y x1 7 7 7 7 8 8 9 9 10 10 3,5 3,6 3,8 4,2 4,3 4,7 5,4 5,6 5,9 6,1 x2 910 14 15 18 19 19 20 20 21 Номер предприятия 11 12 13 14 15 16 17 18 19 20 y x1 x2 10 10 11 12 12 13 13 13 14 14 6,3 6,8 7,2 7,9 8,1 8,3 8,4 8,8 9,6 9,7 21 22 24 25 26 29 31 32 35 36 Вариант 7 Номер предприятия 1 2 3 4 5 6 7 8 9 10 Номер предприятия 1 2 3 4 5 6 7 8 9 10 y x1 x2 3,8 3,8 3,9 4,1 4,6 4,5 5,3 5,5 6,1 6,8 11 12 16 17 18 18 19 20 20 21 Номер предприятия 11 12 13 14 15 16 17 18 19 20 10 11 11 12 12 12 13 13 13 14 6,8 7,4 7,8 7,5 7,9 8,1 8,4 8,7 9,5 9,7 21 23 24 26 28 30 31 32 33 35 x1 3,8 4,1 4,3 4,1 4,6 4,7 5,3 5,5 6,9 6,8 Вариант 8 Номер x2 предприятия 9 11 14 12 16 13 17 14 17 15 18 16 20 17 20 18 21 19 21 20 y 11 11 12 12 12 13 13 14 14 15 x1 7,1 7,5 7,8 7,6 7,9 8,1 8,5 8,7 9,6 9,8 x2 22 23 25 27 29 30 32 32 33 36 y x1 x2 7 7 7 7 7 8 8 9 9 10 y 7 7 7 7 8 8 9 9 11 10 21 Вариант 9 Номер предприятия 1 2 3 4 5 6 7 8 9 10 Номер предприятия 1 2 3 4 5 6 7 8 9 10 y 7 7 7 7 8 8 9 9 10 10 y 7 7 7 7 7 8 8 8 9 10 x1 3,9 4,2 4,3 4,4 4,6 4,8 5,3 5,7 6,9 6,8 x1 3,6 4,1 4,3 4,4 4,5 4,8 5,3 5,6 6,7 6,9 Номер предприятия x2 12 11 13 12 15 13 17 14 18 15 19 16 19 17 20 18 21 19 21 20 Вариант 10 Номер предприятия 11 12 13 14 15 16 17 18 19 20 x2 12 14 16 17 18 19 20 20 21 22 22 y 11 12 13 12 13 13 13 14 14 14 x1 7,1 7,5 7,8 7,9 8,1 8,4 8,6 8,8 9,6 9,9 x2 22 25 26 27 30 31 32 32 34 36 y 10 11 12 11 12 12 12 13 14 14 x1 7,2 7,6 7,8 7,9 8,2 8,4 8,6 8,8 9,2 9,6 x2 23 25 26 28 30 31 32 32 33 34
«Корреляционный анализ» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач

Тебе могут подойти лекции

Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot