Коэффициент корреляции, проверка его значимости

👀 263 просмотра
📌 209 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Коэффициент корреляции, проверка его значимости», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Коэффициент корреляции, проверка его значимости», Word формат

Тема: Коэффициент корреляции, проверка его значимости Между экономическими факторами случайной природы может суще ствовать связь особого рода, при которой с изменением одной величины меняется распределение другой. Такая связь называется стохастической (вероятностной). Выявление стохастической связи и оценка ее силы – важная задача эконометрики. Стохастическая связь обусловлена в основном: 1) влиянием на результативный признак Y не только фактора X , но и других факторов; 2) неизбежностью ошибок измерения значений переменных X и Y ; 3) ограниченностью статистических данных и др. Модель стохастической связи может быть представлена в общем виде уравнением: Y  f (X )   , (1.1) где Y – результативный признак; f (X ) – часть результативного признака, сформировавшаяся под воздействием фактора Y (или множества факторов);  – случайная составляющая (часть результативного признака, возникшая вследствие действия прочих (неучтенных) факторов, ошибок измерения признаков и др.). Частным случаем стохастической связи является корреляционная связь. При корреляционной связи с изменением значения признака X среднее значение признака Y закономерно изменяется, в то время как в каждом отдельном случае признак Y (с различными вероятностями) может принимать множество значений. Модель корреляционной связи имеет вид: M x (Y )  f ( x) или M (Y x1 , x2 ,, xn )  f ( x1 , x2 ,, xn ) . Существуют показатели, оценивающие те или иные стороны стохастической связи. Из них важнейшими являются ковариация и коэффициент корреляции. Доказано, что разность дисперсии суммы двух зависимых случайных величин и суммы их дисперсий равно математическому ожиданию произведения разности значений случайных величин и их математических ожиданий: D( X  Y )  (D( X )  D(Y ))  M ( X  M ( X ))  (Y  M (Y )). Итак, зависимость между X и Y вытекает из неравенства (1.2) M ( X  M ( X ))  (Y  M (Y ))  0 . Величина (1.2) называется теоретической ковариацией (корреляционным моментом связи) случайных величин и обозначается: cov(X ,Y )  pop.cov(X ,Y )  11  K ( X ,Y )  M ( X  M ( X ))  (Y  M (Y )).(1.3) В записи pop. cov(X , Y ) символ pop указывает на то, что ковариация рассматривается по генеральной совокупности. Заметим, что pop. cov(X , X )  M ( X  M ( X )) 2    x2 . Теоретическая ковариация зависит от единиц измерения случайных величин X и Y , поэтому используют безразмерную величину pop. cov(X , Y ) pop. cov(X , Y ) ,  xy    x  y D( X )  D(Y ) называемую теоретическим коэффициентом линейной парной корреляции. Он был предложен К.Пирсоном и показывает тесноту линейной связи между двумя случайными величинами. Если X и Y независимые случайные величины, то  xy =0. Случайные величины X и Y называются некоррелированными, если  xy =0, и коррелированными, если  xy  0 . Если X и Y независимы, то они некоррелированны, но из некоррелированности не следует их независимость, т.е. равенство  xy = 0 указывает на отсутствие линейной связи между переменными, но не на отсутствие связи между ними вообще. Оценками теоретических ковариации и коэффициента линейной парной корреляции на основании n пар выборочных значений ( xi , yi ) (i  1, n) величин X и Y являются выборочные ковариация cov(x, y) и коэффициент линейной парной корреляции rxy : 1 cov(x, y)    ( xi  x)  ( yi  y)  xy  x  y , n cov(x, y) cov(x, y) . rxy   Sx  Sy var( x)  var( y) Выборочная ковариация является мерой взаимосвязи между двумя переменными. Свойства коэффициента корреляции rxy (они проявляются при достаточно большом объеме выборки n ): 1.  1  rxy  1. В зависимости от того, насколько rxy приближается к 1, различают связи:  rxy <0,3 – слабая;  rxy =0,3-0,5  rxy =0,5-0,7  rxy =0,7-0,8  rxy =0,8-0,9 – умеренная; – заметная (значительная);  rxy >0,9 – очень сильная. – достаточно тесная; – тесная (сильная); 2. При rxy =1 – функциональная связь y  f (x) . 3. Чем ближе rxy к 0, тем слабее связь. 4. При rxy =0 линейная корреляционная связь отсутствует. 5. rxy = ryx . 6. r( xc )( y c )  rxy , где c1 , c2 – const. 1 2 7. Если rxy >0, то корреляционная связь между переменными прямая; при rxy <0 – связь обратная. Выборочный коэффициент линейной корреляции rxy является величиной случайной, так как он вычисляется по значениям переменных, случайно попавших в выборку из генеральной совокупности. Поэтому он может быть отличен от нуля, даже если между наблюдаемыми величинами отсутствует корреляция. Следовательно, для проверки гипотезы об отсутствии корреляции необходимо проверить, значимо ли отличается rxy от нуля. Для этого проверяют нулевую гипотезу о равенстве нулю коэффициента корреляции генеральной совокупности: H 0 :  xy  0 , т.е. линейная корреляционная связь между признаками X и Y случайна. H1 :  xy  0 Выдвигается альтернативная гипотеза – линейная корреляционная связь имеется. Критерием для проверки нулевой гипотезы является отношение выборочного коэффициента корреляции rxy  r к своей ошибке: rxy , mr где mr – ошибка коэффициента корреляции. t (1.4) 1 r 2 Если объем выборки n <100, то mr  ; n2 1 r 2 если n >100, то mr  . n Число степеней свободы меньше числа наблюдений на 2, поскольку в формулу выборочного коэффициента корреляции входят средние выборочные значения переменных X и Y , для расчета которых используются две линейные формы их зависимости от наблюдений случайных величин. Гипотезу проверяют по таблицам распределения Стьюдента в соответствии с выбранным уровнем значимости  . Сравнивая наблюдаемое значение критерия t (1.4) с критическим значением t êð  t (двусторонней критической границы распределения 2 , n2 Стьюдента), определяемым по таблице по заданному уровню значимости  и числу степеней свободы  , получаем, что:  если t  t êð , то H 0 принимается, т.е. нет линейной корреляционной связи между переменными; если t  têð , то H 0 отвергается и принимается альтернативная гипотеза H 1 . Таким образом, выборочный коэффициент корреляции слишком далеко отклонился от нулевого значения, т.е. произошло событие, которое было бы маловероятным в случае равенства нулю коэффициента корреляции для генеральной совокупности. Имеется линейная корреляционная связь между переменными X и Y . Тема: Парная линейная регрессия. Проверка значимости коэффициентов уравнения. После проведения корреляционного анализа переходят к математическому описанию конкретного вида зависимостей с помощью регрессионного анализа (регрессионный анализ – статистический метод, изучающий зависимость между переменными). С этой целью подбирают вид функции, связывающий результативный показатель Y и аргумент X , вычисляют оценки неизвестных значений параметров уравнения регрессии и анализируют точность полученного уравнения. Рассмотрим корреляционную модель M x (Y )  f ( x) , где f (x) называется функцией регрессии Y по (на) X (или просто регрессией Y по (на) X ), а ее график – линией регрессии. В настоящее время под регрессией понимается функциональная зависимость между объясняющими переменными и условным математическим ожиданием зависимой переменной. С учетом (1.1) связь между зависимой переменной Y и объясняющей переменной X выражается соотношением Y  M x (Y )   , называемым регрессионной моделью (уравнением). Наиболее часто для описания стохастической связи признаков используется линейное уравнение регрессии. Рассмотрим классическую модель простой линейной регрессии Y по (на) X , заданную уравнением yi  0  1 xi   i . Величины  0 и 1 называются теоретическими параметрами (коэффициентами) регрессии. Они неизвестны и поиск их оптимальных числовых оценок составляет одну из задач регрессионного анализа. Параметр 1 показывает, на сколько единиц в среднем изменится зависимая переменная Y, если независимая переменная X увеличится на одну единицу. Величины  i называются регрессионными остатками (или просто остатками), возмущениями, ошибками измерений и являются случайными величинами. При доказательстве основных теоретических положений предполагается, что распределение остатка подчинено нормальному закону распределения. Наша задача состоит в том, чтобы по наблюдениям ( xi , yi ), i  1, n ~ ~ найти оценки b0  0 , b1  1 эмпирического уравнения регрессии (2.1) Эмпирическая линия yˆ  b0  b1 x . регрессии отражает основную тенденцию корреляционной связи. Оценки параметров линейной регрессии b0 и b1 могут быть найдены разными методами. Наиболее распространенным является метод наименьших квадратов (МНК), разработанный А. Лежандром (1806) и К. Гауссом (1821). Если вместо X в эмпирическое уравнение регрессии поставить значения x1 , x2 ,, xn , то будут получены значения yˆ1 , yˆ 2 ,, yˆ n , которые, вообще говоря, будут отличаться от опытных значений y1 , y2 ,, yn . Разница yi  yˆi  ei называется ошибкой (остатком, отклонением). Суть метода наименьших квадратов заключается в минимизации суммы квадратов остатков (суммы квадратов отклонений фактических ординат точек корреляционного поля от ординат, вычисленных по уравнению (2.1)): Q(b0 , b1 )  ei2  ( yi  yˆ i ) 2  ( yi  b0  b1 xi ) 2  min . С геометрической точки зрения минимизация суммы квадратов отклонений означает выбор одной прямой с параметрами 0 и  1 из всех прямых, которая ближе всего «прилегает» по ординатам к системе выборочных точек ( xi , yi ), i  1, n . Решение задачи минимизации функционала Q  Q(b0 , b1 ) сводится к вычислению частных производных Q по b0 и b1 с последующим решением системы уравнений: Q  0, i  0,1. bi Решая ее, найдем искомые МНК–оценки параметров регрессии:  Sy var( y) cov(x, y) xy  x  y  2  r   r  , b1  xy xy var( x) Sx var( x)  x  ( x) 2  b  y  b x.  0 1 Знак коэффициента регрессии b1 указывает направление связи (если b1 >0, то связь прямая; если b1 <0, то связь обратная). Тогда уравнение линия регрессии имеет вид: yˆ  y  b1  ( x  x) . (2.2) Для того чтобы МНК–оценки b0 и b1 обладали желательными свойствами, отклонения  i должны удовлетворять определенным предпосылкам (условиям) Гаусса–Маркова:  иметь нулевые математические ожидания: M ( i )  0 i  1, n ;  иметь постоянную дисперсию: var( i )  var( j )   2 i, j  1, n ;  быть некоррелированными (независимыми) между собой: cov( i ,  j )  0 i  j ;  быть некоррелированными с объясняющей переменной: cov( i , xi )  0 i, j  1, n . Если данные условия выполняются, то МНК–оценки b0 и b1 являются var(b0 )  0 ; несмещенными ( M (b0 )  0 ; M (b1 )  1 ), состоятельными ( lim n lim var(b1 )  0 ), эффективными (имеют наименьшую дисперсию по n сравнению с любыми другими оценками параметров 0 , 1 ). При проверке статистической значимости коэффициентов регрессии выдвигают нулевую и альтернативную гипотезы. В качестве основной гипотезы H 0 выдвигают гипотезу о незначимом отличии от нуля «истинного» параметра регрессии  1 (величина Y не зависит от X ). Альтернативной гипотезой H 1 при этом является гипотеза обратная, т.е. о неравенстве нулю «истинного» параметра (значение X влияет на вели– чину Y ): H0 : 1  0 , H1 : 1  0 . Для проверки гипотезы используется t–статистика, имеющая распределение Стьюдента: b t 1 , S (b1 ) где S (b1 )   ( y  yˆ ) (n  2) ( x  x ) 2 i i i 2  Se  ( xi  x) 2 – стандартная ошибка коэффициента регрессии b1 . Гипотеза в такой постановке обычно называется гипотезой о статистической значимости коэффициента регрессии. Найденное по данным наблюдениям значение t–статистики (его еще называют наблюдаемым или фактическим) сравнивается с критическим значением t –статистики, определяемым по таблицам распределения Стьюдента. Критическое значение находится в зависимости от уровня значимости  и числа степеней свободы  , которое равно n–2. Если tíàáë > t êð , то гипотезу H 0 отвергают; если же tíàáë < t êð , то ее принимают. Если H 0 принимается, то есть основание считать, что величина Y не зависит от X . В этом случае говорят, что коэффициент 1 статистически незначим (он слишком близок к нулю). При отклонении H 0 в пользу H 1 коэффициент  1 считается статистически значимым, что указывает на наличие определенной зависимости между переменными Y и X . В данном случае рассматривается двусторонняя критическая область, так как важным является именно отличие от нуля коэффициента регрессии, и он может быть как положительным, так и отрицательным. По аналогичной схеме на основе t –статистики проверяется гипотеза о статистической значимости коэффициента регрессии 0 . В эконометрике проверку гипотез осуществляют при 5%-м, реже на 10%-м уровне значимости  .

Разместил пособие