Верификация линейной модели
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Верификация линейной модели
Под верификацией линейной модели в эконометрическом исследовании
понимается проверка этой модели на пригодность ее дальнейшего использования в исследованиях. Рассмотрим построенную оцененную линейную модель
парной регрессии yi a b xi . Верификацию этой модели, а также качество
оценивания регрессии, проверим двумя равноценными способами: дисперсионным и корреляционным анализами в регрессии.
Дисперсионный анализ в регрессии. Суть данного метода заключается в
разложении общей суммарной дисперсии выходной величины y на составляющие, обусловленные действием входных переменных-факторов х, и остаточную дисперсию, обусловленную ошибкой или всеми неучтенными в данной
модели переменными . Фактор х оказывает несущественное влияние на результат y , если соответствующая ему дисперсия и дисперсия ошибок статистически незначимы. Для оценок таких дисперсий используются суммы квадратов
ss (от англ. Sum of Squares) отклонений значений данной переменной от ее
средней величины.
2
Рассмотрим ss общ . yi y – общую сумму квадратов выходной величины, характеризующую разброс значений yi относительно среднего значения
y . Разобьем эту сумму на две части: объясненную регрессионным уравнением
и не объясненную (т. е. связанную с ошибками i ):
ssобщ. ssх ssост. .
Здесь через ss х yˆ i y обозначена сумма квадратов, объясненная ре2
грессией и действиями факторов х, и ssост . yi yˆ i – остаточная сумма
квадратов, обусловленная ошибкой i .
Качество построенной модели определяется коэффициентом детерминации R 2 . Он показывает ту долю дисперсии, которую фактор х оказывает на
ss
ss х
результирующий показатель y : R 2 1 ост .
.
ssобщ . ssобщ .
В силу определения, коэффициент детерминации находится в пределах:
0 R 2 1. Если R 2 0 , то это означает, что регрессия ничего не дает, т. е. фактор xi не улучшает качество предсказания yi по сравнению с тривиальным
предсказанием yˆ i y .
2
Другой крайний случай: R 2 1 означает точную подгонку, т.е. все
наблюдаемые значения xi , yi лежат на теоретической регрессионной прямой
(все остатки i 0 ).
Чем ближе значение R 2 к единице, тем лучше качество подгонки или качество регрессии, тем более точно ŷ аппроксимирует значение y .
Статистическую значимость оцененной линейной модели yi a b xi
оценивают с помощью проверки гипотезы об отсутствии линейной функциональной связи между x и y . В этом случае делается предположение: H 0 : b 0 .
На заданном уровне значимости , используя критерий Фишера, найдем
критическую точку критерия по формуле Fкр F (1 , k1 , k 2 ) из специальных
таблиц или с помощью ППП Excel. Здесь k1 k 1 число степеней свободы,
обусловленное количеством факторов (от англ. df – degree of freedom), k количество оцененных параметров модели; k 2 n k число степеней свободы,
обусловленное количеством испытаний. В линейной модели парной регрессии
Fкр F (0,95; 1; n 2) .
Наблюдаемое значение критерия Fo найдем по известным уже формулам
s2
ss
Fо 2х , где s х2 х несмещенная оценка дисперсии, обусловленная дейsост
k1
ss
2
ствием факторов; sост
ост несмещенная оценка остаточной дисперсии.
k2
Если наблюдаемое значение F -статистики больше критической точки
F0 Fкр , то гипотеза H 0 : b 0 отвергается, то есть связь между x и y есть, и
результаты выборочных наблюдений не противоречат предположению о ее линейности. В противном случае H 0 : b 0 принимается и постулируется отсутствие значимой линейной функциональной связи между x и y .
Корреляционный анализ в регрессии. Суть этого метода заключается в использовании в регрессионном анализе элементов теории корреляции. Примерами корреляционной зависимости может быть взаимозависимость между весом и ростом человека, соотношением его рук и ног и т.д. Мерой линейной
связи двух случайных величин x и y является коэффициент корреляции r . Несмещенной точечной оценкой этого коэффициента является его выборочное
nxi yi xi yi
значение: rB rˆ
.
2
2
[nxi2 xi ][nyi2 yi ]
Значения коэффициента корреляции принадлежат промежутку 1; 1 .
Чем больше его абсолютное значение к 1, тем теснее связь между признаками.
Положительная величина коэффициента корреляции свидетельствует о прямой
связи между ними, отрицательная – о наличии обратной связи между признаками.
Статистическую значимость оцененной линейной модели yi a b xi
здесь также оценивают с помощью проверки гипотезы об отсутствии линейной
функциональной связи между x и y . В этом случае делается предположение:
H 0 : r 0 . Для проверки основой гипотезы, на уровне значимости , исполь-
зуется критерий Стьюдента, статистика которого t кр t (1
ся с наблюдаемой точкой критерия t о
2
, n 2) сравнивает-
rB n 2
.
1 rB2
Вывод о значимости регрессионной зависимости между x и y может
быть сделан, если выполняется соотношение: t 0 t кр . Критическое значение
критерия находится либо из специальных таблиц Стьюдента, либо с помощью
пакета Excel.
Здесь также вычисляется коэффициент детерминации R 2 rB2 (чаще всего
выражаемый в %). Он показывает ту долю дисперсии y , которая объяснена линейной зависимостью от x . Например, если rB 0,9 , то это значит, что линейная регрессия y на x объясняет 81% дисперсии y . Остальные 19% приходятся
на долю прочих факторов, не учтенных в уравнении регрессии.
Пример 1.
Требуется проверить статистическую значимость построенной модели в
целом с помощью дисперсионного и корреляционного анализов, уровень значимости принять 5%.
Имеются следующие данные:
73
85
102
115
122
126
134
147
xi
0,5
0,7
0,9
1,1
1,4
1,4
1,7
1,9
yi
Здесь y - уровень усвоения материала; x - количество посещений занятий. Ранее была построена следующая модель yˆ 0,974 0,01924x .
Решение. Проведем верификацию исследуемой модели двумя способами.
Вначале осуществим проверку дисперсионным анализом в регрессии.
Для расчета сумм квадратов ssобщ. , ss x и ssост . , составим вспомогательную
1 n
1
таблицу, имея в виду, что y yi 9,6 1,2 .
n i 1
8
№
yi
ŷi
yi y 2
yˆ i y 2
yi yˆ i 2
1
0,5
0,43
0,49
0,5929
0,0049
2
0,7
0,661
0,25
0,2905
0,0015
3
0,9
0,998
0,09
0,0408
0,0077
4
1,1
1,239
0,01
0,0015
0,0193
5
1,4
1,373
0,04
0,030
0,0007
6
1,4
1,45
0,04
0,0625
0,0025
7
1,7
1,604
0,25
0,1632
0,0092
8
1,9
1,854
0,49
0,4277
0,0021
Итог
9,6
9,609
1,66
1,6091
0,0479
ssобщ . yi y 1,66 ,
n
Итак,
ss x yˆ i y 1,6091
n
2
i 1
2
и
i 1
ssост . yi yˆ i 0,0479 . Очевидно, здесь 1,66 1,6091 0,0479.
n
2
i 1
Проверим основную гипотезу H 0 : b 0 . Критическое значение критерия
Фишера Fкр F (1 0,05; 1; n 2) F 0,95; 1; 6 5,99 делит все множество на область принятия основной гипотезы и правостороннюю критическую область.
s х2
1,6091/1 1,6091 201,64 .
Наблюдаемое значение критерия Fо 2
sост 0,0479/ 6 0,00798
Так как F0 Fкр 201,64 5,99 , то основная гипотеза на 5% уровне значимости отвергается, т. е. результаты наблюдений не противоречат предположению о наличии линейной функциональной связи между показателями усвоения материала и посещением занятий.
Качество модели определим коэффициентом детерминации R 2 0,97 ,
который показывает, что в исследуемой ситуации 97% общей дисперсии усвоения материала объясняется количеством посещений занятий, в то время как на
все остальные факторы приходится лишь 3% уровня усвоения.
Проведем верификацию рассматриваемой модели с помощью корреляционного анализа в регрессии. Вычислим коэффициент корреляции, используя
вспомогательную таблицу.
№
xi
yi
xi2
y i2
xi yi
1
73
0,5
5 329
0,25
36,5
2
85
0,7
7 225
0,49
59,5
3
102
0,9
10 404
0,81
91,8
4
115
1,1
13 225
1,21
126,5
5
122
1,4
14 884
1,96
170,8
6
126
1,4
15 876
1,96
176,4
7
134
1,7
17 956
2,89
227,8
8
147
1,9
21 609
3,61
279,3
Итог
904
rB
9,6
106 508
13,18
1168,6
8 1168,6 904 9,6
8 106508 904 8 13,18 9,6
2
2
0,985 .
Проверим основную гипотезу H 0 : r 0 . Критическое значение критерия
, n 2) t 0,975; 6 2,447 делит все множество на об2
ласть принятия основной гипотезы и двустороннюю критическую область.
r n2
0,985 6
2,413
13,95 .
Наблюдаемое значение критерия t о B
2
,
173
1 rB2
1 0,985
Так как t 0 t кр 13,95 2,477 , то основная гипотеза на 5% уровне значимости отвергается, т. е. результаты наблюдений не противоречат предположению о наличии линейной функциональной связи между показателями усвоения
материала и посещением занятий.
Коэффициент детерминации здесь также равен R 2 r 2 0,97 . Высокое
значение как коэффициента корреляции, так и коэффициента детерминации
свидетельствует о том, что данные наблюдений хорошо согласуются с представлением их в виде линейной регрессионной модели.
Стьюдента t кр t (1