Справочник от Автор24
Поделись лекцией за скидку на Автор24

Верификация линейной модели

  • 👀 340 просмотров
  • 📌 327 загрузок
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Верификация линейной модели» pdf
Верификация линейной модели Под верификацией линейной модели в эконометрическом исследовании понимается проверка этой модели на пригодность ее дальнейшего использования в исследованиях. Рассмотрим построенную оцененную линейную модель    парной регрессии yi  a  b xi . Верификацию этой модели, а также качество оценивания регрессии, проверим двумя равноценными способами: дисперсионным и корреляционным анализами в регрессии. Дисперсионный анализ в регрессии. Суть данного метода заключается в разложении общей суммарной дисперсии выходной величины y на составляющие, обусловленные действием входных переменных-факторов х, и остаточную дисперсию, обусловленную ошибкой или всеми неучтенными в данной модели переменными  . Фактор х оказывает несущественное влияние на результат y , если соответствующая ему дисперсия и дисперсия ошибок статистически незначимы. Для оценок таких дисперсий используются суммы квадратов ss (от англ. Sum of Squares) отклонений значений данной переменной от ее средней величины. 2 Рассмотрим ss общ .   yi  y  – общую сумму квадратов выходной величины, характеризующую разброс значений yi относительно среднего значения y . Разобьем эту сумму на две части: объясненную регрессионным уравнением и не объясненную (т. е. связанную с ошибками  i ): ssобщ.  ssх  ssост. . Здесь через ss х   yˆ i  y  обозначена сумма квадратов, объясненная ре2 грессией и действиями факторов х, и ssост .   yi  yˆ i  – остаточная сумма квадратов, обусловленная ошибкой  i . Качество построенной модели определяется коэффициентом детерминации R 2 . Он показывает ту долю дисперсии, которую фактор х оказывает на ss ss х результирующий показатель y : R 2  1  ост .  . ssобщ . ssобщ . В силу определения, коэффициент детерминации находится в пределах: 0  R 2  1. Если R 2  0 , то это означает, что регрессия ничего не дает, т. е. фактор xi не улучшает качество предсказания yi по сравнению с тривиальным предсказанием yˆ i  y . 2 Другой крайний случай: R 2  1 означает точную подгонку, т.е. все наблюдаемые значения  xi , yi  лежат на теоретической регрессионной прямой (все остатки  i  0 ). Чем ближе значение R 2 к единице, тем лучше качество подгонки или качество регрессии, тем более точно ŷ аппроксимирует значение y .    Статистическую значимость оцененной линейной модели yi  a  b xi оценивают с помощью проверки гипотезы об отсутствии линейной функциональной связи между x и y . В этом случае делается предположение: H 0 : b  0 . На заданном уровне значимости  , используя критерий Фишера, найдем критическую точку критерия по формуле Fкр  F (1   , k1 , k 2 ) из специальных таблиц или с помощью ППП Excel. Здесь k1  k  1 число степеней свободы, обусловленное количеством факторов (от англ. df – degree of freedom), k  количество оцененных параметров модели; k 2  n  k число степеней свободы, обусловленное количеством испытаний. В линейной модели парной регрессии Fкр  F (0,95; 1; n  2) . Наблюдаемое значение критерия Fo найдем по известным уже формулам s2 ss Fо  2х , где s х2  х  несмещенная оценка дисперсии, обусловленная дейsост k1 ss 2 ствием факторов; sост  ост  несмещенная оценка остаточной дисперсии. k2 Если наблюдаемое значение F -статистики больше критической точки F0  Fкр , то гипотеза H 0 : b  0 отвергается, то есть связь между x и y есть, и результаты выборочных наблюдений не противоречат предположению о ее линейности. В противном случае H 0 : b  0 принимается и постулируется отсутствие значимой линейной функциональной связи между x и y . Корреляционный анализ в регрессии. Суть этого метода заключается в использовании в регрессионном анализе элементов теории корреляции. Примерами корреляционной зависимости может быть взаимозависимость между весом и ростом человека, соотношением его рук и ног и т.д. Мерой линейной связи двух случайных величин x и y является коэффициент корреляции r . Несмещенной точечной оценкой этого коэффициента является его выборочное nxi yi  xi yi значение: rB  rˆ  . 2 2 [nxi2  xi  ][nyi2  yi  ] Значения коэффициента корреляции принадлежат промежутку  1; 1 . Чем больше его абсолютное значение к 1, тем теснее связь между признаками. Положительная величина коэффициента корреляции свидетельствует о прямой связи между ними, отрицательная – о наличии обратной связи между признаками.    Статистическую значимость оцененной линейной модели yi  a  b xi здесь также оценивают с помощью проверки гипотезы об отсутствии линейной функциональной связи между x и y . В этом случае делается предположение: H 0 : r  0 . Для проверки основой гипотезы, на уровне значимости  , исполь- зуется критерий Стьюдента, статистика которого t кр  t (1  ся с наблюдаемой точкой критерия t о   2 , n  2) сравнивает- rB n  2 . 1  rB2 Вывод о значимости регрессионной зависимости между x и y может быть сделан, если выполняется соотношение: t 0  t кр . Критическое значение критерия находится либо из специальных таблиц Стьюдента, либо с помощью пакета Excel. Здесь также вычисляется коэффициент детерминации R 2  rB2 (чаще всего выражаемый в %). Он показывает ту долю дисперсии y , которая объяснена линейной зависимостью от x . Например, если rB  0,9 , то это значит, что линейная регрессия y на x объясняет 81% дисперсии y . Остальные 19% приходятся на долю прочих факторов, не учтенных в уравнении регрессии. Пример 1. Требуется проверить статистическую значимость построенной модели в целом с помощью дисперсионного и корреляционного анализов, уровень значимости принять 5%. Имеются следующие данные: 73 85 102 115 122 126 134 147 xi 0,5 0,7 0,9 1,1 1,4 1,4 1,7 1,9 yi Здесь y - уровень усвоения материала; x - количество посещений занятий. Ранее была построена следующая модель yˆ  0,974  0,01924x . Решение. Проведем верификацию исследуемой модели двумя способами. Вначале осуществим проверку дисперсионным анализом в регрессии. Для расчета сумм квадратов ssобщ. , ss x и ssост . , составим вспомогательную 1 n 1 таблицу, имея в виду, что y   yi   9,6  1,2 . n i 1 8 № yi ŷi  yi  y 2  yˆ i  y 2  yi  yˆ i 2 1 0,5 0,43 0,49 0,5929 0,0049 2 0,7 0,661 0,25 0,2905 0,0015 3 0,9 0,998 0,09 0,0408 0,0077 4 1,1 1,239 0,01 0,0015 0,0193 5 1,4 1,373 0,04 0,030 0,0007 6 1,4 1,45 0,04 0,0625 0,0025 7 1,7 1,604 0,25 0,1632 0,0092 8 1,9 1,854 0,49 0,4277 0,0021 Итог 9,6 9,609 1,66 1,6091 0,0479 ssобщ .    yi  y   1,66 , n Итак, ss x    yˆ i  y   1,6091 n 2 i 1 2 и i 1 ssост .    yi  yˆ i   0,0479 . Очевидно, здесь 1,66  1,6091 0,0479. n 2 i 1 Проверим основную гипотезу H 0 : b  0 . Критическое значение критерия Фишера Fкр  F (1  0,05; 1; n  2)  F 0,95; 1; 6  5,99 делит все множество на область принятия основной гипотезы и правостороннюю критическую область. s х2 1,6091/1  1,6091  201,64 . Наблюдаемое значение критерия Fо  2  sост 0,0479/ 6 0,00798 Так как F0  Fкр 201,64  5,99 , то основная гипотеза на 5% уровне значимости отвергается, т. е. результаты наблюдений не противоречат предположению о наличии линейной функциональной связи между показателями усвоения материала и посещением занятий. Качество модели определим коэффициентом детерминации R 2  0,97 , который показывает, что в исследуемой ситуации 97% общей дисперсии усвоения материала объясняется количеством посещений занятий, в то время как на все остальные факторы приходится лишь 3% уровня усвоения. Проведем верификацию рассматриваемой модели с помощью корреляционного анализа в регрессии. Вычислим коэффициент корреляции, используя вспомогательную таблицу. № xi yi xi2 y i2 xi yi 1 73 0,5 5 329 0,25 36,5 2 85 0,7 7 225 0,49 59,5 3 102 0,9 10 404 0,81 91,8 4 115 1,1 13 225 1,21 126,5 5 122 1,4 14 884 1,96 170,8 6 126 1,4 15 876 1,96 176,4 7 134 1,7 17 956 2,89 227,8 8 147 1,9 21 609 3,61 279,3 Итог 904 rB  9,6 106 508 13,18 1168,6 8  1168,6  904  9,6 8  106508 904 8  13,18  9,6  2 2  0,985 . Проверим основную гипотезу H 0 : r  0 . Критическое значение критерия  , n  2)  t 0,975; 6  2,447 делит все множество на об2 ласть принятия основной гипотезы и двустороннюю критическую область. r n2 0,985  6 2,413    13,95 . Наблюдаемое значение критерия t о  B 2 , 173 1  rB2 1  0,985 Так как t 0  t кр 13,95  2,477 , то основная гипотеза на 5% уровне значимости отвергается, т. е. результаты наблюдений не противоречат предположению о наличии линейной функциональной связи между показателями усвоения материала и посещением занятий. Коэффициент детерминации здесь также равен R 2  r 2  0,97 . Высокое значение как коэффициента корреляции, так и коэффициента детерминации свидетельствует о том, что данные наблюдений хорошо согласуются с представлением их в виде линейной регрессионной модели. Стьюдента t кр  t (1 
«Верификация линейной модели» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ
Получи помощь с рефератом от ИИ-шки
ИИ ответит за 2 минуты

Тебе могут подойти лекции

Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot