Регрессионный анализ; линейная модель парной регрессии
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Линейная модель парной регрессии
Под регрессионным анализом понимается статистический метод, в котором исследуется зависимость между случайными величинами на основе выборочных данных. В качестве примера регрессионной зависимости можно использовать зависимость урожайности сельскохозяйственной культуры от природных и экономических факторов. Основную идею метода рассмотрим на
простом примере линейной модели парной регрессии. В этом случае выделяется зависимая переменная у и независимая переменная - фактор-регрессор х.
Предположим, что между двумя случайными величинами у и х - экономическими показателями, можно установить простейшую линейную зависимость – линейную модель парной регрессии: y a bx , где а и b – неизвестные
коэффициенты данной модели. Причем в качестве величин х и у рассматриваются выборочные данные этих показателей: хi , уi , i 1,..., n .
Основная задача эконометрического исследования в регрессионном ана
лизе состоит в определении таких оценок неизвестных параметров a и b по
имеющимся данным, чтобы полученная оцененная модель y a b x наиболее
точно описывала зависимость между этими показателями.
На первом этапе исследования можно построить диаграмму рассеивания
имеющихся данных хi , уi , для того чтобы визуально убедиться, что линейная
модель выбрана правильно. Затем обязательно проверить предпосылки, которые лежат в основе эконометрического исследования линейных моделей.
Диаграмма рассеивания:
y
y a bx
y2
2
yn
n
1
y1
x1
x2
xn
x
Здесь i случайные ошибки, которые возможны при исследовании. По
рисунку очевидно, что точки приближены к теоретической прямой, что свидетельствует о правильном выборе модели.
Основные предпосылки, которые лежат в основе линейной модели:
1. Спецификация модели yi a bxi i , i 1, , n, n 2 – отражает
представление о механизме зависимости объясняемой переменной
у i от объясняющей переменной хi и сам выбор переменных.
2. Рассматриваемые факторы (в случае множественной регрессии)
x1 ,, xn - должны быть детерминированными случайными величинами, т.е. линейно не связанными между собой.
3. Случайные величины 1, , n - ошибки при исследовании должны
удовлетворять следующим условиям:
а) M i 0, D i 2 . Эти условия означают: отсутствие систематических ошибок и условие гомоскедастичности – однородности
наблюдений. Разброс ошибок i не зависит от номера наблюдений.
б) M i j 0 при i j - условие некоррелируемости ошибок для
разных наблюдений.
в) i N 0, 2 , т. е. i – нормально распределенные случайные величины с соответствующими параметрами.
В случае выполнения
всех предпосылок, для нахождения оценок неиз
вестных параметров a и b , можно использовать метод наименьших квадратов
(МНК), суть которого заключается в минимизации суммы квадратов ошибок i ,
с целью получения максимально приближенных к истинным значениям а и b
2
оценок параметров: R yi a bxi min . Решая данную экстремальную
задачу, получим следующие оценки:
2
xi yi xi xi yi n xi yi xi yi
,b
.
a
2
2
n xi2 xi
n xi2 xi
Тогда оцененная линейная модель парной регрессии имеет вид: yi a b xi .
Предположим, что точечные оценки параметров обладают свойствами
состоятельности, несмещенности и эффективности. Проверим статистическую
значимость полученных коэффициентов, для этого построим доверительные
интервалы и проверим статистические гипотезы.
Доверительный интервал, который с надежностью, близкой к 100%
( 1), содержит истинные неизвестные значения параметров, интерпретируется следующим образом. Если такой интервал будет содержать в себе нулевое
значение, то соответствующий параметр считается статистически незначимым
и им можно пренебречь.
aˆ t Dˆ aˆ a aˆ t Dˆ aˆ ; bˆ t Dˆ bˆ b bˆ t Dˆ bˆ , где
1
1
и числа
t t
, n 2 – квантиль распределения Стьюдента уровня
2
2
степеней свободы n 2 .
xi2
R
R
n
ˆ
min - являВеличины Daˆ
min и Dˆ bˆ
2
2
2
2
n xi xi n 2
n xi xi n 2
ются несмещенными оценками дисперсий соответствующих оценок парамет-
n
ров. Величина Rmin yi aˆ bˆxi
i 1
2
- остаточная сумма квадратов. Как пра-
вило, значения доверительной вероятности стандартизованы и принимаются
равными 0,9; 0,95; 0,99; 0,999.
Проверим статистические гипотезы о незначимости полученных коэффициентов: H o : a 0 и H o : b 0 , против альтернативных H 1 : a 0 и H 1 : b 0 .
На заданном уровне значимости , используем критерий Стьюдента,
критическая точка которого t кр t 1 , n 2 делит все множество критерия
2
на две области: d 0 - область принятия нулевой гипотезы и двустороннюю критическую область d 1 . Критическая точка находится из специальных таблиц
Стьюдента или с помощью ППП Excel. Наблюдаемые значения критерия
aˆ
a
bˆ
b
tо
и tо
находятся на основе полученных результатов
ˆ
s
ˆ
s
ˆ
Daˆ
a
b
Db
и сравниваются с пороговым значением. Если t 0 t кр , то основную гипотезу
надо отклонить, т.е. соответствующие оценки параметров считаются статистически значимыми и важными при исследовании.
Пример 1.
Требуется установить прямую зависимость уровня усвоения материала
студентов y (по шкале от 0 до 2) от количества посещений занятий в институте x (от 0 до 150). Имеются следующие данные:
xi
yi
73
85
102
115
122
126
134
147
0,5
0,7
0,9
1,1
1,4
1,4
1,7
1,9
Решение. Построим оцененную линейную модель парной регрессии,
предполагая выполнение всех предпосылок. Воспользуемся вспомогательной
таблицей:
yi yˆ i 2
№
xi
yi
xi2
y i2
xi yi
ŷi
yi yˆ i
1
73
0,5
5 329
0,25
36,5
0,43
0,07
0,0049
2
85
0,7
7 225
0,49
59,5
0,661
0,039
0,0015
3
102
0,9
10 404
0,81
91,8
0,998
-0,088
0,0077
4
115
1,1
13 225
1,21
126,5
1,239
-0,139
0,0193
5
122
1,4
14 884
1,96
170,8
1,373
0,027
0,0007
6
126
1,4
15 876
1,96
176,4
1,45
-0,05
0,0025
7
134
1,7
17 956
2,89
227,8
1,604
0,096
0,0092
8
147
1,9
21 609
3,61
279,3
1,854
0,046
0,0021
Итог
904
9,6
106 508
13,18
1168,6
9,609
0,001
0,0479
Используем итоги соответствующих столбцов для определения оценок
коэффициентов регрессии:
106508 9,6 904 1168,6
ˆ 8 1168,6 904 9,6 0,01924.
aˆ
,
974
;
b
8 106508 9042
8 106508 9042
Таким образом, оцененное уравнение линейной регрессии, имеет вид:
yˆ 0,974 0,01924x .
Для построения интервальных оценок параметров регрессии с надежностью 95% найдем оценки дисперсий точечных оценок этих параметров:
106508
8
Dˆ aˆ
0,008 0,0244; Dˆ bˆ
0,008 0,0000018;
34846
34848
R
0,047
Dˆ aˆ 0,156 . Dˆ bˆ 0,0013. Здесь ˆ 2 min
0,008.
n2
6
Доверительная вероятность 0,95 , поэтому t0,95 t 0,975;6 2,447 . В
результате имеем: 0,974 2,447 0,156 a 0,974 2,447 0,156 ,
0,01924 2,447 0,0013 b 0,01924 2,447 0,0013
1,3557 a 0,5923 и 0,016 b 0,022.
или
Построенные доверительные интервалы не содержат нулевые значения,
что свидетельствует о том, что с надежностью 95% можно считать найденные
оценки неизвестных параметров статистически значимыми.
Проверим статистические гипотезы: H 0 : a 0 и H 0 : b 0 при альтернативных H1 : a 0 и H1 : b 0 . Наблюдаемые значения t -статистик, вычисленные
по
формулам,
для
этих
гипотез
равны
соответственно
0,974
0,01924
14,8 . Критическая точка для 5% уровня
t0( а )
6,244 и t 0 ( b )
0,0013
0,156
значимости и числа степеней свободы n 2 6 равна t кр. 2,447 . Так как в
обоих случаях t 0 t кр. , то гипотезы о незначимости коэффициентов регрессии
следует отвергнуть, т. е. считать, что посещение занятий в среднем существенно влияют на уровень усвоения материала.