Критерии оценки качества модели парной линейной регрессии (критерий Стьюдента для оценки значимости параметров, Критерий Фишера для оценки значимости всего уравнения в целом, Критерий Дарбина-Уотсена для проверки наличия/отсутствия автокорреляции в ряду ошибки)
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция №3
Критерии оценки качества модели парной линейной регрессии
(критерий Стьюдента для оценки значимости параметров,
Критерий Фишера для оценки значимости всего уравнения в
целом,
Критерий
Дарбина-Уотсена
для
проверки
наличия/отсутствия автокорреляции в ряду ошибки).
Проверка статистических гипотез
Статистическая гипотеза – любое предположение о виде или
неизвестных параметрах закона распределения.
Простая гипотеза – когда известен закон распределения
исследуемой случайной величины и оценка математического
ожидания строго равна табличному значению.
Сложная гипотеза – когда неизвестен закон распределения
случайной величины и нет строгого равенства между табличным
значением и оценкой математического ожидания.
Нулевая гипотеза Hо – проверяемая гипотеза.
Альтернативная H1- логическое отрицание проверяемой гипотезы.
Правило по которому гипотеза Hо отвергается или принимается
называется статистическим критерием.
Степень надежности – уровень значимости критерия – вероятность
отвергнуть гипотезу Hо, когда она верна - .
Вероятность принять гипотезу Hо, когда она не верна - .
Ошибка 1 рода - вероятность отвергнуть гипотезу Hо, когда она
верна.
Ошибка 2 рода - вероятность принять гипотезу Hо, когда она не
верна.
Вероятность 1- - не допустить ошибку 2 рода, то есть отвергнуть
гипотезу Hо, когда она неверна – мощность критерия.
Критическая область – совокупность значений критерия, при
которых Hо отвергается.
Доверительная область – совокупность значений критерия, при
которых Hо принимается.
P(x)
Доверительная область 1-
x
𝑥̅
𝑥̅ − ∆
𝑥̅ + ∆
Критическая область
Модель парной линейной регрессии
𝑦𝑡 – исходные значения процесса ;
𝑦̂𝑡 – модельные (расчетные) значения процесса;
𝑦̂𝑡 = 𝛼
̂0 + 𝛼
̂𝑥
1 𝑡;
𝑒𝑡 – фактическая ошибка модели;
𝑒𝑡 = 𝑦𝑡 − 𝑦̂𝑡 .
α
̂0 = y̅ − α
̂1 ∗ x̅
x ∗ y − (y̅ ∗ x̅)
̅̅̅̅̅̅
{
α
̂1 =
̅̅̅
x 2 − 𝑥̅ 2
Критерии качества модели парной линейной регрессии.
1. Критерий Стьюдента для проверки значимости парного линейного
коэффициента корреляции
𝑟̂𝑥,𝑦 =
∑𝑛𝑡=1(𝑥𝑡 − 𝑥̅ )(𝑦𝑡 − 𝑦̅)
√∑𝑛𝑡=1(𝑥𝑡 − 𝑥̅ )2 ∗ √∑𝑛𝑡=1(𝑦𝑡 − 𝑦̅)2
H0 : 𝑟̂𝑥,𝑦 = 0 ⇔ H1 : 𝑟̂𝑥,𝑦 ≠ 0
Расчетное значение критерия Стьюдента
𝑡𝑟̂𝑥,𝑦 =
|𝑟̂𝑥,𝑦 | ∗ √𝑛 − 2
√(1 − 𝑟̂𝑥,𝑦 2 )
Критическое значение критерия Стьюдента
𝑡крит = Ст(𝛼; 𝑛 − 2)
Где: 𝑡крит = 𝑡𝛼,𝑛−2 – квантиль распределения Стьюдента на уровне 𝛼, с
числом степеней свободы n-2;
n- количество наблюдений;
𝛼 (обычно принимают равным 0,05) – уровень значимости.
При 𝑡𝑟̂𝑥,𝑦 >𝑡крит с вероятностью 1- 𝛼 коэффициент корреляции 𝑟̂𝑥,𝑦 признается
значимым и не равным 0.
При 𝑡𝑟̂𝑥,𝑦 ≤ 𝑡крит с вероятностью 1- 𝛼 коэффициент корреляции 𝑟̂𝑥,𝑦
признается незначимым и равным 0.
2. Критерий Стьюдента для проверки значимости оценок параметров
модели парной линейной регрессии.
α
̂0 = y̅ − α
̂1 ∗ x̅
x ∗ y − (y̅ ∗ x̅)
̅̅̅̅̅̅
{
α
̂1 =
̅̅̅
x 2 − 𝑥̅ 2
Проверяем гипотезу, что каждый параметр не значим и равен 0 с
вероятностью 1- 𝛼 .
̂0 = 0 ↔ 𝐻1: α
̂0 ≠ 0
𝐻0 : α
𝛼0 − 𝛼
̂0
~Стьюдент(𝛼 = 0,05; 𝑛 − 2)
𝜎𝛼0
𝑡α̂0 =
̂0 |
|α
𝜎𝛼0
𝜎𝛼0 = √∑𝑛
̅̅̅
𝑥 2̅𝜎𝜀2
𝑡=1(𝑥𝑡 −𝑥̅ )
𝜎𝜀2 =
2
∑𝑛
𝑡=1 𝑒𝑡
𝑛−2
2
;;- стандартная ошибка параметра 𝛼0
- дисперсия ошибки
𝑡крит = Ст(𝛼; 𝑛 − 2)
Где: 𝑡крит = 𝑡𝛼,𝑛−2 – квантиль распределения Стьюдента на уровне 𝛼, с
числом степеней свободы n-2;
n- количество наблюдений;
𝛼 (обычно принимают равным 0,05) – уровень значимости.
При 𝑡α̂0 >𝑡крит с вероятностью 1- 𝛼 параметр α
̂0 признается значимым и не
равным 0.
При 𝑡α̂0 ≤ 𝑡крит с вероятностью 1- 𝛼 параметр α
̂0 признается незначимым и
равным 0.
̂1 = 0 ↔ 𝐻1: α
̂1 ≠ 0
𝐻0 : α
𝛼1 − 𝛼
̂1
~Стьюдент(𝛼 = 0,05; 𝑛 − 2)
𝜎𝛼1
𝑡α̂1 =
̂1 |
|α
𝜎𝛼1
𝜎𝛼1 = √∑𝑛
𝜎𝜀2
𝑡=1(𝑥𝑡 −𝑥̅ )
𝜎𝜀2
=
2
∑𝑛
𝑡=1 𝑒𝑡
𝑛−2
2
;- стандартная ошибка параметра 𝛼1
- дисперсия ошибки
𝑡𝛼,𝑛−2 – квантиль распределения Стьюдента на уровне 𝛼, с числом степеней
свободы n-2.
При 𝑡α̂1 >𝑡крит с вероятностью 1- 𝛼 параметр α
̂1 признается значимым и не
равным 0.
При 𝑡α̂1 ≤ 𝑡крит с вероятностью 1- 𝛼 параметр α
̂1 признается незначимым и
равным 0.
3. Критерий Фишера для проверки значимости коэффициента
детерминации и всего уравнения регрессии в целом.
Коэффициент детерминации
∑𝑛𝑡=1(𝑦̂𝑡 − 𝑦̅)2
∑𝑛𝑡=1(𝑦𝑡 − 𝑦̂𝑡 )2
𝐷=𝑅 = 𝑛
= 1− 𝑛
∑𝑡=1(𝑦𝑡 − 𝑦̅)2
∑𝑡=1( 𝑦𝑡 − 𝑦̅)2
2
Коэффициент детерминации показывает долю объяснённой дисперсии в
общей или 1- доля остаточной дисперсии в общей.
0 ≤ 𝑅2 ≤ 1
Чем ближе коэффициент детерминации к 1, тем лучше модель описывает
исходные данные.
Например, 𝑅 2 = 0,8 показывает, что 80% изменчивости исходного процесса
𝑦𝑡 объясняется построенной моделью 𝑦̂, а 20% объясняется ошибкой или не
включёнными в модель факторами.
Таблица дисперсионного анализа
Источник
дисперсии
Сумма
квадратов
Регрессионная
(модельная)
𝑦̂𝑡
Остаточная
𝜀𝑡
Полная
(общая)
𝑦𝑡
𝑛
∑(𝑦̂𝑡 − 𝑦̅)2
Число
степеней
свободы
1
Дисперсия
𝜎𝑦2̂
∑𝑛𝑡=1(𝑦̂𝑡 − 𝑦̅)2
=
1
𝜎𝜀2
∑𝑛𝑡=1(𝑦𝑡 − 𝑦̂𝑡 )2
=
𝑛−2
𝜎𝑦2
∑𝑛𝑡=1( 𝑦𝑡 − 𝑦̅)2
=
𝑛−1
𝑡=1
𝑛
∑(𝑦𝑡 − 𝑦̂𝑡 )
2
𝑡=1
𝑛
∑( 𝑦𝑡 − 𝑦̅)2
n-2
n-1
𝑡=1
Критерий Фишера.
𝐻0 : 𝑅 2 = 0 ↔ 𝐻1: 𝑅 2 ≠ 0
𝜎𝑦2̂
𝑅2
𝐹=
∗ (𝑛 − 2) = 2 ~𝐹расп(𝛼; 1; 𝑛 − 2)
1 − 𝑅2
𝜎𝜀
Коэффициент
F
детерминации
критерий
2
Фишера
𝐷=𝑅
2
𝐹
𝑅
𝑛
2
∑𝑡=1(𝑦̂𝑡 − 𝑦̅)
𝑅2
=
= 𝑛
∑𝑡=1(𝑦𝑡 − 𝑦̅)2
1 − 𝑅2
∗ (𝑛 − 2)
=1
𝜎𝑦2̂
∑𝑛𝑡=1(𝑦𝑡 − 𝑦̂𝑡 )2
= 2
− 𝑛
𝜎𝜀
∑𝑡=1( 𝑦𝑡 − 𝑦̅)2
𝐹крит = 𝐹расп(𝛼; 1; 𝑛 − 2)
При F>𝐹крит с вероятностью 1- 𝛼 𝑅 2 признается значимым и не равным 0,
что означает, что модель в целом значима.
При 𝐹 ≤ 𝐹крит с вероятностью 1- 𝛼 𝑅 2 признается незначимым и равным 0,
что означает, что модель в целом не значима и ее нельзя использовать.
Графическая интерпретация коэффициента детерминации.
4. Критерий Дарбина-Уотсена проверки наличия/отсутствия
автокорреляции 1-го порядка в ряду ошибки.
𝜌 = 𝑟𝑒𝑡 𝑒𝑡−1 =
∑𝑛
𝑡=2 𝑒𝑡 𝑒𝑡−1
2
𝑛
2
√∑𝑛
𝑡=1 𝑒𝑡 √∑𝑡=2 𝑒𝑡−1
– коэффициент автокорреляции 1-го
порядка.
Проверяем гипотезу наличия автокорреляции первого порядка с помощью
критерия Дарбина-Уотсена:
H0 : ρ = 0 ⇔ H1 : ρ ≠ 0
𝐷𝑊 =
𝑛
𝑛
𝑛
2
2
2
∑𝑛
𝑡=2(𝑒𝑡 −𝑒𝑡−1 ) ∑𝑡=2(𝑒𝑡 ) +∑𝑡=2(𝑒𝑡−1 ) −2 ∑𝑡=2(𝑒𝑡 )(𝑒𝑡−1 )
2
∑𝑛
𝑡=1(𝑒𝑡 )
∑𝑛
(𝑒 )(𝑒
)
2 𝑡=2∑𝑛 𝑡 𝑡−1
≈
2
𝑡=1(𝑒𝑡 )
=
2 − 2(𝜌)
2
∑𝑛
𝑡=1(𝑒𝑡 )
= 2−
Если 𝐷𝑊 ≈ 0 (𝜌 ≈ 1) или 𝐷𝑊 ≈ 4 (𝜌 ≈ −1)
При ρ = 0, DW=2 – автокорреляция отсутствует;
при ρ = −1 DW=4 –присутствует отрицательная автокорреляция;
при ρ = 1 DW=0 –присутствует положительная автокорреляция.
Присутствует положительная
автокорреляция
Автокорреляция отсутствует
2
Присутствует отрицательная
автокорреляция
DW
4
Зоны неопределенности
Лекция №4
Модель множественной линейной регрессии. Этапы построения
эконометрической модели. Оценка параметров по МНК.
Проблемы построения модели множественной линейной
регрессии: мультиколлинеарность и отбор факторов. Критерии
качества модели множественной линейной регрессии.
Этапы построения эконометрической модели:
1. Идентификация модели
1.1. Определение исходных данных и их количественное измерение
1.2. Определение функционала модели
2. Оценка параметров модели (МНК)
3. Проверка качества модели
4. В случае если по критериям качества, модель не может быть использована
для целей моделирования (прогноз, управление, анализ) возвращение к
пункту 1 и пере идентификация модели: изменение функционала или
изменение набора объясняющих переменных.
Модель множественной линейной регрессии
Общий вид модели.
𝑦𝑡 = 𝛼0 + 𝛼1𝑥1𝑡 + ⋯ + 𝛼𝑚 𝑥𝑚𝑡 + 𝜀𝑡 ………………………………………….();
где t=1…n показывает распределение уровней ряда (процесса) по
совокупности однородных объектов;
i=1…m номер независимого фактора 𝑥𝑖 ;
𝑦𝑡 – моделируемый процесс, (эндогенный фактор) изменяющийся в
зависимости от t;
𝑥1𝑡 … … … … … . 𝑥𝑚𝑡 – независимые (экзогенные) факторы, под воздействием
которых изменяется моделируемый процесс 𝑦𝑡
𝛼 = (𝛼0; 𝛼1 ; … 𝛼𝑚 ); параметры модели, выражающие степень влияния
фактора 𝑥𝑖 на переменную 𝑦;
𝜀𝑡 – случайная ошибка модели.
Метод наименьших квадратов для определения параметров
модели парной линейной регрессии (МНК).
Суть МНК заключается в том, чтобы найти такие оценки параметров модели,
при которых суммарный квадрат ошибки будет минимальным.
Критерий метода: 𝑆 2 = ∑𝑛𝑡=1 𝑒𝑡2 →
𝛼0 ;𝛼1 ;…𝛼𝑚
𝑚𝑖𝑛 ……………………………….()
Предпосылки метода:
1. 𝑀(𝜀𝑡 ) = 0;
2. 𝛿𝜀2𝑡 = 𝑐𝑜𝑛𝑠𝑡;
ошибка является белым шумом……….(11)
3. 𝑐𝑜𝑣(𝜀𝑖 ; 𝜀𝑗 ) = 0
4. 𝑐𝑜𝑣(𝜀𝑡 ; 𝑥𝑖𝑡 ) = 0
5. Матрица 𝑋 ′ 𝑋 обратима
Оценка параметров модели по МНК.
𝑦𝑡 – исходные значения процесса;
𝑦̂𝑡 – модельные (расчетные) значения процесса;
𝑦̂𝑡 = 𝛼
̂0 + 𝛼
̂𝑥
̂
1 𝑡 + ⋯+𝛼
𝑚 𝑥𝑚𝑡 ;
𝑒𝑡 – фактическая ошибка модели;
𝑒𝑡 = 𝑦𝑡 − 𝑦̂𝑡 .
2
𝑆 2 = ∑𝑛𝑡=1 𝑒𝑡2 = ∑𝑛𝑡=1(𝑦𝑡 − 𝛼
̂0 − 𝛼
̂𝑥
̂
1 1𝑡 − ⋯ − 𝛼
𝑚 𝑥𝑚𝑡 ) →
𝛼0 ;𝛼1 …;𝛼𝑚
𝜗𝑆 2
𝜗𝛼0
𝜗𝑆 2
𝜗𝛼1
𝜗𝑆 2
{𝜗𝛼𝑚
𝑚𝑖𝑛 ;
= 2 ∗ ∑𝑛𝑡=1(𝑦𝑡 − 𝛼
̂0 − 𝛼
̂𝑥
̂
1 1𝑡 − ⋯ − 𝛼
𝑚 𝑥𝑚𝑡 ) ∗ (−1) = 0
= 2 ∗ ∑𝑛𝑡=1(𝑦𝑡 − 𝛼
̂0 − 𝛼
̂𝑥
̂
1 1𝑡 − ⋯ − 𝛼
𝑚 𝑥𝑚𝑡 ) ∗ (−𝑥1𝑡 ) = 0 ;
…
= 2 ∗ ∑𝑛𝑡=1(𝑦𝑡 − 𝛼
̂0 − 𝛼
̂𝑥
̂
1 1𝑡 − ⋯ − 𝛼
𝑚 𝑥𝑚𝑡 ) ∗ (−𝑥𝑚𝑡 ) = 0
∑𝑛𝑡=1(𝑦𝑡 − 𝛼
̂0 − 𝛼
̂𝑥
̂
1 1𝑡 … − 𝛼
𝑚 𝑥𝑚𝑡 ) = 0
𝑛
̂0 − 𝛼
̂𝑥
̂
1 1𝑡 … − 𝛼
𝑚 𝑥𝑚𝑡 ) ∗ (𝑥1𝑡 ) = 0 ;
{ ∑𝑡=1(𝑦𝑡 − 𝛼
…
∑𝑛𝑡=1(𝑦𝑡 − 𝛼
̂0 − 𝛼
̂𝑥
̂
1 1𝑡 … − 𝛼
𝑚 𝑥𝑚𝑡 ) ∗ (𝑥𝑚𝑡 ) = 0
𝑛
∑𝑛𝑡=1 𝑦𝑡 = 𝑛 ∗ 𝛼
̂0 + 𝛼
̂1 ∗ ∑𝑛𝑡=1 𝑥𝑡 + ⋯ + 𝛼̂
𝑚 ∗ ∑𝑡=1 𝑥𝑚𝑡
𝑛
𝑛
̂0 ∑𝑛𝑡=1 𝑥1𝑡 + 𝛼
̂1 ∗ ∑𝑛𝑡=1 𝑥1𝑡 2 + ⋯ + 𝛼̂
𝑚 ∗ ∑𝑡=1 𝑥1𝑡 𝑥𝑚𝑡 ;
{ ∑𝑡=1 𝑦𝑡 ∗ 𝑥1𝑡 = 𝛼
…
𝑛
𝑛
𝑛
2
∑𝑡=1 𝑦𝑡 ∗ 𝑥𝑚𝑡 = 𝛼
̂0 ∑𝑡=1 𝑥𝑚𝑡 + 𝛼
̂1 ∗ ∑𝑛𝑡=1 𝑥1𝑡 𝑥𝑚𝑡 + ⋯ + 𝛼̂
𝑚 ∗ ∑𝑡=1 𝑥𝑚𝑡
Решением системы из m+1 уравнения с m+1 неизвестной будет:
𝛼̂мнк = (𝑋′ 𝑋)−1𝑋′ 𝑌
𝛼̂мнк = (𝛼̂0; 𝛼̂1 … 𝛼̂𝑖 . . . 𝛼̂𝑚 ) –вектор оценок параметров множественной
линейной модели.
𝛼̂𝑖 - коэффициенты регрессии показывают на сколько единиц изменится y
при изменении фактора 𝑥𝑖 на 1 единицу.
𝑥1 𝑥𝑖 𝑥𝑚
𝑥
1 11 ⋯ 𝑥𝑚1
Где 𝑋 = (
⋱
⋮ ) - матрица исходных данных (размерность
1 ⋮
1 𝑥1𝑛 ⋯ 𝑥𝑚𝑛
n*(m+1)) ;
1 1 1
𝑥1 𝑥11 ⋯ 𝑥1𝑛
𝑋′ = ( 𝑥
⋮
⋱
⋮ ) - транспонированная матрица исходных данных
𝑖
𝑥𝑚 𝑥𝑚1 ⋯ 𝑥𝑚𝑛
(размерность (m+1)*n).
Для применения классического МНК, необходимо, чтобы ошибка модели
удовлетворяла условиям белого шума:
M(𝜀𝑡 )=0
D(𝜀𝑡 ) = 𝛿𝜀2 = 𝑐𝑜𝑛𝑠𝑡
𝑐𝑜𝑣(𝜀𝑡 𝜀𝑡−𝑖 ) = {
1,
𝜌𝑖 = {
0,
𝛿𝜀2
0,
𝑖=0
𝑖≠0
𝑖=0
𝑖≠0
Ковариционно-дисперсионная матрица ошибки в этом случае имеет вид:
𝜎𝜀 2
Ω = 𝜎𝜀 2 ∗ 𝐸 = ( ⋮
⋯
⋱
⋯
1
2
2
⋮ ) = 𝜎𝜀 ∗ Ω0 = 𝜎𝜀 ∗ ( ⋮
𝜎𝜀 2
⋯
⋱
⋯
⋮)
1
Тогда оценки параметров модели получаются по классическому методу
наименьших квадратов:
𝛼̂мнк = (𝑋′ 𝑋)−1𝑋′ 𝑌
И будут удовлетворять свойствам:
1)
2)
3)
4)
Линейность;
несмещенность;
состоятельность;
эффективность.
Критерии качества модели множественной линейной
регрессии.
1. Анализ эластичности
Коэффициенты эластичности
Э𝑦𝑥𝑖 = 𝛼𝑖
𝑥𝑖
𝑦
– показывает на сколько процентов изменится y при изменении
фактора 𝑥𝑖 на 1 %.
Средние коэффициенты эластичности
𝑥̅
̅
Э𝑦𝑥𝑖 = 𝛼𝑖 𝑖 показывает на сколько процентов в среднем изменится y при
𝑦̅
изменении среднего значения фактора 𝑥𝑖 на 1 %.
Частные коэффициенты эластичности
Эч 𝑦𝑥𝑖 = 𝛼𝑖
𝑥𝑖
𝑦ч𝑥
– показывает на сколько процентов изменится y при изменении
𝑖
фактора 𝑥𝑖 на 1 % и фиксировании остальных факторов на среднем уровне.
𝑦 ч 𝑥 = 𝛼0 + 𝛼1𝑥̅1 + ⋯ + 𝛼𝑖 𝑥𝑖𝑡 + 𝛼𝑚 𝑥̅𝑚
𝑖
2. Корреляционный анализ. Вектор и матрица корреляций.
𝑟𝑦;𝑥1
𝑟𝑦;𝑥2
…
𝑅0 = 𝑟
– вектор корреляций, показывает степень линейной связи
𝑦;𝑥𝑖
…
(𝑟𝑦;𝑥𝑚 )
каждого фактора 𝑥𝑖 с y.
𝑟̂𝑥𝑖,𝑦 =
∑𝑛𝑡=1(𝑥𝑖𝑡 − 𝑥̅ )(𝑦𝑡 − 𝑦̅)
√∑𝑛𝑡=1(𝑥𝑖𝑡 − 𝑥̅ )2 ∗ √∑𝑛𝑡=1(𝑦𝑡 − 𝑦̅)2
H0 : 𝑟̂𝑥𝑖,𝑦 = 0 ⇔ H1 : 𝑟̂𝑥𝑖 ,𝑦 ≠ 0
Расчетное значение критерия Стьюдента
𝑡𝑟̂𝑥𝑖,𝑦 =
|𝑟̂𝑥𝑖 ,𝑦 | ∗ √𝑛 − 2
√(1 − 𝑟̂𝑥𝑖,𝑦 2)
Критическое значение критерия Стьюдента
𝑡крит = Ст(𝛼; 𝑛 − 2)
Где: 𝑡крит = 𝑡𝛼,𝑛−2 – квантиль распределения Стьюдента на уровне 𝛼, с
числом степеней свободы n-2;
n- количество наблюдений;
𝛼 (обычно принимают равным 0,05) – уровень значимости.
При 𝑡𝑟̂𝑥 ,𝑦 >𝑡крит с вероятностью 1- 𝛼 коэффициент корреляции 𝑟̂𝑥𝑖,𝑦
𝑖
признается значимым и не равным 0.
При 𝑡𝑟̂𝑥 ,𝑦 ≤ 𝑡крит с вероятностью 1- 𝛼 коэффициент корреляции 𝑟̂𝑥𝑖,𝑦
𝑖
признается незначимым и равным 0.
Матрица корреляций
𝑥1 … 𝑥𝑖 … 𝑥𝑚
1
⋯
𝑟𝑥1 𝑥𝑚
𝑥1
𝑅= 𝑥 ( ⋮
1
𝑟𝑥𝑖𝑥𝑚 )
𝑖
𝑥𝑚 𝑟𝑥 𝑥
𝑟𝑥𝑖 𝑥𝑚
1
1 𝑚
𝑟̂𝑥𝑖,𝑥𝑗 =
∑𝑛𝑡=1(𝑥𝑖𝑡 − 𝑥̅𝑖 )(𝑥𝑗𝑡 − 𝑥̅𝑗 )
√∑𝑛𝑡=1(𝑥𝑖𝑡 − 𝑥̅𝑖 )2 ∗ √∑𝑛𝑡=1(𝑥𝑗𝑡 − 𝑥̅𝑗 )2
H0 : 𝑟̂𝑥𝑖,𝑥𝑗 = 0 ⇔ H1 : 𝑟̂𝑥𝑖 ,𝑥𝑗 ≠ 0
Расчетное значение критерия Стьюдента
𝑡𝑟̂𝑥,𝑥𝑗 =
|𝑟̂𝑥𝑖,𝑥𝑗 | ∗ √𝑛 − 2
2
√(1 − 𝑟̂𝑥𝑖 ,𝑥𝑗 )
Критическое значение критерия Стьюдента
𝑡крит = Ст(𝛼; 𝑛 − 2)
Где: 𝑡крит = 𝑡𝛼,𝑛−2 – квантиль распределения Стьюдента на уровне 𝛼, с
числом степеней свободы n-2;
n- количество наблюдений;
𝛼 (обычно принимают равным 0,05) – уровень значимости.
При 𝑡𝑟̂𝑥 ,𝑥 >𝑡крит с вероятностью 1- 𝛼 коэффициент корреляции 𝑟̂𝑥𝑖,𝑥𝑗
𝑖 𝑗
признается значимым и не равным 0.
При 𝑡𝑟̂𝑥 ,𝑥 ≤ 𝑡крит с вероятностью 1- 𝛼 коэффициент корреляции 𝑟̂𝑥𝑖,𝑥𝑗
𝑖 𝑗
признается незначимым и равным 0.
3. Средняя ошибка аппроксимации
1
̂𝑡
𝑦𝑡 −𝑦
𝑛
𝑦𝑡
𝐴 = ∗ ∑𝑛𝑡=1 |
| ∗ 100% - показывает на сколько в среднем модель
аппроксимирует исходные данные.
4. Критерий Стьюдента для проверки значимости оценок параметров
модели парной линейной регрессии.
𝛼̂мнк = (𝑋′ 𝑋)−1𝑋′ 𝑌
Проверяем гипотезу, что каждый параметр не значим и равен 0 с
вероятностью 1- 𝛼 .
̂0 = 0 ↔ 𝐻1: α
̂0 ≠ 0
𝐻0 : α
𝛼0 − 𝛼
̂0
~Стьюдент(𝛼 = 0,05; 𝑛 − 𝑚 − 1)
𝜎𝛼0
𝑡α̂0 =
̂0 |
|α
𝜎𝛼0
𝑉𝛼̂ = 𝜎2𝜀 ∗ (𝑋 ′ 𝑋)−1 − ковариационная матрица оценок параметров 𝛼̂;
𝜎𝜀2
=
2
∑𝑛
𝑡=1 𝑒𝑡
- дисперсия ошибки
𝑛−𝑚−1
𝑉𝛼̂ = (
𝜎𝛼20
⋮
⋯
𝜎𝛼2𝑖
𝑐𝑜𝑣𝛼0𝛼𝑚
⋯
𝑐𝑜𝑣𝛼0 𝛼𝑚
⋮
) – ковариационно-дисперсионная матрица
𝜎𝛼2𝑚
оценок параметров
𝑡крит = Ст(𝛼; 𝑛 − 𝑚 − 1)
Где: 𝑡крит = 𝑡𝛼,𝑛−𝑚−1 – квантиль распределения Стьюдента на уровне 𝛼, с
числом степеней свободы n-m-1;
n- количество наблюдений;
m- количество факторов в модели;
𝛼 (обычно принимают равным 0,05) – уровень значимости.
При 𝑡α̂0 >𝑡крит с вероятностью 1- 𝛼 параметр α
̂0 признается значимым и не
равным 0.
При 𝑡α̂0 ≤ 𝑡крит с вероятностью 1- 𝛼 параметр α
̂0 признается незначимым и
равным 0.
𝐻0 : α̂i = 0 ↔ 𝐻1 : α̂i ≠ 0
𝛼𝑖 − 𝛼̂𝑖
~Стьюдент(𝛼 = 0,05; 𝑛 − 𝑚 − 1)
𝜎𝛼𝑖
𝑡̂
αi =
|α̂i |
𝜎𝛼𝑖
𝑉𝛼̂ = 𝜎2𝜀 ∗ (𝑋 ′ 𝑋)−1 − ковариационная матрица оценок параметров 𝛼̂;
𝜎𝜀2 =
2
∑𝑛
𝑡=1 𝑒𝑡
- дисперсия ошибки
𝑛−𝑚−1
𝜎𝛼20
⋮
𝑉𝛼̂ = (
𝑐𝑜𝑣𝛼0𝛼𝑚
⋯
𝜎𝛼2𝑖
⋯
𝑐𝑜𝑣𝛼0 𝛼𝑚
⋮
) - ковариционно-дисперсионная матрица
2
𝜎𝛼𝑚
оценок параметров
𝑡крит = 𝑡𝛼,𝑛−𝑚−1 – квантиль распределения Стьюдента на уровне 𝛼, с числом
степеней свободы n-m-1.
При 𝑡α
̂i признается значимым и не
̂𝑖 >𝑡крит с вероятностью 1- 𝛼 параметр α
равным 0.
При 𝑡α
̂i признается незначимым и
̂i ≤ 𝑡крит с вероятностью 1- 𝛼 параметр α
равным 0.
5. Критерий Фишера для проверки значимости коэффициента
детерминации и всего уравнения регрессии в целом.
Коэффициент детерминации
∑𝑛𝑡=1(𝑦̂𝑡 − 𝑦̅)2
∑𝑛𝑡=1(𝑦𝑡 − 𝑦̂𝑡 )2
𝐷=𝑅 = 𝑛
= 1− 𝑛
∑𝑡=1(𝑦𝑡 − 𝑦̅)2
∑𝑡=1( 𝑦𝑡 − 𝑦̅)2
2
Коэффициент детерминации показывает долю объяснённой дисперсии в
общей или 1- доля остаточной дисперсии в общей.
0 ≤ 𝑅2 ≤ 1
Чем ближе коэффициент детерминации к 1, тем лучше модель описывает
исходные данные.
Например, 𝑅 2 = 0,8 показывает, что 80% изменчивости исходного процесса
𝑦𝑡 объясняется построенной моделью 𝑦̂, а 20% объясняется ошибкой или не
включёнными в модель факторами.
Таблица дисперсионного анализа
Источник
дисперсии
Сумма
квадратов
Регрессионная
(модельная)
𝑦̂𝑡
Остаточная
𝜀𝑡
Полная
(общая)
𝑦𝑡
𝑛
2
Число
степеней
свободы
m
∑(𝑦̂𝑡 − 𝑦̅)
Дисперсия
𝜎𝑦2̂
∑𝑛𝑡=1(𝑦̂𝑡 − 𝑦̅)2
=
𝑚
𝑡=1
𝑛
∑(𝑦𝑡 − 𝑦̂𝑡 )2
𝑡=1
𝑛
2
n-m-1
n-1
∑( 𝑦𝑡 − 𝑦̅)
𝑡=1
𝜎𝜀2
∑𝑛𝑡=1(𝑦𝑡 − 𝑦̂𝑡 )2
=
𝑛−𝑚−1
𝜎𝑦2
∑𝑛𝑡=1( 𝑦𝑡 − 𝑦̅)2
=
𝑛−1
Коэффициент
детерминации
𝐷 = 𝑅2
𝑅2
∑𝑛𝑡=1(𝑦̂𝑡 − 𝑦̅)2
= 𝑛
∑𝑡=1(𝑦𝑡 − 𝑦̅)2
=1
∑𝑛𝑡=1(𝑦𝑡 − 𝑦̂𝑡 )2
− 𝑛
∑𝑡=1( 𝑦𝑡 − 𝑦̅)2
F критерий
Фишера
𝐹
𝑅2
=
1 − 𝑅2
(𝑛 − 𝑚 − 1)
∗
𝑚
2
𝜎𝑦̂
= 2
𝜎𝜀
Критерий Фишера.
𝐻0 : 𝑅 2 = 0 ↔ 𝐻1: 𝑅 2 ≠ 0
(𝑛 − 𝑚 − 1) 𝜎𝑦2̂
𝑅2
𝐹=
∗
= 2 ~𝐹расп(𝛼; 𝑚; 𝑛 − 𝑚 − 1)
1 − 𝑅2
𝑚
𝜎𝜀
𝐹крит = 𝐹расп(𝛼; 𝑚; 𝑛 − 𝑚 − 1)
При F>𝐹крит с вероятностью 1- 𝛼 𝑅 2 признается значимым и не равным 0,
что означает, что модель в целом значима.
При 𝐹 ≤ 𝐹крит с вероятностью 1- 𝛼 𝑅 2 признается незначимым и равным 0,
что означает, что модель в целом не значима и ее нельзя использовать.
6. Критерий Дарбина-Уотсена проверки наличия/отсутствия
автокорреляции 1-го порядка в ряду ошибки.
𝜌 = 𝑟𝑒𝑡 𝑒𝑡−1 =
∑𝑛
𝑡=2 𝑒𝑡 𝑒𝑡−1
2
𝑛
2
√∑𝑛
𝑡=1 𝑒𝑡 √∑𝑡=2 𝑒𝑡−1
– коэффициент автокорреляции 1-го
порядка.
Проверяем гипотезу наличия автокорреляции первого порядка с помощью
критерия Дарбина-Уотсена:
H0 : ρ = 0 ⇔ H1 : ρ ≠ 0
𝐷𝑊 =
2
𝑛
𝑛
𝑛
2
2
2
∑𝑛
𝑡=2(𝑒𝑡 −𝑒𝑡−1 ) ∑𝑡=2(𝑒𝑡 ) +∑𝑡=2(𝑒𝑡−1 ) −2 ∑𝑡=2(𝑒𝑡 )(𝑒𝑡−1 )
=
2
2
∑𝑛
∑𝑛
𝑡=1(𝑒𝑡 )
𝑡=1(𝑒𝑡 )
∑𝑛
𝑡=2(𝑒𝑡 )(𝑒𝑡−1 )
2
∑𝑛
𝑡=1(𝑒𝑡 )
= 2−
≈ 2 − 2(𝜌)
При ρ = 0, DW=2 – автокорреляция отсутствует;
при ρ = −1 DW=4 –присутствует отрицательная автокорреляция;
при ρ = 1 DW=0 –присутствует положительная автокорреляция.
Присутствует положительная
автокорреляция
Автокорреляция отсутствует
2
Присутствует отрицательная
автокорреляция
DW
4
Зоны неопределенности
Проблемы построения модели множественной линейной
регрессии
1. Проблема отбора факторов в модель
Суть отбора факторов состоит в том, чтобы отобрать такие факторы в
модель, которые не зависят между собой, но от которых зависит
моделируемый процесс.
Отбор факторов методом селекции (отбор факторов “снизу”)
𝑟𝑦;𝑥1
𝑟𝑦;𝑥2
…
𝑅0 = 𝑟
– вектор корреляций
𝑦;𝑥𝑖
…
(𝑟𝑦;𝑥𝑚 )
Включаем факторы по одному в модель. В векторе корреляций выбираем
наибольший по модулю коэффициент, и включаем этот фактор в модель.
Пусть |𝑟𝑦;𝑥𝑖 | − максимальный, тогда
строим модель 𝑦̂𝑡 = 𝛼
̂0 + 𝛼
̂𝑥
1 𝑖𝑡 ;
далее выбираем следующий наибольший по модулю коэффициент в векторе
корреляций и включаем соответствующий фактор в модель.
Пусть |𝑟𝑦;𝑥𝑗 | − максимальный, тогда
строим модель 𝑦̂𝑡 = 𝛼
̂0 + 𝛼
̂𝑥
̂𝑥
1 𝑖𝑡 + 𝛼
1 𝑗𝑡 ;
и так далее, при этом на каждом шаге проверяем качество модели.
Отбор факторов сверху.
На первом шаге включаем все факторы в модель:
𝑦̂𝑡 = 𝛼
̂0 + 𝛼
̂𝑥
̂
1 𝑡 + ⋯+𝛼
𝑚 𝑥𝑚𝑡 ;
При этом следует помнить, что на каждый включенный фактор должно
приходиться не менее 4 наблюдений, то есть количество наблюдений должно
быть в минимум в 4 раза больше количества включенных в модель факторов.
Далее по критерию Стьюдента убираем из модели незначимые (для которых
𝑡α̂i ≤ 𝑡крит) факторы по одному.
𝑡̂
αi =
|α̂i |
𝜎𝛼𝑖
𝑉𝛼̂ = 𝜎2𝜀 ∗ (𝑋 ′ 𝑋)−1 − ковариационная матрица оценок параметров 𝛼̂;
𝜎𝜀2 =
2
∑𝑛
𝑡=1 𝑒𝑡
- дисперсия ошибки
𝑛−𝑚−1
𝜎𝛼20
⋮
⋯
𝜎𝛼2𝑖
𝑐𝑜𝑣𝛼0𝛼𝑚
⋯
𝑉𝛼̂ = (
𝑐𝑜𝑣𝛼0 𝛼𝑚
⋮
) - ковариционно-дисперсионная матрица
2
𝜎𝛼𝑚
оценок параметров
𝑡крит = 𝑡𝛼,𝑛−𝑚−1 – квантиль распределения Стьюдента на уровне 𝛼, с числом
степеней свободы n-m-1.
До тех пор пока все параметры α̂𝑖 станут значимыми и не равными 0
(𝑡α
̂𝑖 >𝑡крит )
Информационная емкость
Показатель информационной емкости для l-й комбинации факторов и j-го
фактора.
ℎ𝑙𝑗 =
𝑟𝑗2
𝑚
𝑙
1+∑𝑖=1
|𝑟𝑖𝑗 |
, где
l=1…L – комбинация факторов;
L – количество комбинаций;
J=1….ml - количество признаков в j-й комбинации
𝐻𝑙 = ∑𝑚𝑙
𝑗=1 ℎ𝑙𝑗 показатель информационной емкости для l-й комбинации тем
больше, чем: 1) больше корреляция факторов с y и 2) чем меньше корреляция
между собой.
2. Проблема мультиколлинеарности
Матрица корреляций
𝑥1 … 𝑥𝑖 … 𝑥𝑚
1
⋯
𝑟𝑥1 𝑥𝑚
𝑥1
𝑅= 𝑥 ( ⋮
1
𝑟𝑥𝑖𝑥𝑚 )
𝑖
𝑥𝑚 𝑟𝑥 𝑥
𝑟𝑥𝑖 𝑥𝑚
1
1 𝑚
В матрице корреляция должны быть незначимые коэффициенты корреляций.
Если присутствуют 2 и более зависимых факторов (𝑟𝑥𝑖𝑥𝑗 ≠ 0, 𝑡𝑟̂𝑥 ,𝑥 >𝑡крит)
𝑖 𝑗
можно говорить о наличии мультиколлинеарности в модели.
Последствия мультиколлинеарности:
необратимость или плохая обратимость матрицы 𝑋 ′ 𝑋
увеличение дисперсий оценок параметров;
уменьшение значений t-статистик для параметров, что приводит к
неправильному выводу об их статистической значимости;
получение неустойчивых оценок параметров модели и их дисперсий;
возможность получения неверного с точки зрения теории знака у
оценки параметра.