Прикладная теория вероятностей и математическая статистика
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Прикладная теория вероятностей
и математическая статистика
Сравнение теоретической
и эмпирической
регрессий. Пример
2
Исходные данные: n = 30 наблюдений
e
y
y*
X
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
19,18343
-6,84115
1,889714
-7,45823
-3,47027
-3,29255
7,657559
16,16245
-16,0623
-24,7905
-7,13403
-8,76543
-4,10292
6,189174
8,901901
y y
y=Y*+e
26,18343
5,158855
18,88971
14,54177
23,52973
28,70745
44,65756
58,16245
30,93765
27,20947
49,86597
53,23457
62,89708
78,18917
85,9019
yx 2 5 x
i N (0, )
3
Функциональная линейная зависимость:
(теоретическая регрессия) y 2 5x
x
160
140
120
100
yx 2 5 x
Y=2+5X
80
60
40
20
4
5
10
15
20
25
30
35
y yx 2 5 x
180
160
140
120
100
yx 2 5 x
Y*=2+5X
80
y yx
Y=Y*+e
60
40
20
5
10
15
20
25
30
35
5
ˆ 0,97
( xi , yi ), i 1,...,30
Сильная линейная
зависимость между
переменными
y y x 0 1 x
180
160
140
120
100
(Y=Y*+e
xi , yi ), i 1,...,30
80
60
40
6
20
5
10
15
20
25
30
35
Парная линейная регрессия
yˆ x 3,12 5,12 x
180
160
140
120
100
(Y=Y*+e
xi , yi ), i 1,...,30
80
60
40
20
7
5
10
15
20
25
30
35
Теоретическая и эмпирическая регрессии
yˆ x 3,12 5,12 x
yx 2 5 x
180
160
140
120
100
(Y=Y*+e
xi , yi ), i 1,...,30
80
(Y*
xi , y xi ), i 1,...,30
60
40
20
5
10
15
20
25
30
35
8
5.3. Оценка параметров ПЛР
Интерпретация коэффициентов функции
регрессии и прогнозирование
yˆ x b0 b1 x
b1 – коэффициент наклона, характеризует
чувствительность показателя к изменению фактора.
b1>0 (<0): увеличение объясняющей переменной
(фактора) влечет увеличение (снижение) объясняемой
переменной показателя.
b0 – коэффициент смещения.
9
5.3. Оценка параметров ПЛР
yˆ x 2,81x 1, 21
Поле корреляции
40,00
35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00
5,00
10,00
15,00
10
5.3. Оценка параметров ПЛР
yˆ x 2,81x 1, 21
b1 2,81
Увеличение количества баллов за летучки на 1
приводит к увеличению баллов, полученных на
экзамене в среднем на 2,81 балла.
b0 1, 21
Если не набрать баллы за летучки вообще (𝑥 = 0) в
среднем получишь 1,21 балла.
11
5.3. Оценка параметров ПЛР
yˆ x 2,81x 1, 21
Чтобы улучшить результат на 10 баллов, нужно
10
3,56 баллов
набрать за летучки в среднем на
2,81
больше.
Чтобы получить 40 баллов (𝑦 = 40), необходимо
набрать за летучки в среднем 13,8 баллов.
12
5.4. Оценка качества модели парной
линейной регрессии
y 0 1 x
yˆ х b0 b1 x
yi yˆ xi ei b0 b1 xi ei
Вопросы:
1.Можно ли с определенной вероятностью найти
подтверждение, что линейный вид функциональной
зависимости выбран корректно?
2.Насколько хорошо оценки неизвестных параметров,
полученные по МНК, приближают неизвестные
коэффициенты?
13
5.4. Оценка качества модели ПЛР
y i – наблюдаемое значение:
хi , yi ,
i 1,..., n
1 n
y – среднее значение:
y yi
n i 1
ŷ xi – предсказанное значение: yˆ xi b0 b1 xi , i 1,..., n
yi
yˆ x b0 b1 x
ŷ xi
y
14
xi
5.4. Оценка качества модели ПЛР
n
Рассмотрим сумму:
2
(
y
y
)
i
i 1
Она может быть представлена в виде:
n
n
n
i 1
i 1
i 1
2
2
2
ˆ
ˆ
(
y
y
)
(
y
y
)
(
y
y
)
i
xi
i xi
(без доказательства)
yi
yˆ x b0 b1 x
ŷ xi
y
15
xi
5.4. Оценка качества модели ПЛР
Необъяснённое
отклонение
Общее
отклонение
( yi yˆ xi )
( yi y )
Объяснённое
отклонение
( yˆ xi y )
n
n
n
2
2
2
ˆ
ˆ
(
y
y
)
(
y
y
)
(
y
y
)
i
xi
i xi
i 1
i 1
i 1
16
5.4. Оценка качества модели ПЛР
Остатком будем называть:
ei yi b0 b1 xi , i 1,..., n
ei yi yˆ xi ,
i 1,..., n
n
n
i 1
i 1
2
ˆ
(
y
y
)
ei
Необъяснённое отклонение: i
xi
2
Остаточная сумма квадратов
(Residual Sum of Squares)
n
n
2
2
ˆ
RSS ( yi y xi ) ei
i 1
i 1
17
5.4. Оценка качества модели ПЛР
Остаточная сумма квадратов
(Residual Sum of Squares)
RSS
n
n
i 1
i 1
2
2
ˆ
(
y
y
)
e
i xi i
Сумма квадратов отклонений (объясненных
регрессией)
n
(Explained Sum of Squares)
ESS ( yˆ xi y ) 2
i 1
Полная сумма квадратов
(Total Sum of Squares)
n
TSS ( yi y ) 2
i 1
18
TSS ESS RSS
5.4. Оценка качества модели ПЛР
Пакет анализа
ЛИНЕЙН
ESS
RSS
ESS
RSS
TSS
19
5.4. Оценка качества модели ПЛР
Парный коэффициент детерминации – это мера
вариации зависимой переменной, определяемая
отношением объяснимой вариации к общей
вариации:
ESS
2
ˆ
Rxy
TSS
Интерпретация: «коэффициент детерминации
показывает, какая доля дисперсии независимой
переменной 𝑦 определяется дисперсией
соответствующей функции регрессии»
ESS 1377, 21
ˆ
R
0, 72
TSS 1905,82
2
xy
20
5.4. Оценка качества модели ПЛР
Парный коэффициент детерминации.
0 Rˆ xy2 1
Чем ближе коэффициент к 1, тем больше есть
основания предполагать, что уравнение регрессии
статистически значимо и линейная функция фактора
𝑥 оказывает сильное воздействие на результирующий
признак 𝑦.
ˆ xy2
R
Замечание.
Для модели парной
линейной регрессии:
2
2
ˆ
ˆ
R xy xy
21
5.4. Оценка качества модели ПЛР
Парный коэффициент детерминации и качество модели.
0 Rˆ xy2 0,09
• Использование линейной регрессионной модели для
приближенной оценки взаимосвязи 𝑥 и 𝑦 статистически
необоснованно.
0,09 Rˆ xy2 0,49
• Использование линейной регрессионной модели для
приближенной оценки взаимосвязи 𝑥 и 𝑦 возможно, но
затем следует провести анализ значимости модели.
0,49 Rˆ xy2 1
•Есть все основания для использования линейной
регрессионной модели для приближенной взаимосвязи 𝑥 и 𝑦.
22
5.4. Оценка качества модели ПЛР
Проверка гипотезы о значимости модели в целом
H0 : R2 0
H1 : R 2 0
•Основная гипотеза утверждает, что не существует
статистически значимой линейной зависимости между
признаками 𝑋 и 𝑌 в генеральной совокупности.
•Альтернативная гипотеза утверждает, что признаки 𝑋 и 𝑌
в генеральной совокупности связаны линейной
зависимостью.
23
5.4. Оценка качества модели ПЛР
H0 : R2 0
Статистика:
H1 : R 2 0
Rˆ xy2
n k 1 ESS n k 1
F
2
ˆ
k
RSS
k
1 Rxy
Если нулевая гипотеза верна, то статистика 𝐹 имеет
распределение Фишера с числом степеней свободы
числителя: 𝑑𝑓1 = 𝑘, а знаменателя: 𝑑𝑓2 = 𝑛 – 𝑘 – 1,
где 𝑘 – число факторов в уравнении
df 2 n 2
(для ПЛР: 𝑑𝑓2 = 𝑛 – 2, 𝑘 = 1),
𝑛 – объём выборки.
F
Критическая область – правосторонняя.
24
5.4. Оценка качества модели ПЛР
H0 : R2 0
H1 : R 2 0
0, 7226 22 1 1
F
52,10
1 0, 7226
1
df1 k 1
df 2 n 2 22 2 20
k2 4,35
k 2 =F.ОБР.ПХ(0,05;1;20)
F
df 2 n 2
25
5.4. Оценка качества модели ПЛР
Стандартная ошибка оценки – это (выборочное)
среднеквадратическое отклонение наблюдаемых
значений признака (𝑦) от предсказываемых значений
признака (𝑦):
Se
1 n 2
ei
n 2 i 1
Se
В примере:
Se
1 n 2
528, 61
ei
5,14
n 2 i 1
22 2
26
5.4. Оценка качества модели ПЛР
Средняя ошибка аппроксимации
1 n yi yˆ xi
A
100%
n i 1
yi
– показывает, на сколько в среднем отклоняется
предсказанное значение от наблюдаемого (в %)
А 10%
Возможность использования
модели для прогнозирования
В примере (дни на подготовку):
А 5%
27
5.4. Оценка качества модели ПЛР
1 n yi yˆ xi
A
100 %
n i 1
yi
28
5.5. Прогнозирование с помощью
уравнения парной линейной регрессии
y 0 1 x
yˆ х b0 b1 x
Вопрос:
1.Как построить точечный и интервальный прогнозы
значения переменной 𝑦 при заданном значении
переменной 𝑥?
29
5.5. Прогнозирование с помощью уравнения ПЛР
Точечный прогноз.
Оценить среднее значение переменной y при
заданном значении переменной х
x x*
yˆ х* b0 b1 x*
y ( x* ) ?
При х x
*
переменная y в среднем равна yˆ х*
yˆ x 1, 21 2,81x
х* 5,55
yˆ x 1, 21 2,81 5,55 16,81
30
5.5. Прогнозирование с помощью уравнения ПЛР
Интервальный прогноз.
Построить доверительный интервал для значения
переменной 𝑦 при фиксированном значении фактора 𝑥
x x*
P 1 y ( x* ) 2 , 1 , 2 ?
yˆ х* b0 b1 x*
P yˆ х* t ,n 2 S y y ( x* ) yˆ х* t ,n 2 S y
1
S y Se 1 n
n xi x 2
x* x
i 1
2
31
5.5. Прогнозирование с помощью уравнения ПЛР
В примере. x 5,55
P 1 y (5,55) 2 0,95, 1 , 2 ?
x 8,50
yˆ x (5,55) 16,81
1 x x
S y Se 1 n
n xi x 2
*
2
i 1
1 (5,55 8,50) 2
5,14 1
22
5,38
22
2
(
x
8,50)
i
i 1
32
5.5. Прогнозирование с помощью уравнения ПЛР
В примере. x 5,55
P 1 y (5,55) 2 0,95, 1 , 2 ?
yˆ x (5,55) 16,81
S y 5,38
t0,05;20 СТЬЮДЕНТ.ОБР.2Х(1-0,95;20)=2,09
P yˆ х* t ,n 2 S y y ( x * ) yˆ х* t ,n 2 S y
P 5,57 y (5,55) 28, 05 0,95
33