Эмпирическая функция распределения
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Национальный Исследовательский Университет
Высшая Школа Экономики. (Департамент
Математики)
Грибкова Надежда Викторовна
Теория Вероятностей и Математическая
Статистика
(лекция 12)
Санкт-Петербург,
2021
1 / 33
4
§4.9 Эмпирическая функция распределения
Пусть X1 , . . . , Xn — случайная выборка размера n из распределения
наблюдаемой случайной величины ξ, и пусть F (x) обозначает
ее
(неизвестную) функцию распределения F (x) = P ξ < x .
Одна из основных проблем математической статистики — оценка
F (x) на основе наблюдений.
Статистический вариант вероятности события — это относительная
частота наступления этого события, что приводит нас к следующему
естественному определению оценки для F (x).
Определение 4.1
Функция, которая для любого x ∈ R определяется равенством
F̂n (x) =
νn (x)
#{i : Xi < x}
=
n
n
(1)
называется эмпирической функцией распределения.
2 / 33
4
Введем индикаторы случайных событий
(
1, Xi < x;
1x (Xi ) =
0, Xi ≥ x, i = 1, . . . , n.
Тогда νn (x) = #{i : Xi < x} =
Pn
i=1 1x (Xi ),
и
n
F̂n (x) =
1X
1x (Xi ).
n
i=1
Заметим, что 1x (Xi ), i = 1, . . . , n, – это независимые одинаково распределенные с.в., имеющие распределение Бернулли с параметрами
E 1x (Xi ) = 1 · P(Xi < x) + 0 · P(Xi ≥ x) = F (x)
D 1x (Xi ) = F (x) 1 − F (x) .
3 / 33
4
Теорема 4.1 (Свойства э.ф.р. F̂n (x))
Для любого фиксированного x ∈ R
1.
2.
3.
P
F̂n (x) −→n→∞ F (x),
E F̂n (x) = F (x),
F (x) 1 − F (x)
D F̂n (x) =
n
Замечание 4.1
1 означает состоятельность F̂n (x) как оценки для F (x).
2 означает несмещенность F̂n (x) как
оценки для F (x).
3 влечет за собой то, что D F̂n (x) → 0 при n → ∞, следовательно,
F̂n (x) оценивает F (x) сколь угодно точно при достаточно больших n.
4 / 33
4
Доказательство.
1. По закону больших чисел (теореме Чебышева) мы имеем
F̂n (x) =
n
1X
P
1x (Xi ) −→n→∞ E 1x (X1 ) = F (x).
n
i=1
2.
#
n
n
1X
1X
E F̂n (x) = E
1x (Xi ) =
E 1x (Xi ) = F (x).
n
n
| {z }
"
i=1
i=1
= F (x)
3.
" n
#
n
F (x) 1 − F (x)
1X
1 X
D F̂n (x) = D
1x (Xi ) = 2
D 1x (Xi ) =
.
n
n
n
|
{z
}
i=1
i=1
= F (x)(1−F (x))
5 / 33
4
Отметим, что если функция распределения наблюдений X1 , X2 , . . . , Xn
F (x) непрерывна, то вероятность совпадения выборочных значений
равна 0, вариационный ряд X(1) < X(2) < · · · < X(n) , и эмпирическая
функция распределения равна
0, x ≤ X(1) ,
#{i : Xi < x} k
= n , X(k) < x ≤ X(k+1) , 1 ≤ k ≤ n − 1,
F̂n (x) =
n
1, x > X(n) ,
то есть все скачки одинаковы и равны по величине 1/n.
6 / 33
4
Замечание 4.2
По усиленному закону больших чисел (теореме Я.Хинчина)
F̂n (x) =
n
1X
п.н.
1x (Xi ) −→n→∞ E 1x (X1 ) = F (x),
n
i=1
то есть сходимость с вероятностью 1.
Следующая теорема утверждает, что эта сходимость к тому же всегда
равномерная.
Теорема 4.2 (Гливенко–Кантелли)
P sup |F̂n (x) − F (x)| −→n→∞ 0 = 1
x∈R
(без доказательства)
7 / 33
4
Пример 4.1
Имеются наблюдения: −1.5; 2.7; 0.9; 1.2; −2.1; 0.1; 2.7; 0.9; −0.1.
Найти эмпирическую функцию распределения и нарисовать ее график.
Решение. Прежде всего, упорядочим наблюдения в порядке
возрастания значений: −2.1; −1.5; 0.1; 0.9; 0.9; 1.2; 2.7; 2.7, n = 8.
0, x ≤ −2.1;
1
8 , −2.1 < x ≤ −1.5;
2
8 , −1.5 < x ≤ 0.1;
F̂n (x) = 38 , 0.1 < x ≤ 0.9;
5
8 , 0.9 < x ≤ 1.2;
6
8 , 1.2 < x ≤ 2.7;
1, 2.7 < x.
Попутно заметим, что если исходное распределение непрерывно, то
совпадающих значений в выборке быть не может. Вероятность этого
равна 0.
8 / 33
4
+/E
,/\
vE
tl*
*rf
\/,
0"5 \3
9 / 33
4
§4.10 Гистограмма относительных частот
Пусть X1 , . . . , Xn – случайная выборка объема n из распределения
наблюдаемой случайной величины ξ,
X(1) ≤ · · · ≤ X(n) – вариационный ряд.
Пусть a0 < a1 < · · · < am — m чисел таких, что
a0 < X(1) ≤ · · · ≤ X(n) < am .
hk = ak − ak−1 – длина интервала [ak−1 , ak ), k = 1, . . . , m.
νk = ]{i : Xi ∈ [ak−1 , ak )}.
Определение 4.2
Кусочно-постоянная функция, постоянная на интервалах группировки
[ak−1 , ak ) и определенная в этих интервалах равенством
gn (x) = gk :=
νk
,
n hk
∀x ∈ [ak−1 , ak )
называется гистограммой относительных частот.
10 / 33
4
Гистограмма и полигон относительных частот
[*
ct.
0t
og.
11 / 33
4
Заметим, что площадь области под графиком гистограммы равна 1
(как и площадь под графиком плотности распределения). Действительно,
m
m
m
X
X
1X
n
νk
hk =
νk = = 1
Sg =
gk hk =
n hk
n
n
k=1
k=1
k=1
Если генеральное распределение абсолютно непрерывно с плотностью
f (x), то гистограмма относительных частот является оценкой
плотности f (x). Действительно, при n → ∞, m → ∞, maxk hk → 0,
для x ∈ (ak−1 , ak ) мы имеем
Z ak
νn
≈
P{ξ
∈
[a
,
a
)}
=
f (x) dx ≈ f (x) (ak − ak−1 )
k−1 k
|
{z
}
n |{z}
ak−1
по ЗБЧ
= hk
Следовательно, при достаточно больших n
f (x) ≈
νn
= gk .
n hk
12 / 33
4
Замечание 4.3 (О выборе числа интервалов m)
При построении гистограммы рекомендуется выбирать число m (число
интервалов) в зависимости от числа наблюдений n и в соответствии со
следующей эвристической формулой, хорошо зарекомендовшей себя
на практике
h
i
m = 1.72 n1/3
Замечание 4.4
Хотя при n → ∞ гистограмма сходится к плотности, так как, обычно,
объемы выборок n не очень велики, поэтому гистограмма, главным
образом, используется для наглядного представления данных. Например, чтобы выдвинуть предположение о типе распределения.
13 / 33
4
§4.11 Доверительные интервалы
Пусть X1 , . . . , Xn — выборка объема n из распределения случайной
величины ξ, и F (x) обозначает генеральную функцию распределения.
Пусть θ — неизвестный параметр распределения F (x).
Определение 4.3
Пусть θn− = θn− X1 , . . . , Xn и θn+ = θn+ X1 , . . . , Xn — две статистики.
Интервал со случайными концами (θn− , θn+ ) такой, что
P θn− < θ < θn+ ≥ 1 − ε
называется доверительным интервалом надежности P = 1 − ε,
ε ∈ (0, 1). Интервал (θn− , θn+ ) такой, что
P θn− < θ < θn+ = 1 − ε
называется точным доверительным интервалом надежности
P = 1 − ε.
14 / 33
4
Асимптотические доверительные интервалы
Определение 4.4
Интервал со случайными концами (θn− , θn+ ) такой, что
P θn− < θ < θn+ −→n→∞ 1 − ε
называется асимптотическим доверительным интервалом
надежности 1 − ε.
15 / 33
4
§4.12 Асимпт. доверительный интервал для Eξ
Пусть X1 , . . . , Xn — выборка из распределения наблюдаемой случайной
величины ξ, и пусть Eξ обозначает ее математическое ожидание.
Предположим, что σ 2 = D(ξ) < ∞. Рассмотрим X — оценку для Eξ.
Мы знаем, что
σ2
E X = Eξ, D X =
.
n
P
P
Поскольку X = n1 ni=1 Xi = ni=1 (Xi /n) — это сумма независимых и
одинаково распределенных случайных величин Xi /n, по ЦПТ функция
распределения нормированной суммы:
√
n X − Eξ
X − Eξ
X − Eξ
q
= pσ 2 /n =
σ
D X
сходится к стандартной нормальной функции распределения Φ(x).
16 / 33
4
Так как
P
P
Sn2 →
√
σ2,
можно доказать, что для любого x ∈ R
Z x
n X − Eξ
1
2
< x −→n→∞ Φ(x) = √
e −t /2 dt.
Sn
2π −∞
Пусть ζ0 ∼ N(0, 1) обозначает стандартную нормальную случайную
величину, имеющую функцию распределения Φ(x). Найдем zε такое,
что
P − zε < ζ0 < zε = Φ(zε ) − Φ(−zε ) = Φ(zε ) − [1 − Φ(zε )]
= 2 Φ(zε ) − 1 = 1 − ε
Последнее означает, что
2 Φ(zε ) = 2 − ε
⇔
Φ(zε ) = 1 −
ε
2
⇔
ε
zε = Φ−1 1 −
2
По ЦПТ при достаточно больших n мы имеем
√
n X − Eξ d
≈ ζ0 .
Sn
17 / 33
4
Точнее говоря, по ЦПТ мы имеем
!
√
n X − Eξ
P −zε <
< zε −→n→∞ Φ(zε ) − Φ(−zε )
Sn
=2 Φ(zε ) − 1 = 1 − ε.
Следовательно, с вероятностью P ≈ 1 − ε имеют место следующие
неравенства
√
n X − Eξ
−zε <
< zε ,
Sn
что ⇐⇒
Sn
Sn
(1)
X − zε √ < Eξ < X + zε √
n
n
Sn
Sn
√
Значит, интервал X − zε √
,
X
+
z
ε n является асимптотическим
n
доверительным интервалом надежности P ≈ 1 − ε для
математического ожидания Eξ.
18 / 33
4
§4.13 Распределения хи-квадрат и Стьюдента
Пусть ξ, ξ1 , . . . , ξn — независимые стандартные нормальные N(0, 1)
случайные величины.
Определение 4.5 (Распределение хи-квадрат)
Распределение случайной величины
χ2n = ξ12 + ξ22 + · · · + ξn2
называется распределением хи=квадрат с n степенями свободы.
Основные параметры с.в. χ2n :
Eχ2n = E(ξ12 + ξ22 + · · · + ξn2 ) = nEξ 2 = n
Dχ2n = D(ξ12 + ξ22 + · · · + ξn2 ) = nD(ξ 2 ) = n E(ξ 4 ) − (E(ξ 2 ))2 = 2 n.
| {z } | {z }
=3
=1
19 / 33
4
Плотность распределения хи-квадрат
Вычисления показывают, что плотность распределения хи-квадрат с n
степенями свободы равна
(
0,
x ≤ 0;
fχ2n (x) =
n
x
−1
−
γn x 2 e 2 , x > 0,
где γn — постоянная такая, что γn
R∞
n
x
x 2 −1 e − 2 dx = 1.
Квантили функции распределения Fχ2n (x) = P(χ2n < x) для различных
значений n и p ∈ (0, 1) табулированы.
20 / 33
4
Распределение Стьюдента (Вильяма Госсета)
Определение 4.6 (t-распределение Стьюдента)
Пусть ξ — стандартная нормальная случайная величина и χ2n —
случайная величина, имеющая распределение χ2n и не зависящая от ξ.
Распределение следующей случайной величины
√
nξ
tn =
,
χn
p
где χn = χ2n , называется распределением Стьюдента с n
степенями свободы.
Заметим, что
√
√
nξ
nξ d
ξ
tn =
=p =q P
2
n
χn
1
χn
n
2
i=1 ξi
d
≈n→∞ ξ ∼ N(0, 1)
21 / 33
4
Плотность распределения Стьюдента
Вычисления показывают, что плотность распределения Стьюдента с n
степенями свободы равна
ftn (x) = %n
x2
1+
n
− n+1
2
где %n — постоянная такая, что %n
−∞ < x < ∞,
,
R∞
−∞
1+
n+1
x2 − 2
n
dx = 1.
n
(n > 2).
n−2
Если n = 1 распределение Стьюдента совпадает с распределением
Коши, и оно не имеет математического ожидания (тем более, не имеет
дисперсии).
Если n = 2, то Etn = 0, но D(tn ) не существует (бесконечна).
Etn = 0 (n > 1);
D(tn ) =
22 / 33
4
Нормальные выборки. Лемма Фишера
Пусть X1 , . . . , Xn — выборка из распределения ξ ∼ N(µ, σ 2 ).
P
Рассмотрим статистики: X и Sn2 = n1 ni=1 (Xi − X )2 .
Мы знаем, что EX = µ и что D(X ) =
Теорема 4.3 (Лемма Фишера)
2
⇒
1. X ∼ N(µ, σn )
√
n(X −µ)
σ
σ2
n .
∼ N(0, 1) .
2. Статистики X и Sn2 являются независимыми.
2
P
3. nσS2n = σ12 ni=1 (Xi − X )2 ∼ χ2n−1 .
Из 1-3 следует, что
√
4.
n−1 (X −µ)
Sn
∼ tn−1 , где Sn =
p
Sn2 .
23 / 33
4
Доказательство.
Соотношения 1-3 примем без доказательства. Покажем только, как 4
следует из 1-3.
Имеем
√
n − 1 (X − µ)
p
=
Sn2
√
√
n−1
q
n(X −µ)
d
σ
n Sn2
σ2
=
√
n − 1 N(0, 1) d
q
= tn−1 .
χ2n−1
Р.Фишер (Ronald Fisher)
24 / 33
4
25 / 33
4
§4.14 Доверительные интервалы для µ и σ 2
Пусть X1 , . . . , Xn — выборка из распределения ξ ∼ N(µ, σ 2 ), причем
µ и σ 2 — неизвестные параметры.
1. Доверительные интервалы для параметра µ = Eξ
Будем основывать построение доверительного интервала на статистике
√
n−1 (X −µ)
Sn
∼ tn−1 , обозначим Ftn−1 (x) ее функцию распределения.
Зададим доверительную вероятность P = 1 − ε, затем для с.в. с
распределением Стьдента tn−1 найдем tε такое, чтобы
P − tε < tn−1 < tε = Ftn−1 (tε ) − Ftn−1 (−tε ) = 2 Ftn−1 (tε ) − 1 = 1 − ε
Второе равенство здесь справедливо в силу того, что распределение
Стьюдента симметрично (как и стандартное нормальное распределение с ф.р. Φ(x) ) и, следовательно, Ftn−1 (−x) = 1 − Ftn−1 (x).
26 / 33
4
То есть, чтобы найти tε , мы имеем
2 Ftn−1 (tε ) − 1 = 1 − ε ⇔ Ftn−1 (tε ) = 1 −
ε
2
ε
⇔ tε = Ft−1
1
−
.
n−1
2
Таким образом, tε — это квантиль распределения Стьюдента с n − 1
степенями свободы, которую находим в таблице квантилей распреде√
−µ)
∼ tn−1 , мы получаем, что
ления Стьюдента. Так как n−1S(X
n
√
n − 1 (X − µ)
P − tε <
< tε = 1 − ε,
Sn
откуда следует, что в точности с вероятностью 1 − ε
√
n−1 X −µ
−tε <
< tε
Sn
что можно переписать как
X − tε √
Sn
Sn
< µ < X + tε √
n−1
n−1
(2)
27 / 33
4
Таким образом, мы получаем точный доверительный интервал для
µ = Eξ надежности P = 1 − ε:
Sn
Sn
X − tε √
, X + tε √
n−1
n−1
Замечание 4.5
1 Pn
2
Если использовать несмещенную версию σ̂n2 = n−1
i=1 (Xi − X )
выборочной дисперсии в качестве оценки для дисперсии, то придем к
неравенствам
σ̂n
σ̂n
X − tε √ < µ < X + tε √ ,
(2)
n
n
q
p
2
где σ̂n = σ̂n , поскольку Sn = n−1
n σ̂n . Тогда получаем интервал
σ̂n
σ̂n
X − tε √ , X + tε √
n
n
28 / 33
4
1. Доверительные интервалы для параметра σ 2 = D(ξ)
Теперь будем основывать построение доверительного интервала на
2
P
статистике nσS2n = σ12 ni=1 (Xi − X )2 ∼ χ2n−1
Зададим доверительную вероятность P = 1 − ε, затем для случайной
величины χ2n−1 найдем κ1, ε и κ2, ε такие, что
ε
Fχ2 (κ1, ε ) = P χ2n−1 < κ1, ε = ;
n−1
2
ε
2
1 − Fχ2 (κ2, ε ) = P χn−1 ≥ κ2, ε =
n−1
2
κ1, ε – квантиль уровня 2ε распределения хи-квадрат с n − 1 степенями
свободы, и κ2, ε – квантиль уровня 1 − 2ε этого распределения. Эти
квантили находятся в таблицах квантилей распределения χ2 .
29 / 33
4
Тогда для случайной величины χ2n−1 мы имеем
P κ1, ε < χ2n−1 < κ2, ε = 1 − ε.
Поскольку
n Sn2
σ2
∼ χ2n−1 , мы получаем
P κ1, ε <
n Sn2
< κ2, ε = 1 − ε.
2
σ
Следовательно, в точности с вероятностью 1 − ε
κ1, ε <
n Sn2
< κ2, ε ,
σ2
что можно переписать как
n Sn2
n Sn2
< σ2 <
.
κ2, ε
κ1, ε
(3)
30 / 33
4
Пример 4.2
Автомобильная компания хотела бы указать доверительные интервалы
надежности 95% и 90% для пробега автомобиля на литр топлива в
документации своей продукции, а также доверительные интервалы
такой же надежности для стандартного отклонения. Компания
произвела эксперименты с 26 автомобилями. Были получены
наблюдения X1 , X2 , . . . , X26 , где Xi – пробег автомобиля в км на литр
топлива. Оказалось, что X = 9.3, Sn2 = 1.96. Мы полагаем, что пробег
автомобиля на литр топлива — нормально распределенная случайная
величина.
Решение
1. Вначале найдем интервалы для параметра µ = EXi .
p
√
√
√
Имеем Sn2 = 1.96 = 1.4, n − 1 = 25 = 5.
31 / 33
4
Для P = 0.95:
мы имеем ε = 1 − P = 0.05, 2ε = 0.025, 1 −
tε = Ft−1
1 − 2ε = Ft−1
(0.975) = 2.060
n−1
25
9.3 − 2.060
1.4
1.4
< µ < 9.3 + 2.060
5
5
ε
2
= 0.975.
⇔
µ ∈ (8.74, 9.86)
⇔
µ ∈ (8.82, 9.78)
Для P = 0.9:
мы имеем ε = 0.1, 2ε = 0.05, 1 − 2ε = 0.95.
(0.95) = 1.708
tε = Ft−1
1 − 2ε = Ft−1
25
n−1
9.3 − 1.708
1.4
1.4
< µ < 9.3 + 1.708
5
5
32 / 33
4
1. Теперь найдем интервалы для параметра σ =
√
DXi .
Для P = 0.95:
мы имеем ε = 1 − P = 0.05, 2ε = 0.025, 1 −
ε
κ21, ε = Fχ−1
= Fχ−1
2
2 (0.025) = 13.1
2
n−1
25
κ22, ε = Fχ−1
1 − 2ε = Fχ−1
2 (0.975) = 40.6
2
n−1
ε
2
= 0.975.
25
26 · 1.96
26 · 1.96
< σ2 <
40.6
13.1
⇔
σ ∈ (1.12, 1.20)
Для P = 0.9: мы имеем ε = 0.1, 2ε = 0.05, 1 −
ε
κ21, ε = Fχ−1
= Fχ−1
2 (0.05) = 14.6
2
2
n−1
25
−1
κ22, ε = Fχ2
1 − 2ε = Fχ−1
2 (0.95) = 37.7
n−1
ε
2
= 0.95.
25
26 · 1.96
26 · 1.96
< σ2 <
37.7
14.6
⇔
σ ∈ (1.16, 1.87)
33 / 33