Эмпирическая функция распределения

⌛ 2021 год
👀 693 просмотра
📌 641 загрузка
🏢️ НИУ ВШЭ

Выбери формат для чтения

Конспект лекции по дисциплине «Эмпирическая функция распределения», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Эмпирическая функция распределения», Word формат

Национальный Исследовательский Университет Высшая Школа Экономики. (Департамент Математики) Грибкова Надежда Викторовна Теория Вероятностей и Математическая Статистика (лекция 12) Санкт-Петербург, 2021 1 / 33 4 §4.9 Эмпирическая функция распределения Пусть X1 , . . . , Xn — случайная выборка размера n из распределения наблюдаемой случайной величины ξ, и пусть F (x) обозначает ее (неизвестную) функцию распределения F (x) = P ξ < x . Одна из основных проблем математической статистики — оценка F (x) на основе наблюдений. Статистический вариант вероятности события — это относительная частота наступления этого события, что приводит нас к следующему естественному определению оценки для F (x). Определение 4.1 Функция, которая для любого x ∈ R определяется равенством F̂n (x) = νn (x) #{i : Xi < x} = n n (1) называется эмпирической функцией распределения. 2 / 33 4 Введем индикаторы случайных событий ( 1, Xi < x; 1x (Xi ) = 0, Xi ≥ x, i = 1, . . . , n. Тогда νn (x) = #{i : Xi < x} = Pn i=1 1x (Xi ), и n F̂n (x) = 1X 1x (Xi ). n i=1 Заметим, что 1x (Xi ), i = 1, . . . , n, – это независимые одинаково распределенные с.в., имеющие распределение Бернулли с параметрами E 1x (Xi ) = 1 · P(Xi < x) + 0 · P(Xi ≥ x) = F (x) D 1x (Xi ) = F (x) 1 − F (x) . 3 / 33 4 Теорема 4.1 (Свойства э.ф.р. F̂n (x)) Для любого фиксированного x ∈ R 1. 2. 3. P F̂n (x) −→n→∞ F (x), E F̂n (x) = F (x), F (x) 1 − F (x) D F̂n (x) = n Замечание 4.1 1 означает состоятельность F̂n (x) как оценки для F (x). 2 означает несмещенность F̂n (x) как оценки для F (x). 3 влечет за собой то, что D F̂n (x) → 0 при n → ∞, следовательно, F̂n (x) оценивает F (x) сколь угодно точно при достаточно больших n. 4 / 33 4 Доказательство. 1. По закону больших чисел (теореме Чебышева) мы имеем F̂n (x) = n 1X P 1x (Xi ) −→n→∞ E 1x (X1 ) = F (x). n i=1 2. # n n 1X 1X E F̂n (x) = E 1x (Xi ) = E 1x (Xi ) = F (x). n n | {z } " i=1 i=1 = F (x) 3. " n # n F (x) 1 − F (x) 1X 1 X D F̂n (x) = D 1x (Xi ) = 2 D 1x (Xi ) = . n n n | {z } i=1 i=1 = F (x)(1−F (x)) 5 / 33 4 Отметим, что если функция распределения наблюдений X1 , X2 , . . . , Xn F (x) непрерывна, то вероятность совпадения выборочных значений равна 0, вариационный ряд X(1) < X(2) < · · · < X(n) , и эмпирическая функция распределения равна  0, x ≤ X(1) , #{i : Xi < x}  k = n , X(k) < x ≤ X(k+1) , 1 ≤ k ≤ n − 1, F̂n (x) =  n  1, x > X(n) , то есть все скачки одинаковы и равны по величине 1/n. 6 / 33 4 Замечание 4.2 По усиленному закону больших чисел (теореме Я.Хинчина) F̂n (x) = n 1X п.н. 1x (Xi ) −→n→∞ E 1x (X1 ) = F (x), n i=1 то есть сходимость с вероятностью 1. Следующая теорема утверждает, что эта сходимость к тому же всегда равномерная. Теорема 4.2 (Гливенко–Кантелли) P sup |F̂n (x) − F (x)| −→n→∞ 0 = 1 x∈R (без доказательства) 7 / 33 4 Пример 4.1 Имеются наблюдения: −1.5; 2.7; 0.9; 1.2; −2.1; 0.1; 2.7; 0.9; −0.1. Найти эмпирическую функцию распределения и нарисовать ее график. Решение. Прежде всего, упорядочим наблюдения в порядке возрастания значений: −2.1; −1.5; 0.1; 0.9; 0.9; 1.2; 2.7; 2.7, n = 8.   0, x ≤ −2.1;    1    8 , −2.1 < x ≤ −1.5;   2    8 , −1.5 < x ≤ 0.1; F̂n (x) = 38 , 0.1 < x ≤ 0.9;   5    8 , 0.9 < x ≤ 1.2;   6    8 , 1.2 < x ≤ 2.7;   1, 2.7 < x. Попутно заметим, что если исходное распределение непрерывно, то совпадающих значений в выборке быть не может. Вероятность этого равна 0. 8 / 33 4 +/E ,/\ vE tl* *rf \/, 0"5 \3 9 / 33 4 §4.10 Гистограмма относительных частот Пусть X1 , . . . , Xn – случайная выборка объема n из распределения наблюдаемой случайной величины ξ, X(1) ≤ · · · ≤ X(n) – вариационный ряд. Пусть a0 < a1 < · · · < am — m чисел таких, что a0 < X(1) ≤ · · · ≤ X(n) < am . hk = ak − ak−1 – длина интервала [ak−1 , ak ), k = 1, . . . , m. νk = ]{i : Xi ∈ [ak−1 , ak )}. Определение 4.2 Кусочно-постоянная функция, постоянная на интервалах группировки [ak−1 , ak ) и определенная в этих интервалах равенством gn (x) = gk := νk , n hk ∀x ∈ [ak−1 , ak ) называется гистограммой относительных частот. 10 / 33 4 Гистограмма и полигон относительных частот [* ct. 0t og. 11 / 33 4 Заметим, что площадь области под графиком гистограммы равна 1 (как и площадь под графиком плотности распределения). Действительно, m m m X X 1X n νk hk = νk = = 1 Sg = gk hk = n hk n n k=1 k=1 k=1 Если генеральное распределение абсолютно непрерывно с плотностью f (x), то гистограмма относительных частот является оценкой плотности f (x). Действительно, при n → ∞, m → ∞, maxk hk → 0, для x ∈ (ak−1 , ak ) мы имеем Z ak νn ≈ P{ξ ∈ [a , a )} = f (x) dx ≈ f (x) (ak − ak−1 ) k−1 k | {z } n |{z} ak−1 по ЗБЧ = hk Следовательно, при достаточно больших n f (x) ≈ νn = gk . n hk 12 / 33 4 Замечание 4.3 (О выборе числа интервалов m) При построении гистограммы рекомендуется выбирать число m (число интервалов) в зависимости от числа наблюдений n и в соответствии со следующей эвристической формулой, хорошо зарекомендовшей себя на практике h i m = 1.72 n1/3 Замечание 4.4 Хотя при n → ∞ гистограмма сходится к плотности, так как, обычно, объемы выборок n не очень велики, поэтому гистограмма, главным образом, используется для наглядного представления данных. Например, чтобы выдвинуть предположение о типе распределения. 13 / 33 4 §4.11 Доверительные интервалы Пусть X1 , . . . , Xn — выборка объема n из распределения случайной величины ξ, и F (x) обозначает генеральную функцию распределения. Пусть θ — неизвестный параметр распределения F (x). Определение 4.3 Пусть θn− = θn− X1 , . . . , Xn и θn+ = θn+ X1 , . . . , Xn — две статистики. Интервал со случайными концами (θn− , θn+ ) такой, что P θn− < θ < θn+ ≥ 1 − ε называется доверительным интервалом надежности P = 1 − ε, ε ∈ (0, 1). Интервал (θn− , θn+ ) такой, что P θn− < θ < θn+ = 1 − ε называется точным доверительным интервалом надежности P = 1 − ε. 14 / 33 4 Асимптотические доверительные интервалы Определение 4.4 Интервал со случайными концами (θn− , θn+ ) такой, что P θn− < θ < θn+ −→n→∞ 1 − ε называется асимптотическим доверительным интервалом надежности 1 − ε. 15 / 33 4 §4.12 Асимпт. доверительный интервал для Eξ Пусть X1 , . . . , Xn — выборка из распределения наблюдаемой случайной величины ξ, и пусть Eξ обозначает ее математическое ожидание. Предположим, что σ 2 = D(ξ) < ∞. Рассмотрим X — оценку для Eξ. Мы знаем, что σ2 E X = Eξ, D X = . n P P Поскольку X = n1 ni=1 Xi = ni=1 (Xi /n) — это сумма независимых и одинаково распределенных случайных величин Xi /n, по ЦПТ функция распределения нормированной суммы: √ n X − Eξ X − Eξ X − Eξ q = pσ 2 /n = σ D X сходится к стандартной нормальной функции распределения Φ(x). 16 / 33 4 Так как P P Sn2 → √ σ2, можно доказать, что для любого x ∈ R Z x n X − Eξ 1 2 < x −→n→∞ Φ(x) = √ e −t /2 dt. Sn 2π −∞ Пусть ζ0 ∼ N(0, 1) обозначает стандартную нормальную случайную величину, имеющую функцию распределения Φ(x). Найдем zε такое, что P − zε < ζ0 < zε = Φ(zε ) − Φ(−zε ) = Φ(zε ) − [1 − Φ(zε )] = 2 Φ(zε ) − 1 = 1 − ε Последнее означает, что 2 Φ(zε ) = 2 − ε ⇔ Φ(zε ) = 1 − ε 2 ⇔ ε zε = Φ−1 1 − 2 По ЦПТ при достаточно больших n мы имеем √ n X − Eξ d ≈ ζ0 . Sn 17 / 33 4 Точнее говоря, по ЦПТ мы имеем ! √ n X − Eξ P −zε < < zε −→n→∞ Φ(zε ) − Φ(−zε ) Sn =2 Φ(zε ) − 1 = 1 − ε. Следовательно, с вероятностью P ≈ 1 − ε имеют место следующие неравенства √ n X − Eξ −zε < < zε , Sn что ⇐⇒ Sn Sn (1) X − zε √ < Eξ < X + zε √ n n Sn Sn √ Значит, интервал X − zε √ , X + z ε n является асимптотическим n доверительным интервалом надежности P ≈ 1 − ε для математического ожидания Eξ. 18 / 33 4 §4.13 Распределения хи-квадрат и Стьюдента Пусть ξ, ξ1 , . . . , ξn — независимые стандартные нормальные N(0, 1) случайные величины. Определение 4.5 (Распределение хи-квадрат) Распределение случайной величины χ2n = ξ12 + ξ22 + · · · + ξn2 называется распределением хи=квадрат с n степенями свободы. Основные параметры с.в. χ2n : Eχ2n = E(ξ12 + ξ22 + · · · + ξn2 ) = nEξ 2 = n   Dχ2n = D(ξ12 + ξ22 + · · · + ξn2 ) = nD(ξ 2 ) = n E(ξ 4 ) − (E(ξ 2 ))2  = 2 n. | {z } | {z } =3 =1 19 / 33 4 Плотность распределения хи-квадрат Вычисления показывают, что плотность распределения хи-квадрат с n степенями свободы равна ( 0, x ≤ 0; fχ2n (x) = n x −1 − γn x 2 e 2 , x > 0, где γn — постоянная такая, что γn R∞ n x x 2 −1 e − 2 dx = 1. Квантили функции распределения Fχ2n (x) = P(χ2n < x) для различных значений n и p ∈ (0, 1) табулированы. 20 / 33 4 Распределение Стьюдента (Вильяма Госсета) Определение 4.6 (t-распределение Стьюдента) Пусть ξ — стандартная нормальная случайная величина и χ2n — случайная величина, имеющая распределение χ2n и не зависящая от ξ. Распределение следующей случайной величины √ nξ tn = , χn p где χn = χ2n , называется распределением Стьюдента с n степенями свободы. Заметим, что √ √ nξ nξ d ξ tn = =p =q P 2 n χn 1 χn n 2 i=1 ξi d ≈n→∞ ξ ∼ N(0, 1) 21 / 33 4 Плотность распределения Стьюдента Вычисления показывают, что плотность распределения Стьюдента с n степенями свободы равна ftn (x) = %n x2 1+ n − n+1 2 где %n — постоянная такая, что %n −∞ < x < ∞, , R∞ −∞ 1+ n+1 x2 − 2 n dx = 1. n (n > 2). n−2 Если n = 1 распределение Стьюдента совпадает с распределением Коши, и оно не имеет математического ожидания (тем более, не имеет дисперсии). Если n = 2, то Etn = 0, но D(tn ) не существует (бесконечна). Etn = 0 (n > 1); D(tn ) = 22 / 33 4 Нормальные выборки. Лемма Фишера Пусть X1 , . . . , Xn — выборка из распределения ξ ∼ N(µ, σ 2 ). P Рассмотрим статистики: X и Sn2 = n1 ni=1 (Xi − X )2 . Мы знаем, что EX = µ и что D(X ) = Теорема 4.3 (Лемма Фишера) 2 ⇒ 1. X ∼ N(µ, σn ) √ n(X −µ) σ σ2 n . ∼ N(0, 1) . 2. Статистики X и Sn2 являются независимыми. 2 P 3. nσS2n = σ12 ni=1 (Xi − X )2 ∼ χ2n−1 . Из 1-3 следует, что √ 4. n−1 (X −µ) Sn ∼ tn−1 , где Sn = p Sn2 . 23 / 33 4 Доказательство. Соотношения 1-3 примем без доказательства. Покажем только, как 4 следует из 1-3. Имеем √ n − 1 (X − µ) p = Sn2 √ √ n−1 q n(X −µ) d σ n Sn2 σ2 = √ n − 1 N(0, 1) d q = tn−1 . χ2n−1 Р.Фишер (Ronald Fisher) 24 / 33 4 25 / 33 4 §4.14 Доверительные интервалы для µ и σ 2 Пусть X1 , . . . , Xn — выборка из распределения ξ ∼ N(µ, σ 2 ), причем µ и σ 2 — неизвестные параметры. 1. Доверительные интервалы для параметра µ = Eξ Будем основывать построение доверительного интервала на статистике √ n−1 (X −µ) Sn ∼ tn−1 , обозначим Ftn−1 (x) ее функцию распределения. Зададим доверительную вероятность P = 1 − ε, затем для с.в. с распределением Стьдента tn−1 найдем tε такое, чтобы P − tε < tn−1 < tε = Ftn−1 (tε ) − Ftn−1 (−tε ) = 2 Ftn−1 (tε ) − 1 = 1 − ε Второе равенство здесь справедливо в силу того, что распределение Стьюдента симметрично (как и стандартное нормальное распределение с ф.р. Φ(x) ) и, следовательно, Ftn−1 (−x) = 1 − Ftn−1 (x). 26 / 33 4 То есть, чтобы найти tε , мы имеем 2 Ftn−1 (tε ) − 1 = 1 − ε ⇔ Ftn−1 (tε ) = 1 − ε 2 ε ⇔ tε = Ft−1 1 − . n−1 2 Таким образом, tε — это квантиль распределения Стьюдента с n − 1 степенями свободы, которую находим в таблице квантилей распреде√ −µ) ∼ tn−1 , мы получаем, что ления Стьюдента. Так как n−1S(X n √ n − 1 (X − µ) P − tε < < tε = 1 − ε, Sn откуда следует, что в точности с вероятностью 1 − ε √ n−1 X −µ −tε < < tε Sn что можно переписать как X − tε √ Sn Sn < µ < X + tε √ n−1 n−1 (2) 27 / 33 4 Таким образом, мы получаем точный доверительный интервал для µ = Eξ надежности P = 1 − ε: Sn Sn X − tε √ , X + tε √ n−1 n−1 Замечание 4.5 1 Pn 2 Если использовать несмещенную версию σ̂n2 = n−1 i=1 (Xi − X ) выборочной дисперсии в качестве оценки для дисперсии, то придем к неравенствам σ̂n σ̂n X − tε √ < µ < X + tε √ , (2) n n q p 2 где σ̂n = σ̂n , поскольку Sn = n−1 n σ̂n . Тогда получаем интервал σ̂n σ̂n X − tε √ , X + tε √ n n 28 / 33 4 1. Доверительные интервалы для параметра σ 2 = D(ξ) Теперь будем основывать построение доверительного интервала на 2 P статистике nσS2n = σ12 ni=1 (Xi − X )2 ∼ χ2n−1 Зададим доверительную вероятность P = 1 − ε, затем для случайной величины χ2n−1 найдем κ1, ε и κ2, ε такие, что ε Fχ2 (κ1, ε ) = P χ2n−1 < κ1, ε = ; n−1 2 ε 2 1 − Fχ2 (κ2, ε ) = P χn−1 ≥ κ2, ε = n−1 2 κ1, ε – квантиль уровня 2ε распределения хи-квадрат с n − 1 степенями свободы, и κ2, ε – квантиль уровня 1 − 2ε этого распределения. Эти квантили находятся в таблицах квантилей распределения χ2 . 29 / 33 4 Тогда для случайной величины χ2n−1 мы имеем P κ1, ε < χ2n−1 < κ2, ε = 1 − ε. Поскольку n Sn2 σ2 ∼ χ2n−1 , мы получаем P κ1, ε < n Sn2 < κ2, ε = 1 − ε. 2 σ Следовательно, в точности с вероятностью 1 − ε κ1, ε < n Sn2 < κ2, ε , σ2 что можно переписать как n Sn2 n Sn2 < σ2 < . κ2, ε κ1, ε (3) 30 / 33 4 Пример 4.2 Автомобильная компания хотела бы указать доверительные интервалы надежности 95% и 90% для пробега автомобиля на литр топлива в документации своей продукции, а также доверительные интервалы такой же надежности для стандартного отклонения. Компания произвела эксперименты с 26 автомобилями. Были получены наблюдения X1 , X2 , . . . , X26 , где Xi – пробег автомобиля в км на литр топлива. Оказалось, что X = 9.3, Sn2 = 1.96. Мы полагаем, что пробег автомобиля на литр топлива — нормально распределенная случайная величина. Решение 1. Вначале найдем интервалы для параметра µ = EXi . p √ √ √ Имеем Sn2 = 1.96 = 1.4, n − 1 = 25 = 5. 31 / 33 4 Для P = 0.95: мы имеем ε = 1 − P = 0.05, 2ε = 0.025, 1 − tε = Ft−1 1 − 2ε = Ft−1 (0.975) = 2.060 n−1 25 9.3 − 2.060 1.4 1.4 < µ < 9.3 + 2.060 5 5 ε 2 = 0.975. ⇔ µ ∈ (8.74, 9.86) ⇔ µ ∈ (8.82, 9.78) Для P = 0.9: мы имеем ε = 0.1, 2ε = 0.05, 1 − 2ε = 0.95. (0.95) = 1.708 tε = Ft−1 1 − 2ε = Ft−1 25 n−1 9.3 − 1.708 1.4 1.4 < µ < 9.3 + 1.708 5 5 32 / 33 4 1. Теперь найдем интервалы для параметра σ = √ DXi . Для P = 0.95: мы имеем ε = 1 − P = 0.05, 2ε = 0.025, 1 − ε κ21, ε = Fχ−1 = Fχ−1 2 2 (0.025) = 13.1 2 n−1 25 κ22, ε = Fχ−1 1 − 2ε = Fχ−1 2 (0.975) = 40.6 2 n−1 ε 2 = 0.975. 25 26 · 1.96 26 · 1.96 < σ2 < 40.6 13.1 ⇔ σ ∈ (1.12, 1.20) Для P = 0.9: мы имеем ε = 0.1, 2ε = 0.05, 1 − ε κ21, ε = Fχ−1 = Fχ−1 2 (0.05) = 14.6 2 2 n−1 25 −1 κ22, ε = Fχ2 1 − 2ε = Fχ−1 2 (0.95) = 37.7 n−1 ε 2 = 0.95. 25 26 · 1.96 26 · 1.96 < σ2 < 37.7 14.6 ⇔ σ ∈ (1.16, 1.87) 33 / 33