Эмпирическая функция распределения

⌛ 2021 год
👀 1262 просмотра
📌 1210 загрузок
🏢️ НИУ ВШЭ

Выбери формат для чтения

Конспект лекции по дисциплине «Эмпирическая функция распределения», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Эмпирическая функция распределения», Word формат

Национальный Исследовательский Университет Высшая Школа Экономики. (Департамент Математики) Грибкова Надежда Викторовна Теория Вероятностей и Математическая Статистика (лекция 12) Санкт-Петербург, 2021 1 / 33 4 §4.9 Эмпирическая функция распределения Пусть X1 , . . . , Xn — случайная выборка размера n из распределения наблюдаемой случайной величины ξ, и пусть F (x) обозначает ее (неизвестную) функцию распределения F (x) = P ξ < x . Одна из основных проблем математической статистики — оценка F (x) на основе наблюдений. Статистический вариант вероятности события — это относительная частота наступления этого события, что приводит нас к следующему естественному определению оценки для F (x). Определение 4.1 Функция, которая для любого x ∈ R определяется равенством F̂n (x) = νn (x) #{i : Xi < x} = n n (1) называется эмпирической функцией распределения. 2 / 33 4 Введем индикаторы случайных событий ( 1, Xi < x; 1x (Xi ) = 0, Xi ≥ x, i = 1, . . . , n. Тогда νn (x) = #{i : Xi < x} = Pn i=1 1x (Xi ), и n F̂n (x) = 1X 1x (Xi ). n i=1 Заметим, что 1x (Xi ), i = 1, . . . , n, – это независимые одинаково распределенные с.в., имеющие распределение Бернулли с параметрами E 1x (Xi ) = 1 · P(Xi < x) + 0 · P(Xi ≥ x) = F (x) D 1x (Xi ) = F (x) 1 − F (x) . 3 / 33 4 Теорема 4.1 (Свойства э.ф.р. F̂n (x)) Для любого фиксированного x ∈ R 1. 2. 3. P F̂n (x) −→n→∞ F (x), E F̂n (x) = F (x), F (x) 1 − F (x) D F̂n (x) = n Замечание 4.1 1 означает состоятельность F̂n (x) как оценки для F (x). 2 означает несмещенность F̂n (x) как оценки для F (x). 3 влечет за собой то, что D F̂n (x) → 0 при n → ∞, следовательно, F̂n (x) оценивает F (x) сколь угодно точно при достаточно больших n. 4 / 33 4 Доказательство. 1. По закону больших чисел (теореме Чебышева) мы имеем F̂n (x) = n 1X P 1x (Xi ) −→n→∞ E 1x (X1 ) = F (x). n i=1 2. # n n 1X 1X E F̂n (x) = E 1x (Xi ) = E 1x (Xi ) = F (x). n n | {z } " i=1 i=1 = F (x) 3. " n # n F (x) 1 − F (x) 1X 1 X D F̂n (x) = D 1x (Xi ) = 2 D 1x (Xi ) = . n n n | {z } i=1 i=1 = F (x)(1−F (x)) 5 / 33 4 Отметим, что если функция распределения наблюдений X1 , X2 , . . . , Xn F (x) непрерывна, то вероятность совпадения выборочных значений равна 0, вариационный ряд X(1) < X(2) < · · · < X(n) , и эмпирическая функция распределения равна  0, x ≤ X(1) , #{i : Xi < x}  k = n , X(k) < x ≤ X(k+1) , 1 ≤ k ≤ n − 1, F̂n (x) =  n  1, x > X(n) , то есть все скачки одинаковы и равны по величине 1/n. 6 / 33 4 Замечание 4.2 По усиленному закону больших чисел (теореме Я.Хинчина) F̂n (x) = n 1X п.н. 1x (Xi ) −→n→∞ E 1x (X1 ) = F (x), n i=1 то есть сходимость с вероятностью 1. Следующая теорема утверждает, что эта сходимость к тому же всегда равномерная. Теорема 4.2 (Гливенко–Кантелли) P sup |F̂n (x) − F (x)| −→n→∞ 0 = 1 x∈R (без доказательства) 7 / 33 4 Пример 4.1 Имеются наблюдения: −1.5; 2.7; 0.9; 1.2; −2.1; 0.1; 2.7; 0.9; −0.1. Найти эмпирическую функцию распределения и нарисовать ее график. Решение. Прежде всего, упорядочим наблюдения в порядке возрастания значений: −2.1; −1.5; 0.1; 0.9; 0.9; 1.2; 2.7; 2.7, n = 8.   0, x ≤ −2.1;    1    8 , −2.1 < x ≤ −1.5;   2    8 , −1.5 < x ≤ 0.1; F̂n (x) = 38 , 0.1 < x ≤ 0.9;   5    8 , 0.9 < x ≤ 1.2;   6    8 , 1.2 < x ≤ 2.7;   1, 2.7 < x. Попутно заметим, что если исходное распределение непрерывно, то совпадающих значений в выборке быть не может. Вероятность этого равна 0. 8 / 33 4 +/E ,/\ vE tl* *rf \/, 0"5 \3 9 / 33 4 §4.10 Гистограмма относительных частот Пусть X1 , . . . , Xn – случайная выборка объема n из распределения наблюдаемой случайной величины ξ, X(1) ≤ · · · ≤ X(n) – вариационный ряд. Пусть a0 < a1 < · · · < am — m чисел таких, что a0 < X(1) ≤ · · · ≤ X(n) < am . hk = ak − ak−1 – длина интервала [ak−1 , ak ), k = 1, . . . , m. νk = ]{i : Xi ∈ [ak−1 , ak )}. Определение 4.2 Кусочно-постоянная функция, постоянная на интервалах группировки [ak−1 , ak ) и определенная в этих интервалах равенством gn (x) = gk := νk , n hk ∀x ∈ [ak−1 , ak ) называется гистограммой относительных частот. 10 / 33 4 Гистограмма и полигон относительных частот [* ct. 0t og. 11 / 33 4 Заметим, что площадь области под графиком гистограммы равна 1 (как и площадь под графиком плотности распределения). Действительно, m m m X X 1X n νk hk = νk = = 1 Sg = gk hk = n hk n n k=1 k=1 k=1 Если генеральное распределение абсолютно непрерывно с плотностью f (x), то гистограмма относительных частот является оценкой плотности f (x). Действительно, при n → ∞, m → ∞, maxk hk → 0, для x ∈ (ak−1 , ak ) мы имеем Z ak νn ≈ P{ξ ∈ [a , a )} = f (x) dx ≈ f (x) (ak − ak−1 ) k−1 k | {z } n |{z} ak−1 по ЗБЧ = hk Следовательно, при достаточно больших n f (x) ≈ νn = gk . n hk 12 / 33 4 Замечание 4.3 (О выборе числа интервалов m) При построении гистограммы рекомендуется выбирать число m (число интервалов) в зависимости от числа наблюдений n и в соответствии со следующей эвристической формулой, хорошо зарекомендовшей себя на практике h i m = 1.72 n1/3 Замечание 4.4 Хотя при n → ∞ гистограмма сходится к плотности, так как, обычно, объемы выборок n не очень велики, поэтому гистограмма, главным образом, используется для наглядного представления данных. Например, чтобы выдвинуть предположение о типе распределения. 13 / 33 4 §4.11 Доверительные интервалы Пусть X1 , . . . , Xn — выборка объема n из распределения случайной величины ξ, и F (x) обозначает генеральную функцию распределения. Пусть θ — неизвестный параметр распределения F (x). Определение 4.3 Пусть θn− = θn− X1 , . . . , Xn и θn+ = θn+ X1 , . . . , Xn — две статистики. Интервал со случайными концами (θn− , θn+ ) такой, что P θn− < θ < θn+ ≥ 1 − ε называется доверительным интервалом надежности P = 1 − ε, ε ∈ (0, 1). Интервал (θn− , θn+ ) такой, что P θn− < θ < θn+ = 1 − ε называется точным доверительным интервалом надежности P = 1 − ε. 14 / 33 4 Асимптотические доверительные интервалы Определение 4.4 Интервал со случайными концами (θn− , θn+ ) такой, что P θn− < θ < θn+ −→n→∞ 1 − ε называется асимптотическим доверительным интервалом надежности 1 − ε. 15 / 33 4 §4.12 Асимпт. доверительный интервал для Eξ Пусть X1 , . . . , Xn — выборка из распределения наблюдаемой случайной величины ξ, и пусть Eξ обозначает ее математическое ожидание. Предположим, что σ 2 = D(ξ) < ∞. Рассмотрим X — оценку для Eξ. Мы знаем, что σ2 E X = Eξ, D X = . n P P Поскольку X = n1 ni=1 Xi = ni=1 (Xi /n) — это сумма независимых и одинаково распределенных случайных величин Xi /n, по ЦПТ функция распределения нормированной суммы: √ n X − Eξ X − Eξ X − Eξ q = pσ 2 /n = σ D X сходится к стандартной нормальной функции распределения Φ(x). 16 / 33 4 Так как P P Sn2 → √ σ2, можно доказать, что для любого x ∈ R Z x n X − Eξ 1 2 < x −→n→∞ Φ(x) = √ e −t /2 dt. Sn 2π −∞ Пусть ζ0 ∼ N(0, 1) обозначает стандартную нормальную случайную величину, имеющую функцию распределения Φ(x). Найдем zε такое, что P − zε < ζ0 < zε = Φ(zε ) − Φ(−zε ) = Φ(zε ) − [1 − Φ(zε )] = 2 Φ(zε ) − 1 = 1 − ε Последнее означает, что 2 Φ(zε ) = 2 − ε ⇔ Φ(zε ) = 1 − ε 2 ⇔ ε zε = Φ−1 1 − 2 По ЦПТ при достаточно больших n мы имеем √ n X − Eξ d ≈ ζ0 . Sn 17 / 33 4 Точнее говоря, по ЦПТ мы имеем ! √ n X − Eξ P −zε < < zε −→n→∞ Φ(zε ) − Φ(−zε ) Sn =2 Φ(zε ) − 1 = 1 − ε. Следовательно, с вероятностью P ≈ 1 − ε имеют место следующие неравенства √ n X − Eξ −zε < < zε , Sn что ⇐⇒ Sn Sn (1) X − zε √ < Eξ < X + zε √ n n Sn Sn √ Значит, интервал X − zε √ , X + z ε n является асимптотическим n доверительным интервалом надежности P ≈ 1 − ε для математического ожидания Eξ. 18 / 33 4 §4.13 Распределения хи-квадрат и Стьюдента Пусть ξ, ξ1 , . . . , ξn — независимые стандартные нормальные N(0, 1) случайные величины. Определение 4.5 (Распределение хи-квадрат) Распределение случайной величины χ2n = ξ12 + ξ22 + · · · + ξn2 называется распределением хи=квадрат с n степенями свободы. Основные параметры с.в. χ2n : Eχ2n = E(ξ12 + ξ22 + · · · + ξn2 ) = nEξ 2 = n   Dχ2n = D(ξ12 + ξ22 + · · · + ξn2 ) = nD(ξ 2 ) = n E(ξ 4 ) − (E(ξ 2 ))2  = 2 n. | {z } | {z } =3 =1 19 / 33 4 Плотность распределения хи-квадрат Вычисления показывают, что плотность распределения хи-квадрат с n степенями свободы равна ( 0, x ≤ 0; fχ2n (x) = n x −1 − γn x 2 e 2 , x > 0, где γn — постоянная такая, что γn R∞ n x x 2 −1 e − 2 dx = 1. Квантили функции распределения Fχ2n (x) = P(χ2n < x) для различных значений n и p ∈ (0, 1) табулированы. 20 / 33 4 Распределение Стьюдента (Вильяма Госсета) Определение 4.6 (t-распределение Стьюдента) Пусть ξ — стандартная нормальная случайная величина и χ2n — случайная величина, имеющая распределение χ2n и не зависящая от ξ. Распределение следующей случайной величины √ nξ tn = , χn p где χn = χ2n , называется распределением Стьюдента с n степенями свободы. Заметим, что √ √ nξ nξ d ξ tn = =p =q P 2 n χn 1 χn n 2 i=1 ξi d ≈n→∞ ξ ∼ N(0, 1) 21 / 33 4 Плотность распределения Стьюдента Вычисления показывают, что плотность распределения Стьюдента с n степенями свободы равна ftn (x) = %n x2 1+ n − n+1 2 где %n — постоянная такая, что %n −∞ < x < ∞, , R∞ −∞ 1+ n+1 x2 − 2 n dx = 1. n (n > 2). n−2 Если n = 1 распределение Стьюдента совпадает с распределением Коши, и оно не имеет математического ожидания (тем более, не имеет дисперсии). Если n = 2, то Etn = 0, но D(tn ) не существует (бесконечна). Etn = 0 (n > 1); D(tn ) = 22 / 33 4 Нормальные выборки. Лемма Фишера Пусть X1 , . . . , Xn — выборка из распределения ξ ∼ N(µ, σ 2 ). P Рассмотрим статистики: X и Sn2 = n1 ni=1 (Xi − X )2 . Мы знаем, что EX = µ и что D(X ) = Теорема 4.3 (Лемма Фишера) 2 ⇒ 1. X ∼ N(µ, σn ) √ n(X −µ) σ σ2 n . ∼ N(0, 1) . 2. Статистики X и Sn2 являются независимыми. 2 P 3. nσS2n = σ12 ni=1 (Xi − X )2 ∼ χ2n−1 . Из 1-3 следует, что √ 4. n−1 (X −µ) Sn ∼ tn−1 , где Sn = p Sn2 . 23 / 33 4 Доказательство. Соотношения 1-3 примем без доказательства. Покажем только, как 4 следует из 1-3. Имеем √ n − 1 (X − µ) p = Sn2 √ √ n−1 q n(X −µ) d σ n Sn2 σ2 = √ n − 1 N(0, 1) d q = tn−1 . χ2n−1 Р.Фишер (Ronald Fisher) 24 / 33 4 25 / 33 4 §4.14 Доверительные интервалы для µ и σ 2 Пусть X1 , . . . , Xn — выборка из распределения ξ ∼ N(µ, σ 2 ), причем µ и σ 2 — неизвестные параметры. 1. Доверительные интервалы для параметра µ = Eξ Будем основывать построение доверительного интервала на статистике √ n−1 (X −µ) Sn ∼ tn−1 , обозначим Ftn−1 (x) ее функцию распределения. Зададим доверительную вероятность P = 1 − ε, затем для с.в. с распределением Стьдента tn−1 найдем tε такое, чтобы P − tε < tn−1 < tε = Ftn−1 (tε ) − Ftn−1 (−tε ) = 2 Ftn−1 (tε ) − 1 = 1 − ε Второе равенство здесь справедливо в силу того, что распределение Стьюдента симметрично (как и стандартное нормальное распределение с ф.р. Φ(x) ) и, следовательно, Ftn−1 (−x) = 1 − Ftn−1 (x). 26 / 33 4 То есть, чтобы найти tε , мы имеем 2 Ftn−1 (tε ) − 1 = 1 − ε ⇔ Ftn−1 (tε ) = 1 − ε 2 ε ⇔ tε = Ft−1 1 − . n−1 2 Таким образом, tε — это квантиль распределения Стьюдента с n − 1 степенями свободы, которую находим в таблице квантилей распреде√ −µ) ∼ tn−1 , мы получаем, что ления Стьюдента. Так как n−1S(X n √ n − 1 (X − µ) P − tε < < tε = 1 − ε, Sn откуда следует, что в точности с вероятностью 1 − ε √ n−1 X −µ −tε < < tε Sn что можно переписать как X − tε √ Sn Sn < µ < X + tε √ n−1 n−1 (2) 27 / 33 4 Таким образом, мы получаем точный доверительный интервал для µ = Eξ надежности P = 1 − ε: Sn Sn X − tε √ , X + tε √ n−1 n−1 Замечание 4.5 1 Pn 2 Если использовать несмещенную версию σ̂n2 = n−1 i=1 (Xi − X ) выборочной дисперсии в качестве оценки для дисперсии, то придем к неравенствам σ̂n σ̂n X − tε √ < µ < X + tε √ , (2) n n q p 2 где σ̂n = σ̂n , поскольку Sn = n−1 n σ̂n . Тогда получаем интервал σ̂n σ̂n X − tε √ , X + tε √ n n 28 / 33 4 1. Доверительные интервалы для параметра σ 2 = D(ξ) Теперь будем основывать построение доверительного интервала на 2 P статистике nσS2n = σ12 ni=1 (Xi − X )2 ∼ χ2n−1 Зададим доверительную вероятность P = 1 − ε, затем для случайной величины χ2n−1 найдем κ1, ε и κ2, ε такие, что ε Fχ2 (κ1, ε ) = P χ2n−1 < κ1, ε = ; n−1 2 ε 2 1 − Fχ2 (κ2, ε ) = P χn−1 ≥ κ2, ε = n−1 2 κ1, ε – квантиль уровня 2ε распределения хи-квадрат с n − 1 степенями свободы, и κ2, ε – квантиль уровня 1 − 2ε этого распределения. Эти квантили находятся в таблицах квантилей распределения χ2 . 29 / 33 4 Тогда для случайной величины χ2n−1 мы имеем P κ1, ε < χ2n−1 < κ2, ε = 1 − ε. Поскольку n Sn2 σ2 ∼ χ2n−1 , мы получаем P κ1, ε < n Sn2 < κ2, ε = 1 − ε. 2 σ Следовательно, в точности с вероятностью 1 − ε κ1, ε < n Sn2 < κ2, ε , σ2 что можно переписать как n Sn2 n Sn2 < σ2 < . κ2, ε κ1, ε (3) 30 / 33 4 Пример 4.2 Автомобильная компания хотела бы указать доверительные интервалы надежности 95% и 90% для пробега автомобиля на литр топлива в документации своей продукции, а также доверительные интервалы такой же надежности для стандартного отклонения. Компания произвела эксперименты с 26 автомобилями. Были получены наблюдения X1 , X2 , . . . , X26 , где Xi – пробег автомобиля в км на литр топлива. Оказалось, что X = 9.3, Sn2 = 1.96. Мы полагаем, что пробег автомобиля на литр топлива — нормально распределенная случайная величина. Решение 1. Вначале найдем интервалы для параметра µ = EXi . p √ √ √ Имеем Sn2 = 1.96 = 1.4, n − 1 = 25 = 5. 31 / 33 4 Для P = 0.95: мы имеем ε = 1 − P = 0.05, 2ε = 0.025, 1 − tε = Ft−1 1 − 2ε = Ft−1 (0.975) = 2.060 n−1 25 9.3 − 2.060 1.4 1.4 < µ < 9.3 + 2.060 5 5 ε 2 = 0.975. ⇔ µ ∈ (8.74, 9.86) ⇔ µ ∈ (8.82, 9.78) Для P = 0.9: мы имеем ε = 0.1, 2ε = 0.05, 1 − 2ε = 0.95. (0.95) = 1.708 tε = Ft−1 1 − 2ε = Ft−1 25 n−1 9.3 − 1.708 1.4 1.4 < µ < 9.3 + 1.708 5 5 32 / 33 4 1. Теперь найдем интервалы для параметра σ = √ DXi . Для P = 0.95: мы имеем ε = 1 − P = 0.05, 2ε = 0.025, 1 − ε κ21, ε = Fχ−1 = Fχ−1 2 2 (0.025) = 13.1 2 n−1 25 κ22, ε = Fχ−1 1 − 2ε = Fχ−1 2 (0.975) = 40.6 2 n−1 ε 2 = 0.975. 25 26 · 1.96 26 · 1.96 < σ2 < 40.6 13.1 ⇔ σ ∈ (1.12, 1.20) Для P = 0.9: мы имеем ε = 0.1, 2ε = 0.05, 1 − ε κ21, ε = Fχ−1 = Fχ−1 2 (0.05) = 14.6 2 2 n−1 25 −1 κ22, ε = Fχ2 1 − 2ε = Fχ−1 2 (0.95) = 37.7 n−1 ε 2 = 0.95. 25 26 · 1.96 26 · 1.96 < σ2 < 37.7 14.6 ⇔ σ ∈ (1.16, 1.87) 33 / 33

ТЕОРИЯ ВЕРОЯТНОСТЕЙ

#Лекция

Эмпирическая функция распределения

Тебе могут подойти лекции

Генеральная совокупность и выборка. Эмпирическая функция распределения, гистограмма и полигон частот)

Элементы математической статистики

Статистические оценки параметров распределения

Основные понятия математической статистики. Статистические оценки параметров распределения

Основные понятия математической статистики

Парная линейная регрессия

Элементы математической статистики

Основы теории надежности

Выборка из одномерной генеральной совокупности

Статистическая проверка гипотез; основные понятия

Эмпирическая функция распределения

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ