Справочник от Автор24
Высшая математика

Конспект лекции
«Доверительные интервалы»

Справочник / Лекторий Справочник / Лекционные и методические материалы по высшей математике / Доверительные интервалы

Выбери формат для чтения

pdf

Конспект лекции по дисциплине «Доверительные интервалы», pdf

Файл загружается

Файл загружается

Благодарим за ожидание, осталось немного.

Конспект лекции по дисциплине «Доверительные интервалы». pdf

txt

Конспект лекции по дисциплине «Доверительные интервалы», текстовый формат

Лекция 5. Доверительные интервалы Курбацкий А. Н. МШЭ МГУ 16 марта 2020 Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 1 / 32 Содержание 1 Интервальное оценивание 2 Доверительный интервал для среднего Случай известной дисперсии Случай неизвестной дисперсии и объём выборки n > 30 Случай малой выборки и неизвестной дисперсии Минимальный объем выборки 3 Доверительный интервал для доли и дисперсии Доверительный интервал для доли (асимптотический) Доверительный интервал для дисперсии 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 2 / 32 Содержание 1 Интервальное оценивание 2 Доверительный интервал для среднего Случай известной дисперсии Случай неизвестной дисперсии и объём выборки n > 30 Случай малой выборки и неизвестной дисперсии Минимальный объем выборки 3 Доверительный интервал для доли и дисперсии Доверительный интервал для доли (асимптотический) Доверительный интервал для дисперсии 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 3 / 32 Идея Важно! В этой теме мы научимся оценивать параметры не только одним числом, а сможем находить интервал, который накрывает его с заданной вероятностью. Пример Пусть мы провели опрос, с целью оценить долю избирателей некоторого кандидата в президенты страны. Опросили 1000 человек и 275 его поддерживают, значит выборочная доля сторонников кандидата равна 27.5%. Это точечная оценка для доли его сторонников во всей стране. Но может так оказаться, что она малоинформативна. Намного лучше знать не просто точечную оценку 27.5%, а интервал, в котором с большой вероятностью находится доля сторонников кандидата. Скажем, с 95% вероятностью доля сторонников лежит в пределах от 25% до 30%. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 4 / 32 Доверительный интервал Определение Точечной оценкой называется число, которое используют для оценки параметра ГС. Для того, чтобы делать содержательные выводы, стараются находить не точечные, а интервальные оценки. Определение Доверительный интервал - это интервал, который с заданной вероятностью накрывает оцениваемый параметр ГС. Важно! Имейте ввиду, что для разных выборок одной и той же ГС могут получаться разные доверительные интервалы! Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 5 / 32 Уровни значимости и доверия При работе с доверительными интервалами часто используют два термина. Уровень значимости α - это вероятность, с которой значение параметра не попадает в доверительный интервал. Уровень доверия β = 1 − α - это вероятность того, что доверительный интервал накрывает значение параметра. Обычно уровень значимости равен 0.01, 0.05, 0.1, что соответствует уровню доверия 0.99, 0.95, 0.9. Очень часто уровни значимости и доверия измеряются в процентах, то есть уровень доверия 0.99 и 99% - это одно и то же. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 6 / 32 Более точно Определение Пусть задано малое число 0 < α < 1. Интервал со случайными концами (θ1 ; θ2 ) называется доверительным интервалом для параметра θ с уровнем доверия 1 − α, если для любого θ ∈ Θ P(θ1 < θ < θ2 ) ≥ 1 − α Замечание Если последнее неравенство выполняется при n → ∞, то интервал называется асимптотическим. Имеется в виду не один какой-то интервал, а последовательность интервалов, зависящих от n. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 7 / 32 Содержание 1 Интервальное оценивание 2 Доверительный интервал для среднего Случай известной дисперсии Случай неизвестной дисперсии и объём выборки n > 30 Случай малой выборки и неизвестной дисперсии Минимальный объем выборки 3 Доверительный интервал для доли и дисперсии Доверительный интервал для доли (асимптотический) Доверительный интервал для дисперсии 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 8 / 32 Оттуда ноги растут Важнейшей характеристикой генеральной совокупности является среднее значение. Что же необходимо сделать, чтобы построить для него доверительный интервал? По ЦПТ среднее значение одинаково распределенных случайных величин стремится к нормальному распределению. Более того, верна Теорема Если распределение генеральной совокупности имеет конечные математическое ожидание и дисперсию, то при n → ∞ основные выборочные характеристики (среднее, дисперсия, эмпирическая функция распределения) являются нормальными. Важно! Далее мы часто будем предполагать, что генеральная совокупность имеет нормальный закон распределения. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 9 / 32 Доверительный интервал для среднего Рассмотрим случайную выборку объема n, вычислим среднее значение x̄ по выборке и зададим уровень доверия β. Доверительный интервал для среднего имеет вид (x̄ − ∆; x̄ + ∆), где ∆ - это точность интервальной оценки. Важно! Правило для вычисление точности зависит от того, что мы знаем о генеральной совокупности и с какой выборкой мы имеем дело. Пусть нам известно стандартное отклонение σ генеральной совокупности. Тогда ∆ = √σn zα , где zα - это квантиль нормального распределения уровня 1 − α2 . Теорема Доверительный интервал для среднего с известной дисперсией имеет вид (x̄ − √σn zα ; x̄ + √σn zα ) Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 10 / 32 Пример Пример Дана выборка 9, 5, 7, 7, 4, 10, дисперсия σ 2 = 1. Постройте 99% доверительный интервал. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 11 / 32 Пример Пример Дана выборка 9, 5, 7, 7, 4, 10, дисперсия σ 2 = 1. Постройте 99% доверительный интервал. Решение Среднее значение равно x̄ = 9+5+7+7+4+10 6 = 7. Доверительный интервал имеет вид (x̄ − ∆; x̄ + ∆). По таблице нормального распределения находим 1 − α2 = 0.995 и определяем квантиль zα = 2.58. Теперь можем найти точность ∆ = √σn zα = √16 2.58 ≈ 1.05 (здесь мы воспользовались тем, что известна дисперсия генеральной совокупности). Искомый 99%-доверительный интервал имеет вид (7 − 1.05; 7 + 1.05) = (5.95; 8.05). Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 11 / 32 Пример Пример Пусть для выборки объема n = 25 вычислено среднее x̄ = 130. Из предыдущих исследований известно стандартное отклонение σ = 12. Постройте 98% доверительный интервал для среднего значения. Решение Доверительный интервал имеет вид (x̄ − ∆; x̄ + ∆). Уровень доверия равен β = 0.98, поэтому α = 0.02. По таблице нормального распределения находим 1 − α2 = 0.99 и определяем квантиль zα = 2.33. Теперь можем найти точность ∆ = √σn zα = √1225 2.33 ≈ 5.59. Искомый 98%-доверительный интервал имеет вид (130 − 5.59; 130 + 5.59) = (124.41; 135.59). Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 12 / 32 Содержание 1 Интервальное оценивание 2 Доверительный интервал для среднего Случай известной дисперсии Случай неизвестной дисперсии и объём выборки n > 30 Случай малой выборки и неизвестной дисперсии Минимальный объем выборки 3 Доверительный интервал для доли и дисперсии Доверительный интервал для доли (асимптотический) Доверительный интервал для дисперсии 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 13 / 32 Доверительный интервал Если выборка больше 30, но стандартное отклонение нам неизвестно, то вместо σ мы s будем использовать выборочное стандартное n 1 P (xi − x̄)2 . отклонение s = n−1 i =1 Теорема Доверительный интервал для среднегопри неизвестной дисперсии, но  s s √ √ большой выборке (n > 30), имеет вид x̄ − n zα ; x̄ + n zα . Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 14 / 32 Содержание 1 Интервальное оценивание 2 Доверительный интервал для среднего Случай известной дисперсии Случай неизвестной дисперсии и объём выборки n > 30 Случай малой выборки и неизвестной дисперсии Минимальный объем выборки 3 Доверительный интервал для доли и дисперсии Доверительный интервал для доли (асимптотический) Доверительный интервал для дисперсии 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 15 / 32 Сложный случай Самый проблемный случай для любого исследователя, когда выборка маленькая и про её параметры ничего неизвестно. Если дисперсия неизвестна и объем выборки небольшой (n ≤ 30), тогда вместо нормального распределения теперь используется t-распределение. Теорема Доверительный интервал в этом случае имеет вид (x̄ − √sn tα (n − 1); x̄ + √sn tα (n − 1)) Здесь tα (n − 1) - это квантиль распределения Стьюдента уровня 1 − с n − 1 степенью свободы (мы ищем это число в таблице t-распределения). α 2 Замечание Распределение Стьюдента стремится к нормальному распределению при n → ∞, поэтому при больших выборках доверительные интервалы для среднего, посчитанные по любой из наших формул, будут почти совпадать. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 16 / 32 Что за степени свободы и кто такой Стьюдент? Замечание Число степеней свободы зависит от того, сколько имеется связей между наблюдениями. Так как мы знаем среднее, то наблюдения связаны одним равенством и степеней свободы становится на одну меньше. То, что других связей нет, надо доказывать, но их действительно нет. Честное слово. Замечание Распределение Стьюдента было введено в 1908 году В.С.Госсетом, ирландским служащим пивоваренного завода, который участвовал в разработке новых технологий производства пива и никаким студентом не был. Придавать известности результаты исследований означало открыть корпоративную тайну, поэтому Госсет напечатал свои материалы под псевдонимом Стьюдент. Фишер ввёл для него обозначение t-распределение. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 17 / 32 Доверительный интервал Пример Пусть объем выборки n = 16, выборочное среднее x̄ = 5, выборочная дисперсия s 2 = 4. Постройте 99% доверительный интервал. Решение Среднее значение равно x̄ = 5, а выборочная дисперсия s 2 = 4. Так как неизвестна дисперсия генеральной совокупности и n < 30, поэтому точность интервальной оценки ∆ = √sn tα . По таблице распределения Стьюдента находим 1 − α2 = 0.995 и, так как у нас n − 1 = 16 − 1 = 15 степеней свободы, определяем квантиль tα = 3.29. Теперь можем найти точность ∆ = √sn tα = √216 3.29 ≈ 1.645. Искомый 99%-доверительный интервал имеет вид (5 − 1.645; 5 + 1.645) = (3.355; 6.645). Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 18 / 32 Минимальный объем выборки Благодаря тому, что мы знаем формулу для доверительного интервала, можно решить интересную задачу: найти минимальный необходимый объем выборки для того, чтобы с заданной точностью и уровнем доверия найти среднее значение. Важно! Для того чтобы найти минимальный необходимый объем выборки для построения доверительного интервала для среднего значения с заданной точностью ∆ и уровнем значимости α, достаточно применить формулу  z σ 2 α n= ∆ Теперь понятно, как определить объем выборки при проведении собственных исследований! Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 19 / 32 Самостоятельно Пример Найдите минимально необходимый объем выборки для построения интервальной оценки среднего с точностью ∆ = 3, дисперсией σ 2 = 225 и уровнем доверия β = 0.95. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 20 / 32 Содержание 1 Интервальное оценивание 2 Доверительный интервал для среднего Случай известной дисперсии Случай неизвестной дисперсии и объём выборки n > 30 Случай малой выборки и неизвестной дисперсии Минимальный объем выборки 3 Доверительный интервал для доли и дисперсии Доверительный интервал для доли (асимптотический) Доверительный интервал для дисперсии 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 21 / 32 Доверительный интервал для доли Следующим популярным параметром, который часто требует оценивания, является доля признака p в ГС. По выборке мы можем определить долю p̂ того или иного признака, просто посчитав число объектов m с этим признаком и поделив на объем выборки n, то есть p̂ = m n . Долю объектов, не обладающих этим признаком, обозначают q̂ = 1 − p̂. Теорема Асимптотический доверительный интервал для доли имеет вид ! r r p̂ q̂ p̂ q̂ zα ; p̂ + zα . p̂ − n n Обратите внимание, что для использования этой формулы требуют выполнения условий np̂ ≥ 5 и nq̂ ≥ 5. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 22 / 32 Доверительный интервал Пример Объем выборки n = 100, выборочная доля p̂ = 0.2, α = 0.05. Решение Выборочная доля p̂ = 0.2, поэтому q̂ = 1 − p̂ = 0.8. Убеждаемся, что выполнены условия надёжности использования этих формул np̂ = 20 ≥ 5 и nq̂ = 80 ≥ 5. По таблице нормального распределения находим 1 − α2 = 0.975 и определяем квантиль zα = 1.96. Теперь можем найти точность q q ∆= p̂ q̂ n zα = 0.2·0.8 100 1.96 ≈ 0.078. Искомый 95%-доверительный интервал имеет вид (0.2 − 0.078; 0.2 + 0.078) = (0.122; 0.278). Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 23 / 32 Минимальный объем выборки Если мы хотим узнать минимально необходимый объем выборки для того, чтобы с заданными точностью и уровнем доверия оценить долю 2 признака в ГС, то сделать это можно по формуле n = p̂ · (1 − p̂) z∆α . Важно! Имейте ввиду, что выборочная доля p̂ может быть неизвестна. В таких случаях её кладут 2 равной 0.5, потому что при этом выражение p̂ · (1 − p̂) z∆α принимает наибольшее значение. При остальных значениях p̂ объём выборки был бы меньше, но если мы её не знаем, то берём крайний вариант. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 24 / 32 Доверительный интервал для дисперсии Перейдём к следующему важнейшему параметру генеральной совокупности - к дисперсии. Важно! Доверительный интервал для дисперсии имеет вид   (n − 1)s 2 (n − 1)s 2 ; . χ2r (α) χ2l (α) Здесь значения χ2r (α) и χ2l (α) находятся по таблицам χ2 -распределения с n − 1 степенью свободы, причем в таблице мы ищем α/2 и 1 − α2 . Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 25 / 32 Пример Построить 90% доверительный интервал для дисперсии по выборке объема n = 20, если выборочная дисперсия s 2 = 196. Решение Выборочная дисперсия s 2 = 196. По таблице χ2 -распределения находим α/2 = 0.05, 1 − α/2 = 0.95, число степеней свободы n − 1 = 20 − 1 = 19 и определяем критические точки χ2l = 10.12, χ2r = 30.14. Искомый 90%-доверительный интервал имеет вид   (20 − 1)196 (20 − 1)196 ; = (123.56; 366.54). 30.14 10.16 Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 26 / 32 Полезный факт Часто для поиска дисперсии вручную удобнее использовать формулу s2 =  1 X 2 xi − nx̄ 2 . n−1 Замечание Для доказательство формулы достаточно раскрыть скобки в исходном выражении для дисперсии. Для смещённой оценки дисперсии формула 2 ещё более укорачивается sсмещ = x¯2 − x̄ 2 . Пример P По данным выборки объема n = 12 было найдено, что xi = 216, P xi2 = 4046. Постройте 90% доверительный интервал для теоретической дисперсии. В ответ укажите длину доверительного интервала, округлив до целого числа. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 27 / 32 Решение Выборочное среднее равно x̄ = 216 12 = 18, а выборочная дисперсия 1 1 P 2 2 (4046 − 12 · 182 ) ≈ 14.36. s = n−1 ( xi − nx̄ 2 ) = 11 По таблице χ2 -распределения находим α/2 = 0.05, 1 − α/2 = 0.95, число степеней свободы n − 1 = 12 − 1 = 11 и определяем критические точки χ2l = 4.57, χ2r = 19.675. Искомый 90%-доверительный интервал имеет вид   (12−1)14.36 (12−1)14.36 ; = (8; 34.56). Длина интервала 19.675 4.57 приблизительно равна 27. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 28 / 32 Внимание! Причины неверных выводов: зависимость наблюдений; нарушение однородности данных (обычно при их большом количестве); систематическая ошибка измерений. "... студенты должны понимать, что не следует вообще обрабатывать статистически получаемые в окончательном виде макроэкономические данные: применительно к любым макроэкономическим рядам, каждый из которых имеется в единственном экземпляре, вероятностно-статистический подход смысла не имеет1 ." 1 Тутубалин В.Н. "Эконометрика: Образование, которого нам не нужно" Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 29 / 32 Тутубалин В.Н. Что означает фраза "истинное значение того или иного параметра лежит в определенных пределах [...] с вероятностью 0.95"? А она означает следующее: если представить себе, что делается не одна серия наблюдений с целью уточнения параметров, а много таких серий (и все в одинаковых условиях), и результаты каждой серии обрабатываются одним методом, то для 95% серий получающийся доверительный интервал действительно содержит истинные значения параметра, а для 5% серий не содержит (т.е. доверительный интервал является ошибочным). Касательно расстояния от Земли до Солнца можно заметить, что каждое новое, более точное определение этой величины не укладывается в доверительный интервал, построенный по старым наблюдениям. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 30 / 32 Содержание 1 Интервальное оценивание 2 Доверительный интервал для среднего Случай известной дисперсии Случай неизвестной дисперсии и объём выборки n > 30 Случай малой выборки и неизвестной дисперсии Минимальный объем выборки 3 Доверительный интервал для доли и дисперсии Доверительный интервал для доли (асимптотический) Доверительный интервал для дисперсии 4 Более подробно Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 31 / 32 Где и что почитать? Тема. Доверительные интервалы для математического ожидания нормального распределения при известной и неизвестной дисперсии. Доверительные интервалы для среднего нормального распределения при известной и неизвестной дисперсии. Доверительный интервал для доли признака. Доверительный интервал для дисперсии. ([И-М], §11; [Ф,Л], глава 14). Фадеева Л. Н., Лебедев А. В., Теория вероятностей и математическая статистика: учебное пособие. - 2-е изд., перераб. и доп. - М.: Эксмо, 2010. - 496 с. – (Новое экономическое образование). Ивашев-Мусатов О. С., Теория вероятностей и математическая статистика: учеб. пособие. - 2-е изд., перераб. и доп. - М.: ФИМА, 2003. - 224 с. Курбацкий А. Н. (МШЭ МГУ) Лекции 5. Доверительные интервалы 16 марта 2020 32 / 32

Рекомендованные лекции

Смотреть все
Статистика

Доверительные интервалы

1 Лекция 7. 19.01.21 Тема. Доверительные интервалы. 1. Вычисление доверительного интервала c заданной доверительной вероятностью для неизвестного мате...

Высшая математика

Доверительные интервалы

ДОВЕРИТЕЛЬНЫЕ ИНТЕРВА ЛЫ Лекция 10 СТАТИСТИКА Описательная статистика (descriptive statistics) состоит из статистических методов, которые позволяют пр...

Теория вероятностей

Доверительные интервалы для числовых характеристик.

Лекция 16 Доверительные интервалы для числовых характеристик. После получения точечной оценки параметра желательно иметь данные о надежности этой оцен...

Статистика

Оценки параметров распределений и доверительные интервалы для параметров

ЛЕКЦИЯ 2. Оценки параметров распределний и доверительные интервалы для параметров 1. Статистическое оценивание неизвестных параметров распределений. Т...

Теория вероятностей

Основные свойства статистических характеристик параметров распределения. Построение доверительных интервалов

Основные свойства статистических характеристик параметров распределения Получив статистические оценки параметров распределения (выборочное среднее, вы...

Статистика

Интервальное оценивание

Мотивация Доверительные интервалы Лекция №4. Интервальное оценивание Юрий Белоусов Институт биоинформатики Москва 4 октября 2021 г. Ю. Белоусов Интерв...

Автор лекции

Белоусов Ю.

Авторы

Теория вероятностей

Статистические оценки параметров распределения

Глава 2. Статистические оценки параметров распределения. 2.1. Несмещенные, эффективные и состоятельные оценки. Итак, предположим, что заранее известен...

Эконометрика

Парная регрессия

Экономический факультет МГУ Эконометрика-1 Лекция 2 Парная регрессия Филипп Картаев [email protected] План лекции 1. Модель парной регрессии 2. Свойст...

Автор лекции

Филипп Картаев

Авторы

Высшая математика

Эмпирическая функция распределения

Национальный Исследовательский Университет Высшая Школа Экономики. (Департамент Математики) Грибкова Надежда Викторовна Теория Вероятностей и Математи...

Автор лекции

Грибкова Н. В.

Авторы

Высшая математика

Элементы математической статистики. Вариационные ряды и их характеристики

МАТЕМАТИКА. МОДУЛЬ 2. ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. ЧАСТЬ 2. ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ. ВАРИАЦИОННЫЕ РЯДЫ И ИХ ХАРАКТЕРИСТ...

Смотреть все