Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ДОВЕРИТЕЛЬНЫЕ
ИНТЕРВА ЛЫ
Лекция 10
СТАТИСТИКА
Описательная статистика (descriptive statistics)
состоит из статистических методов, которые
позволяют проводить сбор, упорядочение,
обобщение и визуализацию данных.
Аналитическая статистика (inferential statistics)
состоит из методов, которые на основе
изучения статистик выборки позволяют
получать выводы о параметрах генеральной
совокупности.
2
СТАТИСТИКИ И ПАРАМЕТРЫ
Числовая характеристика
генеральной совокупности
- параметр
Числовая характеристика
выборки - статистика
3
ОЦЕНКИ
Статистики являются оценочными функциями параметров
генеральной совокупности. Фактическое значение
статистики, рассчитанное по данным выборки, мы назвали
оценкой параметра генеральной совокупности.
ОЦЕНКИ
Точечные
Интервальные
4
ТОЧЕЧНЫЕ ОЦЕНКИ
5
ТОЧЕЧНЫЕ ОЦЕНКИ
Точечной оценкой называется отдельное число, которое
используется в качестве оценки параметра генеральной
совокупности.
Ошибка оценки – разность между оцениваемым
параметром генеральной совокупности и оценкой,
рассчитанной на основе выборки.
Ошибка оценки = Параметр – Оценка
6
КРИТЕРИИ ТОЧЕЧНЫХ
ОЦЕНОК
«Хорошие» оценки должны удовлетворять следующим критериям:
1. Несмещенность оценки – математическое ожидание точечной оценки равно
значению оцениваемого параметра генеральной совокупности. Отсутствие
смещения означает, что метод не имеет систематической ошибки.
2. Эффективность оценки – статистика, используемая в качестве точечной
оценки параметра генеральной совокупности, имеет минимальную
стандартную ошибку. Например, для неизвестного параметра генеральной
совокупности можно использовать выборочную среднюю или медиану, но
медиана обладает большей дисперсией, поэтому выборочное среднее
является более эффективной оценкой
3. Состоятельность оценки – по мере увеличения объема выборки значение
точечной оценки приближается к значению оцениваемого параметра
генеральной совокупности.
Выборочное среднее удовлетворяет всем трем названным критериям и поэтому
является наилучшей оценкой для среднего генеральной совокупности
7
ИНТЕРВАЛЬНЫЕ
ОЦЕНКИ
8
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ
Доверительный интервал – вычисленный на основе
выборки интервал значений признака, который с известной
вероятностью содержит оцениваемый параметр
генеральной совокупности.
Доверительная
вероятность
Параметр (т.е. доля владельцев кошек)
находится где-то здесь с 95% вероятностью
30%
40%
9
ДОВЕРИТЕЛЬНАЯ
ВЕРОЯТНОСТЬ
Доверительная вероятность (или уровень доверия,
confidence level) – это вероятность того, что доверительный
интервал содержит значение параметра.
90%
95%
99%
𝑥ҧ + 2σ
𝑥ҧ − 2σ
68,3%
95,4%
99,7%
10
СПОСОБЫ ЗАПИСИ
Текстом
Мы на 95% уверены, что средний рейтинг
студентов находится где-то между 80 и 85
Математическая
формулировка
Среднее значение μ генеральной совокупности
находится в интервале от 80 до 85 с доверительной
вероятностью 0,95
Формула
P(80 < μ <85) = 0,95
11
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ
Выборка 1
Выборка 2
Выборка 3
Из одной генеральной
совокупности можно извлечь
множество различных выборок
определенного размера. И 95%
доверительный интервал
означает, что в 95 выборках из
100 доверительный интервал
будет покрывать неизвестное
нам значение генеральной
совокупности. Но при этом в
каждой выборке доверительный
интервал будет свой.
Выборка 4
Выборка 5
Выборка 6
Выборка 7
μ (неизвестен)*
*Например, средний рейтинг студентов МГИМО
12
ПРИМЕР
Генеральная совокупность – студенты МГИМО.
№ выборки
Доверительный интервал для среднего рейтинга
Выборка 1
80-85
Выборка 2
78-84
Выборка 3
81-87
…
Выборка 50
…
76-82
Пусть по данным учебного отдела средний рейтинг студента МГИМО равен 83.
Каждый из вас проводит собственное исследование студентов МГИМО, но у всех есть одинаковый вопрос про рейтинг.
Каждый из вас отобрал 200 студентов для обследования. И таких выборок из 200 студентов у нас получилось около 50,
они все будут разные, потому что каждый из вас использовал случайный отбор. В первой выборке средний рейтинг с
95% вероятность попадает в интервал от 80 до 85, во второй – в интервал от 78 до 84, в третьей – в интервал от 82 до 89
и так далее. По данным учебного отдела средний рейтинг по всем студентам равен 83. В 95% всех ваших выборок (т.е. в
47-48 случаях из 50) доверительный интервал будет включать в себя значение 83. А вот двоим из вас не повезет, у них
доверительный интервал не покроет реальное значение среднего рейтинга. Например, у кого-то средний рейтинг будет
лежать в диапазоне от 76 до 82.
13
РАСЧЕТ ДОВЕРИТЕЛЬНОГО
ИНТЕРВАЛА
ДЛЯ СРЕДНЕГО
σ известно
или n ≥ 30
ДЛЯ ДОЛИ
ДЛЯ
ДИСПЕРСИИ
σ неизвестно
и n≤30
14
УСЛОВИЕ
Генеральная совокупность имеет нормальный закон
распределения.
Выборка объема n.
Построить доверительный интервал, который с заданной
доверительной вероятностью будет содержать среднее
генеральной совокупности:
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
𝑥ҧ − 𝐸
𝑥ҧ
𝑥ҧ + 𝐸
15
РЕШЕНИЕ
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
𝑥ҧ (выборочное среднее) нам известно, оно является
точечной оценкой для 𝜇 (генерального среднего).
Значит, для построения интервала осталось найти 𝐸.
Рассмотрим два варианта:
ДЛЯ СРЕДНЕГО
σ известно или n ≥ 30
σ неизвестно и n≤30
16
ДОВЕРИТЕЛЬНЫЙ
ИНТЕРВА Л ДЛЯ СРЕДНЕГО
σ известно или
n ≥ 30
17
РЕШЕНИЕ
Что такое 𝛼?
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
Чему равно Е?
𝐸 = 𝑧𝛼Τ2
𝜎
𝑛
Следовательно
𝑥ҧ − 𝑧𝛼Τ2
1−𝛼
𝛼/2
−𝑧𝛼Τ2
𝛼/2
+𝑧𝛼Τ2
𝜎
𝜎
< 𝜇 < 𝑥ҧ + 𝑧𝛼Τ2
𝑛
𝑛
18
РЕШЕНИЕ
Что такое 𝛼?
1−𝛼
𝛼/2
−𝑧𝛼Τ2
𝛼/2
+𝑧𝛼Τ2
1−𝛼 – это
доверительная
вероятность, которую
мы устанавливаем
сами.
Например, 95%.
Значит 𝛼=5%.
z находится по
таблице нормального
закона.
19
ЗНАЧЕНИЯ Z
Уровень доверия
(доверительная вероятность)
Значение z
0.90 или 90%
1.645
0.95 или 95%
1.96
0.97 или 97%
2.17
0.99 или 99%
2.575
20
РЕШЕНИЕ
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
Чему равно Е?
Сюда подставляем одно из
значений z в зависимости от
выбранного уровня доверия
(доверительной вероятности)
𝜎
𝑛
Уровень доверия
(доверительная
вероятность)
Значение z
0.90 или 90%
1.645
Следовательно
0.95 или 95%
1.96
0.97 или 97%
2.17
0.99 или 99%
2.575
𝐸 = 𝑧𝛼Τ2
𝑥ҧ − 𝑧𝛼Τ2
𝜎
𝜎
< 𝜇 < 𝑥ҧ + 𝑧𝛼Τ2
𝑛
𝑛
21
РЕШЕНИЕ
1. По выборке вычислить выборочное среднее.
2. Задать доверительную вероятность и определить z.
3. Вычислить точность интервальной оценки по формуле.
𝐸 = 𝑧𝛼Τ2
𝜎
𝑛
4. Если значение σ неизвестно, а n ≥ 30, тогда вместо σ в формулу
подставляется ее выборочная оценка s.
𝐸 = 𝑧𝛼Τ2
𝑠
𝑛
5. Подставить полученные значения в формулу для доверительного интервала:
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
22
ПРИМЕР
Опрошено 200 студентов. Средний рейтинг равен 81. Генеральная дисперсия и
стандартное отклонение неизвестны, но n ≥ 30, поэтому можем вычислить
стандартное отклонение в нашей выборке и использовать его. Допустим, оно
равно 6.
Зададим уровень доверия в 95% (z=1.96)
Воспользуемся формулой для вычисления точности интервальной оценки:
𝐸 = 𝑧𝛼Τ2
𝜎
𝑠
6
11.76
= 𝑧𝛼Τ2
= 1.96 ∗
=
= 0.83
𝑛
𝑛
200 14.142
Вычислим доверительный интервал по формуле:
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
81 − 0.83 < 𝜇 < 81 + 0.83
80.17 < 𝜇 < 81.83
Мы на 95% уверены, что средний рейтинг студентов вуза находится где-то
между 80.17 и 81.83 балла.
23
ОБЪЕМ ВЫБОРКИ
𝐸 = 𝑧𝛼Τ2
𝜎
𝑛
𝑧𝛼Τ2 ∗ 𝜎
n=
𝐸
2
24
ПРИМЕР
Сколько нам надо опросить человек, если мы хотим с надежностью 0,95
получить оценку среднего дохода, ошибившись при этом не более, чем
на 2000 р.?
?
𝑧𝛼Τ2 ∗ 𝜎
n=
𝐸
2
1.96 ∗ 18000
n=
2000
Значение стандартного отклонения точно не
известно, мы можем полагаться на
предыдущие исследования или статистику.
2
= 311
25
ДОВЕРИТЕЛЬНЫЙ
ИНТЕРВА Л ДЛЯ СРЕДНЕГО
σ неизвестно и
n ≤ 30
26
РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА
Уильям Сили Госсет
a.k.a. Стьюдент
(1876-1937)
Похоже на нормальное
27
РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА
Распределение представляет
собой семейство кривых,
различающихся числом
степеней свободы (df)
Число степеней свободы – это
количество значений, которые
могут свободно изменяться
после того, как по выборке
было вычислено значение
статистики.
28
ПРИМЕР
Число степеней свободы – это количество значений, которые могут
свободно изменяться после того, как по выборке было вычислено
значение статистики.
Есть выборка из 5 элементов.
Пусть среднее по выборке равно 10.
?
?
?
?
?
Даже не зная значений всех элементов, мы можем сказать, что их
сумма равна 50 (5*10).
29
ПРИМЕР
Число степеней свободы – это количество значений, которые могут
свободно изменяться после того, как по выборке было вычислено
значение статистики.
Есть выборка из 5 элементов.
Пусть среднее по выборке равно 10.
5
9
10
14
12
𝑥=10
ҧ
Если мы знаем, чему равняется выборочное среднее, тогда нам
необходимо знать значения только n-1 элементов выборки, чтобы
определить значение оставшегося элемента.
𝑑𝑓 = 𝑛 − 1
30
РЕШЕНИЕ
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
Чему равно Е?
𝐸 = 𝑡𝛼Τ2
𝑠
𝑛
Стандартное отклонение по выборке
t-значение (находится по таблице)
Следовательно
𝑥ҧ − 𝑡𝛼Τ2
𝑠
𝑠
< 𝜇 < 𝑥ҧ + 𝑡𝛼Τ2
𝑛
𝑛
31
РЕШЕНИЕ
1−𝛼
𝛼/2
−𝑡𝛼Τ2
𝛼/2
+𝑡𝛼Τ2
Установим уровень доверия в 95%.
Значит 𝛼=5%.
𝛼/2=2,5%
t находится по таблице распределения Стьюдента.
32
ТАБЛИЦА
Ищем значение 𝛼/2 (для
95% уровня доверия –
0.025).
Затем ищем нужное
число степеней свободы.
Например, если у нас
выборка состоит из 20
человек, то df=19/
На пересечении –
необходимое значение
t-критерия.
33
РЕШЕНИЕ
1. По выборке вычислить среднее и стандартное отклонение.
2. Задать доверительную вероятность и определить t.
3. Вычислить точность интервальной оценки по формуле.
𝐸 = 𝑡𝛼Τ2
𝑠
𝑛
4. Подставить полученные значения в формулу для доверительного
интервала:
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
34
ПРИМЕР
Опрошено 25 студентов. Средняя стипендия равна 2100 р. Вычислили
стандартное отклонение, оно равно 250 р.
Зададим уровень доверия в 95% и вычислим t.
𝛼/2=0.025.
𝑑𝑓 = 𝑛 − 1 = 25 − 1 = 24.
Ищем значение на пересечении: t=2.064
Воспользуемся формулой для вычисления точности интервальной оценки:
𝐸 = 𝑡𝛼Τ2
𝑠
250
= 2.064 ∗
= 103.2
𝑛
25
Вычислим доверительный интервал по формуле:
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
2100 − 103.2 < 𝜇 < 2100 + 103.2
1996.8 < 𝜇 < 2203.2
35
ПРИМЕР
Опрошено 25 студентов. Средняя стипендия равна 2100 р. Вычислили
стандартное отклонение, оно равно 250 р.
Зададим уровень доверия в 95% и вычислим t.
𝛼/2=0.025.
𝑑𝑓 = 𝑛 − 1 = 25 − 1 = 24.
Ищем значение на пересечении: t=2.064
Воспользуемся формулой для вычисления точности интервальной оценки:
𝐸 = 𝑡𝛼Τ2
𝑠
250
= 2.064 ∗
= 103.2
𝑛
25
Вычислим доверительный интервал по формуле:
𝑥ҧ − 𝐸 < 𝜇 < 𝑥ҧ + 𝐸
1996.8 < 𝜇 < 2203.2
Мы на 95% уверены, что средний размер стипендии студентов вуза находится
где-то между 1996.8 р. и 2203.2 р.
36
ДОВЕРИТЕЛЬНЫЙ
ИНТЕРВА Л ДЛЯ ДОЛИ
37
РЕШЕНИЕ
𝑝Ƹ − 𝐸 < 𝑝 < 𝑝Ƹ + 𝐸
Чему равно Е?
qො =1- pො
𝐸 = 𝑧𝛼Τ2
𝑝Ƹ 𝑞ො
𝑛
вернулось z
Следовательно
𝑝Ƹ − 𝑧𝛼Τ2
𝑝Ƹ 𝑞ො
𝑝Ƹ 𝑞ො
< 𝑝 < 𝑝Ƹ + 𝑧𝛼Τ2
𝑛
𝑛
38
РЕШЕНИЕ
1. По выборке вычислить долю признака.
2. Задать доверительную вероятность и определить z.
3. Вычислить точность интервальной оценки по формуле.
𝐸 = 𝑧𝛼Τ2
𝑝Ƹ 𝑞ො
𝑛
4. Подставить полученные значения в формулу для доверительного интервала:
𝑝Ƹ − 𝐸 < 𝑝 < 𝑝Ƹ + 𝐸
39
ПРИМЕР
В ходе проведенного опроса 756 москвичей выяснилось, что 388 опрошенных
(51,3%) намерены голосовать на предстоящих выборах за действующего мэра.
Можно ли на этом основании утверждать, что более половины москвичей
поддерживают перевыборы действующего мэра на следующий срок?
Зададим уровень доверия в 95% (z=1.96)
Вычислим 𝑝Ƹ и 𝑞.
ො По условию 𝑝Ƹ = 0.513.
𝑞ො = 1 − 𝑝Ƹ = 0.487
Воспользуемся формулой для вычисления точности интервальной оценки:
𝐸 = 𝑧𝛼Τ2
𝑝Ƹ 𝑞ො
0.513 ∗ 0.487
= 1.96 ∗
= 0.0356
𝑛
756
Вычислим доверительный интервал по формуле:
𝑝Ƹ − 𝐸 < 𝑝 < 𝑝Ƹ + 𝐸
0.513 − 0.0356 < 𝑝 < 0.513 + 0.0356
0.4774 < 𝑝 < 0.5486
40
ПРИМЕР
В ходе проведенного опроса 756 москвичей выяснилось, что 388 опрошенных
(51,3%) намерены голосовать на предстоящих выборах за действующего мэра.
Можно ли на этом основании утверждать, что более половины москвичей
поддерживают перевыборы действующего мэра на следующий срок?
𝑝Ƹ − 𝐸 < 𝑝 < 𝑝Ƹ + 𝐸
0.513 − 0.0356 < 𝑝 < 0.513 + 0.0356
0.4774 < 𝑝 < 0.5486
Доля людей, готовых голосовать за нынешнего мэра находится в диапазоне от
47,74% до 54,86%. Соответственно, несправедливо утверждать, что более
половины москвичей поддерживают перевыборы действующего мэра на
следующий срок.
41
ОБЪЕМ ВЫБОРКИ
𝐸 = 𝑧𝛼Τ2
𝑝Ƹ 𝑞ො
𝑛
𝑧𝛼Τ2
n = 𝑝Ƹ 𝑞ො
𝐸
2
42
ОБЪЕМ ВЫБОРКИ
𝑧𝛼Τ2
n = 𝑝Ƹ 𝑞ො
𝐸
2
Доли признака получаем на основе прошлых
исследований. Если их нет, считаем 𝑝Ƹ = 𝑞ො = 0.5
0.1*0.9=0.09
0.2*0.8=0.16
0.3*0.7=0.21
0.4*0.6=0.24
0.5*0.5=0.25
максимально возможное значение
43
ПРИМЕР
𝑧𝛼Τ2
n = 𝑝Ƹ 𝑞ො
𝐸
2
Исследователь хочет определить, сколько горожан будут голосовать за
оппозиционного кандидата. При этом он не хочет ошибиться более, чем на 3%.
Требуется определить минимальный объем выборки для проведения
исследования.
Установим уровень доверия 99%. z=2.575.
Доли признака неизвестны, считаем 𝑝Ƹ = 𝑞ො = 0.5
𝑧𝛼Τ2
n = 𝑝Ƹ 𝑞ො
𝐸
2
2.5752
= 0.5 ∗ 0.5 ∗
≈ 1842
2
0.03
44
ПРИМЕР
Установим уровень доверия 95%. z=1.96.
𝑧𝛼Τ2
n = 𝑝Ƹ 𝑞ො
𝐸
2
1.962
= 0.5 ∗ 0.5 ∗
≈ 1068
2
0.03
45