Введение в математическую статистику
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Национальный Исследовательский Университет
Высшая Школа Экономики. (Департамент
Математики)
Грибкова Надежда Викторовна
Теория Вероятностей и Математическая
Статистика
(лекция 11)
Санкт-Петербург,
2021
1 / 30
4
Глава 4.
Введение в математическую статистику
Термин "статистика"происходит от латинского слова "статус" (status)
— состояние.
Первоначально, в XVIII в., когда статистика начала оформляться в
научную дисциплину, термин статистика связывался с системой описания фактов, характеризующих состояние государства. Изменения
происходят в XIX в. Большой вклад внесли К.Ф.Гаусс, П.Лаплас,
Пуассон. В начале XX в сложилась английская школа статистики
(К.Пирсон, Р.Фишер).
Термин «статистика» ввел в науку немецкий ученый Г.Ахенваль в
1746 году, предложив заменить название курса «Государствоведение»,
преподававшегося в университетах Германии, на «Статистику», тем
самым положив начало развитию статистики как науки и учебной
дисциплины.
2 / 30
4
Согласно Ахенвалю, слово “statistica” происходит от итальянского
“statista”, означавшего государственный муж, человек, принимающий
участие в государственных делах
Конечно, статистический учет велся и в древние времена: проводились
переписи населения в Древнем Китае, осуществлялось сравнение
военного потенциала государств, велся учет имущества граждан в
Древнем Риме и т. п. Однако, как отдельная наука, статистика начала
формироваться именно в XVIII в., собственно, вместе с развитием
теории вероятностей.
Энциклопедическое определение
Математическая статистика — это наука, занимающаяся разработкой
методов регистрации, описания и анализа данных наблюдений и/или
экспериментов с целью построения вероятностных моделей массовых
случайных явлений и принятия решений в условиях неопределенности.
3 / 30
4
§4.1. Цели и задачи математ. статистики
Основные задачи, решаемые математической статистикой
1. Идентификация вероятностных законов (распределений случайных
величин), лежащих в основе наблюдений и/или экспериментов.
2. Оценка всевозможных числовых характеристик и параметров этих
базовых распределений.
3. Статистическая проверка гипотез, т.е. различных предположений о
законах распределения и параметрах этих законов, лежащих в основе
данных наблюдений.
4. Изучение характера и степени зависимости между различными
сторонами наблюдаемых случайных явлений и процессов.
5. Построение моделей взаимосвязи между случайными величинами и
процессами и анализ адекватности этих моделей.
4 / 30
4
Примеры статистических задач
Социология и политические науки
♦ изучение общественного мнения
♦ анализ и прогнозирование рейтингов политиков
♦ обнаружение нарушений (фальсификаций, вбросов) в процедуре
выборов
Доказательная медицина
♦ эпидемиология, анализ заболеваемости
♦ доказательства эффективности лекарств: например, создаются две
группы пациентов: контрольная, где лекарство не применялось (напр.,
давалось плацебо), и экспериментальная, которой давалось лекарство.
Статистические методы позволяют установить значимость эффекта
действия лекарства
♦ статистический анализ выживаемости
5 / 30
4
Менеджмент и маркетинг
♦ выявление сегментов рынка продукции
♦ классификация (разбиение на группы) персонала
♦ изучение влияния рекламной кампании
Экономика
♦ идентификация экономических законов.
Например, существует закон Кобба-Дугласа:
P = C · K α · Lβ ,
где P– объем продукции; K – инвестированный капитал; L–
трудозатраты. C , α, β – неизвестные параметры, которые могут быть
уточнены статистическими методами.
♦ определение латентных (скрытых) факторов, влияющих на экономические показатели (факторный анализ)
♦ выявление трендов и прогнозирование (регрессионный анализ и
временные ряды).
6 / 30
4
Генетика
♦ анализ ДНК (сравнение индивидуумов)
♦ выявление групп генов, ответственных за определенные заболевания
♦ классификация генотипов
Рекомендации для сельского хозяйства
♦ например, фермер, выращивающий томаты, хочет выбрать лучшее
удобрение из трех доступных типов, отличающихся по содержанию
фосфора: A,B,C. Он сажает томаты на трех контрольных делянках, на
каждой вносит разные виды удобрений, затем определяет вес урожая
на квадратный метр. Он получил три выборки:
I (применялось удобрение A): X1 , X2 , . . . , Xn1
II (применялось удобрение B): Y1 , Y2 , . . . , Yn2
III (применялось удобрение C): Z1 , Z2 , . . . , Zn3 .
Затем он может проверить гипотезу о том, влияет ли тип удобрения на
урожайность:
H0 : EX = EY = EZ
против альтернативы, что отсутствует
влияние типа удобрения на урожайность.
7 / 30
4
§4.2. Основная модель статистики. Выборка
В базовой модели математической статистики (МС) предполагается,
что исследователь провел n опытов, в каждом из которых
производились измерения.
Предполагается, что опыты проводились независимо друг от друга,
причем каждый раз в одних и тех же условиях.
При этом предполагается, что в каждом эксперименте измеряется
значение некоторой случайной величины ξ(ω) (числовой характеристики эксперимента), определенной на вероятностном пространстве
(Ω, A, P).
Наблюдаемая случайная величина может быть и векторной (когда
одновременно измеряются несколько характеристик), т.е., возможно,
что ξ(ω) = (ξ1 (ω), ξ2 (ω), . . . , ξm (ω))
8 / 30
4
В дальнейшем мы будем рассматривать в основном скалярные
наблюдения. То есть, ξ — скалярная случайная величина с функцией
распределения
F (x) = P ξ < x , −∞ < x < ∞.
Эта функция называется исходной функцией распределения (или
генеральной, или теоретической), и все ее характеристики такие,
как Eξ, D(ξ), значения различных параметров, также называются
теоретическими (или генеральными).
Эта функция неизвестна (по крайней мере частично), и первая задача
математической статистики — извлечь из результатов наблюдений над
ξ как можно больше достоверной информации о функции F (x) и о ее
параметрах.
9 / 30
4
Множество возможных значений X наблюдаемой случайной величины
вместе с ее законом распределения называется генеральной
совокупностью случайной величины ξ (или просто совокупностью).
Результат X1 одного измерения наблюдаемой случайной величины ξ
интерпретируется, как выбор одной единицы генеральной
совокупности. А весь полученный набор наблюдений
X1 , X2 , . . . , Xn
(1)
называется выборкой из генеральной совокупности.
Основываясь на одном наблюдении X1 , мы мало что можем сказать о
распределении F (x) наблюдаемой случайной величины ξ, но если мы
имеем много наблюдений (выборка репрезентативна), то мы можем
извлечь гораздо больше информации о неизвестном распределении
с.в. ξ и его параметрах.
10 / 30
4
Случайная выборка
После того, как n экспериментов произведены и измерения сделаны,
выборка (1) — это набор чисел.
Однако до опыта результаты наблюдений неизвестны и представляют
собой (теоретически) случайные величины Xi , i = 1, 2, . . . , n с тем же
законом распределения, что и у ξ.
Это приводит нас к следующей математической концепции.
Определение 4.1
Случайной выборкой объема n из распределения с.в. ξ (или из
генеральной совокупности ξ ) называется n независимых с.в.
X1 , X2 , . . . , Xn
с тем же законом распределения, что и у наблюдаемой с.в. ξ:
FXi (x) = P(Xi < x) = P(ξ < x) = F (x),
11 / 30
4
§4.3 Понятие статистики
Итак, когда мы произвели n экспериментов (событие ω произошло), в
которых были сделаны наблюдения, мы получили просто числа Xi (ω),
i = 1, 2, . . . , n, и это реализация выборки.
Но до того, как эксперимент произведен (в нашем воображении), эти
Xi — n независимых случайных величин с тем же законом
распределения, что и у ξ.
В практической части математическая статистика работает с
числами, в теоретической части – со случайными величинами.
Определение 4.2
Любая функция наблюдений X1 , X2 , . . . , Xn
Tn = τ (X1 , X2 , . . . , Xn ),
являющаяся случайной величиной, называется статистикой.
12 / 30
4
Примеры статистик
Все выводы в математической статистике делаются на основании
значений, принимаемых различными функциями наблюдений (то есть
статистиками).
Например, следующие функции являются статистиками:
n
T1 =
1X
X1 + X2 + · · · + Xn
Xi = X
=
n
n
— выборочное среднее,
i=1
n
T2 =
1X
Xi − X
n
— среднее абсолютное отклонение,
i=1
T3 = max X1 , X2 , . . . , Xn ,
T4 = min X1 , X2 , . . . , Xn
13 / 30
4
§4.4 Порядковые статистики
Пусть X1 , X2 , . . . , Xn — выборка из распределения скалярной с.в. ξ.
Определение 4.3
Выборочные значения X1 , X2 , . . . , Xn , упорядоченные по величине
X(1) ≤ X(2) ≤ · · · ≤ X(n)
(2)
образуют вариационный ряд.
Случайная величина X(i) называется i-й порядковой статистикой.
Определение 4.4
Случайная величина (статистика)
Wn = X(n) − X(1)
называется размахом выборки.
14 / 30
4
Напоминание: квантили в теории вероятностей
Пусть ξ — случайная величина с распределением F (x) = P ξ < x .
Пусть p ∈ (0, 1). Вспомним, что число xp такое, что
F (xp ) = P ξ < xp = p
называется квантилью уровня p (или p 100% квантилью). Если F −1
(обратная функция) существует в точке p, то мы имеем xp = F −1 (p).
Квантиль x0.5 уровня 0.5 (когда p = 0.5) называется медианой
распределения
F (x0.5 ) = P ξ < x0.5 = P ξ ≥ x0.5 = 0.5.
Медиана – это точка, делящая вероятностную массу пополам.
15 / 30
4
Выборочные квантили
Теперь мы определим статистические варианты квантили и медианы.
Определение 4.5
Для p ∈ (0, 1) следующая статистика
Xp = X([np]+1)
называется выборочной (эмпирической) квантилью уровня p (или
p 100% квантилью).
Определение 4.6
Величина X0.5 , определенная как
X n
([ ]+1) ,
X0.5 = 1 2
X n +X n
2
( )
( +1) ,
2
если n нечетное,
если n четное
2
называется выборочной (эмпирической) медианой.
16 / 30
4
Пример 4.1
Рассмотрим выборку 0, 3.5, −1, 1.5, −3, 5. Вариационный ряд:
−3, −1, 0, 1.5, 3.5, 5
Выборочный размах
W6 = X(6) − X(1) = 5 − (−3) = 8,
25%, 50% и 75% квантили (первый квартиль, медиана, третий
квартиль) соответственно:
X0.25 = X([6/4]+1) = X(2) = −1;
1
1
X0.5 = X(3) + X(4) = (0 + 1.5) = 0.75;
2
2
X0.75 = X([18/4]+1) = X(5) = 3.5.
17 / 30
4
§4.4 Оценки и статистики
Пусть X1 , X2 , . . . , Xn — выборка из распределения случайной величины
ξ с неизвестной функцией распределения F (x), и пусть θ — некоторая
числовая характеристика (или параметр) распределения. Например,
θ = Eξ, или θ = D(ξ), или θ = E(ξ 2 ), или θ = x(0.25) (квартиль), и т.д.
θ — неизвестная характеристика, и мы хотим оценить ее значение на
основе наблюдений X1 , X2 , . . . , Xn . Поскольку в нашем распоряжении
есть только наблюдения, мы можем оценить θ только с помощью
некоторой функции наблюдений, т.е. статистики:
θ̂n = τ (X1 , X2 , . . . , Xn )
« ˆ » — это обозначение для оценки в математической статистике.
18 / 30
4
Основные требования к оценкам
Прежде всего, необходимо, чтобы оценка была бы в каком-то
смысле близка к истинному значению θ. Но что означает «близость»,
когда наша оценка, будучи функцией наблюдений, является случайной
величиной?
Определение 4.7 (Состоятельность)
Оценка θ̂n называется состоятельной, если при n → ∞,
P
θ̂n −→ θ,
(3)
то есть, для любого ε > 0
P |θ̂n − θ| ≥ ε −→ 0
при n → ∞.
19 / 30
4
Следующее свойство, определяющее качество оценки, — это
несмещенность.
Определение 4.8 (Несмещенность)
Оценка θ̂n называется несмещенной, если для всех n ∈ N,
Eθ̂n = θ.
(4)
Величина bn (θ) = Eθ̂n − θ называется смещением.
У несмещенной оценки bn (θ) ≡ 0.
Оценка называется
асимптотически несмещенной, если
bn (θ) −→ 0,
при n → ∞.
20 / 30
4
§4.5 Выборочные среднее и дисперсия
Оценками основных числовых характеристик распределения µ = Eξ
(математического ожидания) и σ 2 = D(ξ) = E(ξ − µ)2 (дисперсии)
являются выборочное среднее и выборочная дисперсия:
n
X =
1X
Xi
n
— выборочное (эмпирическое) среднее.
i=1
n
Sn2 =
1X
(Xi − X )2
n
— выборочная (эмпирическая) дисперсия.
i=1
Будут ли эти оценки "хорошими" с точки зрения состоятельности и
несмещенности?
21 / 30
4
Предположим, что µ = Eξ существует. Тогда по закону больших чисел
(по теореме Хинчина) имеем
n
X =
1X
P
Xi −→ EX1 = Eξ
n
i=1
при n → ∞. Следовательно, X – это состоятельная оценка µ = Eξ.
Кроме того,
n
E X =E
1X
Xi
n
i=1
n
!
=
1
1X
E(Xi ) = n Eξ = Eξ.
| {z } n
n
i=1
= Eξ
Следовательно, X — это несмещенная оценка для математического
ожидания µ = Eξ.
22 / 30
4
Рассмотрим выборочную дисперсию Sn2 . Вначале напишем
Sn2 =
n
n
i=1
i=1
2
1X
1X 2
(Xi − X )2 =
Xi − X ,
n
n
и, применяя закон больших чисел, получаем
n
Sn2 =
2 P
1X 2
Xi − X −→n→∞ E(X12 ) − (E(X1 ))2 = D(X1 ) = D(ξ)
n
i=1
Следовательно, Sn2 является состоятельной оценкой σ 2 = D(ξ).
23 / 30
4
Теперь исследуем оценку Sn2 на несмещенность, представив ее вначале
в удобной для этого форме
Sn2 =
n
n
2
1X
1X
(Xi − X )2 =
(Xi − µ) − (X − µ)
n
n
i=1
=
=
=
n
1X
n
1X
(Xi − µ) + (X − µ)2
n
i=1
(Xi − µ)2 − 2(X − µ)2 + (X − µ)2
i=1
n
1X
n
n
(Xi − µ)2 − 2(X − µ) ·
i=1
n
1X
n
i=1
(Xi − µ)2 − (X − µ)2 .
i=1
24 / 30
4
Имеем
n
E(Sn2 ) = E
1X
(Xi − µ)2
n
!
− E(X − µ)2
i=1
=
n
1X
n
i=1
1
E(Xi − µ)2 −E(X − µ )2 = n D(ξ) − D X
|{z}
| {z }
n
= D(ξ)
=E(X )
=D(ξ) − D X ,
где
n
D X =D
1X
Xi
n
i=1
!
n
X
1
= 2D
Xi
n
!
=
i=1
=
n
1 X
D(Xi )
n2
i=1
1
D(ξ)
n D(ξ) =
n2
n
25 / 30
4
В результате вычислений находим, что
E(Sn2 ) = D(ξ) −
D(ξ)
n−1
=
D(ξ) < D(ξ).
n
n
Таким образом, выборочная дисперсия является смещенной оценкой
дисперсии D(ξ), но асимптотически несмещенной, поскольку n−1
n →1
при n → ∞.
Однако для малых значений n (≈ 100, что часто бывает на практике)
смещение (следовательно, ошибка) оценки довольно большое. Однако
оценку легко исправить путем введения корректирующего множителя,
получив при этом несмещенную оценку:
n
σ̂n2
2
1 X
n
Sn2 =
Xi − X
=
n−1
n−1
i=1
26 / 30
4
Резюмируем: состоятельными и несмещенными оценками для
математического ожидания и дисперсии являются
n
X =
1X
Xi ,
n
i=1
и
n
σ̂n2
2
1 X
=
Xi − X
n−1
i=1
соответственно.
27 / 30
4
§4.6 Оценки ковариации и коэфф. корреляции
Пусть наблюдаются значения случайного вектора (ξ, η):
(X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn )
— случайная выборка. Хотим оценить характеристики зависимости.
Вспомним, что
cov (ξ, η) = E (ξ − Eξ)(η − Eη) .
n
1X
Xi − X Yi − Y
– выборочная ковариация,
n
i=1
P
P
X = n1 ni=1 Xi , Y = n1 ni=1 Yi
cd
ov n =
где
28 / 30
4
Оценка коэффициента корреляции
Вспомним определение коэффициента корреляции:
cov (ξ, η)
ρ(ξ, η) = p
D(ξ)D(η)
Его статистическая оценка:
cd
ov n
ρ̂n = p
=
Sn2 (X ) Sn2 (Y )
1 Pn
i=1
n
q P
n
1
i=1 (Xi
n
Yi − Y
P
− X )2 n1 ni=1 (Yi − Y )2
Xi − X
В числителе и знаменателе есть множитель 1/n, после сокращения
получаем окончательную формулу оценки:
Pn
i=1 Xi − X Yi − Y
ρ̂n = qP
Pn
n
2
2
i=1 (Xi − X )
i=1 (Yi − Y )
29 / 30
4
§4.8 Оценки парам. асимметрии и эксцесса
Aξ = Eξ03 =
E (ξ − Eξ)3
— генеральный параметр асимметрии,
σξ3
его статистическая оценка:
1 Pn
3
i=1 (Xi − X )
n
Ân =
,
Sn3
Eξ = Eξ04 − 3 =
где Sn3 = (Sn2 )3/2
E (ξ − Eξ)4
− 3 — генеральный параметр эксцесса,
σξ4
его статистическая оценка:
1 Pn
4
i=1 (Xi − X )
n
Ên =
− 3,
Sn4
где Sn4 = (Sn2 )2
30 / 30