Статистические оценки параметров распределения
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Глава 2. Статистические оценки параметров распределения.
2.1. Несмещенные, эффективные и состоятельные оценки.
Итак, предположим, что заранее известен вид теоретического распределения
интересующего нас признака ξ, но параметры этого распределения неизвестны и должны
быть найдены по данным выборки.
Для решения задачи оценивания параметров теоретического распределения нам
понадобится строить функции, зависящие от выборочных значений x1,….,xn. Любая
функция θ(x1,…,xn), зависящая от выборки и поэтому являющаяся случайной величиной, о
называется статистикой. Для того, чтобы оценки неизвестных параметров, то есть
статистики, давали хорошее приближение неизвестных параметров распределения
генеральной совокупности, они должны удовлетворять следующим требованиям
несмещенности, эффективности и состоятельности.
Оценка параметра называется несмещенной, если математическое ожидание
оценки параметра по всевозможным выборкам данного объема равняется
истинному значению определяемого параметра.
Оценка параметра называется эффективной, если при заданном объеме выборки
она имеет наименьшую возможную дисперсию.
Оценка параметра называется состоятельной, если при увеличении объема
выборки оценка сходится по вероятности к истинному значению параметра.
2.2. Построение точечных оценок методом моментов
Если в качестве оценки мы ищем число – точку на координатной оси, то оценка
называется точечной.
Кроме точечных оценок, позже нами будут построены для оценок параметров и так
называемые “доверительные интервалы”. В отличие от точечных оценок они называются
интервальными оценками.
Довольно часто параметрами распределения вероятностей являются моменты
распределения (или функции от них). Например, нормальное распределение полностью
определяется математическим ожиданием и дисперсией. Математическое ожидание
является первым начальным моментом, а дисперсия – вторым центральным моментом
распределения.
Начальный момент l-го порядка распределения вероятностей al находится по
формулам:
al= ∑ xil pi
для дискретного распределения;
al= ∫x l f ( x)dx
для непрерывного распределения;
l-ый центральный момент bi по формулам :
bl=∑ ( x − µ ) l pi
для дискретного распределения;
bl=∫ ( x − µ ) l f ( x)dx для непрерывного распределения,
где µ – математическое ожидание распределения, или его первый начальный момент
(суммирование выполняется по всем принимаемым значениям, интегрирование по всей
области определения).
Для построения точечных оценок для математического ожидания и дисперсии
генеральной совокупности или любых других моментов используем таблицу
статистического распределения выборки, которая задает распределение вероятностей
(эмпирическое) некоторой случайной величины, а именно, распределение выборки.
Эмпирическим средним называется математическое ожидание, вычисленное для
выборки по таблице статистического распределения, Его используют в качестве точечной
оценки математического ожидания генеральной совокупности.
Эпирической дисперсией называется дисперсия статистического распределения
выборки. Она используется в качестве оценки дисперсии генеральной совокупности.
Таким же образом можно сосчитать и любые другие эмпирические моменты.
Напомним, что математическое ожидание – первый начальный момент, а дисперсия –
второй центральный момент. Для их оценки как раз и берутся первый начальный и второй
центральные моменты выборки. Аналогично по выборке строятся эмпирические оценки
для функций моментов более высокого порядка: асимметрии – третьего центрального
момента, деленного на среднеквадратическое отклонение в третьей степени, и эксцесса –
четвертого центрального момента, деленного на среднеквадратическое отклонение в
четвертой степени.
Пусть по выборке построена эмпирическая функция распределения и таблица
статистического распределения. Для этого распределения можно вычислить эмпирическое
среднее и эмпирическую дисперсию по аналогии с вычислением математического
ожидания и дисперсии по таблице для ряда дискретного распределения.
Вычисление эмпирических моментов по таблице статистического распределения
производится по следующим формулам (во всех формулах n – объём выборки):
начальный эмирический момент l-го порядка
1 n
ai= ∑ xil
n i =1
центральный эмпирический момент l-го порядка.
−
1 n
bl = ∑ ( x j − x ) l
n j =1
В случае, когда применяется группировка данных или просто одно и то же значение xi
в обрабатываемой последовательности повторяется mi раз (задана таблица распределения),
эти формулы, соответствено, приобретают следующий вид:
k
k
~
mj
= ∑ x lj p j
ai= ∑ x lj
n
j =1
j =1
k
k
~
mj
bl = ∑ ( x j − x ) l
= ∑ ( x j − x) l p j ,
n
j =1
j =1
где k – число разных значений вариант или, в случае группировки, интервалов.
Если формулу µi= ∑ xil pi , применяемую для вычисления начального момента l-го порядка
дискретной случайной величины, применить к эмпирическому распределению (когда в
m
1 n
роли p i выступают i ), то получим соответствующую формулу. В частности, ai= ∑ xi n
n i =1
выборочное среднее. Обычно его обозначают через x . Таким образом,
1 n
x = ∑ xi
n i =1
для выборки, заданной вариационным рядом, и
x=
k
k
~
m
1 k
x j m j = ∑x j
= ∑x j pj
∑
n i =1
n j =1
j =1
для выборки, заданной таблицей.
Выборочную дисперсию b2 обычно обозначают S2.
В силу того, что верно тождество
1 n
1 n
( x i − x) 2 = ∑ xi2 − x ,
∑
n i =1
n i =1
2
для вычисления S получаем формулу
k
1 n
S 2 = ( )∑ xi2 − x =∑ ( x j − x) 2
n i =1
j =1
для выборки, заданной вариационным рядом и
k
mj
2
2
1 n 2
1 k 2 mj
2
S = ( ) ∑ xi − x = ∑ x j
− x = ∑ ( x j − x) 2
n i =1
n j =1
n
n
j =1
для выборки, заданной таблицей.
Пример 2. По выборке 4, 6, 7, 7, 10, 15, 18 (n=7) найти x и S2.
x
=(4+6+7+7+10+15+18)/7=9,57.
2
S =1/7(16+36+49+49+100+225+324)-(9,57)2=114,14-91,58=22,56
Пример 3. Найти x и S2 по таблице.
Варианты
2
6
12
mi
3
10
7
n=20
x =(2×3+6×10+12×7)/20=7.5.
S2 =1/20(4×3+36×10+144×49)-(7.5)2 =(1/20)×56,25=371,4-56,25=315,15
Таким образом, согласно методу моментов оценкой для математического ожидания
надо взять x , а оценкой для дисперсии –S2.
Ниже мы покажем, что точечная оценка для математического ожидания является
несмещенной, в то время, как точечная оценка для дисперсии S2 является смещенной,
поэтому для выборок небольшого объема для оценки дисперсии используют
«подправленную» оценку дисперсии s2=S2n/(n-1), которая уже является несмещенной. На
практике иногда приходится пользоваться оценками, имеющими некоторое смещение, а
также оценками, у которых дисперсия не самая наименьшая (оценки, близкие к
эффективным).
2.3. Построение интервальных оценок
Итак, по выборке была построена таблица задаваемого ею распределения и вычислены
его числовые характеристики. В предположении, что выборка является образом
генеральной совокупности, можно считать, что параметры выборки являются образами
параметров всей генеральной совокупности. Вычисленные по выборке эмпирические
числовые характеристики считаем точечными оценками этих же характеристик всей
генеральной совокупности. Как уже отмечалось, точечная оценка, являющаяся функцией
выборки, сама является случайной величиной и имеет некоторое распределение
вероятностей.
Действительно, если мы ещё раз сделаем выборку объёма n и построим по ней
таблицу, её среднее и дисперсию, то таблица получится несколько иная, чем первая, хотя
и похожая. Другими окажутся и значения эмпирического среднего и дисперсии, т.е. эти
значения являются случайными функциями выборки.
Принимая, что истинное значение параметра равно случайному значению оценки, мы
допускаем некоторую ошибку. Для того, чтобы описать эту ошибку, мы должны знать
распределение вероятностей разности оценки и истинного значения. Оно позволит нам
оценить вероятность слишком большого отклонения оценки от истинного значения.
. Распределение выборочного среднего.
Для начала займёмся распределением выборочного среднего.
Выборочное среднее x является случайной величиной, значение которой зависит от
того, какие значения приняли варианты xi. Выясним, какому закону распределения
вероятностей она подчиняется, если наблюдения проводятся над нормальной случайной
величиной с параметрами µ и σ. Как сумма нормально распределённых величин, она
подчиняется нормальному закону. Найдём математическое ожидание и дисперсию.
Воспользуемся для этого известными из курса теории вероятности свойствами
математического ожидания и дисперсии:
Mx = M(
1n
1n
µn
x
)
=
Mxi = = µ; ;
∑
∑
i
n i=1
n i=1
n
D x = D(
n
1 n
1
σ2
x
)
=
D
Dx
=
.
∑ i n2 ∑
i
n i =1
n
i =1
Следовательно, у величины
раз меньше: σ x2 = σ
x то же математическое ожидание µ, но дисперсия в n
2
.
n
Кстати, эти соотношения были выведены без учета требования нормальности. Если
число наблюдений n велико, то каким бы ни было распределение случайной величины, из
которой делается выборка, в силу центральной предельной теоремы, выборочное среднее
x подчиняется закону, близкому к нормальному, так что формула
σ
x = N µ ,
n
приближенно верна всегда. Таким образом, среднее выборки ведет себя гораздо
стабильнее, чем исходная величина. Попутно мы получили доказательство того, что
выборочное среднее является несмещенной оценкой и, в силу теоремы Чебышева,
состоятельной оценкой.
Распределение выборочной дисперсии.
Выборочная дисперсия S2 является смещенной оценкой. Какому бы закону ни
подчинялась случайная величина, порождающая выборку, всегда имеет место
соотношение (без доказательства)
n −1
MS 2 =
Dξ ≠ Dξ .
n
Чтобы получить несмещенную оценку, достаточно ввести небольшую поправку:
n
s2 =
S2n −1
Эта оценка для дисперсии уже, очевидно, несмещенная, т.е . при отсутствии повторов
в выборке
2
1 n
2
s = ∑ xi − x
n i =1
Для выборки, заданной таблицей (при наличии повторов при применении группировки
данных) имеем
(
)
2
mj
n k
x
−
x
∑
j
n − 1 j =1
n
“Смещение” оценки произошло из-за того, что отклонение выборочных значений
отсчитывается не от математического ожидания теоретического распределения
вероятностей, которое неизвестно, а от его эмпирического аналога. Это же обстоятельство
оказывает некоторое влияние и на распределение вероятностей S2.
Если бы было известно значение µ математического ожидания теоретического
распределения вероятностей величины ξ, из которого произведена выборка, и в квадрат
возводилось бы отклонение от него, то эмпирическая дисперсия, являясь суммой
квадратов независимых нормальных величин, была бы пропорциональна с множителем
(
s2 =
)
σ2
величине, имеющей распределение χ n2 .
n
В силу замены µ на его эмпирический аналог x , с помощью замены переменных число
слагаемых в сумме можно уменьшить на 1 и, следовательно, число степеней свободы у
χ 2 распределения будет (n-1). То есть
nS 2
σ
2
=
(n − 1)s 2
σ
2
= χ n2−1
Этим распределением вероятностей можно пользоваться
доверительного интервала для неизвестной дисперсии распределения.
Проиллюстрируем методику получения интервальных оценок.
для
построения
Интервальная оценка для математического ожидания,
если известно среднеквадратическое отклонение
Как было сказано выше, статистика x имеет нормальное распределение с
математическим ожиданием µ и среднеквадратичным отклонением
σ
.
n
Это означает, что при построении доверительного интервала можно пользоваться
свойствами и таблицами нормального распределения или функции Лапласа (см.,
например, таблицу 2 в [1,2]). Если уровень доверия оказывается равным β, то в таблице
нормального распределения находим число kβ, такое что
P(|ξ|< kβ)=P(-kβ<ξ20 практически
неотличимо от нормального. При меньших n разница всё-таки есть и её надо учитывать.
. Для распределения Стьюдента также имеются многочисленные статистические
таблицы (см. таблицу 3 в [1,2]). Применив те же рассуждения, которые были применены
при построении доверительного интервала для среднего при известной дисперсии,
получим формулу для доверительного интервала для среднего в случае неизвестной
дисперсии.
А именно, обозначим через tn,β, для которого
P{− t n , β < ξ < +t n , β
}= β ,
где ξ имеет распределение Стьюдента с n степенями свободы. Значение tn,β по
заданному значению β находится по таблицам распределения Стьюдента аналогично
тому, как было найдено kβ для нормального распределения. При этом следует ещё учесть
значение n, что не должно вызвать затруднений. Как правило, таблицы распределения
Стьюдента задаются не для всех β, а только для наиболее употребительных значений 0,95;
0,99 и 0,999. Если n велико (больше 20) и нет таблиц распределения Стьюдента, а имеются
только более распространённые таблицы нормального распределения, то можно
воспользоваться ими, считая, что с хорошей точностью tβ=kβ. Например, если требуемый
уровень доверия 0,95, то можно взять tη,β=2, а если уровень доверия 0,997, то tn,β=3
(правило 2σ и 3σ для нормального распределения).
Таким образом, для статистики τ, имеющей распределение Стьюдента с (n-1) степенью
свободы, можно записать :
P τ < tn −1, β } = β ,
{
и, проделав простые тождественные преобразования, получаем, что с вероятностью β
выполняется
x − tn −1, β
s
s
< µ < x + tn −1, β
.
n
n
Эта последняя формула – формула для доверительного интервала для математического
ожидания µ нормального распределения с уровнем доверия β для случая, когда
среднеквадратическое отклонение распределения σ неизвестно.
Пример 4. Для проверки фасовочной установки были отобраны и взвешены 20 упаковок.
Получены следующие результаты (в граммах):
246
253
247
253,6
247,3
254,6
247,4
254,7
251,7
254,8
252,5
256,1
252,6
256,3
252,8
256,8
252,8
257,4
252,9
259,2
Найти доверительный интервал для математического ожидания с надёжностью 0,95,
предполагая, что измеряемая величина распределена нормально.
Решение. Найдем точные значения a и σ:
~
1
1 20
a = x ∑ xi =
∑ xi = 252,98;
n
20 i =1
~
σ 2 = s2 =
1 n
1
( xi − x) 2 = ( xi − x) 2 = 13,3;
∑
n − 1 i =1
19
~
σ = s = 3,65.
Определим по таблице распределения Стьюдента для доверительной вероятности
β=0,95 и числу степеней свободы (n-1) = 19 соответствующее значение tβ=2,093 и по
выведенной формуле находим искомый интервал:
2,093 * 3,65
2,093 * 3,65
252,98 −
≤ a ≤ 252,98 +
или
20
20
251,27<а<254,69.
Построение доверительного интервала для дисперсии.
При построении доверительного интервала для дисперсии пользуются тем, что
2
эмпирическая дисперсия пропорциональна с множителем σ
n
величине, имеющей
распределение χ n2−1 .
Этот доверительный интервал строится по значению S2 с помощью таблицы 5 из [1,2],
содержащей все нужные указания. Более подробно об этом можно прочитать в [3], в
данном курсе этот аспект не обсуждается.
Оценка требуемого значения выборки
Наши формулы позволяют заодно решить ещё одну интересную задачу, а именно,
каков должен быть объём выборки n, чтобы точность оценки, полученной по ней для µ, не
превосходила заданного значения ε, то есть x − µ < ε (уровень доверия по-прежнему
равен β, среднеквадратическое отклонение известно)?
Действительно, так как по формуле для оценки математического ожидания с известной
дисперсией с вероятностью β выполняется x − µ < k β
σ
n
, то нужное n находится из
2
k σ
уравнения k β
= ε , то есть n = β .
n
ε
Таким образом, результат тем точнее, чем больше объём выборки.
σ
Односторонние доверительные интервалы
На практике часто пользуются односторонними доверительными интервалами.
Например, страховой компании не страшно, если произойдёт страховых случаев много
меньше среднего, но страшно, если их произойдёт много больше среднего. Оценивая при
покупке среднюю доходность объекта, луче оценить её по формуле “не меньше, чем”; при
изучении среднего уровня воды в реке в областях, подверженных наводнениям,
интересуются уровнем, выше которого вода не поднимется, а в областях, подверженных
засухе, наоборот, уровнем, ниже которого вода не опустится.
В этом случае интервал максимально расширяют за счет одной из его границ. Если мы
строим доверительный интервал с гарантией β, а затем максимально расширим его за счет
одной из его границ, то получим односторонний интервал с большей гарантией
β ' = β + (1 − β ) 2 = (1 + β ) 2 . Например, если β=0,90, то β’=0,95+0,05/2=0,975. Таким
образом, “односторонний” подход позволяет увеличить уровень доверия, вернее, вдвое
снизить ошибку α=1-β (или при том же уровне доверия сузить интервал ( вместо tβ можно
взять t2β-1).
При построении двусторонних доверительных интервалов надо решать уравнение:
+t β
∫ f ( x)dx = β ,
−t β
а для построения односторонних доверительных интервалов надо решать уравнения:
− tα
∫ f ( x)dx = α = 1 − β ,
−∞
∞
∫ f ( x)dx = α = 1 − β
tα
Здесь f(x), как для нормального распределения, так и для распределения Стьюдента, симметричная функция (f(x)=f(-x)). Следовательно, для них ошибка, состоящая в
непопадании в доверительный интервал, симметричный относительно математического
ожидания, делится поровну между попаданием в полуинтервал [-∞,-tβ] и полуинтервал
[tβ,∞], то есть вероятность каждого такого полуинтервала вдвое меньше ошибки
двустороннего интервала. Очень часто статистические таблицы составляются именно для
односторонних интервалов. Этот способ является универсальным, а для несимметричных
распределений единственно возможным. Значения up, для которых выполняется
up
∫ f ( x)dx = P, называются квантилями.
−∞
Ниже мы рассмотрим примеры и на односторонние интервалы. А пока приведём
формулы для односторонних интервалов, соответствующие предыдущим формулам и
двусторонних интервалов:
- односторонние доверительные интервалы для математического ожидания µ
нормального распределения с уровнем доверия β для случая, когда
среднеквадратическое отклонение распределения σ известно:
− ∞ < µ < x + kβ
σ
n
и
σ
<µ<∞
n
kβ можно отыскать по таблице 2 [1,2] по α=1-β, находя его значение в
соответствующем столбце;
-односторонние доверительные интервалы для математического ожидания µ
нормального распределения с уровнем доверия β для случая, когда среднеквадратическое
отклонение распределения σ неизвестно:
x − kβ
− ∞ < µ < x + tn −1, β
s
n
и
s
<µ<∞
n
tn-1,β можно отыскать по таблице 3 по α=1-β.
x − tn −1, β