Понятие об интервальном оценивании
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Понятие об интервальном оценивании
Интервальные оценки параметров
нормального распределения
В ряде задач требуется не только найти для параметра θ подходящую
~
оценку , но и указать, к каким ошибкам может привести замена параметра
θ его оценкой. Вычисленная на основании имеющихся у нас выборочных
~
данных оценка Τ x1 ,, xn является лишь приближенным значением неизвестного параметра θ даже в том случае, когда эта оценка состоятельна
(стремится к θ с ростом n ), несмещена (совпадает с θ в среднем) и эффективна (обладает наименьшей степенью случайных отклонений от θ ). Возникает вопрос: как сильно может отклоняться это приближенное значение от
истинного? Другими словами, требуется оценить точность и надежность
оценки. Такого рода задачи особенно актуальны при малом числе наблюде~
ний, когда точечная оценка в значительной мере случайна и приближенная
~
замена θ на может привести к серьезным ошибкам.
~
Пусть – точечная оценка параметра θ , найденная по данной выборке.
~
Очевидно, чем меньше разность , тем лучше качество оценки, тем она
точнее. Таким образом, положительное число характеризует точность
~
оценки :
~
.
Понятно, что точность зависит от объема выборки n . Каков должен
быть объем n , чтобы обеспечить заданную точность , или как определить
точность при заданном объеме выборки? На эти вопросы нельзя ответить,
~
используя неравенство , статистические методы не позволяют это~
го сделать. Так как является величиной случайной, то, определив или задав точность , мы не можем абсолютно достоверно (с вероятностью, равной 1) гарантировать выполнение неравенства, обеспечивающего эту точность. Можно говорить лишь о вероятности, близкой к единице, с которой
это неравенство должно выполняться.
Итак, здесь речь пойдет о том, чтобы указать такую величину , которая
с «практической достоверностью» (т. е. с заранее заданной вероятностью,
~
близкой к единице) гарантировала бы выполнение неравенства .
~
~
Иными словами, необходимо указать такой интервал вида ; , который с заранее заданной вероятностью (близкой к единице) покрывал бы
неизвестное истинное значение θ искомого параметра. При этом заранее выбираемая исследователем вероятность, близкая к единице, называется дове-
~
~
рительной вероятностью, а сам интервал ; – доверительным
~
интервалом (или интервальной оценкой, в отличие от точечных оценок ).
В математической статистике доверительные интервалы используются
~
для определения точности оценки , а доверительные вероятности – для
определения надежности.
Доверительный интервал по своей природе случаен как по своему распо~
ложению (ведь – случайная величина), так и по своей длине (величина ,
как правило, тоже строится как функция выборочных данных x1 , x2 , , xn ).
Ширина доверительного интервала существенно зависит от объема выборки
n (уменьшается с ростом n ) и от величины доверительной вероятности (увеличивается с приближением доверительной вероятности к единице).
Построение доверительного интервала выполняется следующим образом.
~
Пусть – оценка параметра θ , вычисленная по выборке x1 , , xn объ~
ема n , а z , – некоторая статистика (зависящая как от самого параметра,
так и от его оценки), распределение которой известно и затабулировано. В
качестве таких распределений обычно используются стандартный нормальный закон Ν 0,1 , распределение Стьюдента ( t -распределение), распределение «хи-квадрат» ( χ 2 -распределение).
Величина 1 есть доверительная вероятность или надежность
(чаще всего на практике 0,9; 0,95; 0,99; 0,999 ); α – доверительный уровень.
Иногда на практике представляет интерес лишь один из двух доверительных пределов. В этом случае определяются односторонние доверительные
интервалы: Ρ 1 ; 1 .
В заключение еще раз подчеркнем, что доверительный интервал
~
~
; по своей природе случаен, и потому выражение
~
~
P 1
~
~
следует читать так: «Интервал ; покроет параметр с вероятно~
~
стью 1 », а не так: « Параметр θ попадет в интервал ; с
вероятностью 1 ».
В качестве примера рассмотрим задачу интервального оценивания параметров a и σ 2 нормальной генеральной совокупности, т. е. будем считать,
что величина Χ~Ν a, .
1. Интервальная оценка математического ожидания при известной дисперсии.
Пусть параметр a ΜΧ неизвестен, а значение дисперсии σ 2 известно.
Требуется построить доверительный интервал, который бы покрывал неизвестный параметр a с заданной доверительной вероятностью γ .
Точечной оценкой неизвестного математического ожидания, удовлетворяющей всем трем требованиям, является выборочное среднее:
σ2
1 n
xa
~
a, и
x
~
Ν
~ Ν 0,1 . Поэтоa x xi . Так как xi ~ Ν a, , то
n i 1
n
n
му по определению доверительного интервала можно записать
n
aa
aa
P x a P a x a
2
n
n
x
t2
1
2 dt – функция Лапласа (см. приложение 3).
e
где x
2 0
Обозначим через t
n
, тогда 2t и t : t
ность оценивания будет равна
t
2
1
. Точ2
n
и доверительный интервал для a запишется как
x t
a x t
n
n
Замечание. Если n велико, эту оценку можно использовать и при отсутствии нормального распределения величины Χ . В силу центральной преx a
дельной теоремы при случайной выборке большого объема п
~ Ν 0,1 .
n
В частности, если Χ , где – случайное число успехов в большом числе
n испытаний Бернулли, то
p
n
~ Ν 0,1
pq
n
и с вероятностью 1 для вероятности p успеха в единичном испытании выполняется неравенство
pq
pq
.
t
p t
n
n
n
n
Заменяя значения p и q 1 p в левой и правой частях неравенства их
p
оценками ~
и q~ 1 ~
p , что допустимо при большом n , получим приn
ближенный интервал для вероятности p :
~
~
pq~
pq~
~
p t
p ~
p t
n
n
Пример 1. Из большой партии изделий отобрано наугад для контроля 500
штук, причем среди них 20 не удовлетворяющих стандарту. Найти с доверительным уровнем 0,05 интервал, содержащий процент брака во всей партии.
Решение. Для оценки вероятности брака используем неравенство (4).
20
p
0,04, q~ 1 ~
p 1 0,04 0,96, t t0,95 1,96 (см. прилоЗдесь ~
n 500
жение 3), тогда 0,023 p 0,057 или процент брака во всей партии будет от
2,3% до 5,7%.
Пример 2. Фирма коммунального хозяйства на основе выборки оценивает
среднюю квартплату за квартиры определенного типа с надежностью не менее 99% и погрешностью, меньшей 10 д.е. Предполагая, что квартплата имеет нормальное распределение со средним квадратическим отклонением, не
превышающим 35 д.е., найти минимальный объем выборки.
Решение. По условию требуется найти такое n , при котором
P x a 10 0,99 . Приравняв 1 0,99 , из таблицы значений функции
0,99
Лапласа (приложение 3) найдем t 0,99 : t0,99
0,495; t0,99 2,6 . При
2
10 и 35 из формулы (1) получим
t 02,99 2 6,76 1225
n
82,81 .
100
2
Но так как с ростом 1 и уменьшением растет n , то n 82,81 и тогда минимальный объем выборки будет равен nmin 83 .
2. Интервальная оценка математического ожидания при неизвестной дисперсии.
Итак, пусть Χ~Ν a,σ , причем числовые значения ни a , ни 2 не известны. Наилучшими точечными оценками этих параметров по выборке
1 n
2
2
~
~
x1 , x2 , , xn объема n будут a x , s
xi x 2 .
n 1 i 1
Так как x ~ Ν (a,
n
),
то
xa
n 1s 2
~ Ν 0,1 ,
2
1
2
n
xi x
2
~ 2 n 1 .
i 1
n
Тогда статистика
n
xa xa
1
xi x 2 ~ t n 1,
t
2
s
n 1 i 1
n
n
то есть статистика t распределена по закону Стьюдента с n 1 степенью
свободы.
Задаваясь доверительной вероятностью и учитывая симметричность
распределения Стьюдента, найдем t из условия
t
pt dt , где pt – плотность распределения Стьюдента.
t
Возвращаясь к величине t , получим, что с вероятностью γ
t t или
Решая неравенство t
xa
t .
s
n
xa
t относительно a , получим
s
n
s
s
,
x t
a x t
n
n
1
где t t
, n 1 находится из таблицы квантилей распределения
2
1
Стьюдента при k n 1 и p
(см. приложение).
2
Формула и определяет доверительный интервал, который покрывает неизвестное математическое ожидание с заданной надежностью γ , точность
оценивания в этом случае
s
.
t
n
Замечание. При k n 1 30 случайная величина t k имеет распределение, близкое к Ν 0,1, поэтому с вероятностью γ
s
s
x t
a x t
, где t : t .
2
n
n
Пример 3. Из многочисленного коллектива работников фирмы случайным образом отобрано n 25 человек. Средняя заработная плата этих работников составила x 700 д.е. при среднем квадратическом отклонении
s 100 д.е. Требуется с доверительной вероятностью 0,95 определить ин-
тервальную оценку для: а) средней месячной заработной платы на фирме; б)
суммы затрат фирмы на заработную плату отдела, состоящего из 520 сотрудников.
Решение. а). Средняя месячная заработная плата на фирме – это математическое ожидание случайной величины Χ – размера заработной платы, поэтому, используя неравенство (6.13), с доверительной вероятностью 0,95
получим
100
100
.
700 2,064
a 700 2,064
25
25
1 0,95
Здесь значение t0,95 t
;24 2,064 найдено из таблицы прило 2
жения 5 как квантиль уровня p 0,975 и числа степеней свободы
k 25 1 24 .
Окончательно 658,72 a 741,28 .
Таким образом, с вероятностью 0,95 можно гарантировать, что средняя
заработная плата на фирме в пределах от 658,72 д.е. до 741,28 д.е.
б). Сумма затрат фирмы на заработную плату отдела составит Νa д.е.,
где Ν 520 . Поэтому с вероятностью 0,95 можно гарантировать, что затраты
фирмы на заработную плату не выйдут из интервала:
520 658,72 Νa 520 741,28 ,
т. е.
342534 д.е. Νa 385465 д.е.
3. Интервальная оценка дисперсии (среднего квадратического отклонения) при неизвестном математическом ожидании.
Наилучшей точечной оценкой дисперсии в этом случае является
1 n
2
s
( xi x ) 2 . Построение интервальной оценки для 2 основано на
n 1 i 1
статистике
(n 1) s 2
U
~ 2 (n 1) ,
2
то есть статистика U для случайной выборки из нормальной генеральной
совокупности: Χ~Ν a, , имеет распределение χ 2 с n 1 степенью свободы.
Следуя общей схеме построения доверительных интервалов, зададимся
здесь доверительным уровнем 1 и определим два числа u1 и u2 из
условия: Ρu1 U u 2 1 .
Величины u1 и u2 находятся из таблиц квантилей распределения χ 2 :
u1 2 ; n 1 и u 2 2 1 ; n 1 (см. приложение 4).
2
2
Решая неравенство
n 1s 2
u2
σ2
относительно σ 2 , получим, что с вероятностью 1 выполняется неравенство
n 1s 2 2 n 1s 2
u2
u1
и с такой же вероятностью выполняется неравенство
u1
n 1s 2 n 1s 2 .
u2
u1
Интервальная оценка не симметрична относительно s 2 в отличие от интервальной оценки для неизвестного математического ожидания.
Если требуется построить интервальную оценку для дисперсии при известном математическом ожидании, то она будет иметь вид
ns02
ns 2
2 0 ,
u2
u1
1 n
где s02 xi a 2 эффективная оценка дисперсии, а u1 2 , n и
n i 1
2
u2 2 1 , n .
2
Пример 4. При анализе точности фасовочного автомата было произведено n 24 контрольных взвешиваний пятисотграммовых пачек кофе. По результатам измерений рассчитано среднее квадратическое отклонение
в 0,8 г. Требуется с доверительной вероятностью 0,95 оценить точность фасовочного автомата, т. е. определить интервальную оценку для σ .
Решение. Для того чтобы при построении интервальной оценки для
воспользоваться формулами, определим вначале из таблиц квантилей распределения χ 2 (см. приложение 4) значения
u1 2 , n 1 2 0,025; 23 11,7 ;
2
u2 2 1 , n 1 2 0,975; 23 38,1 .
2
Несмещенной оценкой теоретической дисперсии будет
n
n
s2
Dв
в2 , тогда n 1s 2 n в2 .
n 1
n 1
С вероятностью 0,95 согласно формуле имеем интервальную оценку:
24 0,64
24 0,64
2
.
38,1
11,7
Отсюда с доверительной вероятностью 0,95 можно утверждать, что среднее квадратическое отклонение будет находиться в интервале
0,632 г. 1,146 г.
Предположив, что ошибка фасовочного автомата есть нормальная случайная величина с нулевой средней и средним квадратическим отклонением
σ , можно с вероятностью 0,95 утверждать, что вес пачек кофе будет в пределах 500 2 ; 500 2 500 2,292; 500 2,292 497,71 г; 502,29 г .