Оценка
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция.
Основные свойства статистических характеристик параметров
распределения: несмещенность, состоятельность, эффективность.
Несмещенность и состоятельность выборочного среднего как оценки
математического ожидания. Смещенность выборочной дисперсии. Пример
несмещенной оценки дисперсии. Асимптотически несмещенные оценки.
Способы построения оценок: метод наибольшего правдоподобия, метод
моментов, метод квантили, метод наименьших квадратов, байесовский
подход к получению оценок.
Понятие оценки параметров
Пусть изучается случайная величина Х с законом распределения, зависящим от одного
или нескольких параметров. Например, это параметр в распределении Пуассона или
параметры а и σ для нормального закона распределения.
Требуется по выборке
X1, X 2 , ...., X n ,
полученной в результате n наблюдений, оценить
неизвестный параметр .
Определение.
*
Статистической оценкой параметра теоретического
распределения называют его приближенное значение, зависящее от
*
данных выбора. Оценка есть значение некоторой функции
результатов наблюдений над случайной величиной, т.е.
* * X1, X 2 , ...., X n . Функцию результатов наблюдений
(функцию выборки) называют статистикой.
*
Можно сказать, что оценка
параметра
есть статистика, которая близка к истинному
. Оценка * является случайной величиной, т.к. является функцией независимых
X1, X 2 , ...., X n ; если произвести другую выборку, то функция примет, вообще говоря,
значению
с.в.
другое значение.
Свойства статистических оценок
Получив статистические оценки параметров распределения (выборочное среднее,
выборочную дисперсию и т.д.), нужно убедиться, что они в достаточной степени служат
приближением соответствующих характеристик генеральной совокупности. Определим
требования, которые должны при этом выполняться.
Пусть Θ* - статистическая оценка неизвестного параметра Θ
теоретического распределения. Извлечем из генеральной совокупности
несколько выборок одного и того же объема п и вычислим для каждой из них
оценку параметра Θ: 1* , *2 ,..., *k . Тогда оценку Θ* можно рассматривать как
1
случайную величину, принимающую возможные значения 1* , *2 ,..., *k . Если
математическое ожидание Θ* не равно оцениваемому параметру, мы будем
получать при вычислении оценок систематические ошибки одного знака (с
избытком, если М( Θ*) >Θ, и с недостатком, если М(Θ*) < Θ). Следовательно,
необходимым условием отсутствия систематических ошибок является
требование М(Θ*) = Θ.
Определение 17.2. Статистическая оценка Θ* называется несмещенной, если ее
математическое ожидание равно оцениваемому параметру Θ
при любом объеме выборки:
М(Θ*) = Θ.
(17.1)
Смещенной называют оценку, математическое ожидание которой не равно
оцениваемому параметру.
Однако несмещенность не является достаточным условием хорошего приближения к истинному
значению оцениваемого параметра. Если при этом возможные значения Θ* могут значительно
отклоняться от среднего значения, то есть дисперсия Θ* велика, то значение, найденное по
данным одной выборки, может значительно отличаться от оцениваемого параметра.
Следовательно, требуется наложить ограничения на дисперсию.
Определение 17.2. Статистическая оценка называется эффективной, если она при
заданном объеме выборки п имеет наименьшую возможную
дисперсию.
При рассмотрении выборок большого объема к статистическим оценкам предъявляется еще и
требование состоятельности.
Определение 17.3. Состоятельной называется статистическая оценка, которая при
п→∞ стремится по вероятности к оцениваемому параметру
(если эта оценка несмещенная, то она будет состоятельной, если
*
при п→∞ ее дисперсия стремится к 0). n , т.е.
n
0 выполнено lim P n* 1 .
n
Это означает, что с увеличением объема выборки мы все ближе приближаемся к истинному
значению параметра . Свойство состоятельности обязательно для любого правила
оценивания(несостоятельные оценки не используются).
Теорема. Если оценка
n* параметра является несмещенной и D n* 0
*
при n , то n состоятельная оценка.
2
Точечные оценки математического ожидания и дисперсии
Убедимся, что х В представляет собой несмещенную оценку математического ожидания М(Х).
Теорема. Пусть X1, X 2 , ...., X n выборка из генеральной совокупности и
M ( X i ) M ( X ) a , D( X i ) D( X ) . Тогда выборочное среднее
n
Xi
несмещенная
и
состоятельная
оценка
X B i 1
n
математического ожидания M (X ) .
Будем рассматривать х В как случайную величину, а х1, х2,…, хп, то есть
значения исследуемой случайной величины, составляющие выборку, – как
независимые, одинаково распределенные случайные величины Х1, Х2,…, Хп,
имеющие математическое ожидание а. Из свойств математического ожидания
следует, что
1 n
1
Х1 Х 2 ... Х п 1 n
М (Х В) М
M
X
M
X
i n
i n а.
п
n
i 1
i 1
n
Но, поскольку каждая из величин Х1, Х2,…, Хп имеет такое же распределение, что
и генеральная совокупность, а = М(Х), то есть М( Х В ) = М(Х), что и требовалось
доказать. Выборочное среднее является не только несмещенной, но и
состоятельной оценкой математического ожидания. Если предположить, что Х1,
Х2,…, Хп имеют ограниченные дисперсии, то из теоремы Чебышева следует, что
их среднее арифметическое, то есть Х В , при увеличении п стремится по
вероятности к математическому ожиданию а каждой их величин, то есть к М(Х).
Следовательно, выборочное среднее есть состоятельная оценка математического
ожидания.
3
В отличие от выборочного среднего, выборочная дисперсия является смещенной
оценкой дисперсии генеральной совокупности. Можно доказать, что
М ( DB )
n 1
DГ ,
n
(17.2)
где DГ – истинное значение дисперсии генеральной совокупности. Можно
предложить другую оценку дисперсии – исправленную дисперсию s²,
вычисляемую по формуле
k
s2
n
DB
n 1
n (x
i
i 1
i
xB ) 2
.
n 1
(17.3)
Такая оценка будет являться несмещенной. Ей соответствует исправленное
среднее квадратическое отклонение
k
s s2
n (x
i 1
i
i
xB ) 2
.
n 1
(17.4)
Определение 17.4. Оценка некоторого признака называется асимптотически
несмещенной, если для выборки х1, х2, …, хп
x1 x2 ... xn
X,
n
n
lim
(17.5)
где Х – истинное значение исследуемой величины.
Способы построения оценок
1. Метод наибольшего (максимального) правдоподобия
Предложен Р.Фишером
Пусть Х – дискретная случайная величина, которая в результате п испытаний
приняла значения
х1, х2, …, хп. Предположим, что нам известен закон
распределения этой величины, определяемый параметром Θ, но неизвестно
численное значение этого параметра. Найдем его точечную оценку.
Пусть р(хi, Θ) – вероятность того, что в результате испытания величина Х примет
значение хi. Назовем функцией правдоподобия дискретной случайной величины
Х функцию аргумента Θ, определяемую по формуле:
L (х1, х2, …, хп; Θ) = p(x1,Θ)p(x2,Θ)…p(xn,Θ).
Тогда в качестве точечной оценки параметра Θ принимают такое его значение Θ*
= Θ(х1, х2, …, хп), при котором функция правдоподобия достигает максимума.
Оценку Θ* называют оценкой наибольшего правдоподобия.
4
Поскольку функции L и lnL достигают максимума при одном и том же значении Θ,
удобнее искать максимум ln L – логарифмической функции правдоподобия. Для
этого нужно:
1) найти производную
d ln L
;
d
2) приравнять ее нулю (получим так называемое уравнение правдоподобия) и
найти критическую точку;
3) найти вторую производную
d 2 ln L
; если она отрицательна в критической точке,
d 2
то это – точка максимума.
Достоинства метода наибольшего правдоподобия: полученные оценки
состоятельны (хотя могут быть смещенными), распределены асимптотически
нормально при больших значениях п и имеют наименьшую дисперсию по
сравнению с другими асимптотически нормальными оценками; если для
оцениваемого параметра Θ существует эффективная оценка Θ*, то уравнение
правдоподобия имеет единственное решение Θ*; метод наиболее полно
использует данные выборки и поэтому особенно полезен в случае малых выборок.
Недостаток метода наибольшего правдоподобия: сложность вычислений.
Для непрерывной случайной величины с известным видом плотности
распределения f(x) и неизвестным параметром Θ функция правдоподобия имеет
вид:
L (х1, х2, …, хп; Θ) = f(x1,Θ)f(x2,Θ)…f(xn,Θ).
Оценка наибольшего правдоподобия неизвестного параметра проводится так же,
как для дискретной случайной величины.
2. Метод моментов.
Метод моментов основан на том, что начальные и центральные эмпирические
моменты являются состоятельными оценками соответственно начальных и
центральных теоретических моментов, поэтому можно приравнять теоретические
моменты соответствующим эмпирическим моментам того же порядка.
Если задан вид плотности распределения f(x, Θ), определяемой одним
неизвестным параметром Θ, то для оценки этого параметра достаточно иметь одно
уравнение. Например, можно приравнять начальные моменты первого порядка:
xB M ( X )
xf ( x; )dx () ,
5
получив тем самым уравнение для определения Θ. Его решение Θ* будет точечной
оценкой параметра, которая является функцией от выборочного среднего и,
следовательно, и от вариант выборки:
Θ = ψ (х1, х2, …, хп).
Если известный вид плотности распределения f(x, Θ1, Θ2 ) определяется двумя
неизвестными параметрами Θ1 и Θ2, то требуется составить два уравнения,
например
ν1 = М1, μ2 = т2.
М ( Х ) х В
- система двух уравнений с двумя неизвестными Θ 1 и Θ2. Ее
D( X ) DB
Отсюда
решениями будут точечные оценки Θ1* и Θ2* - функции вариант выборки:
Θ1 = ψ1 (х1, х2, …, хп),
Θ2 = ψ2(х1, х2, …, хп).
Для того чтобы оценить n параметров 1, 2 ,, n надо решить систему:
Метод моментов является наиболее простым методом оценки параметров. Он был
предложен в 1894 г. Пирсоном. Оценки метода моментов обычно состоятельны,
однако их эффективность часто значительно меньше единицы.
3. Метод наименьших квадратов.
Если требуется оценить зависимость величин у и х, причем известен вид
связывающей их функции, но неизвестны значения входящих в нее
коэффициентов, их величины можно оценить по имеющейся выборке с помощью
метода наименьших квадратов. Для этого функция у = φ (х) выбирается так, чтобы
сумма квадратов отклонений наблюдаемых значений у1, у2,…, уп от φ(хi) была
минимальной:
n
( yi ( xi ))2 min .
i 1
При этом требуется найти стационарную точку функции φ(x; a, b, c…), то есть
решить систему:
6
n
( y i ( xi ; a, b, c...)) a 0
i
i n1
( y ( x ; a, b, c...))
0
i
i
i 1
b i
n
( y i ( xi ; a, b, c...))
0
c i
i 1
.......... .......... .......... ..........
(решение, конечно, возможно только в случае, когда известен конкретный вид
функции φ).
Рассмотрим в качестве примера подбор параметров линейной функции методом
наименьших квадратов.
Для того, чтобы оценить параметры а и b в функции y = ax + b, найдем
n
n
n
n
2
x
(
y
y
a
(
ax
x
b
b
))
x
xi 0
i
i
i
i i
i
i 1
i 1
i 1
i 1
. Отсюда n
.
xi ;
1. Тогда n
n
а i
b i
y i a xi bn 0
( y i (axi b)) 0
i 1
i 1
i 1
Разделив оба полученных уравнения на п и вспомнив определения эмпирических
моментов, можно получить выражения для а и b в виде:
a
( K xy ) B
( Dx ) B
, b yB
( K xy ) B
( Dx ) B
x B . Следовательно, связь между х и у можно задать в
виде:
y yB
( K xy ) B
( Dx ) B
( x x B ).
4. Байесовский подход к получению оценок.
Пусть (Y, X) – случайный вектор, для которого известна плотность р(у|x)
условного распреде-ления Y при каждом значении Х = х. Если в результате
эксперимента получены лишь значения Y, а соответствующие значения Х
неизвестны, то для оценки некоторой заданной функции φ(х) в качестве ее
приближенного значения предлагается искать условное математическое ожидание
М ( φ(х)|Y), вычисляемое по формуле:
(Y )
( x) p(Y | x) p( x)d ( x) ,
q (Y )
где
q( y) p( y | x) p( x)d ( x) ,
р(х)
–
плотность
безусловного распределения Х, q(y) – плотность безусловного распределения Y.
Задача может быть решена только тогда, когда известна р(х). Иногда, однако,
удается построить состоятельную оценку для q(y), зависящую только от
полученных в выборке значений Y.
7
Лекция.
Интервальное оценивание неизвестных параметров. Точность оценки,
доверительная вероятность (надежность), доверительный интервал.
Построение доверительных интервалов для оценки математического
ожидания нормального распределения при известной и при неизвестной
дисперсии. Доверительные интервалы для оценки среднего квадратического
отклонения нормального распределения.
При выборке малого объема точечная оценка может значительно отличаться от
оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком
случае лучше пользоваться интервальными оценками, то есть указывать
интервал, в который с заданной вероятностью попадает истинное значение
оцениваемого параметра. Разумеется, чем меньше длина этого интервала, тем
точнее оценка параметра. Поэтому, если для оценки Θ* некоторого параметра
Θ справедливо неравенство | Θ* - Θ | < δ, число δ > 0 характеризует точность
оценки (чем меньше δ, тем точнее оценка). Но статистические методы
позволяют говорить только о том, что это неравенство выполняется с
некоторой вероятностью.
Определение 18.1. Надежностью (доверительной вероятностью) оценки Θ*
параметра Θ называется вероятность γ того, что выполняется
неравенство | Θ* - Θ | < δ. Если заменить это неравенство
двойным неравенством – δ < Θ* - Θ < δ, то получим:
p ( Θ* - δ < Θ < Θ* + δ ) = γ.
Таким образом, γ есть вероятность того, что Θ попадает в интервал ( Θ* - δ, Θ*
+ δ).
Определение 18.2. Доверительным называется интервал, в который попадает
неизвестный параметр с заданной надежностью γ.
Построение доверительных интервалов
1. Доверительный интервал для оценки математического ожидания
нормального распределения при известной дисперсии.
Пусть исследуемая случайная величина Х ~N(a,σ) распределена по
нормальному закону с известным средним квадратическим σ, и требуется по
значению выборочного среднего х В оценить ее математическое ожидание а.
Будем рассматривать выборочное среднее х В как случайную величину Х , а
значения вариант выборки х1, х2,…, хп как одинаково распределенные
независимые случайные величины Х1, Х2,…, Хп, каждая из которых имеет
8
математическое ожидание а и среднее квадратическое отклонение σ. При этом
M Х a , ( Х )
(используем свойства математического ожидания и
п
дисперсии суммы независимых случайных величин). Оценим вероятность
выполнения неравенства | X a | . Применим формулу для вероятности
попадания нормально распределенной случайной величины в заданный
интервал: P | X a | 2Ф
.
Тогда, с учетом того, что ( Х )
t
п
2t , где
, P | X a | 2Ф
п
t
n
. Отсюда
, и предыдущее равенство можно переписать так:
n
t
t
p x B
a xB
2 (t ) .
n
n
(18.1)
Итак, значение математического ожидания а с вероятностью (надежностью) γ
t
t
попадает в интервал x B ; x B , где значение t определяется из таблиц
n
n
для функции Лапласа так, чтобы выполнялось равенство 2Ф(t) = γ.
Пример. Найдем доверительный интервал для математического ожидания
нормально распределенной случайной величины, если объем выборки
п = 49, xB 2,8, σ = 1,4, а доверительная вероятность γ = 0,9.
Определим t, при котором Ф(t) = 0,9:2 = 0,45: t = 1,645. Тогда
2,8
1,645 1,4
49
a 2,8
1,645 1,4
14
, или 2,471 < a < 3,129. Найден доверительный
интервал, в который попадает а с надежностью 0,9.
9
2. Доверительный интервал для оценки математического ожидания
нормального распределения при неизвестной дисперсии
Если известно, что исследуемая случайная величина Х распределена по
нормальному закону с неизвестным средним квадратическим отклонением, то
для поиска доверительного интервала для ее математического ожидания
построим новую случайную величину
xB a
,
s
T
(18.2)
n
где x B - выборочное среднее, s – исправленная дисперсия, п – объем выборки.
Эта случайная величина, возможные значения которой будем обозначать t,
имеет распределение Стьюдента с k = n – 1 степенями свободы.
n
2
t
, где
Поскольку плотность распределения Стьюдента s (t , n) Bn 1
n
1
2
n
2
Bn
, явным образом не зависит от а и σ, можно задать
n 1
(n 1)
2
вероятность ее попадания в некоторый интервал (- tγ , tγ ), учитывая четность
плотности распределения, следующим образом:
x a
p B
t
s
n
t
2 s (t , n)dt .
0
Отсюда получаем:
t s
t s
.
p xB
a xB
n
n
(18.3)
Таким образом, получен доверительный интервал для а, где tγ можно найти по
соответствующей таблице при заданных п и γ.
Доверительный интервал
xB
t s
n
a xB
t s
n
покрывает а с вероятностью γ.
Пример. Пусть объем выборки п = 25, х В = 3, s = 1,5. Найдем доверительный
интервал для а при γ = 0,99. Из таблицы находим, что tγ (п = 25, γ = 0,99) =
2,797. Тогда
3
2,797 1,5
25
a 3
2,797 1,5
25
, или 2,161< a < 3,839 –
доверительный интервал, в который попадает а с вероятностью 0,99.
10
3.Доверительные интервалы для оценки дисперсии
распределения при известном математическом ожидании
n s2
12
2
2
,n
n s2
12
2
,n
4.Доверительные интервалы для оценки дисперсии
распределения при неизвестном математическом ожидании
Построим
нормального
доверительный
интервал
для
дисперсии
D=σ 2
величины
по случайной выборке
математическом ожидании
нормального
наблюдаемой
случайной
при неизвестном
2
Введем случайную величину (статистику)
Которая согласно утверждению 2 теоремы Фишера имеет распределение
с n-1
степенями свободы. Поскольку плотность распределения этого закона асимметрична,
доверительный интервал, соответствующий надежности найдем из формулы (3.31) в виде:
11
Обычно доверительный интервал для случайной величины
выбирают так, чтобы вероятность ее попадания за пределы этого интервала влево и вправо
была одинаковой
Тогда условия для определения значений с1 и с2 будут иметь вид:
По таблице квантилей
распределения
Неравенства
,
эквивалентны неравенствам
Является доверительным интервалом дисперсии,
соответствующим доверительной вероятности
n 1 s 2 2 n 1 s 2
12
2
,n 1
12
2
,n 1
Пример. По данным выборки объема n =30 из нормально распределенной генеральной
совокупности найдено исправленная выборочная дисперсия s2=1,3 С надежностью γ=0,95
построить доверительный интервал для неизвестной дисперсии
12
4. Доверительные интервалы для оценки среднего квадратического
отклонения нормального распределения (2 способ)
Будем искать для среднего квадратического отклонения нормально
распределенной случайной величины доверительный интервал вида (s – δ, s
+δ), где s – исправленное выборочное среднее квадратическое отклонение, а
для δ выполняется условие: p (|σ – s| < δ) = γ.
Запишем это неравенство в виде: s1 s1 или, обозначив q ,
s
s
s
s1 q s1 q .
(18.4)
Рассмотрим случайную величину χ, определяемую по формуле
s
n 1 ,
которая распределена по закону «хи-квадрат» с п-1 степенями свободы.
Плотность ее распределения
R ( , n)
2
n 3
2
n2
e
2
2
n 1
2
не зависит от оцениваемого параметра σ, а зависит только от объема выборки п.
Преобразуем неравенство (18.4) так, чтобы оно приняло вид χ1 < χ < χ2.
Вероятность выполнения этого неравенства равна доверительной вероятности
γ, следовательно,
2
R( , n)d .
Предположим, что q < 1, тогда неравенство
1
(18.4) можно записать так:
1
1
1
,
s(1 q) s(1 q)
n 1 s n 1
n 1
. Следовательно,
1 q
1 q
или, после умножения на s n 1 ,
n 1
n 1
.
1 q
1 q
n 1
1 q
Тогда
R( , n)d .
Существуют
таблицы
для
n 1
1 q
распределения «хи-квадрат», из которых можно найти q по заданным п и γ, не
решая этого уравнения. Таким образом, вычислив по выборке значение s и
определив по таблице значение q, можно найти доверительный интервал (18.4),
в который значение σ попадает с заданной вероятностью γ.
Замечание. Если q > 1, то с учетом условия σ > 0 доверительный интервал для σ
будет иметь границы
13
0 s (1 q) .
(18.5)
Пример.
Пусть п = 20, s = 1,3. Найдем доверительный интервал для σ при заданной
надежности γ = 0,95. Из соответствующей таблицы находим q (n = 20, γ = 0,95 )
= 0,37. Следовательно, границы доверительного интервала: 1,3(1-0,37) = 0,819 и
1,3(1+0,37) = 1,781. Итак, 0,819 < σ < 1,781 с вероятностью 0,95.
Пример.
Имеется выборка объема 10 нормально распределенной генеральной
совокупности. Исправленное выборочное с.к.о. равно 2. Найти доверительный
интервал для неизвестного генерального с.к.о. с надежностью 1) 0,95 , 2) 0,99.
Решение.
1) По таблице значений q находим q(0,95;10) =0,65< 1. Строим доверительный
интервал по первой из приведенных выше формул: 2(1-0,65) < σ < 2(1 -0,65) или
0,7 < σ < 3,3.
2) По таблице значений q находим q(0,99;10) =1,08 >1 . Строим доверительный
интервал по второй формуле: 0 < σ < 2(1 1,08) или 0 < σ < 4,16.
14