Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛЕКЦИЯ 2
СТАТИСТИЧЕКОЕ ОЦЕНИВАНИЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК СЛУЧАЙНЫХ ВЕЛИЧИН
Вопросы
1. Сущность выборочного метода
2. Понятие статистической оценки, требования к оценкам
3. Статистическое оценивание математического ожидания случайной величины
1
При статистическом исследовании вероятностных свойств большой совокупности объектов нет возможности проводить опыты над каждым из них.
Так, при изучении ежемесячных доходов граждан РФ невозможно установить доход каждого гражданина за ограниченное время.
В биологии при исследовании микроорганизмов бессмысленно пытаться изучать каждый микроорганизм.
Также и в технике, множество значений какого-либо параметра может быть бесконечным. Для исследователя возможно изучение только ограниченного подмножества измеренных значений данного параметра.
Существует метод, который позволяет изучить интересующие свойства всей совокупности объектов или всего множества значений параметра.
Речь идет о выборочном методе, согласно которому вся совокупность объектов изучается по некоторой ее части, которая называется выборкой.
Множество всех возможных объектов (значений параметра), из которого извлекается выборка, называется генеральной совокупностью.
Выборка называется однородной, если ее элементы извлечены из одной генеральной совокупности.
Выборка называется репрезентативной (представительной), если все элементы генеральной совокупности имеют одинаковую вероятность быть выбранными.
Для того, чтобы обеспечить принцип равной вероятности попадания элементов генеральной совокупности, отбор элементов в выборку должен быть случайным.
Если требуется оценить средний рост жителей некоторого города, а в качестве выборки экспериментатор рассматривает городскую баскетбольную команду, результат будет искаженным (отсутствует случайность попадания жителей в выборку).
Пусть исследуемое свойство объекта описывается случайной величиной . В процессе эксперимента получена совокупность из n значений:
. (1)
Это будут измеренные, а следовательно, полностью определенные или детерминированные значения.
До проведения эксперимента любая совокупность из n значений является случайной выборкой:
. (2)
Случайный характер выборки (2) выражается в том, что нельзя заранее предсказать возможные значения ее элементов, и любые две последовательности из n элементов в общем случае будут различными.
Таким образом, априори (до эксперимента) выборка будет случайной, апостериори (после эксперимента) – детерминированной.
Из случайного характера выборки априори следует, что любое суждение о генеральной совокупности по выборке само является случайным. Имеется в виду суждение, затрагивающее хотя бы один элемент генеральной совокупности, не попавший в выборку апостериори.
2
Методы обработки экспериментальных данных опираются на основополагающий факт, в соответствии с которым свойства результатов экспериментальных исследований, рассматриваемых как случайные объекты, описываются некоторым законом распределения. При этом предполагается, что анализ экспериментальных данных позволяет с достаточной степенью точности определить вид и конкретную форму закона распределения или значения его параметров, если нет необходимости в использовании самого закона. Такая информация дает возможность в полном объеме использовать методы теории вероятностей для решения задач обработки.
Так как действительный закон распределения и значения его параметров неизвестны, то исследователь оперирует их приближениями – статистическими законами распределения и оценками параметров.
Статистическим законом распределения случайной величины называется закон распределения данной величины, установленный с помощью статистических методов обработки данных.
Оценка параметра – приближенное значение оцениваемой величины, которое целесообразно принимать за ее истинное значение.
Любая оценка должна удовлетворять требованиям несмещенности, состоятельности и эффективности.
1. Оценка параметра a несмещенная, если
, (3)
где - математическое ожидание оценки.
Итак, оценка несмещенная, если ее математическое ожидание совпадает с истинным значением параметра.
Если , оценка называется смещенной.
2. Оценка состоятельная, если она сходится по вероятности к оцениваемому параметру с вероятностью 1:
. (4)
Условие (4) следует понимать так: при неограниченном увеличении объема выборки () отклонение оценки от параметра не будет превышать сколь угодно малой положительной величины ε с вероятностью 1.
Равносильное предыдущему, но менее строгое понимание условия (4): при неограниченном увеличении объема выборки оценка неограниченно стремится к истинному значению параметра.
Дисперсия состоятельной оценки стремится к нулю:
.
3. Несмещенная оценка является эффективной, если
, (5)
- оценка параметра, полученная k-м способом.
Трактовка условия (5): оценка эффективная, если она имеет минимальную дисперсию среди всех других оценок.
Качество статистического оценивания
Качество статистического оценивания характеризуется точностью и надежностью (достоверностью).
Принципиально точность может определяться абсолютной погрешностью (ошибкой):
. (6)
Истинное значение погрешности определить невозможно, так как неизвестно истинное значение a параметра. В выражении (6) фигурирует оценка абсолютной погрешности.
Поскольку в рамках выборочного метода суждения по выборке не могут быть абсолютно достоверными, вводится понятие вероятной погрешности статистической оценки параметра a.
Максимальной вероятной погрешностью статистической оценки называется ее максимально возможное отклонение (), гарантируемое с вероятностью не менее β:
. (7)
Выражением (7) определяется вероятность попадания величины a в интервал
. (8)
Вероятность (7) называется доверительной вероятностью, а интервал (8) –доверительным интервалом. В данный интервал истинное значение параметра a попадает с вероятностью не менее, чем (7).
Количественной характеристикой точности статистической оценки и является доверительный интервал (8). По мере сужения интервала (8) точность оценки повышается и наоборот точность снижается при расширении данного интервала.
Количественной характеристикой надежности статистической оценки является доверительная вероятность (7). Чем выше указанная вероятность, тем выше надежность и наоборот надежность снижается при уменьшении доверительной вероятности.
При рассмотрении общего случая выражениям (7) и (8) не представляется возможным задать явный вид. Для задания такого вида необходимо наложить ограничения на исследуемую случайную величину. Например, считать, что распределение этой случайной величины подчиняется нормальному закону.
В этом случае доверительная вероятность (7) находится из следующего соотношения:
, (9)
где – оценка среднего квадратического отклонения величины ; – функция нормированного нормального распределения или функция Лапласа:
. (10)
Выражение (9) непосредственно следует из центральной предельной теоремы.
Нормированное нормальное распределение – это нормальное распределение с нулевым математическим ожиданием и единичной дисперсией. Таблицы со значениями функции приводятся в справочниках по статистическому анализу (см. приложение 2).
Выражение (9) используется для вычисления доверительной вероятности β, если задано максимальное вероятное отклонение , а следовательно, и доверительный интервал (8).
Если требуется решить обратную задачу – найти максимальное вероятное отклонение при заданной доверительной вероятности β, необходимо выразить в соотношении (9). Последовательность преобразования (9) следующая:
; ; ; .
Функция – обратная к функции Лапласа и с аргументом в виде половинной доверительной вероятности, называется квантилем нормального распределения, она имеет обозначение
. (11)
Значения функции (11) приводятся в справочниках по статистическому анализу (см. приложение 4).
Таким образом, получено выражение для определения максимального вероятного отклонения:
. (12)
3
Пусть – случайная величина. Требуется дать оценку ее математического ожидания и проверить качество оценивания на основе массива данных, т.е выборки
, (13)
полученной по результатам эксперимента.
Далее предполагается, что все рассматриваемые выборки являются однородными и репрезентативными.
1. Оценка математического ожидания может находиться в виде среднего арифметического:
. (14)
Из теории известно, что оценка в виде среднего арифметического обладает свойствами несмещенности, состоятельности и эффективности.
2. Оценка дисперсии:
. (15)
3. Оценка среднего квадратического отклонения случайной величины:
. (16)
При вычислении оценки дисперсии усреднение производится по количеству интервалов между элементами (13), т.е. умножение производится на коэффициент . Это обеспечивает несмещенность оценки дисперсии.
4. Двухсигмовый интервал для случайной величины:
, (17)
Известно, что в интервал (17) попадает не менее 95% значений случайной величины (следует из свойств нормального распределения).
Если
, (18)
то элемент из выборки считается корректно полученным и оставляется в выборке (13), где – квантор принадлежности;
если
, (19)
элемент считается аномальным и исключается из выборки ( – квантор существования).
При наличии аномальных элементов оценки математического ожидания и дисперсии пересчитываются без учета того, что исключается.
5. Характеристики качества оценивания математического ожидания.
Следует иметь в виду, что справедливы равенства
, (20)
где – дисперсия оценки математического ожидания.
Выражение (20) означает, что дисперсия оценки математического ожидания случайной величины в n раз меньше дисперсии самой случайной величины. Равенство вида (20) выполняется и для оценок дисперсий.
Из (20) следует и равносильное равенство:
, (21)
где – среднее квадратическое отклонение оценки математического ожидания.
Очевидно, что
.
5.1. При оценивании математического ожидания выражение (9) преобразуется с учетом (21) следующим образом:
. (22)
5.2. Соотношение (12) принимает вид
. (23)
Доверительная вероятность в виде (22) является количественной характеристикой надежности статистической оценки математического ожидания случайной величины (распределенной по нормальному закону) при заданной максимальной вероятной погрешности.
Максимальная вероятная погрешность вида (23) – это количественная характеристика точности статистической оценки математического ожидания случайной величины при заданной доверительной вероятности.
Пример.
Массив экспериментальных данных задан таблицей
№ пп
1
2
3
4
5
6
7
8
9
10
x
2,3
2,8
2,1
2,7
3,1
3,7
2,5
2,4
2,2
2,0
Найти оценку математического ожидания случайной величины и проверить качество оценивания при максимальной вероятной погрешности и доверительной вероятности .
1. Оценка математического ожидания (14):
.
2. Оценка дисперсии (15):
.
3. Оценка среднего квадратического отклонения (16):
.
4. Двухсигмовый интервал (17):
. (П1)
.
Элемент является аномальным (не попадает в интервал (П1)) и исключается из выборки.
Откорректированные оценки математического ожидания, дисперсии и среднего квадратического отклонения:
;
;
.
5. Характеристики качества оценивания математического ожидания.
5.1. Доверительная вероятность (22) при заданной максимальной вероятной погрешности :
.
Из приложения 2 следует, что
; .
Для того, чтобы найти , нужно выполнить интерполяцию. Пусть это будет линейная интерполяция методом Лагранжа (лекция 1, выражение (11)):
.
Таким образом
. (П2)
Доверительный интервал, соответствующий максимальной вероятной погрешности :
. (П3)
Математическое ожидание случайной величины (генеральной совокупности), из которой извлечена исследуемая выборка, находится в интервале (П3) с вероятностью не менее, чем (П2).
5.2. Максимальная вероятная погрешность (23) при заданной доверительной вероятности :
.
Значение функции найдено в приложении 4.
Доверительный интервал, соответствующий максимальной вероятной погрешности :
. (П4)
Математическое ожидание случайной величины (генеральной совокупности), из которой извлечена исследуемая выборка, находится с доверительной вероятностью не менее, чем 0,84 в интервале (П4).