Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
МАТЕМАТИКА. МОДУЛЬ 2. ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. ЧАСТЬ 2.
ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ.
ВАРИАЦИОННЫЕ РЯДЫ И ИХ ХАРАКТЕРИСТИКИ.
Задачи математической статистики.
Математическая статистика возникла (XVII) и развивалась параллельно с теорией вероятностей. Развитие математической статистики связывают с именами П.Л. Чебышева, А.А. Маркова, А.М. Ляпунова, К. Гаусса, А. Кетле, К. Пирсона, В.И. Романовского, Р. Фишера и других.
Современную математическую статистику определяют как науку о принятии решений в условиях неопределенностей. Задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.
Основные понятия и определения математической статистики.
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты.
Генеральной совокупностью называется совокупность объектов, подлежащая изучению.
Генеральную совокупность можно изучать путем сплошного наблюдения ее объектов (элементов) или некоторой части, которую называют выборочной совокупностью или выборкой.
Если из генеральной совокупности извлечена выборка, состоящая из п чисел (при этом п называется объемом выборки), в которой число х1 повторяется п1 раз, число х2 – п2 раза,…, число хk – nk раз (то есть выборка содержит k различных значений случайной величины), то числа xi называются вариантами, соответствующие им ni – частотами. При этом вместо абсолютных частот ni можно задавать относительные частоты .
Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.
Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.
Вариационным рядом называется ранжированный в порядке возрастания (или убывания) ряд вариантов с соответствующими им частотами. Задание выборочной совокупности в виде таблицы называют статистическим рядом распределения.
В зависимости от того, какие значения может принимать признак статистической совокупности вариационные ряды делят на дискретные и интервальные. Для дискретных рядов варианты принимают конкретные значения, в случае интервальных рядов значение признака (варианта) изменяются непрерывно в некотором интервале.
Для построения интервального вариационного ряда необходимо определить величину интервала и сгруппировать результаты наблюдений.
Число интервалов вычисляется по формуле:
.
Ширина интервала по формуле:
.
Для графического изображения вариационных рядов используют полигон, гистограмму, кумулятивную кривую.
Гистограмма – столбчатая диаграмма, состоящая из прямоугольников, основания которых – частичные интервалы длины h, а высоты – плотности абсолютных или относительных частот. При этом общая площадь гистограммы абсолютных частот равна объему выборки, а гистограммы относительных частот – единице.
Полигон – ломанная, в которой концы отрезков прямой имеют координаты (хi,ni).
Кумулятивная кривая – кривая накопленных частот (частностей).
Числовые характеристики вариационных рядов.
Средние величины.
1. Среднее арифметическая (выборочная средняя) ().
Средней арифметической вариационного ряда называется сумма произведений всех вариантов на соответствующие частоты, деленная на сумму частот.
, , k – число интервалоа.
Для дискретных вариационных рядов: варианты, их частоты.
Для интервальных рядов: середины соответствующих интервалов, их частоты.
Для несгруппированного ряда все частоты ni = 1, а
есть «невзвешенная» средняя арифметическая.
Свойства средней арифметической:
1. Средняя арифметическая постоянной равна самой постоянной.
2. Если все варианты увеличит (уменьшить) в одно и то же число раз, то средняя арифметическая увеличится (уменьшится) во столько же раз:
.
3. Если все варианты увеличить (уменьшить) на одно и то же число, то средняя арифметическая увеличится (уменьшится) на то же число:
.
4. Средняя арифметическая отклонения вариант от средней арифметической равна нулю:
.
5. Средняя арифметическая алгебраической суммы нескольких признаков равна такой же сумме средних арифметических этих признаков:
.
2. Мода ().
Модой вариационного ряда называется вариант, которому соответствует наибольшая частота.
Для дискретного вариационного ряда мода равна варианту с большей частотой.
Для интервального вариационного ряда.
Модальным называется интервал с наибольшей частотой.
- левый конец модального интервала.
- длина модального интервала.
- частота модального интервала.
- частота предмодального интервала
- частота интервала, следующего за модальным.
3. Медиана ().
Медианой вариационного ряда называется значение признака, приходящееся на середину ранжированного ряда наблюдений.
Для дискретного вариационного ряда:
Если для дискретного вариационного ряда n – нечетное число, то медиана равна варианте, приходящейся на середину этого ряда.
Если для дискретного вариационного ряда n – четное число, то медиана равна полусумме двух серединных вариант.
Для интервального вариационного ряда.
Медианным называется интервал, накопленная частота которого равна или превышает 0,5 суммы всех частот, чтобы найти накопленную частоту интервала нужно к его частоте прибавить частоты всех предшествующих интервалов
- левый конец медианного интервала.
- длина медианного интервала.
- частота медианного интервала.
Накопленная частота, предшествующего медианному,
Показатели вариации.
Средние величины не отражают изменчивости (вариации) значений признака.
1. Размах вариации.
Размах вариации равен разности между наибольшим и наименьшим вариантами ряда.
2. Среднее линейное отклонение.
Средним линейным отклонением вариационного ряда называется средняя арифметическая абсолютных величин отклонений вариантов от их средней арифметической.
Для дискретных вариационных рядов: варианты, их частоты.
Для интервальных рядов: середины соответствующих интервалов, их частоты.
3. Выборочная дисперсия.
Выборочной дисперсией вариационного ряда называется средняя арифметическая квадрата отклонений вариантов от их средней арифметической.
Для дискретных вариационных рядов: варианты, их частоты.
Для интервальных рядов: середины соответствующих интервалов, их частоты.
Свойства дисперсии.
1. Дисперсия постоянной равна нулю.
2. Если все варианты увеличить (уменьшить) в одно и то же число k раз, то дисперсия увеличится (уменьшится) в k2 раз.
3. Если все варианты увеличить (уменьшить) на одно и то же число k раз, то дисперсия не изменится.
4. Дисперсия равна разности между средней арифметической квадратов вариантов и квадратом средней арифметической.
5. Если ряд состоит из нескольких групп наблюдений, то общая дисперсия равна сумме средней арифметической групповых дисперсий и межгрупповой дисперсии.
- правило сложений дисперсий.
- общая дисперсия
- средняя арифметическая групповых дисперсий.
- межгрупповая дисперсия.
4. Среднее квадратическое отклонение.
Средним квадратическим отклонением S называется арифметическое значение квадратного корня из дисперсии.
5. Коэффициент вариации.
Коэффициентом вариации называется процентное отношение среднего квадратического отклонения к средней арифметической.
Если коэффициент вариации признака, принимающего только положительные значения, высок (например, более 100 %), то это свидетельствует о неоднородности значений признака.
6. Коэффициент ассиметрии.
Для дискретных вариационных рядов: варианты, их частоты.
Для интервальных рядов: середины соответствующих интервалов, их частоты.
Если =0, то распределение имеет симметричную форму, то есть варианты, равноудаленные от х, имеют одинаковую частоту. При >0 (<0) говорят о положительной (правосторонней) или отрицательной (левосторонней) ассиметрии.
7. Эксцесс.
Для дискретных вариационных рядов: варианты, их частоты.
Для интервальных рядов: середины соответствующих интервалов, их частоты.
Эксцесс является показателем «крутости» вариационного ряда по сравнению с нормальным распределением. Если >0 (<0), то полигон вариационного ряда имеет более крутую (пологую) вершину по сравнению с нормальной кривой.
8. Начальный момент порядка m.
Для дискретных вариационных рядов: варианты, их частоты.
Для интервальных рядов: середины соответствующих интервалов, их частоты.
Средняя арифметическая является начальным моментом первого порядка вариационного ряда.
9. Центральный момент порядка m.
Для дискретных вариационных рядов: варианты, их частоты.
Для интервальных рядов: середины соответствующих интервалов, их частоты.
Центральный момент первого порядка для любого распределения равен нулю, а второго порядка является дисперсией вариационного ряда.
Упрощенный способ расчета средней арифметической и дисперсии.
Вычисление средней арифметической и дисперсии вариационного ряда можно упростить, если использовать не первоначальные варианты xi, а новые варианты , где c и k специально подобранные постоянные.
Средняя арифметическая может быть вычислена по формуле:
Дисперсия может быть вычислена по формуле:
.
Формулы дадут заметное упрощение расчетов, если в качестве постоянной k взять величину (ширину) интервала по х, а в качестве c – середину серединного интервала. Формулы носят технический, вспомогательный характер.
ОСНОВЫ МАТЕМАТИЧЕСКОЙ ТЕОРИИ ВЫБОРОЧНОГО МЕТОДА
Общие сведения о выборочном методе.
Выборочный метод – основной метод, используемый в математической статистике – основан на том, что суждение о свойствах всей совокупности объектов (элементов, единиц), называемой генеральной совокупностью, выносят по некоторой ее части – выборочной совокупности или выборке. Выборка называется репрезентативной, если она достаточно хорошо воспроизводит генеральную совокупность.
Концепция выборки лежит в основе методологии математической статистики.
Преимущества выборочного метода по сравнению со сплошным:
- экономия всех видов ресурсов (материальных, трудовых, временных);
- снижение ошибок регистрации (расхождения между истинным и зарегистрированным значениями признака);
- является единственно возможным в случае бесконечной генеральной совокупности или в случае, когда исследование связано с уничтожением наблюдаемых объектов.
Недостаток выборочного метода по сравнению со сплошным:
ошибки репрезентативности (представительства), возникающие только за счет того, что исследуется не вся совокупность, а лишь выборка из нее.
Чтобы по данным выборки иметь возможность судить о генеральной совокупности, она должна быть отобрана случайно.
Виды выборок:
- собственно-случайная, образованная случайным выбором элементов без расчленения на части или группы;
- механическая выборка, в которую элементы из генеральной совокупности отбираются через определенный интервал. Например, если объем выборки составляет 10 %, то отбирается каждый 10 элемент.
- типическая, в нее случайным образом отбираются элементы из типических групп, на которые по некоторому признаку разбивается генеральная совокупность;
- серийная, в нее случайным образом отбираются не элементы, а целые группы совокупности, а сами серии подвергаются сплошному наблюдению.
Используют два способа образования выборки:
- повторный отбор, когда каждый элемент, случайно отобранный и обследованный, возвращается в общую совокупность и может быть отобран повторно;
- бесповторный отбор, когда отобранный элемент не возвращается в общую совокупность.
Математическая теория выборочного метода основывается на анализе собственно-случайной выборки.
Введем обозначения:
xi – значение признака (случайной величины);
N и n –объемы генеральной и выборочной совокупностей;
Ni и ni – число элементов генеральной и выборочной совокупностей со значением признака xi;
M и m – число элементов генеральной и выборочной совокупностей, обладающих данным признаком.
Характеристики генеральной совокупности и выборки.
Наименование характеристики
Генеральная совокупность
Выборка
Средняя
Дисперсия
Доля
Теоретическую основу применимости выборочного метода составляет закон больших чисел, согласно которому при неограниченном увеличении объема выборки практически достоверно, что случайные выборочные характеристики как угодно близко приближаются к определенным параметрам генеральной совокупности.
Важнейшей задачей выборочного метода является оценка параметров генеральной совокупности по данным выборки.
Понятие оценки параметров.
Проблемы статистических выводов традиционно делятся на проблемы оценивания и проверку гипотез. Главное различие между этими двумя проблемами состоит в том, что при оценивании мы должны определить величину параметра или нескольких параметров. В то время как при проверке гипотез мы должны решить: принять или отвергнуть специфическую величину (или ряд специфических величин) параметра или нескольких параметров.
В общем виде задача оценки параметров формулируется следующим образом.
Пусть распределение признака Х - генеральной совокупности - задается функцией вероятности f(xi, θ) = P(X=xi) для дискретной случайной величины или плотностью вероятностей f(x, θ) для непрерывной случайной величины, которая содержит неизвестный параметр θ.
Для вычисления параметра θ используют выборку x1, x2, ..., xn, каждая из которых имеет один и тот же закон распределения, что и признак Х.
Оценкой θn параметра θ называют всякую функцию результатов наблюдений (иначе - статистику), с помощью которой делают вывод о значении параметра θ:
θn = θn(x1, x2, ..., xn).
Так как x1, x2, ..., xn - случайные величины, то и оценка θn является случайной величиной, которая зависит от закона распределения и объема выборки n. Оцениваемый параметр θ является постоянной величиной.
Всегда существует множество функций от результатов наблюдений x1, x2, ...xn, которые можно предложить в качестве оценки параметра θ. Например, для математического ожидания в качестве оценки θn по выборке можно взять среднюю арифметическую результатов наблюдений , моду M0, медиану Me и т. д.
Так как θn - случайная величина, то невозможно предсказать индивидуальное значение оценки в данном частном случае. Поэтому о качестве оценки следует судить не по ее индивидуальным значениям, а по распределению ее значений при достаточно большом числе испытаний, т. е. по выборочному распределению оценки.
Cвойства оценок:
1. Оценка θn параметра θ называется несмещенной, если ее математическое ожидание равно оцениваемому параметру, т. е. M(θn) = θ.
В противном случае оценка называется смещенной. Если это равенство не выполняется, то оценка θn, полученная по разным выборкам, будет либо завышать θ, если M(θn) > θ, либо занижать его, если M(θn) < θ. Таким образом, требование несмещенности гарантирует отсутствие систематических ошибок при оценивании.
2. Оценка θn параметра θ называется состоятельной, если она удовлетворяет закону больших чисел, т. е. сходится по вероятности к оцениваемому параметру
Если оценка состоятельна, то практически достоверно, что при достаточно большом n θn ≈ θ.
3. Несмещенная оценка θn параметра θ является эффективной, если она имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра θ, вычисленных по выборкам одного и того же объема n. Так как для несмещенной оценки M(θn – θ)2 есть дисперсия , то эффективность является решающим свойством, определяющим качество оценки.
В качестве статистических оценок параметров генеральной совокупности желательно использовать оценки, удовлетворяющие одновременно требованиям несмещенности, состоятельности и эффективности.
4. Оценка θn параметра θ является достаточной, если при заданном ее значении распределение наблюдения Х не зависит от параметра θ. Иначе, оценка θn обеспечивает оценку параметра без потери информации, содержащейся в выборке.
Однако на практике не всегда оценки удовлетворяют всем трем требованиям. Может оказаться, что даже если эффективная оценка существует, то формулы для ее вычисления оказываются слишком сложными, и тогда используют оценку, дисперсия которой несколько больше. Иногда, в интересах простоты расчетов, применяются незначительно смещенные оценки. Выбору оценки всегда должно предшествовать ее критическое рассмотрение.
Свойства оценок.
Параметр
(генеральная характеристика)
Оценка
(выборочная характеристика)
Свойства оценки
несме-щенная
состоя-тель-ная
эффек-тивная
доста-точная
Средняя
Да
Да
Да
Да
Дисперсия
- исправленная выборочная дисперсия
Нет
Да
Да
Да
Нет
Да
Да
Да
Доля
Да
Да
Да
Да
Мода
М0(Х)
Да
Да
Нет
Нет
Медиана
Ме(Х)
Да
Да
Нет
Нет
Понятие о точечной оценке.
Выборочная характеристика, используемая в качестве приближенного значения неизвестной генеральной характеристики, называется ее точечной статистической оценкой.
"Точечная" означает, что оценка представляет собой число или точку на числовой оси.
Точечные оценки могут быть получены с использованием метода моментов, метода максимального правдоподобия и метода наименьших квадратов.
Метод моментов (предложил К.Пирсон) состоит в том, что выборочные моменты приравниваются к теоретическим моментам распределения.
Метод максимального правдоподобия (предложил Р. Фишер). Основу метода составляет функция правдоподобия, выражающая плотность вероятности совместного появления результатов выборки x1, x2, ..., xn,
.
Согласно методу максимального правдоподобия в качестве оценки неизвестного параметра θ принимается такое значение θn, которое максимизирует функцию L.
Нахождение оценки θn упрощается, если максимизировать не саму функцию L, а ln L, так как максимум обеих функций достигается при одном значении θ.
Для отыскания оценки параметра θ необходимо решить систему уравнений правдоподобия, получаемую приравниванием производных по параметру нулю:
, а затем отобрать то решение, которое обращает функцию ln L в максимум.
Метод наименьших квадратов. Метод наименьших квадратов является частным случаем метода максимального правдоподобия и заключается в том, что оценка определяется из условия минимизации суммы квадратов отклонений выборочных данных от определяемой оценки.
Оценка θn определяется из условия минимизации суммы
.
Метод наименьших квадратов получил широкое применение в практике, так как хорошо разработан в плане вычислительной реализации.
Понятие об интервальных оценках.
Вычисляя на основании результатов наблюдений точечную оценку θn неизвестного генерального параметра θ, мы понимаем, что оценка θn является приближенным значением θ. Если для большого объема выборки точность приближения бывает достаточной, то для выборок малого объема вопрос о точности оценок очень важен. В математической статистике он решается следующим образом.
По выборке находится точечная оценка θn неизвестного θ. Затем задаются вероятностью P = 1 – α и по определенным правилам находят число ε > 0, чтобы выполнялось соотношение или
. (1)
Из приводимых соотношений видно, что абсолютная погрешность оценки θn не превосходит числа ε. Это утверждение верно с вероятностью P = 1 – α. Число ε называется точностью оценки θ.
Интервальной оценкой параметра θ называется числовой интервал , который с заданной вероятностью 1 – α накрывает значение параметра θ.
Числа θn – ε, θn + ε называются доверительными границами, интервал (θn – ε, θn + ε) - доверительным интервалом.
Вероятность P = 1 – α называется доверительной вероятностью, или надежностью интервальной оценки. Величина α называется уровнем значимости. Доверительные границы могут изменяться при изменении объема выборки, кроме того, они могут изменяться при изменении вероятности P = 1 – α. При этом чем шире интервал, тем точность оценивания хуже. Генеральная характеристика θ - постоянная величина.
Соотношение (1) следует читать так: вероятность того, что θn – ε, θn + ε накроет характеристику θ, равна P = 1 – α.
На рис. 1 друг над другом изображены доверительные интервалы для параметра θ, построенные для разных выборок; центры интервалов - это выборочные значения оценки θn.
Надежность принято выбирать равной 0.95, 0.99, 0.999, соответственно уровень значимости α = 0.05, 0.01, 0.001. В приведенном соотношении (1) доверительные границы симметричны относительно точечной оценки θn. Рассмотренные доверительные интервалы являются двусторонними. На практике не всегда доверительные интервалы являются симметричными, кроме того, не всегда являются двусторонними. В этом случае они называются односторонними.
Рис. 1
Ошибка ε является ошибкой репрезентативности (представительства) выборки. Она возникает только вследствие того, что исследуется не вся совокупность, а лишь часть ее (выборка) отобранная случайным образом.
Построение доверительного интервала для генеральной средней и генеральной доли по большим выборкам.
Для построения доверительных интервалов для параметров генеральных совокупностей могут быть реализованы два подхода, основанных на знании точного (при данном объеме выборки n) или асимптотического распределения выборочных характеристик.
Теорема. Вероятность того, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превзойдет число Δ>0 (по абсолютной величине), равна:
(1)
(2)
Ф(t) – функция (интеграл вероятностей) Лапласа.
Формулы (1) и (2) получили название формул доверительной вероятности для средней и доли.
Среднее квадратическое отклонение выборочной средней и выборочной доли собственно-случайной выборки называется средней квадратической (стандартной) ошибкой выборки (для бесповторной выборки , ).
Из рассмотренной теоремы вытекают следующие следствия.
Следствие 1.
При заданной доверительной вероятности предельная ошибка выборки равна t-кратной величине средней квадратической ошибки, где Ф(t)= , т.е.
(3)
(4)
Следствие 2.
Интервальные оценки (доверительные интервалы) для генеральной средней и генеральной доли могут быть найдены по формулам:
(5)
(6)
Формулы средний квадратических ошибок выборки
Оцениваемый параметр
Повторная выборка
Бесповторная выборка
Средняя
(7)
(8)
Доля
(9)
(10)
Пример 1. При обследовании выработки 1000 рабочих цеха в отчетном году по сравнению с предыдущим по схеме собственно-случайной выборки было отобрано 100 рабочих. Необходимо определить: а) вероятность того, что средняя выработка рабочих цеха отличается от средней выборочной не более, чем на 1 % (по абсолютной величине); б) границы, в которых с вероятностью 0,9545 заключена средняя выработка рабочих цеха. Рассмотреть случаи повторной и бесповторной выборки. Известно: .
Решение.
а) найдем среднюю квадратическую ошибку выборки для средней:
для повторной выборки по (7)
для бесповторной выборки по (8)
Теперь искомую доверительную вероятность находим по (1):
для повторной выборки
для бесповторной выборки
Значение Ф(t) находим по таблице приложения II.
б) найдем предельные ошибки повторной и бесповторной выборок по формуле (3), в которой t=2,00 (находим по таблице приложения II при данной в условии доверительной вероятности из соотношения ).
для повторной выборки
для бесповторной выборки
Пример 2. Из партии, содержащей 2000 деталей, для проверки по схеме собственно-случайной бесповторной выборки было отобрано 200 деталей, среди которых оказалось 184 стандартных. Найти: а) вероятность того, что доля нестандартных деталей во всей партии отличается от полученной доли в выборке не более чем на 0,02 (по абсолютной величине); б) границы, в которых с надежностью 0,95 заключена доля нестандартных деталей во всей партии.
Решение.
N = 2000, n = 200, m=200-184=16 нестандартных деталей. Выборочная доля нестандартных .
а) по (10) найдем среднюю квадратическую ошибку бесповоторной выборки для доли:
по (2) найдем доверительную вероятность
Значение Ф(t) находим по таблице приложения II.
б) учитывая, что и (по таблице) t = 1,96, найдем предельную ошибку выборки для доли (по 4) . Искомый доверительный интервал определяем (по 6) , .
Объем выборки.
Для проведения выборочного наблюдения важно правильно установить объем выборки n, который в значительной степени определяет необходимые при этом временные, трудовые и стоимостные затраты. Для определения n необходимо задать надежность (доверительную вероятность) оценки и точность (предельную ошибку выборки) .
Формулы объема.
Оцениваемый параметр
Повторная выборка
Бесповторная выборка
Генеральная
средняя
(11)
(12)
Генеральная доля
(13)
(14)
Если найден объем повторной выборки n, то объем соответствующей бесповторной выборки можно определить по формуле:
(15).
По условию примера определить объем выборки, при котором с вероятностью 0,9973 отклонение средней выработки рабочих в выборке от средней выработки всех рабочих цеха не превзойдет 1% (по абсолютной величине).
и (по таблице приложения II) t = 3,00, найдем объем повторной выборки по (11) . Объем бесповторной выборки по (12): .
Или по формуле .
Если генеральная совокупность бесконечная (N=), либо объем бесповторной выборки значительно меньше объема генеральной совокупности , расчеты средних квадратических ошибок (для средней и доли) и необходимого объема бесповторной выборки следует проводить по соответствующим формулам для повторной выборки.
Построение доверительного интервала для генеральной доли по малой выборке.
Задача построения доверительного интервала для генеральной средней может быть решена, если в генеральной совокупности рассматриваемый признак имеет нормальное распределение.
Формула доверительной вероятности для малой выборки может быть представлена в равносильном виде:
,
- предельная ошибка малой выборки.
Вероятность можно найти приближенно, используя таблицу приложений IV, в котором указаны значения , полученные из условия .
Доверительный интервал для генеральной средней, находится по формуле:
Пример.
Для контроля срока службы электроламп из большой партии было отобрано 17 электроламп. В результате испытаний оказалось, что средний срок службы отобранных ламп равен 980 ч., а среднее квадратическое отклонение их срока службы – 18 ч. Необходимо определить: а) вероятность того, что средний срок службы ламп во всей партии отличается от среднего срока службы отобранных для испытаний ламп не более чем на 8 ч. (по абсолютной величине); б) границы, в которых с вероятностью 0,95 заключен средний службы ламп во всей партии.
Решение.
n = 20, , s= 18 ч.
а) зная предельную ошибку малой выборки = 8 (ч), найдем :
Доверительная вероятность:
, находим по таблице значений .
Построение доверительного интервала для оценки математического ожидания случайной величины
Доверительный интервал для оценки математического ожидания случайной величины X с заданной надежностью в случае нормального закона распределения определяется на основе неравенств:
где t — значение аргумента функции Лапласа, получаемое из таблиц (см.Приложение 2), с учетом того, что Ф(t) = /2;
x— известное среднее квадратичное отклонение или его оценка;
n — объем выборки.
СТАТИСТИЧЕСКАЯ ГИПОТЕЗА И ОБЩАЯ СХЕМА ЕЕ ПРОВЕРКА
Проверка статистических гипотез.
Основные понятия и определения.
Статистической гипотезой называется предположение о виде неизвестного распределения случайной величины или о параметрах известного распределения. Наряду с проверяемой гипотезой (нулевой или основной) Но формулируется и противоречащая ей гипотеза (конкурирующая или альтернативная) Н1, которая принимается, если отвергнута нулевая гипотеза.
Гипотезы разделяются на простые (содержащие только одно предположение) и сложные (содержащие более одного предположения).
При проверке гипотезы могут быть допущены ошибки двух видов: ошибка первого рода, если отклонена верная нулевая гипотеза, и ошибка второго рода, если принята неверная нулевая гипотеза.
Для проверки статистической гипотезы используется специально подобранная случайная величина К с известным законом распределения, называемая статистическим критерием. Множество ее возможных значений разбивается на два непересекающихся подмножества: одно из них (критическая область) содержит значения критерия, при которых нулевая гипотеза отклоняется, второе (область принятия гипотезы) – значения К, при которых она принимается. Значения К, отделяющие критическую область от области принятия гипотезы, называются критическими точками kр. Критическая область может быть правосторонней (если она задается неравенством ), левосторонней () или двусторонней (). Для ее нахождения нужно задать вероятность ошибки первого рода α, называемую уровнем значимости, тогда, например, правосторонняя критическая область задается условием .
Таким образом, множество возможных значений статистики критерия (критической статистики) разбивается на два непересекающихся подмножества: критическую область (область отклонения гипотезы) W и область допустимых значений (область принятия гипотезы) . Если фактически наблюдаемое значение статистики критерия попадает в критическую область W, то гипотезу H0 отвергают. При этом возможны 4 случая.
Гипотеза H0
Принимается
Отвергается
Верна
Правильное решение
Ошибка 1-го рода
Неверна
Ошибка 2-го рода
Правильное решение
Порядок проверки статистической гипотезы:
1) задается уровень значимости α, выбирается статистический критерий К и вычисляется (обычно по таблицам для закона распределения К) значение kкр; определяется вид критической области;
2) по выборке вычисляется наблюдаемое значение критерия Кнабл;
3) если Кнабл попадает в критическую область, нулевая гипотеза отвергается; при попадании Кнабл в область принятия гипотезы нулевая гипотеза принимается.
По своему прикладному содержанию статистические гипотезы можно разделить на несколько основных типов:
- о равенстве числовых характеристик генеральных совокупностей;
- о числовых значениях параметров;
- о законе распределения;
- об однородности выборок (т.е. принадлежности их одной и той же генеральной совокупности);
- о стохастической независимости элементов выборки.
Рассмотрим способы проверки некоторых статистических гипотез.
Проверка гипотез о равенстве средних двух и более совокупностей.
Сравнение средних двух совокупностей имеет важное практическое значение. На практике часто встречается случай, когда средний результат одной серии экспериментов отличается от среднего результата другой серии. При этом возникает вопрос, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано некоторыми закономерностями. В промышленности задача сравнения средних часто возникает при выборочном контроле качества изделий, изготовленных на разных установках или при различных технологических режимах в финансовом анализе – при составлении уровня доходности различных активов.
Сформулируем задачу. Пусть имеются две совокупности, характеризуемые генеральными средними и и известными дисперсиями и . Необходимо проверить гипотезу о равенстве генеральных средних, то есть . Для проверки гипотезы из этих совокупностей взяты две независимые выборки объемов n1 и n2, по которым найдены средние арифметические и и выборочные дисперсии и .
Статистическим критерием для проверки этой гипотезы является нормированная нормально распределенная случайная величина
Вид критической области зависит от типа конкурирующей гипотезы:
а) Н1: – критическая область двусторонняя, tкр определяется как аргумент функции Лапласа, при котором . Если фактически наблюдаемое значение статистики t больше tкр, определенного на уровне значимости (по абсолютной величине), то есть > tкр, то делается вывод, что нулевая гипотеза H0 не противоречит имеющимся наблюдениям.
б) Н1: (Н1: ) критическая область правосторонняя (левосторонняя), tкр определяется как аргумент функции Лапласа, при котором . Если фактически наблюдаемое значение статистики t больше tкр, определенного на уровне значимости (по абсолютной величине), то есть > tкр, то делается вывод, что нулевая гипотеза H0 не противоречит имеющимся наблюдениям.
Будем теперь предполагать, что распределение признака (случайной величины) Х и У в каждой совокупности имеет нормальный закон. В этом случае, если дисперсии и известны, то проверка гипотезы проводится так же, как описано выше. Если дисперсии и неизвестны, но равны, = =, то в качестве неизвестной величины можно взять ее оценку – «исправленную» выборочную дисперсию. Однако «лучшей» оценкой для будет дисперсия «смешанной» совокупности объема n1+n2. В случае справедливости гипотезы H0 статистика:
имеет t-распределение Стьюдента с степенями свободы. Критическое значение статистики находится в зависимости от типа критической области, в которых вместо функции Лапласа Ф(t) берется функция для распределения Стьюдента при числе степеней свободы , то есть или .
Сохраняется то же правило опровержения (принятия) гипотезы: гипотеза H0 отвергается на уровне значимости , если (в случае односторонней критической области), либо если (в случае двусторонней критической области); в противном случае гипотеза H0 не отвергается (принимается).
Таким образом, критерии проверки гипотез о равенстве средних двух или более совокупностей можно представить в виде таблицы.
Нулевая гипотеза
Предполо-жения
Статистика критерия
Альтернативная гипотеза
Критерий отклонения гипотезы
известна
неизвестна
Проверка гипотез о равенстве долей признака в двух и более совокупностях.
Сравнение долей признака в двух совокупностях.
Сравнение долей признака в двух совокупностях – достаточно часто встречающаяся на практике задача. Например, если выборочная доля признака в одной совокупности отличается от такой же доли в другой совокупности, то указывает ли это на то, что наличие признака в одной совокупности действительно вероятнее, или полученное расхождение долей является случайным?
Сформулируем задачу. Имеются две совокупности, генеральные доли признака в которых равны соответственно p1 и p2, Необходимо проверить нулевую гипотезу о равенстве генеральных долей, то есть . Для проверки гипотезы Н0 из этих совокупностей взяты две независимые выборки достаточно большого объема n1 и n2. Выборочные доли признака равны соответственно и , где m1 и m2 – соответственно число элементов первой и второй выборок, обладающих данным признаком. Статистика:
имеет нормальное распределение.
В качестве неизвестного значения p, входящего в выражение статистики t, берут ее наилучшую оценку , равную выборочной доле признака, если две выборки смешать в одну, .
Выбор критической области и проверка гипотезы H0 осуществляется так же, как и при проверке гипотезы о равенстве средних.
Сравнение долей признака в нескольких совокупностях.
Пусть имеется l совокупностей, генеральные доли которых равны соответственно . Необходимо проверить нулевую гипотезу о равенстве генеральных долей, то есть или . Для проверки гипотезы H0 из этих совокупностей отобраны l независимых выборок достаточно больших объемов . Выборочные доли признака равны соответственно …, где mi – число элементов i-й выборки (i=1,2,…,l), обладающих данным признаком.
При справедливости гипотезы H0 и при статистика
имеет - распределение с l-1 степенями свободы.
В качестве неизвестного значения , берут наилучшую оценку для p, равную выборочной доле признака, если все l выборок смешать в одну, то есть .
Для проверки гипотезы H0 обычно берут правостороннюю критическую область. Гипотеза H0 отвергается, если , где - критическое значение критерия , определяемое на уровне значимости при числе степеней свободы l-1.
Таким образом, критерии проверки гипотез о равенстве долей признака в двух или более совокупностях можно представить в виде таблицы.
Нулевая гипотеза
Предполо-жения
Статистика критерия
Альтернативная гипотеза
Критерий отклонения гипотезы
Достаточно большие
n1 и n2
, где
Проверка гипотез о равенстве дисперсий двух и более совокупностей.
Сравнение дисперсий двух совокупностей.
Гипотезы о дисперсии возникают достаточно часто, так как дисперсия характеризует такие исключительно важные показатели, как точность машин, приборов, технологических процессов, степень однородности совокупностей, риск, связанный с отклонением доходности активов от ожидаемого уровня.
Сформулируем задачу.
Пусть имеются две независимые нормально распределенные совокупности объемов п1 и п2. Требуется по дисперсиям и проверить нулевую гипотезу о равенстве дисперсий: относительно конкурирующей или . Для оценки дисперсий и используются «исправленные» выборочные дисперсии и . Задачи проверки гипотез сводится к сравнению дисперсий и .
Критерием служит случайная величина , то есть отношение «исправленных» выборочных дисперсий, имеет распределение Фишера-Снедекора со степенями свободы k1 = n1 – 1 и k2 = n2 – 1. Критическая область зависит от вида конкурирующей гипотезы:
1) если , то критическая область правосторонняя:
Критическая точка находится по таблице критических точек распределения Фишера-Снедекора. Если нулевая гипотеза принимается, в противном случае – отвергается.
2) При конкурирующей гипотезе критическая область двусторонняя: При этом достаточно найти Тогда, если нет оснований отвергнуть нулевую гипотезу, если нулевую гипотезу отвергают.
По таблице F-критерия можно найти лишь правую границу (большую единицы), левую границу (меньшую единицы) находят из соотношения: . На практике обычно используется таблица значений F-критерия, в которой приведены значения . Это позволяет осуществить проверку гипотезы на 5%-ном и 1%-ном уровнях значимости при использовании односторонней критической области, и на 10%-ном и 2%-ном уровнях значимости при двусторонней критической области.
Сравнение дисперсий нескольких совокупностей.
Пусть имеется l нормально распределенных совокупностей, дисперсии которых равны соответственно и l независимых выборок из каждой совокупности объемов . Необходимо проверить нулевую гипотезу о равенстве дисперсий, то есть или (i=1,2,…l).
Для проверки гипотезы может быть использован критерий Бартлетта. Доказано, что при справедливости гипотезы и при условии, что статистика:
;
- исправленная выборочная дисперсия i-й выборки,
- оценка средней арифметической дисперсии имеет - распределение с l-1 степенями свободы. Поэтому гипотеза отвергается, если фактически наблюдаемое значение , где - критическое значение критерия , найденное на уровне значимости при числе степеней свободы l-1.
Таким образом, критерии проверки гипотез о равенстве дисперсий двух или более совокупностей можно представить в виде таблицы.
Нулевая гипотеза
Предполо-жения
Статистика критерия
Альтернативная гипотеза
Критерий отклонения гипотезы
неиз-вестны
или
Проверка гипотез о числовых значениях параметров.
Проверка гипотез о равенстве средних двух и более совокупностей
Гипотезы о числовых значениях встречаются в различных задачах. Пусть xi – значения некоторого параметра изделий, производящихся станком автоматической линии, и пусть a – заданное номинальное значение этого параметра. Каждое отдельное значение xi может, отклонятся от заданного номинала. Для того, чтобы проверить правильность настройки этого станка, надо убедится в том, что среднее значение параметра у производимых на нем изделий будет соответствовать номиналу, то есть проверить гипотезу против альтернативной , или , или .
При произвольной настройке станка может возникнуть необходимость проверки гипотезы о том, что точность изготовления изделий по данному параметру, задаваемая дисперсий , равна заданной величине , т.е. .
Аналогичные задачи могут возникнуть в финансовом анализе, когда по данным выборки надо установить, можно ли считать доходность актива определенного вида или портфеля ценных бумаг, либо ее риск равным заданному числу; или по результатам выборочной аудиторской проверки однотипных документов нужно убедится, можно ли считать процент допущенных ошибок равным номиналу.
В общем случае гипотезы подобного типа имеют вид , где - некоторый параметр исследуемого распределения, а - область его конкретных значений, состоящая в частном из одного значения.
Критерии проверки гипотез о числовых значениях
параметров нормального закона.
Нулевая гипотеза
Предположения
Статистика критерия
Альтернативная гипотеза
Критерий отклонения гипотезы
известна
неизвестна
неизвестно
Достаточно большие n
Критические значения статистик на уровне значимости определяют по соответствующим таблицам приложений исходя из соотношений:
;
;
.
Построение теоретического закона распределения по опытным данным.
Проверка гипотез о законе распределения и однородности выборок.
Для установления теоретического закона распределения случайной величины Х по опытным данным (эмпирическому распределению) необходимо определить вид и параметры закона распределения. Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Пусть необходимо проверить нулевую гипотезу H0 о том, что исследуемая случайная величина Х подчиняется определенному закону распределения. Для проверки гипотезы H0 выбирают некоторую случайную величину U, характеризующую степень расхождения теоретического и эмпирического распределения. Зная закон распределения U, можно найти такое критическое ее значение uкр, что вероятность мала. Поэтому, если наблюдаемое значение , гипотезу H0 отвергают, в противном случае H0 принимают.
С помощью критерия согласия (Пирсона) можно проверить гипотезу о различных законах распределения генеральной совокупности (равномерном, нормальном, показательном и др.) Для этого в предположении о конкретном виде распределения вычисляются теоретические частоты , и в качестве критерия выбирается случайная величина
,
имеющая закон распределения χ2 с числом степеней свободы k = m – 1 – r, где m – число частичных интервалов выборки, r – число параметров предполагаемого распределения. Критическая область выбирается правосторонней, и граница ее при заданном уровне значимости α находится по таблице критических точек распределения χ2.
Теоретические частоты вычисляются для заданного закона распределения как количества элементов выборки, которые должны были попасть в каждый интервал, если бы случайная величина имела выбранный закон распределения, параметры которого совпадают с их точечными оценками по выборке, а именно:
а) для проверки гипотезы о нормальном законе распределения = п ∙ Рi, где п – объем выборки, xi и xi + 1 – левая и правая границы i-го интервала, - выборочное среднее, s – исправленное среднее квадратическое отклонение. Поскольку нормальное распределение характеризуется двумя параметрами, число степеней свободы k = n – 3;
б) для проверки гипотезы о показательном распределении генеральной совокупности в качестве оценки параметра λ принимается . Тогда теоретические частоты = п ∙ Рi, . Показательное распределение определяется одним параметром, поэтому число степеней свободы k = n – 2;
в) для проверки гипотезы о равномерном распределении генеральной совокупности концы интервала, в котором наблюдались возможные
значения Х, оцениваются по формулам:
Тогда плотность вероятности
Число степеней свободы k = n – 3, так как равномерное распределение оценивается двумя параметрами.
Пример.
Для выборки, интервальный статистический ряд которой имеет вид
Номер интервала
Границы интервала
Эмпирические частоты
1
2 – 5
6
2
5 – 8
8
3
8 – 11
15
4
11 – 14
22
5
14 – 17
14
6
17 – 20
5
проверить при уровне значимости α = 0,05 гипотезу о:
а) показательном; б) равномерном; в) нормальном
законе распределения генеральной совокупности с помощью критерия Пирсона.
Решение.
Объем выборки п = 70. Будем считать вариантами середины частичных интервалов: х1 = 3,5, х2 = 6,5,…, х6 = 18,5.
Найдем = 11,43; σВ = 4,03; s = 4,05.
а) Вычислим теоретические частоты в предположении о показательном распределении генеральной совокупности при
аналогично Наблюдаемое значение критерия Критическая точка χ2(0,05;4)=9,5; и гипотеза о показательном распределении отклоняется.
б) Для равномерного распределения
теоретические частоты: Наблюдаемое значение критерия Критическая точка и гипотеза о равномерном распределении отклоняется.
в) Теоретические частоты для нормального распределения:
Так же вычисляются Наблюдаемое значение критерия Критическая точка Поскольку гипотеза о нормальном распределении генеральной совокупности принимается.
Критерий Колмогорова.
В качестве меры расхождения U берется максимальное значение модуля разности между эмпирической и соответствующей теоретической F(x) функциями распределения: .
Если , где - критическое значение критерия Колмогорова, определяемое из равенства , где , то гипотезу H0 отвергают на уровне значимости ; в противном случае ее принимают.
Гипотезы об однородности выборки.
Эти гипотезы о том, что рассматриваемые выборки извлечены из одной и той же генеральной совокупности.
В критерии Колмогорова-Смирнова в качестве статистики критерия берется величина , где и - эмпирические функции распределения, построенные по двум независимым выборкам объемов n1 и n2.
Гипотеза H0 об однородности двух выборок отвергается на уровне значимости , если при достаточно больших n1 и n2 , где - критическое значение критерия Колмогорова; в противном случае она принимается.
- критерий может применяться для проверки однородности двух или нескольких выборок. В качестве статистики критерия используется величина , где - число элементов j-й выборки, попавших в i-й интервал; ni (i=1,2,…,m) – число группировочных интервалов; l – число независимых выборок, ; ;
Гипотеза H0 об однородности l выборок отвергается на уровне значимости , если , в противном случае она принимается.
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ.
Функциональная, статистическая и корреляционная зависимость.
Функциональная зависимость – когда каждому значению одной переменной соответствует вполне определенное значение другой. Имеет место как между неслучайными переменными там и между случайными величинами.
Статистическая зависимость – когда каждому значению одной переменной соответствует определенное (условное) распределение другой переменной.
Статистическая зависимость между двумя переменными, при которой каждому значению одной переменной соответствует определенное условное математическое ожидание ( среднее значение) другой, называется корреляционной.
Корреляционная зависимость может быть представлена в виде:
(1) или (2).
(1) – модельное уравнение регрессии У по Х (или просто уравнение регрессии), (2) – модельное уравнение регрессии Х по У (или просто уравнение регрессии), - модельные функции регрессии (функции регрессии), их графики называются – модельные линии регрессии (линии регрессии).
(3)
(3)- выборочное уравнение регрессии У по Х, ух – условная (групповая) средняя переменной У при фиксированном значении переменной Х=х; - параметры кривой.
(4)
(4)- выборочное уравнение регрессии Х по У, ху – условная (групповая) средняя переменной Х при фиксированном значении переменной У=у; - параметры кривой.
Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными. Основной задачей корреляционного анализа – выявление связи между случайными переменными и оценка ее тесноты.
Линейная парная регрессия.
Данные о статистической зависимости задают в виде корреляционной таблицы.
Изображение статистической зависимости называется полем корреляции.
(1) – групповые средние для каждого значения хi , nij – частоты пар (хi,уj) и , m – число интервалов по переменной Y.
(2) – групповые средние для каждого значения уj , nj– частоты пар (хi,уj) и , l – число интервалов по переменной Х.
Линейная парная регрессия.
Для каждого значения , то есть для каждой строки корреляционной таблицы можно вычислить групповые средние , где - частота пар , , m – число интервалов по переменной У. Вычисленные групповые средние обычно помещают в последнем столбце корреляционной таблицы. Их можно изобразить в виде ломанной, называемой эмпирической линией регрессии У по Х.
Для каждого значения , то есть для каждого столбца корреляционной таблицы можно вычислить групповые средние , где - частота пар , , l – число интервалов по переменной Х. Вычисленные групповые средние обычно помещают в последней строке корреляционной таблицы. Их можно изобразить в виде ломанной, называемой эмпирической линией регрессии Х по У.
Уравнения регрессии имеют вид:
Y по X
X по Y
- коэффициенты регрессии.
, .
- выборочные дисперсии.
,
- средние.
, .
- выборочный корреляционный момент.
.
Если данные не сгруппированы в виде корреляционной таблицы и представляют n пар чисел , то для вычисления коэффициентов регрессии и корреляции в соответствующих формулах следует взять .
Коэффициент корреляции.
Величина, являющаяся показателем тесноты линейной связи, называется выборочным коэффициентом корреляции (коэффициентом корреляции).
Если , то корреляционная связь между переменными называется прямой, если - обратной.
Свойства коэффициента корреляции.
1. Коэффициент корреляции принимает значение на отрезке . В зависимости от того, насколько приближается к 1, различают связь слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную .
2. Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.
3. При корреляционная связь представляет линейную функциональную зависимость.
4. При r=0 линейная корреляционная связь отсутствует. При этом групповые средние переменные совпадают с их общими средними, а линии регрессии Y по X X по Y параллельны осям координат.
Проверка значимости и интервальная оценка параметров связи.
Пусть вычисленное значение . Возникает вопрос, объясняется ли это действительно существующей линейной корреляционной связью между переменными Х и У в генеральной совокупности или является следствием случайности отбора переменных в выборку. Обычно в этих случаях проверяется гипотеза об отсутствии линейной корреляционной связи между переменными в генеральной совокупности, то есть против альтернативной гипотезы . При справедливости этой гипотезы статистика имеет t-распределение Стьюдента с степенями свободы. Поэтому гипотеза отвергается, то есть выборочный коэффициент корреляции r существенно отличается от 0, если , где - табличное значение t-критерия Стьюдента, определенное на уровне значимости при числе степеней свободы .