«Статистическая гипотеза»

Конспект лекции по дисциплине «Статистическая гипотеза», doc

Загружаем конспект в формате doc

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Статистическая гипотеза», Word формат

Рассмотрим, что называется статистической гипотезой и как её проверяют. Для этого введём новые понятия. 1) Генеральная и выборочная совокупности. Пусть требуется изучить совокупность объектов относительно некоторого признака, например, рассматривая работу продавца (диспетчера, парикмахера), можно исследовать его загруженность, тип клиентов, скорость обслуживания, моменты поступления заявок и т.д. Каждый такой признак образует СВ, над которой производят наблюдения. Генеральной совокупностью называется совокупность всех подлежащих изучению объектов или совокупность возможных результатов всех мыслимых наблюдений, производимых в неизменных условиях над одним объектом. Зачастую проводить сплошное обследование, при котором изучаются все объекты, (например, перепись населения), трудно, экономически нецелесообразно или невозможно. В этих случаях выбирают для изучения отобранную случайным образом из генеральной совокупности часть объектов − выборку. Количество отобранных объектов (наблюдений) называется объёмом выборки. В статистике выборкой называется последовательность независимых одинаково распределённых СВ, распределение каждой из которых совпадает с распределением генеральной совокупности, – объём выборки. Конкретные значения выборки, полученные в результате наблюдений (испытаний), называют реализацией выборки и обозначают . Статистической гипотезой называется любое предположение о генеральной совокупности, которое можно проверить по выборке. Статистические гипотезы делятся на две группы: • гипотезы о параметрах известного закона распределения (параметрические гипотезы); • гипотезы о виде неизвестного закона распределения (непараметрические гипотезы). Задача проверки статистической гипотезы заключается в том, чтобы сформулировать правило анализа экспериментальных данных (т.е. выборки) и принятия решения о том, верна или нет выдвинутая гипотеза. Это правило называется критерием или критерием значимости. Обычно одновременно рассматривают две взаимоисключающие гипотезы. Более правдоподобную из них называют основной и обозначают , вторую называют конкурирующей или альтернативной и обозначают . Чаще всего конкретностью отличается , а гипотеза означает отрицание . Поскольку гипотеза проверяется по результатам случайной выборки, имеется риск принять неправильное решение. • Ошибка первого рода состоит в том, что отвергается правильная гипотеза и принимается ложная альтернативная гипотеза . Вероятность ошибки первого рода называется уровнем значимости критерия и обозначается буквой . • Ошибка второго рода состоит в том, что принимается ложная гипотеза , когда на самом деле верна альтернативная . Вероятность ошибки второго рода обозначается буквой , вероятность НЕ допустить ошибку второго рода (она равна ) называется мощностью критерия. Таким образом, вероятность принять правильную гипотезу равна мощности критерия . Рассмотренные случаи наглядно иллюстрирует следующая таблица: Пример. На склад поступила партия изделий. Из нее отбирают часть изделий для проверки на брак. Гипотеза : доля бракованных изделий в партии невелика, и партию можно принять. Предположим вначале, что в выбранных изделиях доля бракованных была велика, и по результатам выборочного контроля всю партию забраковали. Однако, есть вероятность, что проверяющему случайно попались именно плохие изделия, и на самом деле партию надо было принять, потому что остальные изделия не содержат брака. В этом случае была допущена ошибка первого рода, т.е. отклонили верную гипотезу (отвергли хорошие изделия). Теперь предположим, что в выбранных изделиях доля бракованных была невелика, и по результатам выборочного контроля партию приняли. Однако, есть вероятность, что проверяющему случайно попались именно хорошие изделия, и на самом деле партию надо было забраковать. В этом случае была допущена ошибка второго рода, т.е. принята ложная гипотеза . Желательны небольшие значения вероятностей ошибок как первого, так и второго рода, однако, расчёты показывают, что, добиваясь уменьшения , мы при применении критерия будем чаще отдавать предпочтение гипотезе в ущерб гипотезе и увеличим значение . Одновременно увеличить мощность критерия и уменьшить уровень значимости можно только за счет увеличения объема выборки, потому что только при этом условии выборочные значения показателей будут более точно отражать истинные характеристики распределения, а вероятность случайных отклонений уменьшится. Поэтому при построении критерия обычно задают только предельно допустимое значение , а потом, если есть такая возможность, добиваются наименьшей величины для . Последствия ошибок первого и второго рода могут быть совершенно различными: в одних случаях надо минимизировать , в других – . Так, применительно к радиолокации говорят, что – вероятность пропуска сигнала, – вероятность ложной тревоги; применительно к производству (торговле) можно сказать, что – риск поставщика (т.е. браковка по выборке всей партии изделий, удовлетворяющих стандарту), – риск потребителя (т.е. приём по выборке всей партии изделий, не удовлетворяющих стандарту); применительно к судебной системе, ошибка первого рода приводит к оправданию виновного, ошибка второго рода – к осуждению невиновного. Опишем общую схему проверки гипотез. Она включает в себя 4 этапа. • Первый этап. Выдвигаются гипотезы и и задаётся уровень значимости. Если заранее имеются серьёзные аргументы в пользу гипотезы , то отвергать её следует только в случае резкого несоответствия ей опытных данных, т.е следует выбрать маленькое значение (например, 0.05, 0.01). Если же и гипотеза достаточно правдоподобна, то выбирается побольше, чтобы уменьшить значение . • Второй этап. Как основа анализа экспериментальных данных выбирается функция выборки , называемая статистикой. Эта функция должна характеризовать расхождение между данными выборки и проверяемой гипотезой. За статистику можно принимать разность между оценками каких-либо параметров закона распределения и их значениями при проверяемой статистической гипотезе, разность между выборочной и генеральной функциями распределения и т.д. Распределение этой статистики при условии справедливости гипотезы должно быть известно. Желательно, чтобы оно было известно также при верной гипотезе и между этими двумя распределениями имелись существенные различия – тогда значения статистики h при верной гипотезе , как правило, будут отличаться от её значений при верной гипотезе . Это основной этап при построении критерия, поэтому часто статистику h также называют критерием. • Третий этап. Вся область возможных значений статистики h (обычно это числовая ось) разбивается на 2 непересекающиеся части: область допустимых значений O и критическую область W. Если гипотеза верна, то область O – это множество наиболее вероятных значений статистики h, а область W – маловероятных,. Более точно: вероятность попадания статистики h в критическую область W в случае верной гипотезы должна равняться уровню значимости , вероятность попадания при этом в область допустимых значений O будет 1-. • Четвёртый этап. Формулируется правило принятия решения: если вычисленное по результатам опыта значение статистики , то гипотеза принимается; если , то гипотеза отвергается. Обычно принятие гипотезы формулируется в менее категоричной форме: экспериментальные данные не противоречат основной гипотезе . Дело в том, что категоричные утверждения, основанные на результатах случайного эксперимента и применении одного критерия не очень уместны. Критерии значимости, т.е правила проверки гипотезы, обычно формулируют в виде неравенств для статистики . 1. Правосторонним называют критерий вида (1) Здесь – критическое максимально допустимое значение статистики. 2. Левосторонний критерий имеет вид: (2) 3. Двусторонний критерий имеет вид: (3) Значение находят с помощью таблиц соответствующего закона распределения. После того, как критическая точка найдена, по данным выборки вычисляют наблюдаемое значение статистики h. Например, в случае правостороннего критерия (1), если оказалось, что , то это означает, что произошло практически невозможное при справедливости гипотезы событие, имевшее маленькую вероятность . Следовательно, гипотезу нужно отвергнуть. При скажем, что не противоречит опытным данным. Проверка гипотезы о виде закона распределения Часто закон распределения исследуемой генеральной совокупности неизвестен и требуется по выборке проверить гипотезу о согласии выборочной функции распределения с предполагаемой функцией распределения этой совокупности . Проверяем гипотезу : при конкурирующей гипотезе : . Используем так называемый критерий согласия Пирсона, который чаще всего применяют в этом случае. Поступаем следующим образом. 1. По выборке достаточно большого объёма () оцениваем неизвестные параметры распределения, если таковые имеются. Обозначим количество таких параметров k. 2. Область возможных значений измеряемой с.в. Х разобьём на непересекающиеся части , желательно, чтобы в каждую попало не менее 5 элементов выборки. Подсчитываем количество элементов , попавших в . 3. Находим теоретические вероятности попадания измеряемой с.в. в при условии, что верна. Для этого используем предполагаемую функцию распределения . 4. Вычисляем предложенную Пирсоном статистику . (4) Пирсон доказал, что при большом объёме выборки эта статистика имеет распределение, называемое «распределением с степенями свободы» (читается – распределение хи-квадрат , для него составлены таблицы, имеющиеся в любой справочной литературе). 5. Выбираем уровень значимости и по таблицам для известного значения r находим критическое значение , удовлетворяющее равенству: . Критическая область ; при гипотезу отвергаем, в противном случае говорим, что не противоречит опытным данным. Пример. Рассмотрим в качестве примера гипотезу о том, что игральная кость «хорошая», т.е. выпадение любого числа очков равновероятно. Для проверки производим 60 бросаний. Результаты опытов занесём в таблицу, обозначив – количество выпадений i очков, i = 1, 2, …, 6 . Роль выполняет количество выпавших очков. Если верна гипотеза , то теоретическая вероятность выпадения i очков одинакова для всех значений i и равна . Выбираем уровень значимости =0.05. В нашем случае никаких оценок параметров распределения по выборке мы не ищем, поэтому k = 0; имеем 6 непересекающихся частей , т.е. , . По таблицам распределения для =0.05 и находим . По выборке вычисляем значение статистики (4): Поскольку оказалось, что (14.8 > 11.1), гипотезу отвергаем, кость «плохая».

Статистическая гипотеза

Тебе могут подойти лекции

Статистические гипотезы