Справочник от Автор24
Поделись лекцией за скидку на Автор24

Основные свойства статистических характеристик параметров распределения. Построение доверительных интервалов

  • 👀 239 просмотров
  • 📌 222 загрузки
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Основные свойства статистических характеристик параметров распределения. Построение доверительных интервалов» pdf
Основные свойства статистических характеристик параметров распределения Получив статистические оценки параметров распределения (выборочное среднее, выборочную дисперсию и т.д.), нужно убедиться, что они в достаточной степени служат приближением соответствующих характеристик генеральной совокупности. Определим требования, которые должны при этом выполняться. Пусть Θ* - статистическая оценка неизвестного параметра Θ теоретического распределения. Извлечем из генеральной совокупности несколько выборок одного и того же объема п и вычислим для каждой из них оценку параметра Θ: 1* , *2 ,..., *k . Тогда оценку Θ* можно рассматривать как случайную величину, принимающую возможные значения 1* , *2 ,..., *k . Если математическое ожидание Θ* не равно оцениваемому параметру, мы будем получать при вычислении оценок систематические ошибки одного знака (с избытком, если М( Θ*) >Θ, и с недостатком, если М(Θ*) < Θ). Следовательно, необходимым условием отсутствия систематических ошибок является требование М(Θ*) = Θ. Статистическая оценка Θ* называется несмещенной, если ее математическое ожидание равно оцениваемому параметру Θ при любом объеме выборки: М(Θ*) = Θ. (17.1) Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру. Однако несмещенность не является достаточным условием хорошего приближения к истинному значению оцениваемого параметра. Если при этом возможные значения Θ* могут значительно отклоняться от среднего значения, то есть дисперсия Θ* велика, то значение, найденное по данным одной выборки, может значительно отличаться от оцениваемого параметра. Следовательно, требуется наложить ограничения на дисперсию. Статистическая оценка называется эффективной, если она при заданном объеме выборки п имеет наименьшую возможную дисперсию. При рассмотрении выборок большого объема к статистическим оценкам предъявляется еще и требование состоятельности. Состоятельной называется статистическая оценка, которая при п→∞ стремится по вероятности к оцениваемому параметру (если эта оценка несмещенная, то она будет состоятельной, если при п→∞ ее дисперсия стремится к 0). Убедимся, что х В представляет собой несмещенную оценку математического ожидания М(Х). Будем рассматривать х В как случайную величину, а х1, х2,…, хп, то есть значения исследуемой случайной величины, составляющие выборку, – как независимые, одинаково распределенные случайные величины Х1, Х2,…, Хп, имеющие математическое ожидание а. Из свойств математического ожидания следует, что  Х  Х 2  ...  Х п  М (Х В )  М  1   а. п   Но, поскольку каждая из величин Х1, Х2,…, Хп имеет такое же распределение, что и генеральная совокупность, а = М(Х), то есть М( Х В ) = М(Х), что и требовалось доказать. Выборочное среднее является не только несмещенной, но и состоятельной оценкой математического ожидания. Если предположить, что Х1, Х2,…, Хп имеют ограниченные 1 дисперсии, то из теоремы Чебышева следует, что их среднее арифметическое, то есть Х В , при увеличении п стремится по вероятности к математическому ожиданию а каждой их величин, то есть к М(Х). Следовательно, выборочное среднее есть состоятельная оценка математического ожидания. В отличие от выборочного среднего, выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Можно доказать, что n 1 (17.2) М ( DB )  DГ , n где DГ – истинное значение дисперсии генеральной совокупности. Можно предложить другую оценку дисперсии – исправленную дисперсию s², вычисляемую по формуле k  n (x i i  xB ) 2 n . (17.3) DB  i 1 n 1 n 1 Такая оценка будет являться несмещенной. Ей соответствует исправленное среднее квадратическое отклонение s2  k s  s2   n (x i 1 i i  xB ) 2 . (17.4) n 1 Определение 17.4. Оценка некоторого признака называется асимптотически несмещенной, если для выборки х1, х2, …, хп x  x2  ...  xn (17.5) lim 1 X, n  n где Х – истинное значение исследуемой величины. Интервальное оценивание неизвестных параметров. Точность оценки, доверительная вероятность (надежность), доверительный интервал. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком случае лучше пользоваться интервальными оценками, то есть указывать интервал, в который с заданной вероятностью попадает истинное значение оцениваемого параметра. Разумеется, чем меньше длина этого интервала, тем точнее оценка параметра. Поэтому, если для оценки Θ* некоторого параметра Θ справедливо неравенство | Θ* - Θ | < δ, число δ > 0 характеризует точность оценки ( чем меньше δ, тем точнее оценка). Но статистические методы позволяют говорить только о том, что это неравенство выполняется с некоторой вероятностью. Надежностью (доверительной вероятностью) оценки Θ* параметра Θ называется вероятность γ того, что выполняется неравенство | Θ* - Θ | < δ. Если заменить это неравенство двойным неравенством – δ < Θ* - Θ < δ, то получим: p ( Θ* - δ < Θ < Θ* + δ ) = γ. Таким образом, γ есть вероятность того, что Θ попадает в интервал ( Θ* - δ, Θ* + δ). Доверительным называется интервал, в который попадает неизвестный параметр с заданной надежностью γ. 2 Построение доверительных интервалов. 1. Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии. Пусть исследуемая случайная величина Х распределена по нормальному закону с известным средним квадратическим σ, и требуется по значению выборочного среднего х В оценить ее математическое ожидание а. Будем рассматривать выборочное среднее х В как случайную величину Х , а значения вариант выборки х1, х2,…, хп как одинаково распределенные независимые случайные величины Х1, Х2,…, Хп, каждая из которых имеет математическое ожидание а и среднее квадратическое отклонение σ. При этом М( Х ) = а,  ( Х )   (используем свойства математического ожидания и дисперсии суммы п независимых случайных величин). Оценим вероятность выполнения неравенства | X  a |  . Применим формулу для вероятности попадания нормально распределенной случайной величины в заданный интервал:   р ( | X  a |  ) = 2Ф   .   Тогда , с учетом того, что  ( Х )   п ,  п   =2Ф( t ), р ( | X  a |  ) = 2Ф      где t   n .  Отсюда   t n , и предыдущее равенство можно переписать так:  t t  (18.1) p x B   a  xB    2(t )   . n n  Итак, значение математического ожидания а с вероятностью (надежностью) γ по t t  падает в интервал  x B  ; xB   , где значение t определяется из таблиц для функn n  ции Лапласа так, чтобы выполнялось равенство 2Ф(t) = γ. Пример. Найдем доверительный интервал для математического ожидания нормально распреде-ленной случайной величины, если объем выборки п = 49, x B  2,8, σ = 1,4, а доверительная вероятность γ = 0,9. Определим t, при котором Ф(t) = 0,9:2 = 0,45: t = 1,645. Тогда 1,645  1,4 1,645  1,4 , или 2,471 < a < 3,129. Найден доверительный 2,8   a  2,8  49 14 интервал, в который попадает а с надежностью 0,9. 2. Доверительный интервал для оценки математического ожидания нормального распределения при неизвестной дисперсии. Если известно, что исследуемая случайная величина Х распределена по нормальному закону с неизвестным средним квадратическим отклонением, то для поиска доверительного интервала для ее математического ожидания построим новую случайную величину 3 T xB  a , s (18.2) n где x B - выборочное среднее, s – исправленная дисперсия, п – объем выборки. Эта случайная величина, возможные значения которой будем обозначать t, имеет распределение Стьюдента с k = n – 1 степенями свободы. Поскольку плотность распределения Стьюдента  t2   s(t , n)  Bn 1   n 1  n 2 , n   2 где Bn  , явным образом не зависит от а и σ, можно задать вероят n 1  (n  1)   2  ность ее попадания в некоторый интервал (- tγ , tγ ), учитывая четность плотности распре    t xB  a   деления, следующим образом: p  t  2  s(t , n)dt   . Отсюда получаем:  s    n   t s t s      . (18.3) p x B   a  xB  n n   Таким образом, получен доверительный интервал для а, где tγ можно найти по соответствующей таблице при заданных п и γ. Пример. Пусть объем выборки п = 25, х В = 3, s = 1,5. Найдем доверительный интервал для а при γ = 0,99. Из таблицы находим, что tγ (п = 25, γ = 0,99) = 2,797. Тогда 2,797  1,5 2,797  1,5 , или 2,161< a < 3,839 – доверительный интервал, в кото3  a  3 25 25 рый попадает а с вероятностью 0,99. 3. Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения. Будем искать для среднего квадратического отклонения нормально распределенной случайной величины доверительный интервал вида (s – δ, s +δ), где s – исправленное выборочное среднее квадратическое отклонение, а для δ выполняется условие: p ( |σ – s| < δ ) = γ.      Запишем это неравенство в виде: s1      s1   или, обозначив q  , s s s   s1  q     s1  q  . (18.4) Рассмотрим случайную величину χ, определяемую по формуле s  n 1 ,  которая распределена по закону «хи-квадрат» с п-1 степенями свободы. Плотность ее распределения 4  R (  , n)  n2 e  2 2 n 3 2  n 1    2  не зависит от оцениваемого параметра σ, а зависит только от объема выборки п. Преобразуем неравенство (18.4) так, чтобы оно приняло вид χ1 < χ < χ2. Вероятность выполнения этого неравенства равна доверительной вероятности γ, следовательно, 2 2  R(  , n)d   . 1 Предположим, что q < 1, тогда неравенство (18.4) можно записать так: 1 1 1 ,   s(1  q)  s(1  q) или, после умножения на s n  1 , Следовательно, n 1 s n 1 n 1 .   1 q  1 q n 1 n 1 . Тогда  1 q 1 q n 1 1 q  R(  , n)d   . Существуют таблицы для n 1 1 q распределения «хи-квадрат», из которых можно найти q по заданным п и γ, не решая этого уравнения. Таким образом, вычислив по выборке значение s и определив по таблице значение q, можно найти доверительный интервал (18.4), в который значение σ попадает с заданной вероятностью γ. Замечание. Если q > 1, то с учетом условия σ > 0 доверительный интервал для σ будет иметь границы 0    s(1  q) . (18.5) Пример. Пусть п = 20, s = 1,3. Найдем доверительный интервал для σ при заданной надежности γ = 0,95. Из соответствующей таблицы находим q (n = 20, γ = 0,95 ) = 0,37. Следовательно, границы доверительного интервала: 1,3(1-0,37) = 0,819 и 1,3(1+0,37) = 1,781. Итак, 0,819 < σ < 1,781 с вероятностью 0,95. Статистическая проверка статистических гипотез. Статистической гипотезой называют гипотезу о виде неизвестного распределения генеральной совокупности или о параметрах известных распределений. Нулевой (основной) называют выдвинутую гипотезу Н0. Конкурирующей (альтернативной) называют гипотезу Н1, которая противоречит нулевой. Пример. Пусть Н0 заключается в том, что математическое ожидание генеральной совокупности а = 3. Тогда возможные варианты Н1: а) а ≠ 3; б) а > 3; в) а < 3. Простой называют гипотезу, содержащую только одно предположение, сложной – гипотезу, состоящую из конечного или бесконечного числа простых гипотез. 5 Пример. Для показательного распределения гипотеза Н0: λ = 2 – простая, Н0: λ > 2 – сложная, состоящая из бесконечного числа простых ( вида λ = с, где с – любое число, большее 2). В результате проверки правильности выдвинутой нулевой гипотезы ( такая проверка называется статистической, так как производится с применением методов математичес-кой статистики) возможны ошибки двух видов: ошибка первого рода, состоящая в том, что будет отвергнута правильная нулевая гипотеза, и ошибка второго рода, заключаю-щаяся в том, что будет принята неверная гипотеза. Замечание. Какая из ошибок является на практике более опасной, зависит от конкретной задачи. Например, если проверяется правильность выбора метода лечения больного, то ошибка первого рода означает отказ от правильной методики, что может замедлить лече-ние, а ошибка второго рода (применение неправильной методики) чревата ухудшением состояния больного и является более опасной. Вероятность ошибки первого рода называется уровнем значимости α. Основной прием проверки статистических гипотез заключается в том, что по имеющейся выборке вычисляется значение некоторой случайной величины, имеющей известный закон распределения. Статистическим критерием называется случайная величина К с известным законом распределения, служащая для проверки нулевой гипотезы. Критической областью называют область значений критерия, при которых нулевую гипотезу отвергают, областью принятия гипотезы – область значений критерия, при которых гипотезу принимают. Итак, процесс проверки гипотезы состоит из следующих этапов: 1) выбирается статистический критерий К; 2) вычисляется его наблюдаемое значение Кнабл по имеющейся выборке; 3) поскольку закон распределения К известен, определяется (по известному уровню значимости α) критическое значение kкр, разделяющее критическую область и область принятия гипотезы (например, если р(К > kкр) = α, то справа от kкр располагается критическая область, а слева – область принятия гипотезы); 4) если вычисленное значение Кнабл попадает в область принятия гипотезы, то нулевая гипотеза принимается, если в критическую область – нулевая гипотеза отвергается. Различают разные виды критических областей: - правостороннюю критическую область, определяемую неравенством K > kкр ( kкр > 0); - левостороннюю критическую область, определяемую неравенством K < kкр ( kкр < 0); - двустороннюю критическую область, определяемую неравенствами K < k1, K > k2 (k2 > k1). Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что верна конкурирующая гипотеза. Если обозначить вероятность ошибки второго рода (принятия неправильной нулевой гипотезы) β, то мощность критерия равна 1 – β. Следовательно, чем больше мощность критерия, тем меньше вероятность совершить ошибку второго рода. Поэтому по- 6 сле выбора уровня значимости следует строить критическую область так, чтобы мощность критерия была максимальной. Критерий для проверки гипотезы о вероятности события. Пусть проведено п независимых испытаний (п – достаточно большое число), в каждом из которых некоторое событие А появляется с одной и той же, но неизвестной т вероятностью р, и найдена относительная частота появлений А в этой серии испытап ний. Проверим при заданном уровне значимости α нулевую гипотезу Н0, состоящую в том, что вероятность р равна некоторому значению р0. Примем в качестве статистического критерия случайную величину M    p0  n n  , (19.1) U p0 q0 имеющую нормальное распределение с параметрами M(U) = 0, σ(U) = 1 (то есть нормированную). Здесь q0 = 1 – p0. Вывод о нормальном распределении критерия следует из теоремы Лапласа (при достаточно большом п относительную частоту можно приближенно считать нормально распределенной с математическим ожиданием р и средним pq квадратическим отклонением ). n Критическая область строится в зависимости от вида конкурирующей гипотезы. 1) Если Н0: р = р0, а Н1: р ≠ р0, то критическую область нужно построить так, чтобы вероятность попадания критерия в эту область равнялась заданному уровню значимости α. При этом наибольшая мощность критерия достигается тогда, когда критическая область состоит из двух интервалов, вероятность попадания в каждый из которых  равна . Поскольку U симметрична относительно оси Оу, вероятность ее попадания в 2 интервалы (-∞; 0) и (0; +∞) равна 0,5, следовательно, критическая область тоже должна быть симметрична относительно Оу. Поэтому икр определяется по таблице значений 1 функции Лапласа из условия Ф(и кр )  , а критическая область имеет вид 2 (;и кр )  (и кр ;) . Замечание. Предполагается, что используется таблица значений функции Лаплах са, заданной в виде Ф( х)   е  t2 2 dt , где нижний предел интегрирования равен 0, а не -∞. Функция Лапласа, заданная таким образом, является нечетной, а ее значения на 0,5 меньше, чем значения стандартной функции Ф(х) (см. лекцию 6). Далее нужно вычислить наблюдаемое значение критерия: т    p0  n n  . (19.2) U набл   p0 q0 Если |Uнабл| < uкр, то нулевая гипотеза принимается. Если |Uнабл| > uкр, то нулевая гипотеза отвергается. 2) Если конкурирующая гипотеза Н1: р > p0, то критическая область определяется неравенством U > uкр, то есть является правосторонней, причем р(U > uкр) = α. Тогда 7 1 1  2 . Следовательно, икр можно найти по таблице значений   2 2 1  2 функции Лапласа из условия, что Ф(и кр )  . Вычислим наблюдаемое значение 2 критерия по формуле (19.2). Если Uнабл < uкр, то нулевая гипотеза принимается. Если Uнабл > uкр, то нулевая гипотеза отвергается. 3) Для конкурирующей гипотезы Н1: р < p0 критическая область является левосторонней и задается неравенством U <- uкр, где икр вычисляется так же, как в предыдущем случае. Если Uнабл > - uкр, то нулевая гипотеза принимается. Если Uнабл < - uкр, то нулевая гипотеза отвергается. р(0  U  u кр )  Пример. Пусть проведено 50 независимых испытаний, и относительная частота появления события А оказалась равной 0,12. Проверим при уровне значимости α = 0,01 нулевую гипотезу Н0: р = 0,1 при конкурирующей гипотезе Н1: р > 0,1. Найдем (0,12  0,1) 50 U набл   0,471. Критическая область является правосторонней, а икр нахо0,1  0,9 1  2  0,01 дим из равенства Ф(икр) =  0,49. Из таблицы значений функции Лапласа опре2 деляем икр = 2,33. Итак, Uнабл < uкр, и гипотеза о том, что р = 0,1, принимается. Критерий для проверки гипотезы о математическом ожидании. Пусть генеральная совокупность Х имеет нормальное распределение, и требуется проверить предположение о том, что ее математическое ожидание равно некоторому числу а0. Рассмотрим две возможности. 1) Известна дисперсия σ2 генеральной совокупности. Тогда по выборке объема п найдем выборочное среднее х В и проверим нулевую гипотезу Н0: М(Х) = а0. Учитывая, что выборочное среднее Х является несмещенной оценкой М(Х), то есть М( Х ) = М(Х), можно записать нулевую гипотезу так: М( Х ) = а0. Для ее проверки выберем критерий X  a0 ( X  a0 ) n . (19.3) U   (X )  Это случайная величина, имеющая нормальное распределение, причем, если нулевая гипотеза справедлива, то М(U) = 0, σ(U) = 1. Выберем критическую область в зависимости от вида конкурирующей гипотезы: 1 - если Н1: М( Х ) ≠ а0, то икр: Ф(и кр )  , критическая область двусторонняя, 2 ( х  a0 ) n , и, если |Uнабл| < uкр, то нулевая гипотеза принимается; если |Uнабл| > U набл   uкр, то нулевая гипотеза отвергается. 1  2 , критическая область правосторон2 няя, и, если Uнабл < uкр, то нулевая гипотеза принимается; если Uнабл > uкр, то нулевая гипотеза отвергается. - если Н1: М( Х ) > а0, то икр: Ф(и кр )  8 1  2 , критическая область левосторонняя, 2 и, если Uнабл > - uкр, то нулевая гипотеза принимается; если Uнабл < - uкр, то нулевая гипотеза отвергается. 2) Дисперсия генеральной совокупности неизвестна. - если Н1: М( Х ) < а0, то икр: Ф(и кр )  В этом случае выберем в качестве критерия случайную величину ( X  a0 ) n , (19.4) T S где S – исправленное среднее квадратическое отклонение. Такая случайная величина имеет распределение Стьюдента с k = n – 1 степенями свободы. Рассмотрим те же, что и в предыдущем случае, конкурирующие гипотезы и соответствующие им критические области. Предварительно вычислим наблюдаемое значение критерия: ( х  a0 ) n . (19.5) Tнабл  В S - если Н1: М( Х ) ≠ а0, то критическая точка tдвуст.кр. находится по таблице критических точек распределения Стьюдента по известным α и k = n – 1. Если | Tнабл | < tдвуст.кр., то нулевая гипотеза принимается. Если | Tнабл | > tдвуст.кр., то нулевая гипотеза отвергается. - если Н1: М( Х ) > а0, то по соответствующей таблице находят tправост.кр.(α, k) – критическую точку правосторонней критической области. Нулевая гипотеза принимается, если Tнабл < tправост.кр.. - при конкурирующей гипотезе Н1: М( Х ) < а0 критическая область является левосторон-ней, и нулевая гипотеза принимается при условии Tнабл > - tправост.кр.. Если Tнабл < - tправост.кр.., нулевую гипотезу отвергают. Критерий для проверки гипотезы о сравнении двух дисперсий. Пусть имеются две нормально распределенные генеральные совокупности Х и Y. Из них извлечены независимые выборки объемов соответственно п1 и п2, по которым вычислены исправленные выборочные дисперсии s X2 и sY2 . Требуется при заданном уровне значимости α проверить нулевую гипотезу Н0: D(X) = D(Y) о равенстве дисперсий рассматриваемых генеральных совокупностей. Учитывая несмещенность исправленных выборочных дисперсий, можно записать нулевую гипотезу так: Н0: М ( s X2 ) = М ( sY2 ). (19.6) Замечание. Конечно, исправленные дисперсии, вычисленные по выборкам, обычно оказываются различными. При проверке гипотезы выясняется, является ли это различие незначимым и обусловленным случайными причинами (в случае принятия нулевой гипотезы) или оно является следствием того, что сами генеральные дисперсии различны. В качестве критерия примем случайную величину S2 (19.6) F  2 SM - отношение большей выборочной дисперсии к меньшей. Она имеет распределение Фишера-Снедекора со степенями свободы k1 = n1 – 1 и k2 = n2 – 1, где п1 – объем выборки, по которой вычислена большая исправленная дисперсия, а п2 – объем второй выборки. Рассмотрим два вида конкурирующих гипотез: 9 - пусть Н1: D(X) > D(Y). Наблюдаемым значением критерия будет отношение s2 большей из исправленных дисперсий к меньшей: Fнабл  2 . По таблице критических sM точек распределения Фишера-Снедекора можно найти критическую точку Fнабл(α; k1; k2). При Fнабл < Fкр нулевая гипотеза принимается, при Fнабл > Fкр отвергается. - если Н1: D(X) ≠ D(Y), то критическая область является двусторонней и определяется неравенствами F < F1, F > F2, где р(F < F1) = р( F > F2) = α/2. При этом достаточно  найти правую критическую точку F2 = Fкр ( , k1, k2). Тогда при Fнабл < Fкр нулевая ги2 потеза принимается, при Fнабл > Fкр отвергается. Критерий Пирсона для проверки гипотезы о виде закона распределения случайной величины. В предыдущей лекции рассматривались гипотезы, в которых закон распределения генеральной совокупности предполагался известным. Теперь займемся проверкой гипотез о предполагаемом законе неизвестного распределения, то есть будем проверять нулевую гипотезу о том, что генеральная совокупность распределена по некоторому известному закону. Обычно статистические критерии для проверки таких гипотез называются критериями согласия. Критерий Пирсона. Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения. 1. Проверка гипотезы о нормальном распределении. Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант. Доя удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку: варианты………..х1 х2 … хs частоты………….п1 п2 … пs , где хi – значения середин интервалов, а пi – число вариант, попавших в i-й интервал (эмпи-рические частоты). По полученным данным можно вычислить выборочное среднее х В и выборочное среднее квадратическое отклонение σВ. Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M(X) = х В , D(X) =  В2 . Тогда можно найти количество чисел из выборки объема п, которое должно оказаться в каждом интервале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i-й интервал:  b  xB   a  xB     i  , pi   i  B   B  где аi и bi - границы i-го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: пi =n·pi. Наша цель – сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распреде- 10 лении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины s (ni  ni ) 2 2 . (20.1)   ni i 1 Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупно-сти закон распределения случайной величины (20.1) при п   стремится к закону распределения  2 с числом степеней свободы k = s – 1 – r, где r – число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием p(  2   kp2 ( , k ))   , (20.2) где α – уровень значимости. Следовательно, критическая область задается неравенством  2   kp2 ( , k ), а область принятия гипотезы -  2   kp2 ( , k ) . Итак, для проверки нулевой гипотезы Н0: генеральная совокупность распределена нормально – нужно вычислить по выборке наблюдаемое значение критерия: s (n  ni ) 2 2 , (20.1`)  набл  i ni i 1 а по таблице критических точек распределения χ2 найти критическую точку  кр2 ( , k ) , 2   kp2 - нулевую гипотезу принииспользуя известные значения α и k = s – 3. Если  набл 2   kp2 ее отвергают. мают, при  набл 2. Проверка гипотезы о равномерном распределении. При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности  1 , x  ( a, b)  f ( x)   b  a   0, x  (a, b) необходимо, вычислив по имеющейся выборке значение x B , оценить параметры а и b по формулам: (20.3) а*  х В  3 В , b*  x B  3 B , ab где а* и b* - оценки а и b. Действительно, для равномерного распределения М(Х) = 2 ,  ( x)  D( X )  ( a  b) 2 a  b , откуда можно получить систему для определения а*  12 2 3  b * a *  xB  2 и b*:  , решением которой являются выражения (20.3). b * a * B   2 3 Затем, предполагая, что f ( x)  1 , можно найти теоретические частоты по b * a * формулам n1  np1  nf ( x)( x1  a*)  n  1 ( x1  a*); b * a * 11 n2  n3  ...  ns 1  n  1 ( xi  xi 1 ), i  1,2,..., s  1; b * a * 1 (b *  x s 1 ). b * a * Здесь s – число интервалов, на которые разбита выборка. Наблюдаемое значение критерия Пирсона вычисляется по формуле (20.1`), а критическое – по таблице с учетом того, что число степеней свободы k = s – 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении. 3. Проверка гипотезы о показательном распределении. В этом случае, разбив имеющуюся выборку на равные по длине интервалы, расx  xi 1 смотрим последовательность вариант xi*  i , равноотстоящих друг от друга (счи2 таем, что все варианты, попавшие в i – й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот ni (число вариант выборки, попавших в i – й интервал). Вычислим по этим данным x B и примем в качестве оценки параметра λ ве1 личину *  . Тогда теоретические частоты вычисляются по формуле хВ ni  ni pi  ni p( xi  X  xi 1 )  ni (e xi  e xi 1 ). Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s – 2. ns  n  Критерий Колмогорова. Этот критерий применяется для проверки простой гипотезы Н0 о том, что независимые одинаково распределенные случайные величины Х1, Х2, …, Хп имеют заданную непрерывную функцию распределения F(x). Найдем функцию эмпирического распределения Fn(x) и будем искать границы двусторонней критической области, определяемой условием (20.3) Dn  sup | Fn ( x)  F ( x) | n . | x| А.Н.Колмогоров доказал, что в случае справедливости гипотезы Н0 распределение статистики Dn не зависит от функции F(x), и при п   p( n Dn   )  K ( ),   0, где K ( )    (1) m e 2m  2 2 (20.4) m   - критерий Колмогорова, значения которого можно найти в соответствующих таблицах. Критическое значение критерия λп(α) вычисляется по заданному уровню значимости α как корень уравнения p( Dn   )   . Можно показать, что приближенное значение вычисляется по формуле z 1 п ( )   , 2 n 6n     . где z – корень уравнения 1  K    2 На практике для вычисления значения статистики Dn используется то, что Dn  max( Dn , Dn ) , m 1 m   где Dn  max   F ( X ( m) ) , Dn  max  F ( X ( m) )  , 1 m n n 1 m n n     12 а X (1)  X ( 2)  ...  X ( n) - вариационный ряд, построенный по выборке Х1, Х2, …, Хп. Можно дать следующее геометрическое истолкование критерия Колмогорова: если изобразить на плоскости Оху графики функций Fn(x), Fn(x) ±λn(α) (рис. 1), то гипотеза Н0 верна, если график функции F(x) не выходит за пределы области, лежащей между графиками функций Fn(x) -λn(α) и Fn(x) +λn(α). х 13
«Основные свойства статистических характеристик параметров распределения. Построение доверительных интервалов» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ

Тебе могут подойти лекции

Смотреть все 173 лекции
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot