Основные понятия математической статистики. Генеральная совокупность и выборка. Вариационный ряд, статистический ряд
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 1.
Основные понятия математической статистики. Генеральная
совокупность и выборка. Вариационный ряд, статистический ряд.
Группированная выборка. Группированный статистический ряд. Полигон
частот. Выборочная функция распределения и гистограмма.
Математическая статистика занимается установлением закономерностей,
которым подчинены массовые случайные явления, на основе обработки
статистических данных, полученных в результате наблюдений. Двумя
основными задачами математической статистики являются:
- определение способов сбора и группировки этих статистических данных;
- разработка методов анализа полученных данных в зависимости от целей
исследования, к которым относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции
распределения; оценка параметров распределения, вид которого известен;
оценка зависимости от других случайных величин и т.д.;
б) проверка статистических гипотез о виде неизвестного распределения или о
значениях параметров известного распределения.
Для решения этих задач необходимо выбрать из большой совокупности
однородных объектов ограниченное количество объектов, по результатам
изучения которых можно сделать прогноз относительно исследуемого признака
этих объектов.
Определим основные понятия математической статистики.
Генеральная совокупность – все множество имеющихся объектов.
Выборка – набор объектов, случайно отобранных из генеральной совокупности.
Объем генеральной совокупности N и объем выборки n – число объектов в
рассматриваемой совокупности.
Виды выборки:
Повторная – каждый отобранный объект перед выбором следующего
возвращается в генеральную совокупность;
Бесповторная – отобранный объект в генеральную совокупность не
возвращается.
Замечание. Для того, чтобы по исследованию выборки можно было сделать
выводы о поведении интересующего нас признака генеральной совокупности,
нужно, чтобы выборка правильно представляла пропорции генеральной
совокупности, то есть была репрезентативной (представительной). Учитывая
закон больших чисел, можно утверждать, что это условие выполняется, если
каждый объект выбран случайно, причем для любого объекта вероятность
попасть в выборку одинакова.
Первичная обработка результатов.
Пусть интересующая нас случайная величина Х принимает в выборке значение
х1 п1 раз, х2 – п2 раз, …, хк – пк раз, причем
k
n
i 1
1
k
n, где п – объем выборки.
Тогда наблюдаемые значения случайной величины х1, х2,…, хк называют
вариантами, а п1, п2,…, пк – частотами. Если разделить каждую частоту на
объем выборки, то получим относительные частоты. Последовательность
вариант, записанных в порядке возрастания, называют вариационным рядом, а
перечень вариант и соответствующих им частот или относительных частот –
статистическим рядом:
xi
x1
x2
…
xk
ni
n1
n2
…
nk
wi
w1
w2
…
wk
Пример.
При проведении 20 серий из 10 бросков игральной кости число выпадений
шести очков оказалось равным 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2,2,3,4,1. Составим
вариационный ряд: 0,1,2,3,4,5. Статистический ряд для абсолютных и
относительных частот имеет вид:
xi
1
2
3
4
5
ni
3
6
5
3
2
1
wi
0,15
0,3
0,25
0,15
0,1
0,05
Если исследуется некоторый непрерывный признак, то вариационный ряд
может состоять из очень большого количества чисел. В этом случае удобнее
использовать группированную выборку. Для ее получения интервал, в
котором заключены все наблюдаемые значения признака, разбивают на
несколько равных частичных интервалов длиной h, а затем находят для каждого
частичного интервала ni – сумму частот вариант, попавших в i-й интервал.
Составленная по этим результатам таблица называется группированным
статистическим рядом:
Номера
интервалов
Границы
интервалов
Сумма частот
вариант, попавших в интервал
1
2
(a, a + h)
n1
(a + h, a + 2h)
n2
…
k
…
(b – h, b)
…
nk
Полигон частот. Выборочная функция распределения и гистограмма.
Для наглядного представления о поведении исследуемой случайной величины в
выборке можно строить различные графики. Один из них – полигон частот:
ломаная, отрезки которой соединяют точки с координатами (x1, n1), (x2, n2),…,
(xk, nk), где xi откладываются на оси абсцисс, а ni – на оси ординат. Если на оси
ординат откладывать не абсолютные (ni), а относительные (wi) частоты, то
2
получим полигон относительных частот (рис.1).
Рис. 1.
По аналогии с функцией распределения случайной величины можно задать
некоторую функцию, относительную частоту события X < x.
Определение 1.1. Выборочной (эмпирической) функцией распределения
называют функцию F*(x), определяющую для каждого значения х
относительную частоту события
X < x. Таким образом,
F * ( x)
nx
,
n
(1.1)
где пх – число вариант, меньших х, п – объем выборки.
Замечание. В отличие от эмпирической функции распределения, найденной
опытным путем, функцию распределения F(x) генеральной совокупности
называют теоретической функцией распределения. F(x) определяет вероятность
события X < x, а F*(x) – его относительную частоту. При достаточно больших
п, как следует из теоремы Бернулли, F*(x) стремится по вероятности к F(x).
Из определения эмпирической функции распределения видно, что ее свойства
совпадают со свойствами F(x), а именно:
1) 0 ≤ F*(x) ≤ 1.
2) F*(x) – неубывающая функция.
3) Если х1 – наименьшая варианта, то F*(x) = 0 при х≤ х1; если хк – наибольшая
варианта, то F*(x) = 1 при х > хк .
Для непрерывного признака графической иллюстрацией служит гистограмма,
то есть ступенчатая фигура, состоящая из прямоугольников, основаниями
которых служат частичные интервалы длиной h, а высотами – отрезки длиной ni
/h (гистограмма частот) или wi /h (гистограмма относительных частот). В
первом случае площадь гистограммы равна объему выборки, во втором –
единице (рис.2).
3
Рис.2.
Лекция 2.
Числовые характеристики статистического распределения: выборочное
среднее, оценки дисперсии, оценки моды и медианы, оценки начальных и
центральных моментов. Статистическое описание и вычисление оценок
параметров двумерного случайного вектора.
Одна из задач математической статистики: по имеющейся выборке оценить
значения числовых характеристик исследуемой случайной величины.
Определение 2.1. Выборочным средним называется среднее арифметическое
значений случайной величины, принимаемых в выборке:
k
n x
х х 2 ... х п n1 x1 n2 x 2 ... nk x k
хВ 1
п
n
i
i 1
n
i
,
(2.1)
где xi – варианты, ni - частоты.
Замечание. Выборочное среднее служит для оценки математического ожидания
исследуемой случайной величины. В дальнейшем будет рассмотрен вопрос,
насколько точной является такая оценка.
Определение 2.2. Выборочной дисперсией называется
n
DB
( xi x B ) 2
i 1
n
k
n (x
i 1
i
i
n
xB ) 2
,
(2.2)
а выборочным средним квадратическим отклонением –
В DB .
(2.3)
Так же, как в теории случайных величин, можно доказать, что справедлива
следующая формула для вычисления выборочной дисперсии:
(2.4)
D x 2 (x ) 2 .
Пример 1. Найдем числовые характеристики выборки, заданной статистическим
рядом
xi
2
5
7
8
ni
3
8
7
2
4
хВ
23 58 7 7 8 2
4 3 25 8 49 7 64 2
5,55; DB
5,552 3,3475; B 3,3475 1,83.
20
20
Другими характеристиками вариационного ряда являются:
- мода М0 – варианта, имеющая наибольшую частоту (в предыдущем примере
М0 = 5).
- медиана те - варианта, которая делит вариационный ряд на две части, равные
по числу вариант. Если число вариант нечетно (n = 2k + 1), то me = xk+1, а при
четном n =2k те
xk xk 1
57
6.
. В частности, в примере 1 me
2
2
Оценки начальных и центральных моментов (так называемые эмпирические
моменты) определяются аналогично соответствующим теоретическим
моментам:
- начальным эмпирическим моментом порядка k называется
Mk
В частности, M 1
ni xi
n x
i
k
i
n
.
(2.5)
x B , то есть начальный эмпирический момент первого
n
порядка равен выборочному среднему.
- центральным эмпирическим моментом порядка k называется
тk
В частности, т2
n (x
i
i
хВ ) 2
n
n (x
i
i
хВ ) k
n
.
(2.6)
DB , то есть центральный эмпирический момент
второго порядка равен выборочной дисперсии.
Статистическое описание и вычисление характеристик
двумерного случайного вектора.
При статистическом исследовании двумерных случайных величин основной
задачей является обычно выявление связи между составляющими.
Двумерная выборка представляет собой набор значений случайного вектора: (х1,
у1), (х2, у2), …, (хп, уп). Для нее можно определить выборочные средние
составляющих: x B i , y B
x
n
y
n
i
и соответствующие выборочные дисперсии
и средние квадратические отклонения. Кроме того, можно вычислить условные
средние: у х - среднее арифметическое наблюдавшихся значений Y,
соответствующих Х = х, и х у - среднее значение наблюдавшихся значений Х,
соответствующих Y = y.
Если существует зависимость между составляющими двумерной случайной
величины, она может иметь разный вид: функциональная зависимость, если
каждому возможному значению Х соответствует одно значение Y, и
статистическая, при которой изменение одной величины приводит к изменению
распределения другой. Если при этом в результате изменения одной величины
5
меняется среднее значение другой, то статистическую зависимость между ними
называют корреляционной.
Лекция 3.
Основные свойства статистических характеристик параметров
распределения: несмещенность, состоятельность, эффективность.
Несмещенность и состоятельность выборочного среднего как оценки
математического ожидания. Смещенность выборочной дисперсии. Пример
несмещенной оценки дисперсии. Асимптотически несмещенные оценки.
Способы построения оценок: метод наибольшего правдоподобия, метод
моментов, метод квантили, метод наименьших квадратов, байесовский
подход к получению оценок.
Получив статистические оценки параметров распределения (выборочное
среднее, выборочную дисперсию и т.д.), нужно убедиться, что они в
достаточной степени служат приближением соответствующих характеристик
генеральной совокупности. Определим требования, которые должны при этом
выполняться.
Пусть Θ* - статистическая оценка неизвестного параметра Θ теоретического
распределения. Извлечем из генеральной совокупности несколько выборок
одного и того же объема п и вычислим для каждой из них оценку параметра Θ:
1* , *2 ,..., *k . Тогда оценку Θ* можно рассматривать как случайную величину,
принимающую возможные значения 1* , *2 ,..., *k .
Если математическое ожидание Θ* не равно оцениваемому параметру, мы
будем получать при вычислении оценок систематические ошибки одного знака
(с избытком, если М( Θ*) >Θ, и с недостатком, если М(Θ*) < Θ). Следовательно,
необходимым условием отсутствия систематических ошибок является
требование М(Θ*) = Θ.
Определение 3.1. Статистическая оценка Θ* называется несмещенной, если ее
математическое ожидание равно оцениваемому параметру Θ при любом объеме
выборки:
М(Θ*) = Θ.
(3.1)
Смещенной называют оценку, математическое ожидание которой не равно
оцениваемому параметру.
Однако несмещенность не является достаточным условием хорошего
приближения к истинному значению оцениваемого параметра. Если при этом
возможные значения Θ* могут значительно отклоняться от среднего значения,
то есть дисперсия Θ* велика, то значение, найденное по данным одной выборки,
может значительно отличаться от оцениваемого параметра. Следовательно,
требуется наложить ограничения на дисперсию.
6
Определение 3.2. Статистическая оценка называется эффективной, если она при
заданном объеме выборки п имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема к статистическим оценкам
предъявляется еще и требование состоятельности.
Определение 17.3. Состоятельной называется статистическая оценка, которая
при п→∞ стремится по вероятности к оцениваемому параметру (если эта оценка
несмещенная, то она будет состоятельной, если при п→∞ ее дисперсия
стремится к 0).
Убедимся, что х В представляет собой несмещенную оценку математического
ожидания М(Х).
Будем рассматривать х В как случайную величину, а х1, х2,…, хп, то есть значения
исследуемой случайной величины, составляющие выборку, – как независимые,
одинаково распределенные случайные величины Х1, Х2,…, Хп, имеющие
математическое ожидание а. Из свойств математического ожидания следует, что
Х Х 2 ... Х п
М (Х В ) М 1
а.
п
Но, поскольку каждая из величин Х1, Х2,…, Хп имеет такое же распределение,
что и генеральная совокупность, а = М(Х), то есть М( Х В ) = М(Х), что и
требовалось доказать. Выборочное среднее является не только несмещенной, но
и состоятельной оценкой математического ожидания. Если предположить, что
Х1, Х2,…, Хп имеют ограниченные дисперсии, то из теоремы Чебышева следует,
что их среднее арифметическое, то есть Х В , при увеличении п стремится по
вероятности к математическому ожиданию а каждой их величин, то есть к М(Х).
Следовательно, выборочное среднее есть состоятельная оценка математического
ожидания.
В отличие от выборочного среднего, выборочная дисперсия является
смещенной оценкой дисперсии генеральной совокупности. Можно доказать, что
М ( DB )
n 1
DГ ,
n
(3.2)
где DГ – истинное значение дисперсии генеральной совокупности. Можно
предложить другую оценку дисперсии – исправленную дисперсию s²,
вычисляемую по формуле
k
n
s2
DB
n 1
n (x
i
i 1
i
xB ) 2
.
n 1
(3.3)
Такая оценка будет являться несмещенной. Ей соответствует исправленное
среднее квадратическое отклонение
k
s s2
n (x
i 1
i
i
xB ) 2
.
n 1
7
(3.4)
Определение 3.4. Оценка некоторого признака называется асимптотически
несмещенной, если для выборки х1, х2, …, хп
x1 x2 ... xn
X,
n
n
lim
(3.5)
где Х – истинное значение исследуемой величины.
Способы построения оценок.
1. Метод наибольшего правдоподобия.
Пусть Х – дискретная случайная величина, которая в результате п испытаний
приняла значения х1, х2, …, хп. Предположим, что нам известен закон
распределения этой величины, определяемый параметром Θ, но неизвестно
численное значение этого параметра. Найдем его точечную оценку.
Пусть р(хi, Θ) – вероятность того, что в результате испытания величина Х
примет значение хi. Назовем функцией правдоподобия дискретной случайной
величины Х функцию аргумента Θ, определяемую по формуле:
L (х1, х2, …, хп; Θ) = p(x1,Θ)p(x2,Θ)…p(xn,Θ).
Тогда в качестве точечной оценки параметра Θ принимают такое его значение
Θ* = Θ(х1, х2, …, хп), при котором функция правдоподобия достигает
максимума. Оценку Θ* называют оценкой наибольшего правдоподобия.
Поскольку функции L и lnL достигают максимума при одном и том же значении
Θ, удобнее искать максимум ln L – логарифмической функции
правдоподобия. Для этого нужно:
1) найти производную
d ln L
;
d
2) приравнять ее нулю (получим так называемое уравнение правдоподобия) и
найти критическую точку;
3) найти вторую производную
d 2 ln L
; если она отрицательна в критической
d 2
точке, то это – точка максимума.
Достоинства метода наибольшего правдоподобия: полученные оценки
состоятельны (хотя могут быть смещенными), распределены асимптотически
нормально при больших значениях п и имеют наименьшую дисперсию по
сравнению с другими асимптотически нормальными оценками; если для
оцениваемого параметра Θ существует эффективная оценка Θ*, то уравнение
правдоподобия имеет единственное решение Θ*; метод наиболее полно
использует данные выборки и поэтому особенно полезен в случае малых
выборок.
Недостаток метода наибольшего правдоподобия: сложность вычислений.
Для непрерывной случайной величины с известным видом плотности
распределения f(x) и неизвестным параметром Θ функция правдоподобия имеет
вид:
8
L (х1, х2, …, хп; Θ) = f(x1,Θ)f(x2,Θ)…f(xn,Θ).
Оценка наибольшего правдоподобия неизвестного параметра проводится так
же, как для дискретной случайной величины.
2. Метод моментов.
Метод моментов основан на том, что начальные и центральные эмпирические
моменты являются состоятельными оценками соответственно начальных и
центральных теоретических моментов, поэтому можно приравнять
теоретические моменты соответствующим эмпирическим моментам того же
порядка.
Если задан вид плотности распределения f(x, Θ), определяемой одним
неизвестным параметром Θ, то для оценки этого параметра достаточно иметь
одно уравнение. Например, можно приравнять начальные моменты первого
порядка:
xB M ( X )
xf ( x; )dx () ,
получив тем самым уравнение для определения Θ. Его решение Θ* будет
точечной оценкой параметра, которая является функцией от выборочного
среднего и, следовательно, и от вариант выборки:
Θ = ψ (х1, х2, …, хп).
Если известный вид плотности распределения f(x, Θ1, Θ2 ) определяется двумя
неизвестными параметрами Θ1 и Θ2, то требуется составить два уравнения,
например
ν1 = М1, μ2 = т2.
М ( Х ) х В
- система двух уравнений с двумя неизвестными Θ1 и Θ2. Ее
D( X ) DB
Отсюда
решениями будут точечные оценки Θ1* и Θ2* - функции вариант выборки:
Θ1 = ψ1 (х1, х2, …, хп),
Θ2 = ψ2(х1, х2, …, хп).
3. Метод наименьших квадратов.
Если требуется оценить зависимость величин у и х, причем известен вид
связывающей их функции, но неизвестны значения входящих в нее
коэффициентов, их величины можно оценить по имеющейся выборке с
помощью метода наименьших квадратов. Для этого функция у = φ (х)
выбирается так, чтобы сумма квадратов отклонений наблюдаемых значений у1,
у2,…, уп от φ(хi) была минимальной:
n
(y
i 1
i
( xi )) 2 min .
При этом требуется найти стационарную точку функции φ(x; a, b, c…), то есть
решить систему:
9
n
( y i ( xi ; a, b, c...)) a 0
i
i n1
( y ( x ; a, b, c...))
0
i
i
i 1
b i
n
( y i ( xi ; a, b, c...))
0
c i
i 1
.......... .......... .......... ..........
(решение, конечно, возможно только в случае, когда известен конкретный вид
функции φ).
Рассмотрим в качестве примера подбор параметров линейной функции методом
наименьших квадратов.
Для того, чтобы оценить параметры а и b в функции y = ax + b, найдем
xi ;
1.
а i
b i
n
( y i (axi b)) xi 0
Тогда i 1n
.
( y i (axi b)) 0
i 1
n
n
n
2
x
y
a
x
b
xi 0
i
i i
i 1
i 1
i 1
Отсюда n
.
n
yi a xi bn 0
i 1
i 1
Разделив оба полученных уравнения на п и вспомнив определения
эмпирических моментов, можно получить выражения для а и b в виде:
a
( K xy ) B
( Dx ) B
, b yB
( K xy ) B
( Dx ) B
x B . Следовательно, связь между х и у можно задать в
виде:
y yB
( K xy ) B
( Dx ) B
( x x B ).
4. Байесовский подход к получению оценок.
Пусть (Y, X) – случайный вектор, для которого известна плотность р(у|x)
условного распреде-ления Y при каждом значении Х = х. Если в результате
эксперимента получены лишь значения Y, а соответствующие значения Х
неизвестны, то для оценки некоторой заданной функции φ(х) в качестве ее
приближенного значения предлагается искать условное математическое
ожидание М ( φ(х)|Y), вычисляемое по формуле:
(Y )
( x) p(Y | x) p( x)d ( x) , где q( y)
q (Y )
p( y | x) p( x)d ( x) , р(х) – плотность
безусловного распределения Х, q(y) – плотность безусловного распределения Y.
Задача может быть решена только тогда, когда известна р(х). Иногда, однако,
10
удается построить состоятельную оценку для q(y), зависящую только от
полученных в выборке значений Y.
Лекция 4.
Интервальное оценивание неизвестных параметров. Точность оценки,
доверительная вероятность (надежность), доверительный интервал.
Построение доверительных интервалов для оценки математического
ожидания нормального распределения при известной и при неизвестной
дисперсии. Доверительные интервалы для оценки среднего квадратического
отклонения нормального распределения.
При выборке малого объема точечная оценка может значительно отличаться от
оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком
случае лучше пользоваться интервальными оценками, то есть указывать
интервал, в который с заданной вероятностью попадает истинное значение
оцениваемого параметра. Разумеется, чем меньше длина этого интервала, тем
точнее оценка параметра. Поэтому, если для оценки Θ* некоторого параметра Θ
справедливо неравенство | Θ* - Θ | < δ, число δ > 0 характеризует точность
оценки (чем меньше δ, тем точнее оценка). Но статистические методы позволяют
говорить только о том, что это неравенство выполняется с некоторой
вероятностью.
Определение 4.1. Надежностью (доверительной вероятностью) оценки Θ*
параметра Θ называется вероятность γ того, что выполняется неравенство
| Θ* - Θ | < δ. Если заменить это неравенство двойным неравенством
– δ < Θ* - Θ < δ, то получим:
p ( Θ* - δ < Θ < Θ* + δ ) = γ.
Таким образом, γ есть вероятность того, что Θ попадает в интервал
( Θ* - δ, Θ* + δ).
Определение 4.2. Доверительным называется интервал, в который попадает
неизвестный параметр с заданной надежностью γ.
Построение доверительных интервалов.
1. Доверительный интервал для оценки математического ожидания нормального
распределения при известной дисперсии.
Пусть исследуемая случайная величина Х распределена по нормальному закону с
известным средним квадратическим σ, и требуется по значению выборочного
среднего х В оценить ее математическое ожидание а. Будем рассматривать
выборочное среднее х В как случайную величину Х , а значения вариант выборки
х1, х2,…, хп как одинаково распределенные независимые случайные величины
Х1, Х2,…, Хп, каждая из которых имеет математическое ожидание а и среднее
квадратическое отклонение σ. При этом М( Х ) = а, ( Х )
п
(используем
свойства математического ожидания и дисперсии суммы независимых случайных
11
величин). Оценим вероятность выполнения неравенства | X a | . Применим
формулу для вероятности попадания нормально распределенной случайной
величины в заданный интервал:
р ( | X a | ) = 2Ф . Тогда , с учетом того, что ( Х )
, р ( | X a | ) =
п
п
n
t
==2Ф( t ), где t
. Отсюда
, и предыдущее равенство можно
n
2Ф
переписать так:
t
t
p x B
a xB
2 (t ) .
n
n
(4.1)
Итак, значение математического ожидания а с вероятностью (надежностью) γ
t
n
попадает в интервал x B
; xB
t
, где значение t определяется из таблиц для
n
функции Лапласа так, чтобы выполнялось равенство 2Ф(t) = γ.
Пример. Найдем доверительный интервал для математического ожидания
нормально распределенной случайной величины, если объем выборки п = 49,
xB 2,8, σ = 1,4, а доверительная вероятность γ = 0,9.
Определим t, при котором Ф(t) = 0,9:2 = 0,45: t = 1,645. Тогда
2,8
1,645 1,4
49
a 2,8
1,645 1,4
14
, или 2,471 < a < 3,129. Найден доверительный
интервал, в который попадает а с надежностью 0,9.
2. Доверительный интервал для оценки математического ожидания нормального
распределения при неизвестной дисперсии.
Если известно, что исследуемая случайная величина Х распределена по
нормальному закону с неизвестным средним квадратическим отклонением, то для
поиска доверительного интервала для ее математического ожидания построим
новую случайную величину
T
xB a
,
s
(4.2)
n
где x B - выборочное среднее, s – исправленная дисперсия, п – объем выборки. Эта
случайная величина, возможные значения которой будем обозначать t, имеет
распределение Стьюдента с k = n – 1 степенями свободы.
n
t2 2
, где
Поскольку плотность распределения Стьюдента s(t , n) Bn 1
n 1
n
2
Bn
, явным образом не зависит от а и σ, можно задать
n 1
(n 1)
2
вероятность ее попадания в некоторый интервал (- tγ , tγ ), учитывая четность
12
x a
плотности распределения, следующим образом: p B
t
s
n
t
2 s(t , n)dt .
0
Отсюда получаем:
t s
t s
.
p x B
a xB
n
n
(4.3)
Таким образом, получен доверительный интервал для а, где tγ можно найти по
соответствующей таблице при заданных п и γ.
Пример. Пусть объем выборки п = 25, х В = 3, s = 1,5. Найдем доверительный
интервал для а при γ = 0,99. Из таблицы находим, что tγ (п = 25, γ = 0,99) = 2,797.
Тогда 3
2,797 1,5
25
a 3
2,797 1,5
25
, или 2,161< a < 3,839 – доверительный
интервал, в который попадает а с вероятностью 0,99.
3. Доверительные интервалы для оценки среднего квадратического отклонения
нормального распределения.
Будем искать для среднего квадратического отклонения нормально
распределенной случайной величины доверительный интервал вида (s – δ, s +δ),
где s – исправленное выборочное среднее квадратическое отклонение, а для δ
выполняется условие: p ( |σ – s| < δ ) = γ.
Запишем это неравенство в виде: s1 s1 или, обозначив q ,
s
s
s1 q s1 q .
s
(4.4)
Рассмотрим случайную величину χ, определяемую по формуле
s
n 1 ,
которая распределена по закону «хи-квадрат» с п-1 степенями свободы.
Плотность ее распределения
R ( , n)
2
n 3
2
n2
e
2
2
n 1
2
не зависит от оцениваемого параметра σ, а зависит только от объема выборки п.
Преобразуем неравенство (18.4) так, чтобы оно приняло вид χ1 < χ < χ2.
Вероятность выполнения этого неравенства равна доверительной вероятности γ,
следовательно,
2
R( , n)d . Предположим, что q < 1, тогда неравенство (4.4)
1
можно записать так:
1
1
1
,
s(1 q) s(1 q)
13
или, после умножения на s n 1 ,
n 1 s n 1
n 1
. Следовательно,
1 q
1 q
n 1
n 1
.
1 q
1 q
n 1
1 q
Тогда
R( , n)d .
n 1
1 q
Существуют таблицы для распределения «хи-квадрат», из которых можно найти q
по заданным п и γ, не решая этого уравнения. Таким образом, вычислив по
выборке значение s и определив по таблице значение q, можно найти
доверительный интервал (4.4), в который значение σ попадает с заданной
вероятностью γ.
Замечание. Если q > 1, то с учетом условия σ > 0 доверительный интервал для σ
будет иметь границы
0 s (1 q ) .
(3.5)
Пример.
Пусть п = 20, s = 1,3. Найдем доверительный интервал для σ при заданной
надежности γ = 0,95.
Из соответствующей таблицы находим q (n = 20, γ = 0,95 ) = 0,37. Следовательно,
границы доверительного интервала: 1,3(1-0,37) = 0,819 и 1,3(1+0,37) = 1,781.
Итак, 0,819 < σ < 1,781 с вероятностью 0,95.
Лекция 5.
Статистическая проверка статистических гипотез. Общие принципы
проверки гипотез. Понятия статистической гипотезы (простой и
сложной), нулевой и конкурирующей гипотезы, ошибок первого и второго
рода, уровня значимости, статистического критерия, критической
области, области принятия гипотезы. Наблюдаемое значение критерия.
Критические точки. Мощность критерия. Критерии для проверки
гипотез о вероятности события, о математическом ожидании, о
сравнении двух дисперсий.
Определение 5.1. Статистической гипотезой называют гипотезу о виде
неизвестного распределения генеральной совокупности или о параметрах
известных распределений.
Определение 5.2. Нулевой (основной) называют выдвинутую гипотезу Н0.
Конкурирующей (альтернативной) называют гипотезу Н1, которая
противоречит нулевой.
Пример. Пусть Н0 заключается в том, что математическое ожидание
генеральной совокупности а = 3. Тогда возможные варианты Н1:
а) а ≠ 3; б) а > 3; в) а < 3.
14
Определение 5.3. Простой называют гипотезу, содержащую только одно
предположение, сложной – гипотезу, состоящую из конечного или
бесконечного числа простых гипотез.
Пример. Для показательного распределения гипотеза Н0: λ = 2 – простая,
Н0: λ > 2 – сложная, состоящая из бесконечного числа простых ( вида λ = с,
где с – любое число, большее 2).
В результате проверки правильности выдвинутой нулевой гипотезы ( такая
проверка называется статистической, так как производится с применением
методов математической статистики) возможны ошибки двух видов: ошибка
первого рода, состоящая в том, что будет отвергнута правильная нулевая
гипотеза, и ошибка второго рода, заключающаяся в том, что будет принята
неверная гипотеза.
Замечание. Какая из ошибок является на практике более опасной, зависит от
конкретной задачи. Например, если проверяется правильность выбора метода
лечения больного, то ошибка первого рода означает отказ от правильной
методики, что может замедлить лечение, а ошибка второго рода (применение
неправильной методики) чревата ухудшением состояния больного и является
более опасной.
Определение 5.4. Вероятность ошибки первого рода называется уровнем
значимости α.
Основной прием проверки статистических гипотез заключается в том, что
по имеющейся выборке вычисляется значение некоторой случайной
величины, имеющей известный закон распределения.
Определение 5.5. Статистическим критерием называется случайная
величина К с известным законом распределения, служащая для проверки
нулевой гипотезы.
Определение 5.6. Критической областью называют область значений
критерия, при которых нулевую гипотезу отвергают, областью принятия
гипотезы – область значений критерия, при которых гипотезу принимают.
Итак, процесс проверки гипотезы состоит из следующих этапов:
1) выбирается статистический критерий К;
2) вычисляется его наблюдаемое значение Кнабл по имеющейся выборке;
3) поскольку закон распределения К известен, определяется (по
известному уровню значимости α) критическое значение kкр,
разделяющее критическую область и область принятия гипотезы
15
(например, если р(К > kкр) = α, то справа от kкр располагается
критическая область, а слева – область принятия гипотезы);
4) если вычисленное значение Кнабл попадает в область принятия
гипотезы, то нулевая гипотеза принимается, если в критическую
область – нулевая гипотеза отвергается.
Различают разные виды критических областей:
- правостороннюю критическую область, определяемую неравенством
K > kкр ( kкр > 0);
- левостороннюю критическую область, определяемую неравенством
K < kкр ( kкр < 0);
- двустороннюю критическую область, определяемую неравенствами
K < k1 , K > k2
(k2 > k1).
Определение 5.7. Мощностью критерия называют вероятность попадания
критерия в критическую область при условии, что верна конкурирующая
гипотеза.
Если обозначить вероятность ошибки второго рода (принятия неправильной
нулевой гипотезы) β, то мощность критерия равна 1 – β.
Следовательно, чем больше мощность критерия, тем меньше вероятность
совершить ошибку второго рода. Поэтому после выбора уровня значимости
следует строить критическую область так, чтобы мощность критерия была
максимальной.
Критерий для проверки гипотезы о вероятности события.
Пусть проведено п независимых испытаний (п – достаточно большое число),
в каждом из которых некоторое событие А появляется с одной и той же, но
неизвестной вероятностью р, и найдена относительная частота
т
появлений
п
А в этой серии испытаний. Проверим при заданном уровне значимости α
нулевую гипотезу Н0, состоящую в том, что вероятность р равна некоторому
значению р0.
Примем в качестве статистического критерия случайную величину
M
p0 n
n
U
,
p0 q0
(5.1)
имеющую нормальное распределение с параметрами M(U) = 0, σ(U) = 1 (то
есть нормированную). Здесь q0 = 1 – p0. Вывод о нормальном распределении
критерия следует из теоремы Лапласа (при достаточно большом п
относительную частоту можно приближенно считать нормально
16
распределенной с математическим ожиданием р и средним квадратическим
отклонением
pq
).
n
Критическая область строится в зависимости от вида конкурирующей
гипотезы.
1)
Если Н0: р = р0, а Н1: р ≠ р0, то критическую область нужно построить
так, чтобы вероятность попадания критерия в эту область равнялась
заданному уровню значимости α. При этом наибольшая мощность критерия
достигается тогда, когда критическая область состоит из двух интервалов,
вероятность попадания в каждый из которых равна
. Поскольку U
2
симметрична относительно оси Оу, вероятность ее попадания в интервалы
(-∞; 0) и (0; +∞) равна 0,5, следовательно, критическая область тоже должна
быть симметрична относительно Оу. Поэтому икр определяется по таблице
значений функции Лапласа из условия Ф(и кр )
1
, а критическая область
2
имеет вид (;икр ) (икр ;) .
Замечание.
Предполагается, что используется таблица значений функции Лапласа,
х
t2
2
заданной в виде Ф( х) е dt , где нижний предел интегрирования равен 0, а
не -∞. Функция Лапласа, заданная таким образом, является нечетной, а ее
значения на 0,5 меньше, чем значения стандартной функции Ф(х).
Далее нужно вычислить наблюдаемое значение критерия:
U набл
т
p0 n
n
.
p0 q0
(5.2)
Если |Uнабл| < uкр, то нулевая гипотеза принимается.
Если |Uнабл| > uкр, то нулевая гипотеза отвергается.
2) Если конкурирующая гипотеза Н1: р > p0, то критическая область
определяется неравенством U > uкр, то есть является правосторонней, причем
1 2
. Следовательно, икр можно
2
1 2
найти по таблице значений функции Лапласа из условия, что Ф(и кр )
.
2
1
2
р(U > uкр) = α. Тогда р(0 U u кр )
Вычислим наблюдаемое значение критерия по формуле (5.2).
Если Uнабл < uкр, то нулевая гипотеза принимается.
Если Uнабл > uкр, то нулевая гипотеза отвергается.
3) Для конкурирующей гипотезы Н1: р < p0 критическая область является
левосторонней и задается неравенством U <- uкр, где икр вычисляется так же,
как в предыдущем случае.
17
Если Uнабл > - uкр, то нулевая гипотеза принимается.
Если Uнабл < - uкр, то нулевая гипотеза отвергается.
Пример. Пусть проведено 50 независимых испытаний, и относительная
частота появления события А оказалась равной 0,12. Проверим при уровне
значимости α = 0,01 нулевую гипотезу Н0: р = 0,1 при конкурирующей
гипотезе Н1: р > 0,1. Найдем U набл
(0,12 0,1) 50
0,1 0,9
0,471. Критическая область
является правосторонней, а икр находим из равенства
Ф(икр) =
1 2 0,01
0,49.
2
Из таблицы значений функции Лапласа определяем икр = 2,33.
Итак, Uнабл < uкр, и гипотеза о том, что р = 0,1, принимается.
Критерий для проверки гипотезы о математическом ожидании.
Пусть генеральная совокупность Х имеет нормальное распределение, и
требуется проверить предположение о том, что ее математическое ожидание
равно некоторому числу а0. Рассмотрим две возможности.
1) Известна дисперсия σ2 генеральной совокупности. Тогда по выборке
объема п найдем выборочное среднее х В и проверим нулевую гипотезу Н0:
М(Х) = а0.
Учитывая, что выборочное среднее Х является несмещенной оценкой М(Х),
то есть М( Х ) = М(Х), можно записать нулевую гипотезу так: М( Х ) = а0. Для
ее проверки выберем критерий
U
X a0 ( X a0 ) n
.
(X )
(5.3)
Это случайная величина, имеющая нормальное распределение, причем, если
нулевая гипотеза справедлива, то М(U) = 0, σ(U) = 1.
Выберем критическую область в зависимости от вида конкурирующей
гипотезы:
- если Н1: М ( Х ) ≠ а0, то икр: Ф(и кр )
U набл
( х a0 ) n
1
, критическая область двусторонняя,
2
, и, если |Uнабл| < uкр, то нулевая гипотеза принимается; если
|Uнабл| > uкр, то нулевая гипотеза отвергается.
- если Н1: М ( Х ) > а0, то икр: Ф(и кр )
1 2
, критическая область
2
правосторонняя, и, если Uнабл < uкр, то нулевая гипотеза принимается; если
Uнабл > uкр, то нулевая гипотеза отвергается.
18
- если Н1: М ( Х ) < а0, то икр: Ф(и кр )
1 2
, критическая область
2
левосторонняя, и, если Uнабл > - uкр, то нулевая гипотеза принимается; если
Uнабл < - uкр, то нулевая гипотеза отвергается.
2) Дисперсия генеральной совокупности неизвестна.
В этом случае выберем в качестве критерия случайную величину
T
( X a0 ) n
,
S
(5.4)
где S – исправленное среднее квадратическое отклонение. Такая случайная
величина имеет распределение Стьюдента с k = n – 1 степенями свободы.
Рассмотрим те же, что и в предыдущем случае, конкурирующие гипотезы и
соответствующие им критические области. Предварительно вычислим
наблюдаемое значение критерия:
Tнабл
( х В a0 ) n
.
S
(5.5)
- если Н1: М ( Х ) ≠ а0, то критическая точка tдвуст.кр. находится по таблице
критических точек распределения Стьюдента по известным α и k = n – 1.
Если | Tнабл | < tдвуст.кр., то нулевая гипотеза принимается.
Если | Tнабл | > tдвуст.кр., то нулевая гипотеза отвергается.
- если Н1: М( Х ) > а0, то по соответствующей таблице находят tправост.кр.(α, k) –
критическую точку правосторонней критической области. Нулевая гипотеза
принимается, если Tнабл < tправост.кр..
- при конкурирующей гипотезе Н1: М ( Х ) < а0 критическая область является
левосторонней, и нулевая гипотеза принимается при условии
Tнабл > - tправост.кр.. Если Tнабл < - tправост.кр.., нулевую гипотезу отвергают.
Критерий для проверки гипотезы о сравнении двух дисперсий.
Пусть имеются две нормально распределенные генеральные совокупности Х
и Y. Из них извлечены независимые выборки объемов соответственно п1 и п2,
по которым вычислены исправленные выборочные дисперсии s X2 и sY2 .
Требуется при заданном уровне значимости α проверить нулевую гипотезу
Н0: D(X) = D(Y) о равенстве дисперсий рассматривае-мых генеральных
совокупностей. Учитывая несмещенность исправленных выборочных
дисперсий, можно записать нулевую гипотезу так:
Н0: М ( s X2 ) = М ( sY2 ).
(5.6)
Замечание. Конечно, исправленные дисперсии, вычисленные по выборкам,
обычно оказываются различными. При проверке гипотезы выясняется,
является ли это различие незначимым и обусловленным случайными
причинами (в случае принятия нулевой гипотезы) или оно является
следствием того, что сами генеральные дисперсии различны.
19
В качестве критерия примем случайную величину
F
S 2
S M2
(5.7)
- отношение большей выборочной дисперсии к меньшей. Она имеет
распределение Фишера-Снедекора со степенями свободы k1 = n1 – 1 и
k2 = n2 – 1, где п1 – объем выборки, по которой вычислена большая
исправленная дисперсия, а п2 – объем второй выборки. Рассмотрим два вида
конкурирующих гипотез:
- пусть Н1: D(X) > D(Y). Наблюдаемым значением критерия будет отношение
большей из исправленных дисперсий к меньшей: Fнабл
s2
. По таблице
s M2
критических точек распределения Фишера-Снедекора можно найти
критическую точку Fнабл(α; k1; k2). При
Fнабл < Fкр нулевая гипотеза принимается, при Fнабл > Fкр отвергается.
- если Н1: D(X) ≠ D(Y), то критическая область является двусторонней и
определяется неравенствами F < F1, F > F2, где р(F < F1) = р( F > F2) = α/2.
При этом достаточно найти правую критическую точку F2 = Fкр (
, k1, k2).
2
Тогда при Fнабл < Fкр нулевая гипотеза принимается, при Fнабл > Fкр
отвергается.
Лекция 6.
Критерий Пирсона для проверки гипотезы о виде закона распределения
случайной величины. Проверка гипотез о нормальном, показательном и
равномерном распределениях по критерию Пирсона. Критерий
Колмогорова. Приближенный метод проверки нормальности
распределения, связанный с оценками коэффициентов асимметрии и
эксцесса.
В предыдущей лекции рассматривались гипотезы, в которых закон
распределения генеральной совокупности предполагался известным. Теперь
займемся проверкой гипотез о предполагаемом законе неизвестного
распределения, то есть будем проверять нулевую гипотезу о том, что
генеральная совокупность распределена по некоторому известному закону.
Обычно статистические критерии для проверки таких гипотез называются
критериями согласия.
Критерий Пирсона.
Достоинством критерия Пирсона является его универсальность: с его
помощью можно проверять гипотезы о различных законах распределения.
1. Проверка гипотезы о нормальном распределении.
20
Пусть получена выборка достаточно большого объема п с большим
количеством различных значений вариант. Доя удобства ее обработки
разделим интервал от наименьшего до наибольшего из значений вариант на s
равных частей и будем считать, что значения вари
ант, попавших в каждый интервал, приближенно равны числу, задающему
середину интервала. Подсчитав число вариант, попавших в каждый интервал,
составим так называемую сгруппированную выборку:
варианты………..х1 х2 … хs
частоты………….п1 п2 … пs ,
где хi – значения середин интервалов, а пi – число вариант, попавших в i-й
интервал (эмпирические частоты).
По полученным данным можно вычислить выборочное среднее х В и
выборочное среднее квадратическое отклонение σВ. Проверим
предположение, что генеральная совокупность распределена по нормальному
закону с параметрами M(X) = х В , D(X) = В2 . Тогда можно найти количество
чисел из выборки объема п, которое должно оказаться в каждом интервале
при этом предположении (то есть теоретические частоты). Для этого по
таблице значений функции Лапласа найдем вероятность попадания в i-й
интервал:
b xB
pi i
B
a xB
i
B
,
где аi и bi - границы i-го интервала. Умножив полученные вероятности на
объем выборки п, найдем теоретические частоты: пi =n·pi. Наша цель –
сравнить эмпирические и теоретические частоты, которые, конечно,
отличаются друг от друга, и выяснить, являются ли эти различия
несущественными, не опровергающими гипотезу о нормальном
распределении исследуемой случайной величины, или они настолько велики,
что противоречат этой гипотезе. Для этого используется критерий в виде
случайной величины
s
2
i 1
(ni ni ) 2
.
ni
(6.1)
Смысл ее очевиден: суммируются части, которые квадраты отклонений
эмпирических частот от теоретических составляют от соответствующих
теоретических частот. Можно доказать, что вне зависимости от реального
закона распределения генеральной совокупности закон распределения
случайной величины (6.1) при п стремится к закону распределения 2 с
числом степеней свободы k = s – 1 – r, где r – число параметров
предполагаемого распределения, оцененных по данным выборки.
Нормальное распределение характеризуется двумя параметрами, поэтому
k = s – 3. Для выбранного критерия строится правосторонняя критическая
область, определяемая условием
p( 2 kp2 ( , k )) ,
(6.2)
21
где α – уровень значимости. Следовательно, критическая область задается
неравенством 2 kp2 ( , k ), а область принятия гипотезы - 2 kp2 ( , k ) .
Итак, для проверки нулевой гипотезы Н0: генеральная совокупность
распределена нормально – нужно вычислить по выборке наблюдаемое
значение критерия:
s
2
набл
i 1
(ni ni ) 2
,
ni
(6.1`)
а по таблице критических точек распределения χ2 найти критическую точку
2
2
кр
( , k ) , используя известные значения α и k = s – 3. Если набл
kp2 2
нулевую гипотезу принимают, при набл
kp2 ее отвергают.
2. Проверка гипотезы о равномерном распределении.
При использовании критерия Пирсона для проверки гипотезы о равномерном
распределении генеральной совокупности с предполагаемой плотностью
вероятности
1
, x ( a, b)
f ( x) b a
0, x (a, b)
необходимо, вычислив по имеющейся выборке значение x B , оценить
параметры а и b по формулам:
(6.3)
а* хВ 3 В , b* xB 3 B ,
где а* и b* - оценки а и b. Действительно, для равномерного распределения
ab
( a b) 2 a b
, ( x ) D( X )
, откуда можно получить систему
2
12
2 3
b * a *
xB
для определения а* и b*: b * 2a *
, решением которой являются
B
2 3
М(Х) =
выражения (6.3).
Затем, предполагая, что f ( x)
1
, можно найти теоретические частоты по
b * a *
формулам
n1 np1 nf ( x)( x1 a*) n
n2 n3 ... ns 1 n
ns n
1
( x1 a*);
b * a *
1
( xi xi 1 ), i 1,2,..., s 1;
b * a *
1
(b * x s 1 ).
b * a *
Здесь s – число интервалов, на которые разбита выборка.
Наблюдаемое значение критерия Пирсона вычисляется по формуле (6.1`), а
критическое – по таблице с учетом того, что число степеней свободы
k = s – 3. После этого границы критической области определяются так же,
как и для проверки гипотезы о нормальном распределении.
22
3. Проверка гипотезы о показательном распределении.
В этом случае, разбив имеющуюся выборку на равные по длине интервалы,
рассмотрим последовательность вариант xi*
xi xi 1
, равноотстоящих друг
2
от друга (считаем, что все варианты, попавшие в i – й интервал, принимают
значение, совпадающее с его серединой), и соответствующих им частот ni
(число вариант выборки, попавших в i – й интервал). Вычислим по этим
данным x B и примем в качестве оценки параметра λ величину *
1
. Тогда
хВ
теоретические частоты вычисляются по формуле
ni ni pi ni p( xi X xi 1 ) ni (e xi e xi 1 ).
Затем сравниваются наблюдаемое и критическое значение критерия Пирсона
с учетом того, что число степеней свободы k = s – 2.
Критерий Колмогорова.
Этот критерий применяется для проверки простой гипотезы Н0 о том, что
независимые одинаково распределенные случайные величины Х1, Х2, …, Хп
имеют заданную непрерывную функцию распределения F(x).
Найдем функцию эмпирического распределения Fn(x) и будем искать
границы двусторонней критической области, определяемой условием
Dn sup | Fn ( x) F ( x) | n .
| x|
А.Н. Колмогоров доказал, что в случае справедливости гипотезы Н0
распределение статистики Dn не зависит от функции F(x), и при п
p( n Dn ) K ( ), 0,
где
K ( )
(1)
m
e 2m 2 2
m
- критерий Колмогорова, значения которого можно найти в соответствующих
таблицах. Критическое значение критерия λп(α) вычисляется по заданному
уровню значимости α как корень уравнения p( Dn ) .
Можно показать, что приближенное значение вычисляется по формуле
z
1
,
2 n 6n
где z – корень уравнения 1 K .
2
п ( )
На практике для вычисления значения статистики Dn используется то, что
m 1
m
Dn max( Dn , Dn ) , где Dn max F ( X ( m ) ) , Dn max F ( X ( m ) )
,
1 m n n
1 m n
n
а X (1) X (2) ... X (n) - вариационный ряд, построенный по выборке Х1, Х2, …,
Хп.
Можно дать следующее геометрическое истолкование критерия
Колмогорова: если изобразить на плоскости Оху графики функций Fn(x),
23
Fn(x) ±λn(α) (рис. 1), то гипотеза Н0 верна, если график функции F(x) не
выходит за пределы области, лежащей между графиками функций
Fn(x) -λn(α) и Fn(x) +λn(α).
х
Приближенный метод проверки нормальности распределения,
связанный с оценками коэффициентов асимметрии и эксцесса.
Определим по аналогии с соответствующими понятиями для теоретического
распределения асимметрию и эксцесс эмпирического распределения.
Определение 6.1. Асимметрия эмпирического распределения определяется
равенством
as
m3
B3
,
(6.5)
где т3 – центральный эмпирический момент третьего порядка.
Эксцесс эмпирического распределения определяется равенством
ek
m4
B4
3,
(6.6)
где т4 – центральный эмпирический момент четвертого порядка.
Как известно, для нормально распределенной случайной величины
асимметрия и эксцесс равны 0. Поэтому, если соответствующие
эмпирические величины достаточно малы, можно предположить, что
генеральная совокупность распределена по нормальному закону.
24
Лекция 7.
Корреляционный анализ.
Проверка гипотезы о значимости выборочного
коэффициента корреляции.
Рассмотрим выборку объема п, извлеченную из нормально распределенной
двумерной генеральной совокупности (X, Y). Вычислим выборочный
коэффициент корреляции rB. Пусть он оказался не равным нулю. Это еще не
означает, что и коэффициент корреляции генеральной совокупности не равен
нулю. Поэтому при заданном уровне значимости α возникает необходимость
проверки нулевой гипотезы Н0: rг = 0 о равенстве нулю генерального
коэффициента корреляции при конкурирующей гипотезе Н1: rг ≠ 0. Таким
образом, при принятии нулевой гипотезы Х и Y некоррелированы, то есть не
связаны линейной зависимостью, а при отклонении Н0 они коррелированы.
В качестве критерия примем случайную величину
T
rB n 2
1 rB2
,
(7.1)
которая при справедливости нулевой гипотезы имеет распределение
Стьюдента с k = n – 2 степенями свободы. Из вида конкурирующей гипотезы
следует, что критическая область двусторонняя с границами ± tкр, где
значение tкр(α, k) находится из таблиц для двусторонней критической
области.
Вычислив наблюдаемое значение критерия
Tнабл
rB n 2
1 rB2
и сравнив его с tкр, делаем вывод:
- если |Tнабл| < tкр – нулевая гипотеза принимается (корреляции нет);
- если |Tнабл| > tкр – нулевая гипотеза отвергается (корреляция есть).
Ранговая корреляция.
Пусть объекты генеральной совокупности обладают двумя качественными
признаками (то есть признаками, которые невозможно измерить точно, но
которые позволяют сравнивать объекты между собой и располагать их в
порядке убывания или возрастания качества). Договоримся для
определенности располагать объекты в порядке ухудшения качества.
Пусть выборка объема п содержит независимые объекты, обладающие двумя
качественными признаками: А и В. Требуется выяснить степень их связи
между собой, то есть установить наличие или отсутствие ранговой
корреляции.
25
Расположим объекты выборки в порядке ухудшения качества по признаку А,
предполагая, что все они имеют различное качество по обоим признакам.
Назовем место, занимаемое в этом ряду некоторым объектом, его рангом хi:
х1 = 1, х2 = 2,…, хп = п.
Теперь расположим объекты в порядке ухудшения качества по признаку В,
присвоив им ранги уi , где номер i равен порядковому номеру объекта по
признаку А, а само значение ранга равно порядковому номеру объекта по
признаку В. Таким образом, получены две последовательности рангов:
по признаку А … х1, х2,…, хп
по признаку В … у1, у2,…, уп .
При этом, если, например, у3 = 6, то это означает, что данный объект
занимает в ряду по признаку А третье место, а в ряду по признаку В – шестое.
Сравним полученные последовательности рангов.
1. Если xi = yi при всех значениях i, то ухудшение качества по признаку А
влечет за собой ухудшение качества по признаку В, то есть имеется
«полная ранговая зависимость».
2. Если ранги противоположны, то есть х1 = 1, у1 = п; х2 = 2, у2 = п – 1;…,
хп = п, уп = 1, то признаки тоже связаны: ухудшение качества по
одному из них приводит к улучшению качества по другому
(«противоположная зависимость»).
3. На практике чаще всего встречается промежуточный случай, когда ряд
уi не монотонен. Для оценки связи между признаками будем считать
ранги х1, х2,…, хп возможными значениями случайной величины Х, а у1,
у2,…, уп – возможными значениями случайной величины Y. Теперь
можно исследовать связь между Х и Y, вычислив для них выборочный
коэффициент корреляции
rB
n
uv
uv nu v
n u v
,
(7.2)
где ui xi x, vi yi y (условные варианты). Поскольку каждому рангу xi
соответствует только одно значение yi, то частота любой пары условных
вариант с одинаковыми индексами равна 1, а с разными индексами –
нулю. Кроме того, из выбора условных вариант следует, что u v 0 ,
поэтому формула (7.2) приобретает более простой вид:
rB
Итак, требуется найти
u v ,
i i
u v
i i
n u v
.
(7.3)
u и v.
n3 n
. Учитывая, что x y , можно выразить
12
ui vi через разности рангов d i xi yi ui vi . После преобразований получим:
Можно показать, что
ui2 vi2
d i2
n3 n
ui vi 12 2 , u v
n2 1
n3 n
, откуда n u v
. Подставив эти
12
12
результаты в (7.3), получим выборочный коэффициент ранговой корреляции
Спирмена:
26
B 1
6 d i2
n3 n
.
(7.4)
Свойства выборочного коэффициента корреляции Спирмена.
1. Если между А и В имеется «полная прямая зависимость», то есть ранги
совпадают при всех i, то ρВ = 1. Действительно, при этом di = 0, и из
формулы (7.4) следует справедливость свойства 1.
2. Если между А и В имеется «противоположная зависимость», то ρВ = - 1.
В этом случае, преобразуя di = (2i – 1) – n, найдем, что
тогда из (7.4) B 1
d i2
n3 n
,
3
6(n 3 n)
1 2 1.
3(n 3 n)
3. В остальных случаях -1 < ρB < 1, причем зависимость между А и В тем
меньше, чем ближе | ρB | к нулю.
Итак, требуется при заданном уровне значимости α проверить нулевую
гипотезу о равенстве нулю генерального коэффициента ранговой корреляции
Спирмена ρг при конкурирующей гипотезе Н1: ρг ≠ 0. Для этого найдем
критическую точку:
Tkp t kp ( , k )
1 B2
,
n2
(7.5)
где п – объем выборки, ρВ – выборочный коэффициент ранговой корреляции
Спирмена, tкр (α, k) – критическая точка двусторонней критической области,
найденная по таблице критических точек распределения Стьюдента, число
степеней свободы k = n – 2.
Тогда, если | ρB | < Tкр, то нулевая гипотеза принимается, то есть ранговая
корреляционная связь между признаками незначима.
Если | ρB | > Tкр, то нулевая гипотеза отвергается, и между признаками
существует значимая ранговая корреляционная связь.
Можно использовать и другой коэффициент – коэффициент ранговой
корреляции Кендалла. Рассмотрим ряд рангов у1, у2,…, уп, введенный так же,
как и ранее, и зададим величины Ri следующим образом: пусть правее у1
имеется R1 рангов, больших у1; правее у2 – R2 рангов, больших у2 и т.д. Тогда,
если обозначить R =R1 + R2 +…+ Rn-1, то выборочный коэффициент
ранговой корреляции Кендалла определяется формулой
В
4R
1,
n(n 1)
(7.6)
где п – объем выборки.
Замечание. Легко убедиться, что коэффициент Кендалла обладает теми же
свойствами, что и коэффициент Спирмена.
27
Для проверки нулевой гипотезы Н0: τг = 0 (генеральный коэффициент
ранговой корреляции Кендалла равен нулю) при альтернативной гипотезе Н1:
τг ≠ 0 необходимо найти критическую точку:
Т кр z kp
2(2n 5)
,
9n(n 1)
(7.7)
где п – объем выборки, а zкр – критическая точка двусторонней критической
области, определяемая из условия ( z kp )
1
по таблицам для функции
2
Лапласа.
Если | τB | < Tкр , то нулевая гипотеза принимается (ранговая корреляционная
связь между признаками незначима).
Если | τB | > Tкр , то нулевая гипотеза отвергается (между признаками
существует значимая ранговая корреляционная связь).
Лекция 8.
Регрессионный анализ.
Рассмотрим выборку двумерной случайной величины (Х, Y) . Примем в
качестве оценок условных математических ожиданий компонент их
условные средние значения, а именно: условным средним у х назовем
среднее арифметическое наблюдавшихся значений Y, соответствующих
Х = х. Аналогично условное среднее х у - среднее арифметическое
наблюдавшихся значений Х, соответствующих Y = y. Ранее были выведены
уравнения регрессии Y на Х и Х на Y:
M (Y / x) = f (x), M ( X / y ) = φ (y).
Условные средние у х и х у являются оценками условных математических
ожиданий и, следовательно, тоже функциями от х и у, то есть
у х = f*(x) (8.1)
- выборочное уравнение регрессии Y на Х,
х у = φ*(у) (8.2)
- выборочное уравнение регрессии Х на Y.
Соответственно функции f*(x) и φ*(у) называются выборочной регрессией Y
на Х и Х на Y , а их графики – выборочными линиями регрессии.
Выясним, как определять параметры выборочных уравнений регрессии, если
сам вид этих уравнений известен.
Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из
п пар чисел (х1, у1), (х2, у2),…, (хп, уп). Будем искать параметры прямой линии
среднеквадратической регрессии Y на Х вида
Y = ρyxx + b ,
(8.3)
Подбирая параметры ρух и b так, чтобы точки на плоскости с координатами
(х1, у1), (х2, у2), …, (хп, уп) лежали как можно ближе к прямой (8.3).
Используем для этого метод наименьших квадратов и найдем минимум
функции
28
n
n
i 1
i 1
F ( , b) (Yi y i ) 2 ( xi b y i ) 2 .
(8.4)
Приравняем нулю соответствующие частные производные:
n
F
2 ( xi b y i ) xi 0
i 1
.
n
F
2 ( xi b y i ) 0
b
i 1
В результате получим систему двух линейных уравнений относительно ρ и b:
2
х х b xy
x nb y
.
(8.5)
Ее решение позволяет найти искомые параметры в виде:
xy
n xy x y
n x 2 x
2
x y x xy
b
n x x
2
;
2
2
.
(8.6)
При этом предполагалось, что все значения Х и Y наблюдались по одному
разу.
Теперь рассмотрим случай, когда имеется достаточно большая выборка (не
менее 50 значений), и данные сгруппированы в виде корреляционной
таблицы:
Y
X
x1
y1 n11
y2 n12
… …
ym n1m
nx n11+n12+…+n1m
x2
n21
n22
…
n2m
n21+n22+…+n2m
…
…
…
…
…
…
xk
nk1
nk2
…
nkm
nk1+nk2+…+nkm
ny
n11+n21+…+nk1
n12+n22+…+nk2
……………..
n1m+n2m+…+nkm
n=∑nx = ∑ny
Здесь nij – число появлений в выборке пары чисел (xi, yj).
Поскольку
x,
x
n
2
y ny, x n x 2 ,
y,
y
x
2
, заменим в системе (8.5) x nx ,
x
n
n
xy nxy xy , где пху – число появлений пары чисел
2
(х, у). Тогда система (8.5) примет вид:
2
(n x ) yx (nx )b n xy xy
.
( x ) yx b y
(8.7)
Можно решить эту систему и найти параметры ρух и b, определяющие
выборочное уравнение прямой линии регрессии:
у х ух х b .
Но чаще уравнение регрессии записывают в ином виде, вводя выборочный
коэффициент корреляции. Выразим b из второго уравнения системы (8.7):
b у ух х .
Подставим это выражение в уравнение регрессии: y x y yx ( x x ) . Из (8.7)
29
yx
n
xy
xy nx y
n( x 2 ( x ) 2 )
n
xy nx y
,
n~ 2
xy
(8.8)
x
где ~ x2 x 2 ( x ) 2 . Введем понятие выборочного коэффициента корреляции
rB
n
xy nx y
~
n ~
xy
x
y
~
и умножим равенство (8.8) на ~ x :
y
~ y
~
yx ~ x rB , откуда yx rB ~ .
y
x
Используя это соотношение, получим выборочное уравнение прямой линии
регрессии Y на Х вида
~ y
y x y rB ~ ( x x ) .
x
(8.9)
Лекция 9.
Однофакторный дисперсионный анализ.
Пусть генеральные совокупности Х1, Х2,…, Хр распределены нормально и
имеют одинаковую дисперсию, значение которой неизвестно. Найдем
выборочные средние по выборкам из этих генеральных совокупностей и
проверим при заданном уровне значимости нулевую гипотезу Н0:
М(Х1) = М(Х2) = … = М(Хр) о равенстве всех математических ожиданий. Для
решения этой задачи применяется метод, основанный на сравнении
дисперсий и названный поэтому дисперсионным анализом.
Будем считать, что на случайную величину Х воздействует некоторый
качественный фактор F, имеющий р уровней: F1, F2, …, Fp. Требуется
сравнить «факторную дисперсию», то есть рассеяние, порождаемое
изменением уровня фактора, и «остаточную дисперсию», обусловленную
случайными причинами. Если их различие значимо, то фактор существенно
влияет на Х и при изменении его уровня групповые средние различаются
значимо.
Будем считать, что количество наблюдений на каждом уровне фактора
одинаково и равно q. Оформим результаты наблюдений в виде таблицы:
Номер
испытания
1
2
…
q
Групповое
среднее
Уровни фактора Fj
F1 F2 … Fp
x11 x12 … x1p
x21 x22 … x2p
… … … …
xq1 xq2 … xqp
х гр1 х гр 2 … х грр
Определим общую, факторную и остаточную суммы квадратов отклонений
от среднего:
30
p
q
S общ ( xij x ) 2 -
(9.1)
j 1 i 1
- общая сумма квадратов отклонений наблюдаемых значений от общего
среднего x ;
p
S факт q ( x грj x ) 2 -
(9.2)
j 1
- факторная сумма отклонений групповых средних от общей средней,
характеризующая рассеяние между группами;
q
q
q
i 1
i 1
i 1
S ост ( xi1 x гр1 ) 2 ( xi 2 x гр 2 ) 2 ... ( xip x грр ) 2 -
(9.3)
- остаточная сумма квадратов отклонений наблюдаемых значений группы от
своего группового среднего, характеризующая рассеяние внутри групп.
Замечание. Остаточную сумму можно найти из равенства
Sост = Sобщ – Sфакт .
q
q
i 1
i 1
Вводя обозначения R j xij , Pj xij2 , получим формулы, более удобные
для расчетов:
2
S общ
p
Rj
p
j 1
,
Pj
pq
j 1
p
Rj
R
j 1
j 1
q
pq
p
(9.1`)
2
2
j
S факт
.
(9.2`)
Разделив суммы квадратов на соответствующее число степеней свободы,
получим общую, факторную и остаточную дисперсии:
2
sобщ
S общ
pq 1
2
, sфакт
S факт
р 1
2
, sост
S ост
.
p(q 1)
(9.4)
Если справедлива гипотеза Н0, то все эти дисперсии являются
несмещенными оценками генеральной дисперсии. Покажем, что проверка
нулевой гипотезы сводится к сравнению факторной и остаточной дисперсии
по критерию Фишера-Снедекора.
1. Пусть гипотеза Н0 правильна. Тогда факторная и остаточная дисперсии
являются несмещенными оценками неизвестной генеральной дисперсии и,
следовательно, различаются незначимо. Поэтому результат оценки по
критерию Фишера-Снедекора F покажет, что нулевая гипотеза принимается.
Таким образом, если верна гипотеза о равенстве математических ожиданий
генеральных совокупностей, то верна и гипотеза о равенстве факторной и
остаточной дисперсий.
2. Если нулевая гипотеза неверна, то с возрастанием расхождения между
математическими ожиданиями увеличивается и факторная дисперсия, а
вместе с ней и отношение Fнабл
2
s факт
2
s ост
. Поэтому в результате Fнабл окажется
31
больше Fкр, и гипотеза о равенстве дисперсий будет отвергнута.
Следовательно, если гипотеза о равенстве математических ожиданий
генеральных совокупностей ложна, то ложна и гипотеза о равенстве
факторной и остаточной дисперсий.
Итак, метод дисперсионного анализа состоит в проверке по критерию F
нулевой гипотезы о равенстве факторной и остаточной дисперсий.
Замечание. Если факторная дисперсия окажется меньше остаточной, то
гипотеза о равенстве математических ожиданий генеральных совокупностей
верна. При этом нет необходимости использовать критерий F.
Если число испытаний на разных уровнях различно (q1 испытаний на
уровне F 1, q 2 – на уровне F 2 , …, qр - на уровне F р ), то
S общ ( Р1 Р2 ... Р р ) ( R1 R2 ... R p ) ,
qj
где Pj xij2 сумма квадратов наблюдавшихся значений признака на
i 1
уровне Fj,
qj
R j xij сумма наблюдавшихся значений признака на уровне Fj.
i 1
При этом объем выборки, или общее число испытаний, равен
n q1 q2 ... q p .
Факторная сумма квадратов отклонений вычисляется по формуле
S факт
R12 R22
R p2 ( R1 R2 ... R p ) 2
.
...
q1 q 2
q
n
p
Остальные вычисления проводятся так же, как в случае одинакового числа
испытаний:
2
S ост S общ S факт , sфакт
S факт
р 1
2
, sост
S ост
.
п р
Лекция 10.
Моделирование случайных величин методом Монте-Карло
(статистических испытаний).
Задачу, для решения которой применяется метод Монте-Карло, можно
сформулировать так: требуется найти значение а изучаемой случайной
величины. Для его определения выбирается случайная величина Х,
математическое ожидание которой равно а, и для выборки из п значений Х,
полученных в п испытаниях, вычисляется выборочное среднее:
х
х
n
i
,
которое принимается в качестве оценки искомого числа а:
a a * x.
Этот метод требует проведения большого числа испытаний, поэтому его
иначе называют методом статистических испытаний. Теория метода
Монте-Карло исследует, как наиболее целесообразно выбрать случайную
величину Х, как найти ее возможные значения, как уменьшить дисперсию
32
используемых случайных величин, чтобы погрешность при замене а на а*
была возможно меньшей.
Поиск возможных значений Х называют разыгрыванием случайной
величины. Рассмотрим некоторые способы разыгрывания случайных
величин и выясним, как оценить допускаемую при этом ошибку.
Оценка погрешности метода Монте-Карло.
Если поставить задачу определения верхней границы допускаемой ошибки с
заданной доверительной вероятностью , то есть поиска числа , для
которого
p(| X a | ) ,
то получим известную задачу определения доверительного интервала для
математического ожидания генеральной совокупности . Воспользуемся
результатами решения этой задачи для следующих случаев:
1) случайная величины Х распределена нормально и известно ее среднее
квадратическое отклонение. Тогда из формулы (4.1) получаем:
t
n
,
где п – число испытаний, - известное среднее квадратическое
отклонение, а t – аргумент функции Лапласа, при котором Ф(t) = /2.
2) Случайная величина Х распределена нормально с неизвестным .
Воспользуемся формулой (4.3), из которой следует, что
t s
n
, где s –
исправленное выборочное среднее квадратическое отклонение, а
t определяется по соответствующей таблице.
3) Если случайная величина распределена по иному закону, то при
достаточно большом количестве испытаний (n > 30) можно
использовать для оценки предыдущие формулы, так как при п
распределение Стьюдента стремится к нормальному, и границы
интервалов, полученные по формулам (4.1) и (4.3), различаются
незначительно.
Разыгрывание случайных величин.
Определение 10.1. Случайными числами называют возможные значения r
непрерывной случайной величины R, распределенной равномерно в
интервале (0; 1).
1. Разыгрывание дискретной случайной величины.
Пусть требуется разыграть дискретную случайную величину Х, то есть
получить последовательность ее возможных значений, зная закон
распределения Х:
Х х 1 х2 … хп
р р1 р2 … рп .
33
Рассмотрим равномерно распределенную в (0, 1) случайную величину R и
разобьем интервал (0, 1) точками с координатами р1, р1 + р2, …, р1 + р2 +…
+рп-1 на п частичных интервалов 1 , 2 ,..., п , длины которых равны
вероятностям с теми же индексами.
Теорема 10.1. Если каждому случайному числу rj (0 rj 1) , которое попало в
интервал i , ставить в соответствие возможное значение x i , то
разыгрываемая величина будет иметь заданный закон распределения:
Х х 1 х2 … хп
р р1 р2 … рп .
Доказательство.
Возможные значения полученной случайной величины совпадают с
множеством х1 , х2 ,… хп, так как число интервалов равно п, а при
попадании rj в интервал i случайная величина может принимать только
одно из значений х1 , х2 ,… хп.
Так как R распределена равномерно, то вероятность ее попадания в каждый
интервал равна его длине, откуда следует, что каждому значению
соответствует вероятность pi. Таким образом, разыгрываемая случайная
величина имеет заданный закон распределения.
Пример. Разыграть 10 значений дискретной случайной величины Х, закон
распределения которой имеет вид:
Х 2
3
6
8
р 0,1 0,3 0,5 0,1
Решение. Разобьем интервал (0, 1) на частичные интервалы: 1 (0; 0,1),
2 (0,1; 0,4), 3 (0,4; 0,9), 4 (0,9; 1).
Выпишем из таблицы случайных чисел 10 чисел:
0,09; 0,73; 0,25; 0,33; 0,76; 0,52; 0,01; 0,35; 0,86; 0,34.
Первое и седьмое числа лежат на интервале 1, следовательно, в этих случаях
разыгрываемая случайная величина приняла значение х1 = 2; третье,
четвертое, восьмое и десятое числа попали в интервал 2, что соответствует
х2 = 3; второе, пятое, шестое и девятое числа оказались в интервале 3 – при
этом Х = х3 = 6; на последний интервал не попало ни одного числа. Итак,
разыгранные возможные значения Х таковы: 2, 6, 3, 3, 6, 6, 2, 3, 6, 3.
2. Разыгрывание противоположных событий.
Пусть требуется разыграть испытания, в каждом из которых событие А
появляется с известной вероятностью р. Рассмотрим дискретную случайную
величину Х, принимающую значения 1 (в случае, если событие А произошло)
с вероятностью р и 0 (если А не произошло) с вероятностью q = 1 – p. Затем
разыграем эту случайную величину так, как было предложено в предыдущем
пункте.
34
Пример. Разыграть 10 испытаний, в каждом из которых событие А
появляется с вероятностью 0,3.
Решение. Для случайной величины Х с законом распределения
Х 1 0
р 0,3 0,7
получим интервалы 1 (0; 0,3) и 2 (0,3; 1). Используем ту же выборку
случайных чисел, что и в предыдущем примере, для которой в интервал 1
попадают числа №№1,3 и 7, а остальные – в интервал 2. Следовательно,
можно считать, что событие А произошло в первом, третьем и седьмом
испытаниях, а в остальных – не произошло.
3. Разыгрывание полной группы событий.
Если события А1, А2, …, Ап, вероятности которых равны р1 , р2 ,… рп,
образуют полную группу, то для из разыгрывания (то есть моделирования
последовательности их появлений в серии испытаний) можно разыграть
дискретную случайную величину Х с законом распределения Х 1 2 … п,
сделав это так же, как в пункте 1. При этом считаем, что
р р1 р2 … рп
если Х принимает значение хi = i, то в данном испытании произошло событие
Аi.
4. Разыгрывание непрерывной случайной величины.
а) Метод обратных функций.
Пусть требуется разыграть непрерывную случайную величину Х, то есть
получить последовательность ее возможных значений xi (i = 1, 2, …, n), зная
функцию распределения F(x).
Теорема 10.2. Если ri – случайное число, то возможное значение xi
разыгрываемой непрерывной случайной величины Х с заданной функцией
распределения F(x), соответствующее ri , является корнем уравнения
F(xi) = ri.
(10.1)
Доказательство.
Так как F(x) монотонно возрастает в интервале от 0 до 1, то найдется (причем
единственное) значение аргумента xi , при котором функция распределения
примет значение ri . Значит, уравнение (10.1) имеет единственное решение:
хi = F-1(ri ), где F-1- функция, обратная к F.
Докажем, что корень уравнения (10.1) является возможным значением
рассматриваемой случайной величины Х. Предположим вначале, что xi –
возможное значение некоторой случайной величины , и докажем, что
вероятность попадания в интервал (с, d) равна F(d) – F(c). Действительно,
c xi d F (c) ri F (d ) в силу монотонности F(x) и того, что F(xi) = ri.
Тогда с d F (c) R F (d ) , следовательно,
p(с d ) p( F (c) R F (d )) F (d ) F (c).
35
Значит, вероятность попадания в интервал (c, d) равна приращению
функции распределения F(x) на этом интервале, следовательно, = Х.
Пример.
Разыграть 3 возможных значения непрерывной случайной величины Х,
распределенной равномерно в интервале (5; 8).
Решение.
F(x) =
х 5
х5
, то есть требуется решить уравнение i
ri , xi 3ri 5.
3
3
Выберем 3 случайных числа: 0,23; 0,09 и 0,56 и подставим их в это
уравнение. Получим соответствующие возможные значения Х:
х1 5,69; х2 5,27; х3 6,68.
б) Метод суперпозиции.
Если функция распределения разыгрываемой случайной величины может
быть представлена в виде линейной комбинации двух функций
распределения:
F ( x) C1 F1 ( x) C2 F2 ( x) (C1, 2 0) ,
(10.2)
то C1 C2 1, так как при х F(x) 1.
Введем вспомогательную дискретную случайную величину Z с законом
распределения
Z 1 2
p C1 C2
Выберем 2 независимых случайных числа r1 и r2 и разыграем возможное
значение Z по числу r1 (см. пункт 1). Если Z = 1, то ищем искомое
возможное значение Х из уравнения F1 ( x) r2 , а если Z = 2, то решаем
уравнение F2 ( x) r2 .
Можно доказать, что при этом функция распределения разыгрываемой
случайной величины равна заданной функции распределения.
в) Приближенное разыгрывание нормальной случайной величины.
1
2
Так как для R, равномерно распределенной в (0, 1), M ( R) , D( R)
1
, то
12
для суммы п независимых, равномерно распределенных в интервале (0,1)
случайных величин
n
R
j 1
j
n
n
n
n
n
M R j , D R j ,
.
12
j 1 2
j 1 12
Тогда в силу центральной предельной теоремы нормированная случайная
n
величина
R
j 1
j
n
12
n
2
при п будет иметь распределение, близкое к
36
нормальному, с параметрами а = 0 и =1. В частности, достаточно хорошее
приближение получается при п = 12:
12
R
j 1
j
6.
Итак, чтобы разыграть возможное значение нормированной нормальной
случайной величины х, надо сложить 12 независимых случайных чисел и из
суммы вычесть 6.
37