Основные статистические распределения
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
3. Основные статистические распределения
3.1. Гипотезы в статистике
На разных стадиях статистического исследования и моделирования возникает
необходимость в формулировке и экспериментальной проверке некоторых
предположительных утверждений (гипотез) относительно природы неизвестных
параметров анализируемых случайных величин. Например, исследователь высказывает
предположение: «исследуемые наблюдения извлечены из равномерно распределенной
генеральной совокупности» или «среднее значение анализируемой генеральной
совокупности равно нулю». Будем обозначать в дальнейшем высказанное нами
предположение (гипотезу) с помощью буквы H. Наша цель – проверить, не
противоречит ли высказанная нами гипотеза H имеющимся выборочным данным.
Процедура обоснованного сопоставления высказанной гипотезы с имеющимися в
нашем распоряжении выборочными данными x1, x2, … xn, сопровождаемая
количественной оценкой степени достоверности получаемого вывода осуществляется с
помощью того или иного статистического критерия и называется статистической
проверкой гипотез.
Результат подобного сопоставления может быть либо отрицательным (данные
наблюдения противоречат высказанной гипотезе, а потому от этой гипотезы следует
отказаться), либо неотрицательным (данные наблюдения не противоречат высказанной
гипотезе, а потому ее можно принять в качестве одного из естественных и допустимых
решений). При этом неотрицательный результат статистической проверки гипотезы не
означает, что высказанное нами предположительное утверждение является
наилучшим, единственно подходящим: просто она не противоречит имеющимся у нас
выборочным данным, однако таким же свойством могут наряду с H обладать и другие
гипотезы. Так что даже статистически проверенное предположение H следует
расценивать не как раз и навсегда установленный абсолютно верный факт, а лишь как
достаточно правдоподобное непротиворечащее опыту утверждение.
При обработке выборочных данных, в силу случайной природы процесса получения
выборки, важно знать, каким вероятностным законам подчиняются выборочные
значения исследуемого экономического показателя. Существует целый ряд
распределений вероятности, которые играют роль эталона в статистических выводах.
Это, прежде всего, равномерное распределение, нормальное распределение
(распределение Гаусса) и распределение Стьюдента (t-распределение), распределение
Фишера и хи-квадрат.
3.2. Равномерное распределение
Равномерное распределение - это такое распределение вероятности, плотность
которого постоянна в заданном интервале изменения случайной величины X: а Х b.
Равномерно распределенная случайная величина обозначается R(а,b). Там, где
встречается R без указания параметров, подразумевается стандартное равномерное
распределение на интервале 0 Х 1: R(0,1).
Плотность вероятности равномерного распределения на интервале [а, b]
постоянна на этом интервале:
2
1
,a xb
fu b a
,
0, при x a, x b
а функция распределения:
0, x a
xa
FU ( x )
,a x b
ba
1, x b
Для равномерного распределения E[X]=(a+b)/2, V[X]=(b-a)2/12
Соответствующие этим функциям графики приведены на рисунке 3.1
На примере равномерного распределения проще всего показать как графически и
аналитически рассчитывать вероятность попадания в заданный интервал, т.е.
Prob(x1 X < x2) используя соотношение между плотностью распределения и функцией
распределения.
Рис. 3.1 Плотность вероятности и функция распределения равномерного распределения.
Подобно тому, как масса физического тела, равномерно распределенная по
объему, находится как произведение плотности (массы в единице объема) на объем,
так и вероятность попадания равномерно распределенной случайной величины в
заданный интервал равна произведению плотности вероятности на длину интервала, и,
таким образом, величина вероятности линейно растет с увеличением длины интервала
(внутри области определения [a,b]).
3.3. Нормальное распределение
Если случайная величина формируется под действием большого количества
независимых факторов, вклад каждого из которых в значение случайной величины
мал, то в силу центральной предельной теоремы эта случайная величина будет иметь
нормальное распределение. В роли таких величин могут выступать: объем продаж в
конкурентной отрасли или в промышленности в целом, суммарные инвестиции,
3
суммарное потребление домашних хозяйств и тому подобные величины, имеющие
аддитивную природу, то есть складывающиеся из многих малых взаимно независимых
величин.
Основная особенность случайной величины состоит в том, что нельзя предвидеть,
какое значение она примет в результате испытания. Однако при достаточно большом
числе испытаний поведение суммы независимых случайных величин почти утрачивает
случайный характер и становится почти закономерным. При увеличении числа
слагаемых в сумме противоположные случайные колебания отдельных величин
сглаживаются и распределение вероятностей суммы становится весьма простым,
приближаясь при определенных условиях к нормальному распределению.
Нормальное распределение одной случайной величины X однозначно определяется
лишь двумя параметрами: средним значением, обычно обозначаемым , и стандартным
отклонением, обычно обозначаемым . Это обычно обозначают так: Х~N(,)
Свойства нормального распределения
Рассмотрим основные свойства нормального распределения.
10. Если ряд случайных величин (X1,X2, …Xn) имеет нормальное распределение, то их
сумма (X1+X2+ …+Xn) или любая линейная комбинация (1X1+2X2+ …+nXn) также
будет иметь нормальное распределение.
20.
Распределение
Х
величины
n
c X
k
k
,
представляющей
собой
k 1
взвешенную сумму п независимых нормально распределенных случайных величин
Хk=N(k,k) с параметрами k и k, также будет иметь нормальное распределение с
параметрами
n
c
k
k
n
и c k 2 k 2 .
k 1
k 1
В частности, если все ck=1/n, все k иk, одинаковы и равны l,l, соответственно,
то =l, а
l
. Обозначая
n
_
X
1 n
Xk
n k 1
_
, имеем, таким образом, E[ X ] = E[Х],
[Х] =[Х]/ n . Отсюда видно, что разброс среднего арифметического независимых
нормально распределенных случайных величин стремится к нулю при неограниченном
увеличении числа этих величин. Если, например, взята достаточно большая
репрезентативная выборка населения, то средний доход в выборке почти наверняка
окажется близким к действительному среднему доходу населения.
Плотность вероятности и функция нормального распределения
Аналитически плотность вероятности нормального распределения на интервале (,+).
f N ( x)
1
2
( x )2
2 2
e
,
а функция распределения
FN ( x )
1
2
x
e
( t ) 2
2
2
dt
4
E[X]= , V[X]= 2, V[X]=
Плотность вероятности нормального распределения пропорциональна величине
z2
, где z - безразмерная величина, определяемая выражением
2
ехр
x
z=
.
Поэтому плотность нормального распределения достаточно быстро убывает при
удалении х от среднего значения . Случайная величина z имеет нулевое
математическое ожидание и единичную дисперсию; это вытекает из их определений и
свойств, учитывая, что z =
x
.
На рис. 3.2а приведен характерный график плотности вероятности, а на рис. 3.26
- график соответствующей функции распределения.
а)
б)
Рис. 3.1
Используя выведенную нами взаимосвязь плотности вероятности и функции
распределения, несложно показать, что наклон графика функции распределения
характеризует плотность вероятности (чем больше плотность вероятности, тем быстрее
меняется функция распределения) (f(x)=tg()), а площадь под графиком функции
плотности вероятности на интервале x1Xt())=, где t реализация исследуемой случайной величины,
подчиненной распределению Стьюдента.
Распределение Стьюдента используется, например, при проверке гипотез:
• о среднем значении нормальной генеральной совокупности при неизвестной
дисперсии;
• о линейной независимости двух случайных величин (равенстве нулю коэффициента
корреляции) - см. ниже в этой главе;
• о статистической значимости коэффициента линейной регрессии.
Примеры расчетов вероятности попадания в заданный интервал с помощью
таблиц t-распределения Стьюдента
В таблице функции распределения Стьюдента приводятся обычно, для различных
чисел степеней свободы , критические точки, соответствующие приведенным в
верхней строке таблицы вероятностям попадания в правый «хвост» распределения.
Иными словами, в приведенной ниже таблице число - это вероятность превышения
t–статистикой приведенного в таблице критического значения при соответствующем
числе степеней свободы (более подробная таблица приведена в прил.1):
Таблица 3.2
\
1
…
10
…
30
0,005
63,657
…
3,169
…
2,750
2,576
0,01
31,821
…
2,764
…
2,457
2,326
0,025
12,706
…
2,228
…
2,042
1,960
0,05
6,314
…
1,812
…
1,697
1,645
0,1
3,078
…
1,372
…
1,310
1,282
10
Рис. 3.7. Односторонняя критическая область распределения Стьюдента
Критическая точка t, (например, t10;0,05) находится на пересечении строки с
числом степеней свободы (в данном случае =10) и столбца с заданной вероятностью
(в данном случае =0,05). Из приведенной таблицы находим, что t10,0,05=1,812.
Напомним, что критическая точка в данном случае имеет смысл: Prob{t>t,}=.
Отметим, что иногда таблицы распределения Стьюдента приводятся для
двусторонних критических точек ts,, определяемых их условия Prob{t>ts,}=.
Рис. 3.8. Двусторонняя критическая область распределения Стьюдента
В силу симметричности распределения Стьюдента эти точки связаны с
односторонними критическими точками соотношением ts,= t,/2, так как при
заданной вероятности а попадания в оба "хвоста" распределения вероятность
попадания в один из "хвостов" распределения будет в два раза меньше и равна /2.
Кроме того, в некоторых таблицах распределения Стьюдента вместо малых чисел
(вероятностей попадания в "хвост" распределения) приводятся числа 1-
(вероятности попадания в интервал (-, t,) для односторонних критических точек и в
интервал [-ts, , ts,) для двусторонних критических точек).
3.5. F-распределение Фишера
Это распределение (называемое иногда распределением дисперсионного
отношения) имеет случайная величина, равная отношению двух независимых
2 ( k1 )
случайных величин: величины
выражающейся через случайную величину,
k1
имеющую распределение
2
с k1 степенями свободы и величины
2 (k 2 )
k2
выражающейся через случайную величину, имеющую распределение с k2 степенями
2
11
свободы (распределение 2, имеет сумма квадратов k1 независимых стандартно
нормально распределенных случайных величин).
2 ( k1 ) 2 ( k1 )
Вводя новую случайную величину F ( k 1 , k 2 )
, мы получим
k1
k1
для нее распределение Фишера с k1 и k2 степенями свободы с плотностью вероятности:
f F ( x , k 1 , k 2 ) Cx
E[ X ]
k1
2
1
k
1 1 x
k2
k1 k 2
2
,
k2
(k 2 2), V [ X ] h(k1 , k 2 ) .
k2 2
Рис. 3.9. F-распределение Фишера
1о. Критические точки распределения Фишера обладают следующим свойством:
1
F1 ( k 1 , k 2 )
F ( k 2 , k 1 )
о
2 . Квадрат случайной величины, имеющей распределение Стьюдента с k2 степенями
свободы, имеет распределение Фишера с (1, k2) степенями свободы.
Подставляя в определение случайной величины F «выборочное представление
случайной величины
: ( n 1)
2
2
( n 1) S n**2
2
, можно получить «выборочное
представление» случайной величины F:
S 1*,2k 1 S 2*2,k 2
F ( k 1 1, k 2 1) 2 2
1 2
n
1
( X k X ) 2 - исправленная выборочная дисперсия
n 1 k 1
n
S n*2
n 1
для выборки объема п.
Распределение Фишера используется, например, при:
• сравнении двух дисперсий;
где S n**2
12
• проверке гипотезы об одновременном равенстве нулю всех или части коэффициентов
линейной регрессии;
• проверке гипотезы о совпадении всех коэффициентов двух уравнений линейной
регрессии.
Работа с таблицами F-распределения Фишера
Таблицы функции F-распределения Фишера на интервале [0,+) обычно приводятся
отдельно для различных значений вероятности а попадания в "хвост" функции
распределения. Например, для = 0,05 такая таблица имеет вид:
Таблица 3.3
1
1
161
…
…
10
242
…
…
100
253
00
254
…
…
…
…
…
…
…
10
4,96
…
2,97
…
2,59
2,54
…
…
…
…
…
…
…
100
3,94
…
1,92
…
1,39
1,28
3,84
…
1,83
…
1,24
1,00
k2\k1
Рис. 3.10. Односторонняя критическая область распределения Фишера
В этой таблице для различных сочетаний чисел степеней свободы k1 и k2, приведены
критические точки функции распределения Фишера, соответствующие вероятности
= 0,05 попадания в "хвост" функции распределения.
Пример
Критическая точка F(k1,k2)=F0,05(10,100) находится в таблице, соответствующей
значению = 0,05, на пересечении строки k2 (в данном случае k2= 100) и столбца k1 (в
данном случае k1= 10). Из приведенной таблицы находим, что F0,05(10,100) = 1,92.
Напомним, что критическая точка в данном случае имеет следующий смысл:
Prob{F>F(k1,k2)} = .
13
Вопросы для самопроверки
1. Какой вид (аналитический) и графический имеют плотность распределения
вероятности и функция распределения стандартного равномерного распределения,
определенного на интервале 0x1?
2. Какой вид (аналитический) и графический имеют плотность распределения
вероятности и функция распределения стандартного нормального распределения?
3. Что такое распределение Стьюдента? Каковы его характеристики?
4. Что такое распределение Фишера? Каковы его характеристики?