Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В
теории
вероятностей
предполагается,
что
все
основные
характеристики случайного события, случайной величины или случайного
процесса известны. На практике это бывает редко, и все характеристики или
их часть (функция распределения, плотность распределения вероятностей,
моменты случайной величины, функция корреляции случайного процесса)
нужно находить (оценивать) из эксперимента. Этот раздел математической
статистики (МС) называется описательной статистикой.
Наряду с упомянутыми вопросами часто возникают задачи другого
рода. Из тех или иных соображений выдвигаются некоторые гипотезы,
например:
случайное
событие
обладает
данной
вероятностью;
математическое ожидание наблюдаемой случайной величины равно нулю;
наблюдаемая случайная величина подчиняется нормальному закону; данный
процесс является пуассоновским с постоянной интенсивностью и т.д.
Проверка такого рода гипотез по наблюдаемым данным составляет
содержание специального раздела МС: проверка статистических гипотез.
Часто необходимо выявить меру и характер зависимости двух или
нескольких
случайных
величин
(случайных
показателей
какого-либо
объекта). Такого рода задачи решаются в корреляционной теории и
регрессионной теории.
Часто возникает необходимость выявить степень вклада каких-либо
факторов в результирующий фактор (или в результирующие факторы). Такие
задачи решаются в факторном анализе.
Совокупность
наблюдаемых
случайных
величин
называется
выборкой, величины xi (i 1, 2, ... n)– элементами выборки, а их число n –
объёмом
(или
размером)
выборки.
Конкретные
значения
выборки,
полученные в результате испытаний, называют реализацией выборки и
обозначают строчными буквами
Пусть в результате
(x1, x2 , ... , xn ) .
наблюдений над дискретной случайной
n
величиной X значение x1 выпало
n1 раз, x2
– n2 раз, … , xk
– nk раз
(n1 n2 ... nk n) . Подсчитаем соответствующие частоты появления этих
значений
1
n1
,
2
n
n2
, ……. ,
nk
k
n
n
.
и составим таблицу
…
1
2
…
Эта таблица носит название
x1
…
xk
i
k
…
статистического распределения.
x2
xi
Статистическое распределение является оценкой неизвестного закона
распределения.
В
соответствии
с
i сходятся по вероятности (при n
теоремой
)
Бернулли
частоты
к соответствующим вероятностям
pi (i 1, 2, ..., k) . Поэтому при больших n статистическое распределение
мало отличается от истинного распределения.
Графически статистическое распределение изображается в виде
полигона
частот.
По
оси
абсцисс
откладываются
значения
x1, x2 , ...., xk и в точках x1, x2 , ...., xk откладываются в направлении оси OY
величины
1 , 2, .. , k соответственно. Полученные точки соединяют
отрезками прямых. Полигон частот является статистическим аналогом
многоугольника
распределения
(напомним,
что
при
построении
многоугольника распределения по оси ординат откладывают вероятности
pi ). Заметим, что 1 2 .... k 1.
Пример 1. Наблюдения над дискретной случайной величиной
X
заданы таблицей.
Возможные значения xi
3
5
7
9
11
4
10
25
8
3
Количества полученных
наблюдений ni
Построить полигон частот.
Решение. Общее число наблюдений
n 4 10 25 8 3.
Подсчитаем частоты:
n 4
n2 10 0,20;
1 0,08;
1
2
n 50
n
50
n
8
n
4 0,16;
5 3 0,06.
4
5
n 50
n
3
n3 25
0,50;
n 50
В точках xi откладываем частоты i (i 1, 2,3, 4,5) . Полученные точки
соединяем отрезками прямых (рис. 1).
Рис. 1
В
теории
вероятностей
непрерывная
случайная
величина
X
характеризуется некоторой плотностью распределения вероятностей p(x) .
Эта плотность, как правило, бывает неизвестной. Чтобы получить о ней
некоторое представление, строят
Пусть в результате n наблюдений над
случайной величиной X мы получили выборочные значения
x1, x2 , ...., xk .
Область значений случайной величины X разбиваем на k интервалов:
(,1 ),( 1, 2),...,( i1, i),...,(
k2 , k1),( k1,) .
ni (i 1, 2, ... k) , попавших в
Вычисляем количества наблюдений
каждый
интервал.
При
этом
получаем
числа
подсчитываем частоты 1 , 2,..., k . Отрезки
n1, n2 ,..., nk .
( i1, i ) (i 2, 3, ..., k 1) во
многих случаях будут одинаковой длины, так что
i i1 h Первый
интервал (,1) заменяем отрезком [ 0,1] длины h (от точки1
отрезком[ k1, k ]
отступаем вправо на
Таким
отступаем
0 , а последний интервал ( k1,) заменяем
влево на h и получаем точку
точку k ).
По ним
образом,
мы
получаем
h
и получаем
k
отрезков
[ 0 ,1 ], [1, 2], ...,[ i1, i ], ..., [ k1, k ] , длины h . Строим прямоугольники
высотой
i
i
,
основаниями
которых
являются
отрезки
h
[ i1, i ].
Полученная фигура и называется гистограммой. Гистограмма является
статистическим аналогом плотности распределения вероятностей. При
больших n и малых h гистограмма мало отличается от истинной плотности
распределения p(x) .
На рис. 2 показана гистограмма и истинная плотность p(x) .
y
p(x)
νi/h
γ0
γ1
γ2
γi-1
γi
γ
x
Рис. 2
Сумма площадей прямоугольников
1
h
h
2
h ...
h
k
h
h 1 2 .... k 1
что
соответствует
условию
нормировки p(x)dx 1
для
плотности
распределения вероятностей p(x) .
Пример 2. Произведено n наблюдений над непрерывной случайной
величиной
X . Диапазон изменений величины
X
разбит на восемь
промежутков. Промежутки и количества наблюдений ni , попавших в каждый
из них, указаны в таблице.
[ i1, i ]
ni
5
15
38
80
58
28
18
Требуется построить гистограмму.
Решение. Общее число наблюдений n равно
n 5 15 38 80 58 28 18 8 250.
Промежуток
- отрезком
заменяем отрезком
, а промежуток
.
Длина отрезков h i i1 2 .
Подсчитаем высоты прямоугольников
i
1
i
h
ni
2n
ni
:
500
5
15
38
80
0,010; 2
0,030; 3
0,076; 4
0,160;
500
500
500
500
58
28
18
8
5
0,116; 6
0,056; 7
0,036; 8
0,016.
500
500
500
500
8
Строим
высотойi (i 1, 2,...,8) основаниями
прямоугольники
которых являются заданные отрезки (см. рис. 3). (Проверьте, что сумма
площадей прямоугольников равна 1.)
0,15
0,20
0,10
0,05
1
3
5
7
9
11
13
15
17
x
Рис. 3
Эмпирической функцией распределения F * x называется функция
F *(x)
nx
,
n
где
nx – число наблюдавшихся значений случайной величины X , меньших
числа x ; n – общее число наблюдений.
Очевидно, что F * (x) удовлетворяет тем же условиям, что и истинная
функция распределения F (x) , т.е. она является неубывающей функцией и
заключена в пределах
0 F * (x) 1.
Функция F *(x) является статистическим аналогом истинной функции
распределения F (x) .
Функция F * (x) сходится по вероятности (при n ) к истинной
функции распределения F(x) при каждом x , поскольку
n
F *(x) x x ,
n
где
x
- частота события {X
x}, которая в соответствии с теоремой
Бернулли сходится по вероятности (при n ) к вероятности
P( X x) F (x) .
Эмпирическая функция F *(x) имеет вид ступенчатой функции.
Если наблюдается непрерывная случайная величина X и при этом мы
получили реализацию вариационного ряда
x1 , x2 , ...., xn , то скачки
происходят в точках xi (i 1, 2, ... n), а величина скачков равна
что сумма всех скачков равна единице). Функция
1
n
(отметим,
F *(x) для непрерывной
n 10 показана на рис. 5. На этом же рисунке
случайной величины X при
показана функция распределения F (x)
Если наблюдается дискретная случайная величина и мы получили
статистическое распределение
…
…
xi
xk
1
2
i
k
…
…
то скачки у F *(x) происходят в точках xi (i 1, 2, ... n), а величины скачков
x1
x2
равны i (сумма скачков равна единице).
Пример 3. В условиях примера 1 построить эмпирическую функцию
распределения F * (x) . Частоты i (i 1, 2, 3, 4, 5) были ранее посчитаны
y
1,0
0,8
0,1
0,6
F*(x)
0,4
F(x)
0,2
x1
x2
x3 x4 x5 x6 x7
Рис. 5
x8
x9
x10
x
в примере 1. Строим ступенчатую функцию. Скачки величиной i
имеют
место в точках xi (i 1, 2, 3, 4, 5) .
Оценка неизвестного математического ожидания MX случайной
величины называется выборочным средним значением и вычисляется по
формуле
x x2 xn
X 1
n
1
n
n
x
i1 i
Для группированной случайной величины эту формулу можно
упростить как
X
1
n
k
i1
xn ,
i i
Для оценки дисперсии используют две статистики. Точной оценкой
является несмещенная оценка дисперсии
1
n
x X
S
i
i1
n 1
2
2
В некоторых случаях используют так называемую выборочную
2
1 n
дисперсию D x X , которая всегда дает заниженную оценку
B
n i1 i
реальной дисперсии. Особенно существенно различие при малых n .
Для группированных данных имеем
D
B
1
n
x X
k
i1
i
2
1
k
x X
S
i
i1
n 1
2
n
2
и
i
n соответственно.
i
При достаточно больших n выборочное среднее X и несмещенная
дисперсия S 2
мало отличаются от математического ожидания
m
и
дисперсии 2 . Лучшей оценкой X является S S 2 . Выборочное среднее
квадратическое отклонение равно по определению B
DB .
Пример 4. В условиях примера 1 подсчитать выборочное среднее
значение, выборочную дисперсию и выборочное среднее квадратическое
отклонение.
Решение. Находим
X
3 4 5 10 7 25 9 8 11 3 342
6,84.
4 10 25 8 3
50
Покажем, как вычислить DB по сгруппированным данным.
Для этого составим таблицу
3
xi
xi2
9
Вычислим
X 2
5
25
7
49
9
81
11
121
9 4 25 10 49 25 81 8 121 3 2522
50, 44;
50
50
( X )2 (6,84)2 46,7856 46,79.
DB 50,44 46,79 3,65.
Тогда X , S 2 , B2 – это точечные оценки соответствующих неизвестных
MX , DX и X .
Без указания степени точности такие оценки мало информативны.
Поэтому
рассматривают
еще
и
интервальные
оценки
неизвестных
параметров.
Доверительным интервалом для параметра
с доверительной
вероятностью называется интервал (1, 2) со случайными концами 1, 2 ,
зависящими от выборки. Этот интервал покрывает неизвестный параметр с
вероятностью , т.е. выполняется равенство
P{1 2} .
В частном случае интервал (n ,n ) является доверительным
интервалом для параметра с доверительной вероятностью :
P{n }
Рассмотрим для примера доверительный интервал для оценки
математического ожидания нормально распределенной случайной величины
при известной дисперсии 2 .
При заданном с помощью таблиц
u из равенства (u )
1
.
2
Тогда доверительный интервал будет
(t) – функции Лапласа, находим
X u
, X u
.
n
n
Пример 5. Нормально распределенная случайная величина X имеет
среднее квадратическое отклонение 2 . Найти значение доверительного
интервала для неизвестного математического ожидания m , если заданы
объем выборки n 64 , выборочное среднее значение X 4 , доверительная
вероятность 0,95 .
Решение. Из равенства u
1
0,975.
2
По таблице для (t) находим u 1,96.
Точность оценки
u 1,96 2
0, 49 .
n
64
Доверительный интервал для m имеет вид
Границы
доверительного
интервала,
X 0, 49; X 0, 49 .
соответствующие
нашим
наблюдениям, равны
X 4 0, 49 3,51;
X 4 0, 49 4, 49.
Для оценки связи между наблюдаемыми в эксперименте случайными
величинами
широко
используются
методы
корреляционного
и
регрессионного анализа. В случае парных количественных наблюдений
X i ,Yi , 1 i n
применяется коэффициент выборочной корреляции Пирсона
n
Xi X Yi Y
r i 1 ,
n
n
2
X i X Yi Y
i 1
2
i 1
который показывает, насколько хорошо зависимость между случайными
величинами может быть описана линейной функцией. Для качественной
оценки тесноты связи измеряемых величин используют шкалу Чеддока,
приведенную в табл. 1.
Таблица 1.
Шкала Чеддока для оценки линейной связи двух случайных величин
Значение модуля коэффициента
корреляции r
0,1 0,3
0,3 0,5
0,5 0,7
0,7 0,9
0,9 0,99
Если
в
результате
нахождения
Теснота связи
Слабая
Умеренная
Заметная
Высокая
Весьма высокая
выборочной
корреляции
обнаруживается линейная зависимость между наблюдаемыми переменными,
можно найти уравнение этой прямой – это будет уравнение простой
y 0 1 x и позволяет найти
прямолинейной регрессии. Оно имеет вид
среднее значение переменной Y при заданном значении x переменной X .
Оценки коэффициентов регрессии
по результатам
парных наблюдений
Q2
Q2
2
2
X ,Y
n
XY
XY
X и 1
i i , 1 i
, где QX
xj X
и
n равны 0 Y
Q X2
Q X2
j1
n
Q2
x X
XY
j
y Y .
j
j1
Качество подобранной регрессии может быть оценено с помощью так
называемого коэффициента детерминации R 2 r̂ 2 100% , где r̂ – введенный
выше выборочный коэффициент корреляции Пирсона. Величина
R2
показывает долю разброса данных около среднего значения, которая может
быть описана регрессией. При R 2 100% значения точно ложатся на
построенную прямую.
Пример 6. Результаты наблюдений над дискретными случайными
величинами сведены в таблицу
yi
18
xj
30
4
35
6
40
45
50
55
ni
10
28
38
48
58
n j
8
10
18
4
35
5
44
4
12
6
22
1
3
2
6
4
14
18
48
14
2
n 100
На пересечении строки и столбца стоит количество наблюдений, в
которых наблюдалась данная пара значений. Например, пара значений (40;
38) встречалась 4 раза и т. д. В последнем столбце записаны значения
ni
числа появлений значения
n j
числа появлений значения
yi . В последней строке указаны значения
x j . Построим уравнение прямой линейной
регрессии, оценим ее качество, найдем предсказанное значение при
0,5 x3 x4 .
Решение. Найдем вспомогательные суммы первого и второго порядков:
5
n
yi 10 18 18 28 44 38 22 48 6 58 3760 ,
i*
i1
6
n
x j 4 30 14 35 18 40 48 45 14 50 2 55 4300 ,
*j
j1
n y2 10 182 18 282 44 382 22 482 6 582 151760 ,
5
i*
i
i1
n
x 2 4 302 14 352 18 402 48 452 14 502 2 552 187800 ,
6
*j
j
j1
6
5
n
ij
x j yi 4 30 18 6 3518 8 35 28 ... 3 50 58 2 55 58 166100 ,
j1 i1
5
6
i1
j1
n ni* n* j 100 .
Оценки числовых характеристик получаем в виде
X
n
6
1
n
*j
xj
1
4300 43 – оценка среднего для массива X ,
100
j1
Y
1
n
n
5
i*
i1
yi
1
100
3760 37,6 – оценка среднего для массива Y ,
2
6 n x n X
Q2
X
2
187800 100
2
43
*j j
,
2900
j1
Q2 n y2 n Y
5
Y
i*
i
2
151760 100 37,6 2 10384 ,
i1
Q 2 n x y n X Y 166100 100 43 37,6 4420 ,
6
5
XY
ij
j
i
j1 i1
S 2 1 Q2 1 2900 29,2929 – оценка дисперсии для массива X ,
X
n1
X
99
S 2 1 Q2 1 10384 104,889 – оценка дисперсии для массива Y ,
Y
n1
Y
99
4420
Q2
rˆ
0,805
2900 10384
Q2X QY2
XY
выборочный
коэффициент
корреляции, показывает высокую линейную связь признаков, причем
увеличение признака X влечет за собой увеличение признака Y .
Q2
4420
Найдем параметры уравнения регрессии: 1 XY
1,524 ,
2
2900
QX
2
Q
XY
0 Y 2X Y 1 X 37,6 1,524 43 27,932 .
QX
Таким образом, мы получили уравнение прямолинейной регрессии,
описывающей связь признаков X и Y : y 27,932 1,524 x .
Качество аппроксимации исходного двумерного массива данной
функцией оценим по коэффициенту детерминации: R 2 r̂ 2 100 64,8 . Таким
образом, из общего разброса данных относительно точки
X ,Y
примерно
64,8% описываются построенной линейной зависимостью и оставшиеся
35,2% объясняются другими случайными факторами. Данный результат
говорит о хорошей аппроксимации исходного массива построенной
прямолинейной зависимостью.
Так как 0,5 x3 x4 0,540 45 42,5, для предсказания значения Y
в этой точке подставим данное значение в уравнение регрессии и получим
y 27,932 1,524 42,5 36,838 .