Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Математическая статистика
Основные понятия математической статистики
Математическая статистика - раздел теории вероятностей, занимающийся регистрацией, обработкой и анализом статистического материала.
Задачи математической статистики:
- определение способов сбора и группировки статистических данных;
- разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен;
оценка зависимости от других случайных величин и т.д.;
б) проверка статистических гипотез о виде неизвестного распределения
или о значениях параметров известного распределения.
Для решения этих задач необходимо выбрать из большой совокупности
однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака
этих объектов.
Определим основные понятия математической статистики.
Генеральная совокупность – все множество имеющихся объектов.
Выборка – набор объектов, случайно отобранных из генеральной совокупности.
Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности.
Выборка может быть повторной и бесповторной.
Повторная выборка – при которой каждый отобранный объект перед
выбором следующего возвращается в генеральную совокупность;
Бесповторная выборка – при которой каждый отобранный объект в генеральную совокупность не возвращается.
На практике обычно используется бесповторная выборка.
Для того, чтобы по исследованию выборки можно было сделать выводы
о поведении интересующего нас признака генеральной совокупности, нужно,
чтобы выборка правильно представляла пропорции генеральной совокупности, то есть была репрезентативной (представительной). Учитывая закон
больших чисел, можно утверждать, что это условие выполняется, если каждый
объект выбран случайно, причем для любого объекта вероятность попасть в
выборку одинакова.
Способы отбора
Все способы отбора можно разделить на два вида:
1. Отбор, не требующий разделения генеральной совокупности на части:
a) простой случайный бесповторный отбор;
б) простой случайный повторный отбор.
2. Отбор, при котором генеральная совокупность разделяется на части:
а) типический
б) механический
в) серийный
На практике часто применяется комбинированный отбор, при котором
сочетаются указанные выше способы.
Статистическая обработка результатов наблюдений
1. Не сгруппированный статистический ряд
Статистическое исследование начинается со сбора данных. Для этого
производится n опытов и регистрируются их результаты. Если xi – значение
исследуемой случайной величины X, полученное в i-м опыте, то последовательность x1, x2, x3, …, xn называют выборкой. Число опытов n – объем выборки. Выборка является исходным материалом для всех дальнейших статистических выводов о случайной величине X.
Простейшая обработка статистического материала заключается в составлении
не сгруппированного статистического ряда. Для этого необходимо:
- элементы выборки записать в порядке возрастания x1= xmin , x2, x3, …,
xn= xmax. Если элементы выборки записать в порядке их возрастания, то полученная последовательность будет называться вариационный ряд. Разность
между максимальным и минимальным элементами выборки называется размах выборки;
- подсчитать частоту mi (сколько раз встретилось то или иное значение в
выборке);
- подсчитать частость – отношение частоты того или иного варианта к
m
сумме всех частот p*i i . Сумма всех частот равна 1.
n
Результаты расчетов можно представить в виде таблицы 1.
Таблица 1 – Не сгруппированный статистический ряд
Пример.
i
xi
mi
p*i
1
x1=xmin
m1
p1*
2
x2
m2
p*2
…
n
…
xn=xmax
mn
p*n
При проведении 20 серий из 10 бросков игральной кости число выпадений шести очков
оказалось равным 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2,2,3,4,1.Составим вариационный ряд:
0,1,2,3,4,5. Не сгруппированный статистический ряд имеет вид:
xi
mi
pi
3
0,15
1
6
0,3
2
5
0,25
3
3
0,15
4
2
0,1
5
1
0,05
2. Сгруппированный статистический ряд
При большом объеме выборки ее элементы объединяют в группы, представляя результаты опытов в виде сгруппированного статистического ряда.
Для построения сгруппированного статистического ряда нужно определить:
- Число интервалов k можно определить по формуле:
k 1 3,2 lg n
с округлением до ближайшего целого.
- Ширину интервалов обычно выбирается одинаковой и равной:
x
x min
х i max
k
где xmax - максимальный, а xmin - минимальный элементы выборки.
Иногда интервалы делают различными, расширяя крайние интервалы,
куда случайная величина попадает редко.
- Границы интервалов х i1, х i , x i x i1 х i .
- Затем для каждого интервала х i1, х i подсчитывают частоты mi количество значений выборки, попавших в этот интервал. Если какое-либо
значение xi попадает на границу i-го и i+1-го интервала, то оно относится как к
одному, так и к другому интервалу, а к величинам mi и mi+1 прибавляют по ½.
- Середину каждого интервала
x x i1
х *i i
.
2
- Частость (относительную частоту)
p*i
mi
.
n
- Плотность относительной частоты
fi*
mi
.
n x i
Результаты этих расчетов сводят в таблицу 2.
Таблица 2 – Сгруппированный статистический ряд
Середина
интервала
Номер
интервала i
Границы интервала xi – xi+1
Частота
mi
1
x1=xmin – x2
m1
х1*
2
х2 – х3
m2
х*2
…
k
…
хk-1 –хk=xmax
…
mk
xi *
Относительная частота
~p
i
Плотность
относительной частоты
~p
1
~
fi
~
f1
~p
2
~
f2
…
…
….
х *k
~p
k
~
fk
По имеющемуся сгруппированному или не сгруппированному ряду
можно построить эмпирическую функцию распределения случайной величины X и гистограмму.
3. Эмпирическую функцию распределения случайной величины
Выборочной (эмпирической) функцией распределения называют
функцию F*(x), определяющую для каждого значения х относительную частоту события ( X < x). Таким образом,
F * ( x)
nx
,
n
где пх – число вариант, меньших х, п – объем выборки.
В отличие от эмпирической функции распределения (рис.1), найденной
опытным путем, функцию распределения F(x) генеральной совокупности
называют теоретической функцией распределения. F(x) определяет вероятность события X < x, а F*(x) – его относительную частоту. При достаточно
больших п, как следует из теоремы Бернулли, F*(x) стремится по вероятности
к F(x).
Из определения эмпирической функции распределения видно, что ее
свойства совпадают со свойствами F(x), а именно:
1)
0 ≤ F*(x) ≤ 1.
2)
F*(x) – неубывающая функция.
3)
Если х1 – наименьшая варианта, то F*(x) = 0 при х≤ х1; если хк –
наибольшая варианта, то F*(x) = 1 при х > хк .
Эмпирическую функцию распределения выборки служит для оценки
теоретической функции распределения генеральной совокупности.
120,00%
100,00%
80,00%
60,00%
Интегральный %
F(x) расч
40,00%
20,00%
,00%
122,0 126,6 131,2 135,8 140,4 145,0 149,6 154,2 158,8 163,4 168,0
Рис. 1. Эмпирическая и теоретическая функции распределения
Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной ∆х, а высотами – отрезки
длиной ni /∆х (гистограмма частот) или pi /∆х (гистограмма относительных частот). В первом случае площадь гистограммы равна объему выборки, во втором – единице (рис.2).
Рис. 2.
Если середины верхних сторон прямоугольников соединить ломаной
линией, то полученная ломаная называется полигон. Гистограмма и полигон
могут служить некоторым приближением графика плотности распределения
f(x) случайной величины X. Точность приближения возрастает с ростом объема выборки и количества частичных интервалов.
Числовые характеристики статистического распределения
Каждой числовой характеристике случайной величины X соответствует
ее статистическая аналогия. Для основной характеристики положения - математического ожидания случайной величины – такой аналогией является среднее арифметическое наблюдаемых значений случайной величины:
для не сгруппированного статистического ряда
n
mi xi
х
х
...
х
m
x
m
x
...
m
x
2
n 1 1
2 2
k k i 1
,
М* X m*x 1
n
n
n
где xi – варианты, mi – частоты;
для сгруппированного статистического ряда
М X m*x
*
k
x*i p*i ,
i 1
где k- число интервалов.
Эту характеристику будем называть выборочное (статистическое)
среднее случайной величины. Выборочное среднее служит для оценки математического ожидания исследуемой случайной величины. В дальнейшем будет рассмотрен вопрос, насколько точной является такая оценка.
Выборочной (статистической) дисперсией называется:
для не сгруппированного статистического ряда
n
D* X i 1
(x i m*x )2
k
mi (xi m*x )2
i 1
,
n
n
для сгруппированного статистического ряда
k
D X (x*i m*x )2 p*i
*
i 1
а выборочным средним квадратическим отклонением –
* X D* X .
Пример. Найдем числовые характеристики выборки, заданной статистическим рядом
xi
mi
2
3
5
8
7
7
8
2
23 58 7 7 8 2
5,55;
20
4 3 25 8 49 7 64 2
D* X
5,552 3,3475;
20
m*x
* X 3,3475 1,83.
Выборочные (статистические) начальные и центральные моменты
определяются аналогично соответствующим теоретическим моментам:
- начальным эмпирическим моментом порядка s называется:
для не сгруппированного статистического ряда
*s X
mi xsi
n
для сгруппированного статистического ряда
i 1
k
s
*s X x*i p*i .
В частности, 1* X m*x , то есть начальный эмпирический момент первого
порядка равен выборочному среднему.
- центральным эмпирическим моментом порядка s называется:
для не сгруппированного статистического ряда
*s X
mi (xi m*x )s
n
для сгруппированного статистического ряда
*s X
В частности, *2 X
k
(x*i m*x )s p*i
i 1
mi (xi m*x )2 k
n
(x*i m*x )2 p*i , то есть центральный
i 1
эмпирический момент второго порядка равен выборочной дисперсии.