Математическая статистика.Основные понятия математической статистики. Вариационный ряд и его характеристики. Графическое изображение выборки
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Математическая статистика
Основные понятия математической статистики. Вариационный ряд и его характеристики. Графическое изображение выборки
Пусть требуется изучить некоторую совокупность объектов. Множество всех изучаемых объектов называется генеральной совокупностью. Выборочной совокупностью (или просто выборкой) называется совокупность объектов, отобранных для исследования из генеральной совокупности. Объемом совокупности (генеральной или выборочной) называют число объектов этой совокупности.
Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы объем выборки был достаточно велик, и, кроме того, объекты выборки должны правильно представлять генеральную совокупность (т.е. выборка должна быть репрезентативной).
Выборки подразделяются на повторные (отобранный объект перед отбором следующего возвращается в генеральную совокупность) и бесповторные (отобранный объект не возвращается в генеральную совокупность).
Пусть из генеральной совокупности извлечена выборка объемом n. Упорядоченная выборка, записанная в порядке возрастания, называется вариационным рядом.
Разность между крайними членами вариационного ряда (наибольшим и наименьшим значениями выборки) называется размахом вариационного ряда. Вариационный ряд называется дискретным, если значения признака отличаются друг от друга на некоторую постоянную величину (например, ряд распределения рабочих по тарифному разряду). Вариационный ряд называется непрерывным, если значения признака могут отличаться один от другого на сколь угодно малую величину (например, ряд распределения рабочих по уровню заработной платы).
Наблюдаемые значения хi называются вариантами. Число повторений наблюдаемых значений называется частотой варианта или весом. Относительной (эмпирической) частотой значения хi называется отношение , где mi – число повторения значения хi в выборке объема n.
Наряду с понятием частоты существует понятие накопленной (накопительной) частоты mxi, которая показывает, во скольких наблюдениях признак принял значения меньше значения х:
mx = mx1 + mx2 + … + mxi,
где х1, х2, …, хi < x.
При большом числе наблюдений статистическое распределение выборки можно задать в виде последовательности интервалов, обычно равной длины и соответствующих им частот (в качестве частоты интервалов принимают сумму частот вариант, попавших в этот интервал).
При построении интервального вариационного ряда распределения необходимо определить:
1) число групп к по формуле Серджеса
к=1 + 3,322lgn,
где n – объем выборки;
2) длину интервала
h =
3) за начало первого интервала рекомендуется брать величину
xнач = хmin – 0,5h
Для наглядного представления статистического распределения пользуются графическим изображением вариационных рядов (полигоном, гистограммой и кумулятой).
Полигоном частот называют ломанную, отрезки которой соединяют точки (xi; mi), где xi – варианты выборки, mi - соответствующие им частоты или точки (xi ; ), где - относительные частоты.
Кумулята – графическое изображение накопленных частот. Кумулята строится по точкам (xi; mxi). Для интервального ряда распределения в качестве xi принимают середины интервалов.
Гистограмма строится только для интервального вариационного ряда. На каждом из интервалов значений как на основании, строят прямоугольник с высотой, пропорциональной частоте mi.
Пример 1. В случайном порядке было отобрано 25 студентов экономического факультета и выписан их возраст:
19 17 22 18 17
17 23 21 18 19
17 22 18 18 18
20 17 19 21 17
21 17 18 23 18
Составить статистическое распределение студентов по возрасту. Построить полигон и кумуляту. Найти эмпирическую функцию распределения и дать ее графическое изображение.
Решение. 1. По исходным данным составим статистическое распределение выборки.
xi
17
18
19
20
21
22
23
mi
7
7
3
1
3
2
2
2. Вычислим относительные частоты, и результаты вычислений внесем в третий столбец таблицы. Относительные частоты находим по формуле
=.
В данном случае объем выборки n=25. Относительные частоты: =7/25=0,28; = 0,28; = 3/25=0,12; = 1/25=0,04; = 3/25=0,12; ==2/25=0,08.
=0,28 + 0,28 + 0,12 + 0,04 + 0,12 + 0,08 + 0,08 = 1.
3. Вычислим накопленные частоты и результаты внесем в четвертый столбец таблицы 1.2.
mx1= m1=7; mx2= m1 + m2=7 + 7=14; mx3= m1 + m2 + m3 =7 + 7 +3=17; mx4= m1 + m2 + m3 + m4=7 + 7 + 3 + 1=18; mx5=7 + 7 + 3 + 1 + 3 = 21; mx6=21 + 2 = 23; mx7= 25.
Вычисленные относительные накопленные частоты указаны в пятом столбце таблицы.
варианты
xi
частоты
mi
относительные
частоты,
накопленные
частоты, mxi
относительные
накопленные частоты
17
7
0,28
7
0,28
18
7
0,28
14
0,56
19
3
0,12
17
0,68
20
1
0,04
18
0,72
21
3
0,12
21
0,84
22
2
0,08
23
0,92
23
2
0,08
25
1
4. Для построения полигона распределения отложим на оси абсцисс варианты xi , на оси ординат – частоты mi.
Для построения кумуляты отложим на оси абсцисс варианты xi, на оси ординат – накопленные частоты.
Пример 2. Наблюдения за жирностью молока у 50 коров дали следующие результаты (в %).
3,86 3,84 3,69 4,00 3,81 3,73 4,14 3,76
4,06 3,94 3,76 3,46 4,02 3,52 3,72
3,67 3,98 3,71 4,08 4,17 3,89 4,33
3,97 3,57 3,94 3,88 3,72 3,92 3,82
3,61 3,87 3,82 4,01 4,09 4,18 4,03
3,96 4,07 4,16 3,93 3,78 4,26 3,26
4,04 3,99 3,76 3,71 4,02 4,03 3,91
По этим данным построить интервальный вариационный ряд с равными интервалами и изобразить его графически (построить полигон, гистограмму, кумуляту).
Решение. 1. Выполним разбиение данного ряда на интервалы,
n=50, xmax=4,33; xmin=3,46.
1) Число интервалов к=1 + 3,322lg50=1 + 3,322·1,7=6,6474≈7;
2) Длина каждого интервала h=
3) За начало первого интервала примем величину хнач=хmin – 0,5h=3,46 – 0,5·0,14=3,46 – 0,07≈3,4.
жирность молока,
интервал
середина интервала,
хi
частота,
mi
относительная частота,
накопленная
частота,
mxi
относительная
накопленная частота
3,40- 3,54
3,47
2
2/50=0,04
2
0,04
3,54-3,68
3,61
4
4/50=0,08
6 (2+4)
0,12
3,68-3,82
3,75
13
13/50=0,26
19 (6+13)
0,38
3,82-3,96
3,89
11
11/50=0,22
30 (19+11)
0,60
3,96-4,10
4,03
14
14/50=0,28
44 (30+14)
0,88
4,10-4,24
4,17
4
4/50=0,08
48 (44+4)
0,96
4,24-4,38
4,31
2
2/50=0,04
50 (48+2)
1
2. Для построения гистограммы откладываем на оси абсцисс интервалы длинной h=0,14. На этих интервалах построим прямоугольники высотой, пропорциональной частоте. Для построения полигона середины верхних оснований соединим ломаной линией.
Для построения кумуляты на оси абсцисс отложим середины интервалов, а на оси ординат – накопленные частоты.
Выборочные характеристики
Средние величины
1. а) Средняя арифметическая вариационного ряда – это сумма произведений всех вариантов на соответствующие частоты, деленная на сумму частот
=
Очевидно, что =,
где - относительные частоты.
Основные свойства средней арифметической
1) Средняя арифметическая постоянной равна самой постоянной.
2) Если все варианты увеличить (уменьшить) в одно и то же число раз, то средняя арифметическая увеличится (уменьшится) во столько же раз.
=
3) Если все варианты увеличить (уменьшить) на одно и то же число, то средняя арифметическая увеличится (уменьшится) на то же число
=+с
4) Средняя арифметическая отклонений вариантов от средней арифметической равна нулю
=0
5) Средняя арифметическая суммы нескольких признаков равна сумме средних арифметических этих признаков
=+
б) Средняя степенная к-го порядка
=,
где хi>0
в) Средняя гармоническая
=
г) Средняя гармоническая
=
2. Медианой Ме вариационного ряда называется значение признака, приходящееся на середину ранжированного вариационного ряда наблюдений.
Для дискретного вариационного ряда с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом членов – полусумме двух серединных вариантов:
Ме=
Для группированной выборки (интервального ряда) медиана – это точка, в которой площадь гистограммы делится пополам.
Рис. 2.1.
3. Модой Мо вариационного ряда называется варианта, которой соответствует наибольшая частота.
Показатели вариации
Средние величины не отображают изменчивости (вариации) значений признака.
1. Вариационный размах R равен разности между наибольшим и наименьшим вариантами ряда
R=xmax – xmin
2. Среднее линейное отклонение вариационного ряда – это средняя арифметическая абсолютных величин отклонений вариантов от их средней арифметической
d=
3. Дисперсией вариационного ряда S2 (Dв) называется среднее арифметическое квадратов отклонений вариантов от их средней арифметической
S2 =
Можно показать, что S2 =-()2
Основные свойства дисперсии
1) Дисперсия постоянной равна нулю.
2) Если все варианты увеличить (уменьшить) в одно и то же число к раз, то дисперсия увеличится (уменьшится) в к2 раз.
3) Если все варианты увеличить (уменьшить) на одно и то же число, то дисперсия не изменится.
4. Среднее квадратическое отклонение S (σ) – арифметическое значение корня квадратного из дисперсии
S=
5. Коэффициент вариации – процентное отклонение среднего квадратического отклонения к средней арифметической
V=
Для вычисления числовых характеристик выборки, заданной интервальной таблицей, эту таблицу заменяют на дискретную. В качестве принимаемых значений указывают середины интервалов группировки.
Начальные и центральные моменты вариационного ряда
Средняя арифметическая и дисперсия вариационного ряда являются частными случаями более общего понятия – моментов вариационного ряда.
1. Начальный моментов к-го порядка вариационного ряда определяется по формуле
Vk=
Очевидно, что V1=, т.е. средняя арифметическая является начальным моментом первого порядка.
2. Центральный момент к-го порядка вариационного ряда определяется по формуле
μк=
Очевидно, что центральный момент второго порядка является дисперсией вариационного ряда.
3. Коэффициентом асимметрии вариационного ряда называется число
А=
Если А=0, то распределение имеет симметричную форму, т.е. варианты, равноудаленные от х имеют одинаковую частоту. При А>0 (А<0) говорят о положительной (правосторонней) или отрицательной (левосторонней) асимметрии.
4. Коэффициентом эксцесса вариационного ряда называется число
Е=
Эксцесс является показателем «крутости» вариационного ряда. Эксцесс нормально распределенной случайной величины равен нулю. Если Е>0 (Е<0), то полигон вариационного ряда имеет более крутую (пологую) вершину по сравнению с нормальной кривой.
Пример 3. По выборке 4, 6, 7, 7, 10, 15, 18 найти числовые характеристики выборки.
Решение. 1) Среднее арифметическое значение
= 1/7(4+6+7+7+10+15+18)=67/7=9,57.
2) Выборочная дисперсия
S2=-()2=1/7(42+62+72+72+102+152+182)– (9,57)2=
=1/7(16+36+49+49+100+225+324) – 91,5849=799/7 – 91,5849=22,56.
3) Выборочное среднее квадратическое отклонение
S=.
4) Мода Мо=7 (т.к. значение х=7 встречается в выборке чаще остальных значений, а именно 2 раза).
5) Медиана Ме=.
6) Коэффициент вариации V=.
Пример 4. Найти числовые характеристики выборки, заданной таблицей
xi
2
6
12
mi
3
10
7
Решение. 1) n=3+10+7=20.
Среднее арифметическое =1/20(2·3+6·10+12·7)=150/20=7,5.
2) Выборочная дисперсия S2=-()2=1/20(22·3+62·10+122·7) – (7,5)2=1/20(12+360+1008) – 56,25= 69 – 56,25 = 12,75.
3) Среднее квадратическое отклонение S==3,57 .
4) Мода Мо=6.
5) Медиана Ме===.
6) Коэффициент вариации V=.
Пример 5. Найти числовые характеристики выборки, заданной таблицей
варианты, xi
1
4
6
10
относительная частота,
0,15
0,28
0,25
0,32
Решение. 1) Среднее арифметическое
=; =1·0,15+4·0,28+6·0,25+10·0,32=0,15+1,12+1,5+3,2=5,97.
2) Дисперсия S2=-()2==(12·0,15+42·0,28+62·0,25+102·0,32) – (5,97)2=45,63 – 35,6409=9,9891.
3) Среднее квадратическое отклонение S==3,16.
4) Мода Мо=10.
5) Медиана Ме= ===6.
6) Коэффициент вариации V=.
Пример 6. При обследовании надоя коров случайным образом отобрали 307 коров, данные по ним сгруппировали и составили таблицу
надои
3000-3400
3400-3800
3800-4200
4200-4600
4600-5000
число коров
43
71
102
64
27
Найти выборочное среднее, дисперсию, среднее квадратическое отклонение, моду, медиану.
Решение. Составим таблицу числа наблюдения значений, приняв в качестве xi середины интервалов
надои
3200
3600
4000
4400
4800
число коров
43
71
102
64
27
n=43+71+102+64+27=307.
1)xi =1/307(3200·43+3600·71+4000·102+4400·64+4800·27)=1212400/307=3949,2.
2)S2=1/307(32002·43+36002·71+40002·102+44002·64+48002·27) – (3949,2)2 = =213591,3469.
3) S== 462,2.
4) Мо=4000 (интервал 3800-4200).
5) Ме=
Пример 7. При взвешивании груза получены следующие данные 129, 125, 130, 122, 135, 125, 120, 130, 127. Определить среднее значение веса груза, среднюю ошибку взвешивания.
Решение. Составим статистическое распределение веса груза
вес, xi
120
122
125
127
129
130
135
частота, mi
1
1
2
1
1
2
1
Так как первоначальные варианты х – большие числа, поэтому перейдем к условным вариантам ui=xi–c. Возьмем с=125, тогда ui=xi–125. В итоге получим распределение условных вариантов
вес, xi
-5
-3
2
4
5
10
частота, mi
1
1
2
1
1
2
1
1) Найдем выборочную среднюю по формуле=+125;
=1/9(-5-3+0+2+4+10+10) + 125=18/9 + 125=2 + 125=127.
2) Вычислим выборочную дисперсию. На основании свойства 3 дисперсии получаем ;
=1/9((-5)2·1+(-3)2·1+02·2+22·1+42·1+52·2+102·1) – 22=22,(6) – 4=18,(6).
3) Выборочное среднее квадратическое отклонение S==4,32.
Итак, средний вес груза равен 127 кг, средняя ошибка взвешивания – 4,32 кг.
Пример 8. Найти числовые характеристики выборки, заданной таблицей
хi
0,01
0,03
0,04
0,07
mi
16
22
47
15
Решение. 1) Перейдем к условным вариантам ui=c·xi, где с=100, т.е. ui=100xi.
Таблица примет вид
хi
1
3
4
7
mi
16
22
47
15
Согласно свойству 2 средней арифметической, получим
=; =
2) По свойству 2 дисперсии получим
=
=
3) Среднее квадратическое отклонение S=≈0,017
4) Мо=0,04
5) Ме=
Пример 9. Вычислить коэффициенты асимметрии и эксцесса распределения рабочих цеха по тарифному разряду.
тарифный разряд, xi
1
2
3
4
5
6
количество рабочих, mi
2
3
6
8
22
9
Решение. n==2+3+6+8+22+9=50;
=(1·2+2·3+3·6+4·8+5·22+6·9)=(2+6+18+32+110+54)= ·222=4,44.
(1·2+4·3+9·6+16·8+25·22+36·9)-(4,44)2=(2+12+54+128+550+324)-(4,44)2=21,4 – 19,7136=1,6864.
S=≈1,3.
Тогда, А==
===-0,961.
Е=
===3,277 -3=0,277.