Предмет и задачи математической статистики
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 10. Элементы математической статистики
1.
Предмет и задачи математической статистики.
Математическая статистика – раздел математики, в котором изучаются методы
сбора, систематизации и обработки результатов наблюдений случайных явлений для выявления существующих закономерностей.
Математическая статистика тесно связана с теорией вероятностей. При этом теория
вероятностей выводит из математической модели свойства реального процесса, а математическая статистика устанавливает свойства математической модели исходя из данных
наблюдений.
Предметом математической статистики является изучение случайных величин,
событий, процессов по результатам наблюдений.
Задачи:
1. Полученные в результате наблюдения (опыта, эксперимента) данные обработать,
упорядочить, представить в удобном для анализа виде.
2. Оценить, хотя бы приблизительно, характеристики наблюдаемой случайной величины.
3. Проверить статистические гипотезы, т.е. решить вопрос согласования теоретических результатов с опытными данными.
2. Генеральная совокупность. Вариационные ряды. Статистические ряды.
Определение. Объектом наблюдения называется совокупность предметов или явлений, объединенных каким-либо общим признаком или свойством.
Определение. Генеральной совокупностью называется совокупность объектов, подлежащих изучению или результатов наблюдений каждому из которых соответствует определенное значение числовой характеристики (стандартность, размер и т.д.).
Определение. Выборочной совокупностью (выборкой) называется совокупность
объектов, отобранных случайным образом из генеральной совокупности.
Определение. Объемом называется число объектов в генеральной или выборочной
совокупности.
Обозначается: N – объем генеральной совокупности, n – объем выборочной совокупности.
Определение. Повторной называется выборка, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.
Определение. Бесповторной называется выборка, при которой отобранный объект в
генеральную совокупность не возвращается.
Выборка должна быть репрезентативной (или представительной), т.е. достаточно
полно представлять изучаемые признаки генеральной совокупности. Условием репрезентативности является соблюдение случайности отбора.
Способы отбора.
1. Простой – извлекают по одному объекту (например, по признаку пола, возраста и
т.д.).
2. Типический – генеральную совокупность делят на части, и отбор ведется из каждой части.
3. Механический – отбор ведется через определенный интервал (например, из партии
консерв вынимают каждую шестую).
4. Серийный – отбор ведется не по одному, а сериями.
Пусть из генеральной совокупности извлечена выборка, причем х1 наблюдалось n1
k
раз, х2 наблюдалось n2 раз, ….., хk наблюдалось nk раз (
ni n – объем выборки).
i 1
Определение. Элементы х1, х2,…., хk , попавшие в выборку, называются вариантами.
Определение. Числа n1, n2,…., nk , показывающие сколько раз встречаются варианты, называются частотами.
Определение. Расположение вариантов в возрастающем порядке, называется ранжированием, а полученная последовательность вариационным рядом.
Определение. Отношение частоты того или иного варианта к сумме всех частот ряда, называется относительной частотой.
i
k
ni
ni ,
, где n
n
i 1
k
i 1
i 1
Определение. Перечень вариантов и соответствующих им частот или относительных частот, называется статистическим рядом или статистическим распределением.
Статистический ряд может быть дискретным и интервальным.
Статистический ряд называется дискретным, если варианты отличаются друг от
друга на некоторую конечную величину (целое число). Дискретный ряд записывается в
виде таблицы. Первая строка содержит варианты, а вторая их частоты ni или относительные частоты i .
Пример 1. В результате тестирования группа абитуриентов набрала баллы:
5,3,0,1,4,2,5,4,1,5. Записать полученную выборку в виде 1) вариационного ряда; 2) статистического ряда.
1) Проранжируем данный ряд
0,1,1,2,3,4,4,5,5,5
полученный ряд является вариационным
2) Составляем статистический ряд, который будет дискретным
1
2
3
4
5
xi
1
ni
n
2
1
1
2
3
6
ni 10
i 1
или посчитав относительные частоты, получим ряд
1
2
3
4
xi
i
0,1
0,2
0,1
0,1
0,2
5
0,3
где 1 1 / 10 , 2 2 / 10 , 3 1/ 10 , 4 1/ 10 , 5 2 / 10 , 6 3 / 10
6
i 0,1 0,2 0,1 0,1 0,2 0,3 1
i 1
Если число значений признака велико или признак является непрерывным, составляют интервальный статистический ряд. Т.к. перечислить все возможные варианты и их
частоты в этом случае не возможно. Поэтому группируем их в интервалы, с определенными границами.
Чтобы составить интервальный статистический ряд нужно найти количество интервалов, величину интервала и начальное значение первого интервала.
Для определения величины интервала используют формулу Стерджеса:
x
xmin
h max
,
k
где xmax - наибольшее значение признака;
xmin - наименьшее значение признака.
k 1 3,322 lg n - количество интервалов:
h
.
2
Пример 2. Измерили рост (с точностью до сантиметра) 30 наудачу отобранных студентов. Результаты: 178, 160,154, 183,155,153,167,186,163,155,157,175,170,166,159,173,
182,167,171,169,179,165,156,179,158,171,175,173,167,172. Составить интервальный статистический ряд.
Х – случайная непрерывная величина – рост студента.
Проранжируем ряд
153,154,155,155,156,157,158,159,160,163,164,165,166,167,167,169,170,171,171,172,173,173,
175,175,178,179,179,182,183,186.
n=30
Найдем количество интервалов, величину интервала, начальное значение первого интервала
k 1 3,322 lg 30 6
Начальное значение первого интервала: xнач xmin
Соответственно
Соответственно
186 153 33
55,5 6
6
6
6
xнач 153 150
2
[150;156) [156;162)
xi
h
[162;168)
[168;174)
[174;180)
[180;186)
ni
4
5
6
7
5
3
i
4/30=0,13
5/30=0,17
6/30=0,2
7/30=0,23
5/30=0,17
3/30=0,10
6
i 0,13 0,17 0,2 0,23 0,17 0,1 1
i 1
3. Эмпирическая функция распределения.
Эмпирическая функция распределения это один из способов обработки статистич еского ряда.
Определение. Эмпирической функцией распределения F (x) называется относительная частота того, что величина Х примет значение, меньше заданного х, т.е.
F ( x) i X x
Для нахождения значений F (x) используют следующую формулу
nx
,
n
где n – объем выборки;
n x – число вариант меньше чем х.
F ( x)
Свойства эмпирической функции распределения
1. Значения F (x) принадлежат отрезку [0;1];
2. F (x) – неубывающая;
3. Если x1 – наименьший вариант, то для любых x x1 F ( x) 0 , если xk – наибольший
вариант, то для любых x xk F ( x) 1 .
Пример 3. Найти эмпирическую функцию распределения по данному ряду
1
4
6
xi
ni
10
15
25
n =50
1) x 1 F ( x) 0
10 1
50 5
25 1
3) 4 x 6 F ( x)
50 2
50
F ( x)
1
4) x 6
50
Запишем эмпирическую функцию распределения
0, x 1
1 / 5, 1 x 4
F ( x)
1 / 2, 4 x 6
1, x 6
2) 1 x 4
F ( x)
4. Графическое изображение статистического ряда.
Статистическое распределение изображается графически в виде полигона и гистограммы.
Полигон служит для изображения дискретного статистического ряда.
Полигон частот – ломаная, отрезки, которой соединяют точки с координатами
( x1 , n1 ) , ( x2 , n2 ) ,….., ( xk , nk ) . Т.е. по оси абсцисс откладывают варианты xi по оси ординат – частоты ni .
Полигон относительных частот – ломаная, отрезки которой соединяют точки с координатами ( x1 , 1 ) , ( x2 , 2 ) ,….., ( xk , k ) . Т.е. по оси абсцисс откладывают варианты xi
по оси ординат – относительные частоты i .
Гистограмма служит для изображения интервальных статистических рядов.
Гистограмма частот – ступенчатая фигура, состоящая из прямоугольников, осноn
ваниями которых служат частичные интервалы длиной h , а высоты равны отношению i
h
– плотность частоты.
Гистограмма относительных частот – ступенчатая фигура, состоящая из прямоугольников, основаниями, которых служат частичные интервалы длиной h , а высоты равны отношению
i
– плотность относительной частоты.
h
Пример 3. Дан дискретный статистический ряд. Построить полигон относительных
частот.
1,5
3,5
5,5
7,5
xi
i
0,1
0,2
0,4
0,3
i
1
0,5
0,1
1
2
3
4
5
6
7
8
xi
Пример 4. Дан интервальный статистический ряд
xi
[5;10)
[10;15)
[15;20)
[20;25)
[25;30)
[30;35)
[35;40)
ni
4
6
16
36
24
10
4
Построить гистограмму частот.
Чтобы построить гистограмму частот нужно найти плотность частоты
ni
.
h
Величину интервала можно найти по формуле Стерджеса или непосредственно из таблицы (10-5=5; 15-10=5 и т.д.), соответственно h 5 .
Составляем таблицу
[5;10)
[10;15)
xi
i
4/5=0,8
[15;20)
6/5=1,2
16/5=3,2
[20;25)
[25;30)
36/5=7,2
24/5=4,8
[30;35)
[35;40)
10/5=2
4/5=0,8
Строим гистограмму
ni
h
7
6
5
4
3
2
1
5
10
15
20 25 30
35
40
xi
5. Числовые характеристики статистического распределения
Пусть статистическое распределение выборки объемом n имеет вид
……
x1
x2
xk
xi
x3
ni
n1
n2
n2
……
nk
Определение. Выборочным средним называется среднее арифметическое всех значений
выборки.
Обозначается: x B , x , M (X ) , m x .
k
1
1
xi ni или x B
Выборочное среднее находится по формуле: x B
n
n i 1
k
xii ,
i 1
ni
- частость вариантов.
n
Замечание. В случае интервального статистического ряда в качестве xi берут середины
где i
интервалов, а ni - соответствующие им частоты.
Определение. Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от выборочной средней x B .
Обозначается: DB .
Выборочная дисперсия находится по формуле: DB
DB
k
xi xB 2 i ,
где i
i 1
1
n
k
xi xB 2 ni
или
i 1
ni
.
n
Определение. Выборочное среднее квадратическое отклонение выборки определяется по
формуле B DB
Определение. Размахом вариации называется число R xmax xmin ,
где xmax - наибольший вариант, xmin - наименьший вариант.
Определение. Модой M o вариационного ряда называется вариант, имеющий наибольшую
частоту.
Определение. Медианой M e вариационного ряда называется значение варианта приходящегося на середину ряда.
Если n – четное число, то M e
xk xk 1
, если n – нечетное число, то M e равна середин2
ному варианту.
Пример 5. Для данных примера 1 найти характеристики выборки – результаты тестирования 10 абитуриентов.
xi
1
2
3
4
5
ni
1
2
1
1
2
3
i
0,1
0,2
0,1
0,1
0,2
0,3
n=10
1
0 1 1 2 2 1 3 1 4 2 5 3 3
10
1
(0 3) 2 1 (1 3) 2 2 (2 3) 2 1 (3 3) 2 1 (4 3) 2 2 (5 3) 2 3 3,2
2) DB
10
1) xB
3) B 3,2 1,79
4) R 5 0 5
5) M o 5
3 4
3,5
2
n=10 – четное число, то серединные варианты – x5 3 (5-ое значение), x6 4 (6-ое зна-
6) M e
чение).