Математическая статистика
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Математическая статистика - это раздел прикладной математики, в
котором рассматриваются методы отыскания законов и характеристик
случайных величин по результатам наблюдений и экспериментов.
Основные задачи математической статистики.
1. Создание методов сбора и группировки обрабатываемого
статистического
материала, полученного в результате наблюдений за
случайными процессами.
2. Разработка методов анализа полученных статистических данных.
3. Получение выводов по данным наблюдений.
Анализ статистических данных включает оценку вероятностей события,
функции распределения вероятностей или плотности вероятностей, оценку
параметров известного распределения, оценку связей между случайными
величинами.
Математическая статистика опирается на теорию вероятностей и в свою
очередь служит основой для разработки методов обработки и анализа
статистических результатов в конкретных областях человеческой деятельности.
§ 1. ВЫБОРКА И ЕЕ РАСПРЕДЕЛЕНИЕ
1.1. Генеральная совокупность и выборка
Основными понятиями математической статистики являются генеральная
совокупность и выборка.
Определение. Генеральная совокупность – это совокупность всех
мысленно возможных объектов данного вида, над которыми проводятся
наблюдения с целью получения конкретных значений определенной случайной
величины.
Генеральная совокупность может быть конечной или бесконечной в
зависимости от того, конечна или бесконечна совокупность составляющих ее
объектов.
Не следует смешивать понятие генеральной совокупности с реально
существующими совокупностями. Например, на склад поступила продукция
некоторого цеха за месяц, что является реально существующей совокупностью,
которую нельзя назвать генеральной, поскольку выпуск продукции можно
мысленно продолжить сколь угодно долго.
Определение. Выборкой (выборочной совокупностью) называется
совокупность случайно отобранных объектов из генеральной совокупности.
Выборка должна быть репрезентативной (представительной), то есть ее
объекты должны достаточно хорошо отражать свойства генеральной
совокупности.
1
Выборка может быть повторной, при которой отобранный объект (перед
отбором следующего) возвращается в генеральную совокупность,
и
бесповторной, при которой отобранный объект не возвращается в генеральную
совокупность.
Применяют различные способы получения выборки.
1) Простой отбор – случайное извлечение объектов из генеральной
совокупности с возвратом или без возврата.
2) Типический отбор, когда объекты отбираются не из всей генеральной
совокупности, а из ее «типической» части.
3) Серийный отбор – объекты отбираются из генеральной совокупности не
по одному, а сериями.
4) Механический отбор - генеральная совокупность «механически»
делится на столько частей, сколько объектов должно войти в выборку и из
каждой части выбирается один объект.
Число N объектов генеральной совокупности и число n объектов
выборки называют объемами генеральной и выборочной совокупностей
соответственно. При этом предполагают, что N n (значительно больше).
1.2. Вариационные ряды
Полученные различными способами отбора данные образуют выборку,
обычно это множество чисел, расположенных в беспорядке. По такой выборке
трудно выявить какую-либо закономерность их изменения (варьирования).
Для обработки данных используют операцию ранжирования, которая
заключается в том, что результаты наблюдений над случайной величиной, то
есть наблюдаемые значения случайной величины располагают в порядке
возрастания.
Пример 1. Дана выборка : 2, 4 ,7, 3 ,1, 1, 3, 2,7,3
Проведем ранжирование выборки : 1, 1,2, 2 ,3, 3,3, 4,7,7
После проведения операции ранжирования значения случайной величины
объединяют в группы, то есть группируют так, что в каждой отдельной группе
значения случайной величины одинаковы. Каждое такое значение называется
вариантом. Варианты обозначаются строчными буквами латинского алфавита с
индексами, соответствующими порядковому номеру группы xi , y j , .
Изменение значения варианта называется варьированием.
Определение. Последовательность вариантов, записанных в возрастающем
порядке, называется вариационным рядом.
Число, которое показывает, сколько раз встречаются соответствующие
значения вариантов в ряде наблюдений, называется частотой или весом
варианта и обозначается ni , где i - номер варианта.
2
Отношение частоты данного варианта к общей сумме частот называется
относительной частотой или частостью (долей) соответствующего варианта и
n
i или
n
р*i
обозначается
р*i
ni
m
ni
, где
m - число вариантов.
i 1
Частость является статистической вероятностью появления варианта
xi .
р*i аналогом вероятности рi появления значения
Естественно считать частость
xi случайной величины X .
Определение. Дискретным статистическим
рядом называется
ранжированная совокупность вариантов xi с соответствующими им частотами
ni или частостями p*i .
Дискретный статистический ряд удобно записывать в виде табл.1.
Таблица 1 (для примера 1)
xi
1
2
3
4
7
5
ni
2
ni
n
2
10
2
2
10
3
3
10
1
1
10
2
2
10
ni
i 1
5
10 ;
р*i
i 1
1.
Характеристики дискретного статистического ряда:
1. Размах варьирования R xmax xmin .
2. Мода
M - вариант, имеющий наибольшую частоту
*
( в примере 1.
3. Медиана
середину ряда.
Пусть
M 0* 3 ).
M - значение случайной величины, приходящееся на
*
e
n - объем выборки.
xk xk 1
.
2
*
Если n 2k 1, то есть ряд имеет нечетное число членов, то M e xk 1 .
*
( в примере 1. M e 3 ).
*
Если n 2k , то есть ряд имеет четное число членов, то M e
3
Если изучаемая случайная величина X является непрерывной или число
значений ее велико, то составляют интервальный статистический ряд.
Сначала определяют число интервалов m , в зависимости от объема
выборки, с помощью табл.2.
Таблица 2.
Объем выборки
25-40
40-60
60-100
100-200
более 200
Число интервалов
5-6
6-8
7-10
8-12
10-15
Затем определяют длину частичного интервала
h
xmax xmin
,
m
где
h:
h - шаг ; m - число интервалов .
Более точно шаг можно рассчитать с помощью формулы Стерджеса:
h
xmax xmin
,
1 3,322 lg n
число интервалов m 1 3,322 lg n .
Если шаг окажется дробным, то за длину интервала берут ближайшее
целое число или ближайшую простую дробь (обычно берут интервалы
одинаковые по длине, но могут быть интервалы и разной длины).
За начало первого интервала рекомендуется брать величину
h
xнач xmin , а конец последнего должен удовлетворять условию
2
xкон h xmax xкон . Промежуточные интервалы получают, прибавляя к
концу предыдущего интервала шаг.
Просматривая результаты наблюдений, определяют сколько значений
случайной величины попало в каждый конкретный интервал. При этом в
интервал включают значения, большие или равные нижней границе интервала, и
меньшие – верхней границы.
В первую строку таблицы статистического распределения вписывают
частичные промежутки x0 , x1 , x1 , x2 , , xm1 , xm .
Во второю строку статистического ряда вписывают количество
наблюдений ni (где i 1, m ) попавших в каждый интервал; то есть частоты
соответствующих интервалов.
Подсчет частот для каждого интервала удобно проводить методом
«конвертиков». Этот метод состоит в том, что попадание значения случайной
величины в тот или иной интервал, отмечается точкой, а также и черточкой. В
результате каждому десятку будет соответствовать фигура, похожая на конверт.
4
1
2
3
4
5
6
7
8
9
10
При вычислении интервальных частостей округление результатов следует
производить таким образом, чтобы сумма частостей была равна 1.
Иногда интервальный статистический ряд, для простоты исследований,
условно заменяют дискретным. В этом случае серединное значение i -го
интервала принимают за вариант xi , а соответствующую интервальную частоту
ni - за частоту этого варианта.
1.3. Эмпирическая функция распределения
Пусть получено статистическое распределение выборки и каждому
варианту из этой выборки поставлена в соответствие его частость.
Определение.
Эмпирической функцией (функцией распределения
выборки) называется функция
частость события
X x,
F * x , определяющая для каждого значения x
F * x
- где
nx
,
n
n - объем выборки, n x - число наблюдений, меньших x x R .
При
увеличении
объема
выборки
приближается к вероятности этого события.
частость
X x
*
функция F x
события
Эмпирическая
F x в теории вероятностей.
*
Функция F x обладает теми же свойствами, что и функция F x :
*
1. 0 F x 1 ;
*
2. F x -неубывающая функция;
является оценкой интегральной функции
3.
F * 0 , F * 1 .
5
Пример 2.
Построить эмпирическую функцию и ее график по данным табл.1
0 при x 0;
0 ,2 при 0 x 2;
0 ,4 при 2 x 3;
*
F x
0 ,7 при 3 x 4;
0 ,8 при 4 x 10;
1 при x 10;
F * x
1
0,8
0,7
0,4
0,2
1 2 3 4 5 6 7 8 9 10
x
Рис. 1
1.4. Эмпирическая плотность распределения
F x справедливо
приближенное равенство: F x F x f x x ,
где f x - дифференциальная функция распределения (функция плотности
Для интегральной функции распределения
вероятности).
Потому естественно выборочным аналогом функции
f x считать функцию:
F * x x F * x
f x
,
x
*
6
F * x x F * x - частость попадания наблюдаемых значений
случайной величины X в интервал x; x x . Таким образом, значение
где
f * x характеризует плотность частости на этом интервале.
Пусть наблюдаемые значения непрерывной случайной величины
представлены в виде интервального вариационного ряда.
р*i - частость попадания наблюдаемых значений в интервал
ai ; ai h , где h - длина частичного интервала, выборочную функцию
*
плотности f x можно задать соотношением
0 , при x a1 ,
p*
*
f x i , при ai x ai 1 , i 1, 2, m ,
h
0 , при x am 1 ,
где am 1 - конец последнего m - го интервала.
Полагая, что
Так как функция f x является аналогом распределения плотности
случайной величины, площадь область под графиком этой функции равна 1.
*
1.5. Графическое изображение статистических данных
Статистическое распределение изображается графически с помощью
полигона и гистограммы.
Определение. Полигоном частот называют ломаную, отрезки которой
соединяют точки с координатами xi , ni ; полигоном частостей – с
*
координатами xi , рi , где
р*i
ni
, i 1, m .
n
Полигон служит для изображения дискретного статистического ряда.
Полигон частостей является аналогом многоугольника распределения
дискретной случайной величины в теории вероятностей.
Определение. Гистограммой частот (частостей) называют ступенчатую
фигуру, состоящую из прямоугольников, основания которых расположены на
оси Ox и длины их равны длинам частичных интервалов h , а высоты равны
отношению:
7
ni
- для гистограммы частот;
h
ni
- для гистограммы частостей.
nh
Гистограмма является графическим изображением интервального ряда.
Площадь гистограммы частот равна n , а гистограммы частостей равна 1.
Можно построить полигон для интервального ряда, если его преобразовать
в дискретный ряд. В этом случае интервалы заменяют их серединными
значениями и ставят в соответствие интервальные частоты (частости). Полигон
получим, соединив отрезками середины верхних оснований прямоугольников
гистограммы.
Пример 3. Дана выборка значений случайной величины X объема 20:
12, 14, 19, 15, 14, 18, 13, 16, 17, 12
18, 17, 15, 13, 17, 14, 14, 13, 14, 16
Требуется:
- построить дискретный вариационный ряд;
- найти размах варьирования R , моду M 0 , медиану M e ;
- построить полигон частостей.
1) Ранжируем выборку : 12, 12, 13, 13, 13, 14, 14, 14, 14, 14,
15, 15, 16, 16, 17, 17, 17, 18, 18, 19.
2) Находим частоты вариантов и строим дискретный вариационный ряд
(табл.3)
Таблица 3.
Значения
вариантов xi
12
13
14
15
16
17
18
19
8
Частоты ni
Частости
p*i
ni
n
2
3
5
2
2
3
2
1
ni
20
i 1
2
20
3
20
5
20
2
20
3) По результатам таблицы 3 находим:
R 19 12 7 , M 0 14 , M e
8
2
20
3
20
2
20
1
20
8
pi 1
i 1
x10 x11 14 15
14,5
2
2
4) Строим полигон частостей.
p*i
5
3
2
20
20
20
1
20
12
13
14
15
16
17
18
19
x
Рис. 2
Пример 4. Результаты измерений отклонений от нормы диаметров
50 подшипников дали численные значения ( в мкм ), приведенные в табл. 4.
-1,760
-0,158
1,531
-0,058
0,415
-0,329
0,318
0,349
-0,059
0,123
-0,291
1,701
-0,433
0,248
-1,382
0,086
-1,087
-0,293
-0,539
0,318
-0,110
0,634
1,409
-0,095
0,129
0,130
0,899
0,105
-0,078
0,367
-0,450
0,720
1,740
-1,488
-0,361
-0,244
1,028
-0,056
0,229
-0,992
Для данной выборки: - построить интервальный вариационный ряд;
- построить гистограмму и полигон частостей.
1. Строим интервальный ряд.
По данным таблицы 4 определяем: xmin 1,76 ; xmax 1,74
9
Таблица 4.
0,512
0,490
-0,266
-0,361
-0,087
-0,882
-1,304
0,757
0,194
0,529
Для определения длины интервала h используем формулу Стерджеса:
xmax xmin
.
1 3,322 lg 50
Число интервалов m 1 3,322 lg 50 .
x
xmin
1,74 1,76
3,5
3,5
h max
0,526
1 3,322 lg 50 1 3,322 lg 50 1 3,322 lg 50 6,644
h
Примем h =0,6 , m 7 .
За начало первого интервала примем величину
xнач xmin
h
1,76 0,3 2,06 .
2
Конец последнего интервала должен удовлетворять условию:
xкон h xmax xкон .
Действительно, 2,14 0,6 1,74 2,14 ; 1,54 1,74 2,14 .
Строим интервальный ряд (табл. 5).
Интервалы
2,06;1,46 1,46; 0,86 0,86; 0,26
Таблица 5.
0,26; 0,34
Подсчет частот
Частоты ni
Частости рi
Интервалы
2
2
50
6
6
50
11
11
50
0,34; 0,94
0,94;1,54
1,54; 2,14
15
15
50
Подсчет частот
7
Частоты ni
11
Частости рi
11
50
3
3
50
10
2
2
50
ni 50 ;
i 1
7
pi 1 .
i 1
Строим гистограмму частостей.
ni
hn
0,5
гистограмма
0,37
полигон
0,2
0,1
0,07
-2,06
-1,46
-0,86
-0,26
0,34
0,94
1,54
2,14
x
Рис.3
Вершинами полигона являются середины верхних оснований
прямоугольников гистограммы.
Убедимся, что площадь гистограммы равна 1.
n n nm
S h 1 2
nh
S 0,60,07 0,2 0,37 0,5 0,37 0,1 0,07 0,6 1,68 1,008 1
1.6. Числовые характеристики выборки
1.6.1. Выборочное среднее. Выборочная дисперсия.
Выборочное среднее квадратическое отклонение
В теории вероятностей определили числовые характеристики для
случайных величин, с помощью которых можно сравнивать однотипные
случайные величины. Аналогично можно определить ряд числовых
характеристик и для выборки. Поскольку эти характеристики вычисляются по
статистическим данным (по данным, полученным в результате наблюдений), их
называют статистическими характеристиками.
11
Пусть дано статистическое распределение выборки объема
xi
ni
где
x1
n1
x2
n2
x3
n3
n:
...
...
x4
n4
xm
nm
m - число вариантов.
Определение.
Выборочным
средним
арифметическое всех значений выборки:
xв
называется
среднее
1 m
xв xi ni .
n i 1
1 m
*
Выборочное среднее можно записать и так: xв xi рi ,
n i 1
где
р*i - частость.
В случае интервального статистического ряда в качестве
середины интервалов, а
xi берут
ni - соответствующие им частоты.
Dв называется среднее
Определение. Выборочной дисперсией
арифметическое квадратов отклонений значений выборки от выборочного
среднего
xв :
1 m
Dв xi xв
n i 1
2
ni
1 m
Dв xi xв
n i 1
или
2
p*i .
Выборочное среднее квадратическое выборки определяется формулой:
в Dв
.
Особенность в состоит в том, что оно измеряется в тех же единицах, что
и данные выборки.
Если объем выборки мал ( n 30 ), то пользуются исправленной
выборочной дисперсией:
S2
Величина
отклонением.
n
Dв .
n 1
S S 2 называется исправленным средним квадратическим
12
1.6.2. Выборочные начальные и центральные моменты.
Асимметрия. Эксцесс.
Приведем краткий обзор характеристик, которые наряду с уже
рассмотренными применяются для анализа статистических рядов и являются
аналогами соответствующих числовых характеристик случайной величины.
Среднее выборочное и выборочная дисперсия являются частным случаем
более общего понятия – момента статистического ряда.
Определение. Начальным выборочным моментом порядка
среднее арифметическое l - х степеней всех значений выборки:
l*
l называется
m
1 m l
*
xi ni или l xil p*i .
n i 1
i 1
Из определения следует, что начальный выборочный момент первого
*
порядка: 1
1 m
xi ni xв .
n i 1
Определение. Центральным выборочным моментом порядка l называется
среднее арифметическое l - х степеней отклонений наблюдаемых значений
выборки от выборочного среднего
l*
xв :
l
1 m
xi xв ni
n i 1
l*
или
m
l
xi xв p*i .
i 1
Из определения следует, что центральный выборочный момент второго
порядка :
1 m
*
2 xi xв
n i 1
2
ni Dв в2 .
Определение. Выборочным коэффициентом асимметрии называется
*
число As , определяемое формулой:
A*s
3*
3.
в
Выборочный коэффициент асимметрии служит для характеристики
асимметрии полигона вариационного ряда. Если полигон асимметричен, то одна
из ветвей его, начиная с вершины, имеет более пологий «спуск», чем другая.
Если As 0 , то более пологий «спуск» полигона наблюдается слева; если
*
A*s 0 - справа. В первом случае асимметрию называют левосторонней, а во
втором - правосторонней.
13
Определение. Выборочным коэффициентом эксцесса или коэффициентом
*
крутости называется число E k , определяемое формулой :
*4
4 3.
в
E*k
Выборочный коэффициент эксцесса служит для сравнения на «крутость»
выборочного распределения с нормальным распределением.
Коэффициент эксцесса для случайной величины, распределенной по
нормальному закону, равен нулю.
Поэтому за стандартное значение выборочного коэффициента эксцесса
принимают Ek 0 .
*
Если Ek 0 , то полигон имеет более пологую вершину по сравнению с
*
нормальной кривой; если Ek 0 , то полигон более крутой по сравнению с
нормальной кривой.
*
1.7. Вычисление числовых характеристик выборки
Таблица 6
xi
ni
x1
xm
n1
nm
xi ni
m
m
i 1
i 1
xi xв
xi xв 2 ni xi xв 3 ni xi xв 4 ni
2
3
ni xi ni
i 1
m
i 1
m
xi - середины интервалов; ni - частоты;
ni
i 1
m
i 1
n - объем выборки;
m
с помощью суммы
xi ni
i 1
находим
xв ;
2
xi xв ni
m
с помощью суммы
4
xi xв ni xi xв ni xi xв ni
m
i 1
14
находим
Dв и в Dв ;
3
xi xв ni
m
с помощью суммы
i 1
4
xi xв ni
m
с помощью суммы
*
находим As ;
i 1
*
находим E k .
1.7.1. Упрощенный способ вычисления
статистических характеристик вариационных рядов
При больших значениях вариантов и соответствующих им частот
вычисление выборочного среднего, дисперсии и выборочных моментов по
приведенным ниже формулам приводит к громоздким вычислениям.
В этом случае используют условные варианты u i , определяемые по
xi c
, где числа c и h выбираются произвольно.
h
Чтобы упростить вычисления в качестве c выбирают вариант, который
имеет наибольшую частоту или находится в середине ряда. Число c называется
«ложным нулем». В качестве h выбирают число равное длине интервала ( в
формулам: ui
случае интервального ряда) или наибольший общий делитель разностей
xi c .
Для вычисления числовых характеристик выборки составляем табл. 7.
Таблица 7.
ui
ni
u1
um
n1
nm
m
ni
ui 2 ni
ui ni
n
m
m
ui ni
i 1
i 1
i 1
ui3 ni
ui2 ni
m
i 1
ui3 ni
ui4 ni
m
i 1
ui4 ni
ui 14 ni
m
ui 1
i 1
Контроль:
m
4
ui 1
i 1
m
ni
i 1
ui4 ni
m
4
i 1
ui3 ni
m
6
i 1
15
ui2 ni
m
4 ui ni n
i 1
4
ni
С помощью сумм, полученных в нижней строке таблицы, находим
условные моменты:
М 1*
1 m
ui ni ,
n i 1
M 3*
1 m 3
ui ni ,
n i 1
M *2
1 m 2
ui ni ,
n i 1
M *4
1 m 4
ui ni .
n i 1
Числовые характеристики выборки вычисляем по формулам:
xв
M1* h c
A*s
3*
3
в
где
3*
и
h
*
*
; Dв M 2 M 1
E*k
;
*4
2
2
;
в Dв
;
*4
4 3,
в
находим по формулам:
3
3* M 3* 3M 1* M *2 2 M 1* h 3 ,
2
4
*4 M *4 4M 1* M 3* 6 M 1* M *2 3 M 1* h 4 .
Пример 5. Вычислить числовые характеристики выборки, рассмотренной в
примере 4 (табл.4), для которой построен интервальный ряд (табл.5).
В качестве вариантов
xi
возьмем середины интервалов. Перейдем к
условным вариантам.
Вариант, значение которого 0,04 , имеет наибольшую частоту и
находится в середине ряда. Примем его за «ложный ноль» (начало отсчета).
Условные варианты найдем по формуле:
ui
где
c 0,04 , h 0,6 .
xi c
,
h
Составим расчетную табл.8 по форме табл.7
16
Таблица 8
xi
ni
ui
ui ni
ui2 ni
ui3 ni
ui4 ni
ui 14 ni
-1,76
2
-3
-6
18
-54
162
32
-1,16
6
-2
-12
24
-48
96
6
-0,56
11
-1
-11
11
-11
11
0,04
15
15
0,64
11
1
11
11
11
11
176
1,24
3
2
6
12
24
48
243
1,84
2
3
6
18
54
162
512
50
-6
94
-24
490
984
4
m
Контроль:
ui 1
i 1
m
ni
i 1
ui4 ni
m
4
i 1
ui3 ni
m
6
i 1
ui2 ni
m
4 ui ni n
i 1
490 4 24 6 94 4 6 50 984 . Расчеты проведены верно.
По данным табл. 8 находим условные моменты:
6
0,12 ,
50
24
M 3* 0,48 ,
50
94
1,88 ,
50
490
M *4
9,8 .
50
M 1*
M *2
Находим числовые характеристики выборки:
xв M1* h c 0,12 0,6 0,04 0,032
h 1,88 0,12 0,6
Dв M *2 M 1*
2
2
2
2
0,6716
в Dв 0,672 0,8195
Вычислим центральные моменты третьего и четвертого порядка:
3
3* M 3* 3M 1* M *2 2 M 1* h 3
0,48 3 0,12 1,88 2 0,123 0,63 0,0418
17
2
4
*4 M *4 4M 1* M 3* 6 M 1* M *2 3 M 1* h 4
9,8 4 0,12 0,48 6 0,122 1,88 3 0,124 0,64 1,2127
Вычислим выборочные коэффициенты асимметрии и эксцесса:
3* 0,0418
3
0,0759
3
в 0,8195
*4
1,2127
*
Ek 4 3
3 0,3112 .
4
в
0,8195
A*s
§ 2. СТАТИСТИЧЕСКИЕ ОЦЕНКИ
Одной из центральных задач математической статистики является задача
оценивания теоретического распределения случайной величины на основе
выборочных данных.
При этом часто предполагается, что вид закона распределения генеральной
совокупности известен, но неизвестны параметры этого распределения, такие
как математическое ожидание, дисперсия. Требуется найти приближенные
значения этих параметров, то есть получить статистические оценки указанных
параметров.
Определение. Статистической оценкой параметра теоретического
распределения называют его приближенное значение, зависящее от данных
выбора.
Рассматривая выборочные значения x1 , x2 , , xn как реализации
случайных величин
X 1 , X 2 , , X n , получивших конкретные значения в
результате опытов, можно представить оценку
как функцию этих случайных
величин: X 1 , X 2 , , X n . Это означает, что оценка тоже является
случайной величиной.
Если для оценки взять несколько k выборок, то получим столько же
случайных оценок 1 , 2 , , k .
Если число наблюдений невелико, то замена неизвестного параметра
оценкой приводит к ошибке, которая тем больше, чем меньше число опытов.
18
2.1. Точечные оценки
Статистические оценки могут быть точечными и интервальными.
Точечные оценки представляют собой число или точку на числовой оси. Чтобы
оценка была близка к значению параметра , она должна обладать
свойствами состоятельности, несмещенности и эффективности.
Определение. Оценка параметра называется состоятельной, если она
сходится по вероятности к оцениваемому параметру, то есть для любого 0 :
lim P 1.
n
Поясним смысл этого равенства.
Пусть - очень малое положительное число. Тогда данное равенство означает,
что чем больше объем выборки n , тем ближе оценка приближается к
оцениваемому параметру .
Свойство состоятельности нужно проверять в первую очередь. Оно
обязательно для любого правила оценивания. Несостоятельные оценки не
используются.
Определение. Оценка
параметра
называется несмещенной, если
M , то есть математическое ожидание оценки равно оцениваемому
параметру. Если M , то оценка называется смещенной.
Это свойство оценки желательно, но не обязательно. Часто полученная
оценка бывает смещенной, но ее можно поправить так, чтобы она стала
несмещенной.
Иногда, оценка бывает асимптотически несмещенной ,
то есть M .
Требования несмещенности особенно важно при малом числе опытов.
параметра называется
Определение. Несмещенная оценка
эффективной, если она среди всех несмещенных оценок, в определенном классе
оценок данного параметра, обладает наименьшей дисперсией.
Можно показать, что:
-
xв является состоятельной, несмещенной и эффективной оценкой
M X в классе линейных оценок;
- Dв является состоятельной, смещенной оценкой D X ;
19
n
Dв является состоятельной, несмещенной оценкой D X ;
n 1
2
(при больших n разница между S и Dв мала.
S 2 используется при малых выборках, обычно при n 30 ) ;
2
- S
nA
- относительная частота
появления события A в n независимых
n
испытаниях является состоятельной, несмещенной и эффективной оценкой, в
классе линейных оценок, неизвестной вероятности p P A ( p - вероятность
появления события A в каждом испытании);
F * x является
состоятельной, несмещенной оценкой функции распределения F x случайной
величины X .
- эмпирическая функция распределения выборки
Для нахождения оценок неизвестных параметров используют различные
методы. Наиболее распространенными являются: метод моментов, метод
максимального правдоподобия (ММП), метод наименьших квадратов (МНК).
2.2. Интервальные оценки
При выборке малого объема точечная оценка может существенно
отличаться от оцениваемого параметра. В этом случае целесообразно
использовать интервальные оценки.
Определение. Интервальной называют оценку, которая определяется
двумя числами – концами интервала.
Пусть найденная по данным выборки величина
неизвестного параметра
.
, то есть чем меньше
Поскольку
величина.
Оценка
в неравенстве
неравенство
служит оценкой
тем точнее,
0 .
определяет
- случайная величина, то и разность
Поэтому
,
выполняться только с некоторой вероятностью.
20
при
чем меньше
- случайная
заданном
может
Определение. Доверительной вероятностью ( надежностью) оценки
параметра называется вероятность , с которой выполняется неравенство
.
Обычно задается надежность и определяется . Чаще всего надежность
задается значениями от 0,95 и выше, в зависимости от конкретно решаемой
задачи.
Неравенство
Определение.
; ,
надежностью
.
можно записать
Доверительным
который
покрывает
.
интервалом
называется
интервал
неизвестный
параметр
заданной
с
2.2.1. Доверительный интервал для оценки математического
ожидания нормального распределения при известной дисперсии
Пусть случайная величина X имеет нормальное распределение: N a; .
Известно значение и задана доверительная вероятность (надежность) .
Требуется построить доверительный интервал для параметра a по выборочному
среднему
xв .
Чтобы подчеркнуть случайный характер xв обозначим его X в .
Примем без доказательства, что если случайная величина X распределена
нормально, то и выборочное среднее X в , найденное по независимым
наблюдениям, также распределено нормально.
Параметры распределения
X в таковы: M X в a ; X в
n
.
Из теории вероятности известна формула для нормально распределенной
случайной величины X :
P X a 2 ,
2
где
x
1
2
x t
e 2
dt - функция Лапласа, значение которой в точке
находим по таблице (Приложение 2).
21
Учитывая, что
X в имеет нормальное распределение можно записать
P X в a 2
X в
n
2t ,
2
или
n
t
где
Из последнего равенства по таблице Лапласа находим t (Приложение 2).
Тогда
t
n
и доверительный интервал
; Xв t
Xв t
n
n
покрывает с надежностью
математическое ожидание a .
Пример 6. Случайная величина имеет нормальное распределение с известным
средним квадратическим отклонением 3 . Найти доверительный интервал
оценки неизвестного математического ожидания по выборочной средней
если объем выборки
n 36 , а надежность оценки 0,95 .
t : 2t 0,95 t 0,475
По таблице значений функции Лапласа t 1,96 .
3
t
1
,
96
0,98 .
2. Определяем
n
36
Доверительный интервал запишется в виде: xв 0,98; xв 0,98 .
1. Находим
2.2.2. Доверительный интервал для оценки
математического ожидания при неизвестной дисперсии
Пусть случайная величина Х имеет нормальное распределение:
N a; , причем - неизвестно, - задана.
Если D X неизвестна, то пользуются оценкой S .
2
Введем случайную величину T
22
Xв a
,
S
n
xв ,
где S - исправленное среднее квадратическое
величины X , вычисленное по выборке:
отклонение
случайной
2
1 n
S
Xi Xв ;
n 1 i 1
T имеет распределение Стьюдента с n 1
Случайная величина
степенью свободы.
Тогда доверительный интервал для оценки a M X имеет вид:
S
S
; Xв t j
Xв t j
,
n
n
X в - выборочное среднее;
S - исправленное среднее квадратическое отклонение;
t j - находим по таблице квантилей распределения Стьюдента
где
(Приложение 4) в зависимости от числа степеней свободы и доверительной
вероятности .
Пример 7. Произведено пять независимых наблюдений над случайной
величиной X ~ N a; . Результаты наблюдений таковы:
x1 35 , x2 20 , x3 15 , x4 12 , x5 42 .
M x a доверительный интервал, если
Построить для неизвестного
0,95 .
1. Находим
xв : xв 35 20 15 12 42 30 6
1
5
xв 6
1
5
2
2. Находим S :
1
35 62 20 62 15 62 12 62 42 62
4
1
1
412 16 2 9 2 182 36 2 1681 256 81 324 1296
4
4
1
3638 909,5
4
S2
S 909,5 30,2
23
3. По таблице квантилей распределения Стьюдента (Приложение 4) для
0,95 и n 1 4 находим t j :
t j 2,78
Доверительный интервал:
30,2
30,2
; 6 2,78
6 2,78
2,24
2,24
31,5; 43,5 .
или
2.2.3. Доверительный интервал для оценки
среднего квадратического отклонения нормального распределения
Если M X a неизвестно, то доверительный интервал
X имеет вид:
1.
для оценки
n 1 S
n 1 S
;
1
2
где n - объем выборки; S - исправленное среднее квадратическое отклонение:
1 n
S
Xi Xв
n 1 i 1
2
12 12
2
; n 1
22 12
,
2
; n 1
-
2 ,
квантили - распределения,
2
2 ,k (Приложение 3)
1
1
при k n 1 и
,
.
определяемые по таблице
2
2
Пример 8. Для оценки параметра X нормально распределенной случайной
величины была сделана выборка объема в 25 единиц и вычислено S 0,8 .
Найти доверительный интервал, покрывающий с вероятностью 0,95 .
Имеем n 25 , 0,95 .
12 120 ,95
2 0,975; 24 12,4
; 251
2
22 120 ,95 2 0,025; 24 39,4
; 1
2
24
Доверительный интервал имеет вид:
24 0,8 24 0,8
;
12,4
39,4
или
0,79; 1,4 .
2. Другой вид доверительного интервала для оценки
распределения имеет вид:
X нормального
S 1 q S 1 q при q 1 ;
0 S 1 q при q 1 ;
где S - исправленное среднее квадратическое отклонение;
q q ; n находим по таблице значений (Приложение 5).
Пример 9. Для оценки параметра нормально распределенной случайной
величины была сделана выборка объема в 25 единиц и вычислено S 0,8 .
Найти доверительный интервал, покрывающий с вероятностью 0,95 .
n 25 , 0,95 , S 0,8
По таблице значений q q ; n находим q 0,32 .
Имеем
Доверительный интервал имеет вид:
0,81 0,32; 0,81 0,32
или 0,544; 1,056 .
Замечание. Доверительные интервалы в примерах 8 и 9 получили разные при
одинаковых данных, но они с вероятностью 0,95 покрывают среднее
квадратическое отклонение
X .
§ 3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТИЗ
Статистической гипотезой называется всякое высказывание о
генеральной совокупности (случайной величине), проверяемое по выборке (то
есть по результатам наблюдений).
Примеры статистических гипотез:
- математическое ожидание случайной величины равно конкретному
числовому значению;
- генеральная совокупность распределена по нормальному закону.
Гипотезы могут быть параметрические (гипотезы о параметрах
распределения известного вида) и непараметрические (гипотезы о виде
неизвестного распределения).
25
Различают гипотезы простые, содержащие только одно предположение, и
сложные, содержащие более одного предположения.
Например, гипотеза H 0 : 7 - простая;
а гипотеза H 0 : bi , ( где bi R ) – сложная гипотеза, потому что она
состоит из бесконечного множества простых гипотез.
Процедура сопоставления гипотезы с выборочными данными называется
проверкой гипотезы. Для проверки гипотез используют аналитические и
статистические методы.
3.1. Классический метод проверки гипотез
В соответствии с поставленной задачей и на основании выборочных
данных формулируется (выдвигается)
гипотеза H 0 , которая называется
основной или нулевой.
Одновременно с выдвинутой гипотезой
H0 ,
рассматривается противоположная ей гипотеза H 1 , которая называется
конкурирующей или альтернативной.
Для проверки нулевой гипотезы вводят специально подобранную
случайную величину K , распределение которой известно и называют ее
критерием.
Поскольку гипотеза H 0 для генеральной совокупности принимается по
выборочным данным, то она может быть ошибочной. При этом возможны
ошибки двух родов.
Ошибка первого рода состоит в том, что отвергается гипотеза H 0 , когда
она на самом деле верна.
Ошибка второго рода состоит в том, что отвергается альтернативная
гипотеза H 1 , когда она на самом деле верна.
1) Для определения вероятности ошибки первого рода вводится параметр
PH 0 H1
:
- вероятность того, что будет принята гипотеза H 1 , при условии, что H 0 верна.
Величину называют уровнем значимости. Обычно выбирают в
пределах 0,001 0,1 .
2) Вероятность ошибки второго рода определяется параметром :
PH1 H 0
- вероятность того, что будет принята гипотеза H 0 , при условии, что H 1 верна.
26
Величину 1 , то есть недопустимость ошибки второго рода
(отвергнуть неверную и принять верную гипотезу H 1 ) называют мощностью
критерия.
3.2. Сущность метода
Множество всех значений критерия разбивают на два непересекающихся
подмножества: одно из них содержит значения критерия, при которых нулевая
гипотеза H 0 отвергается; другое – при которых она принимается.
Критической областью называется совокупность значений критерия, при
которых нулевую гипотезу отвергают.
Областью принятия гипотезы (областью допустимых значений)
называется совокупность значений критерия, при которых нулевую гипотезу
принимают.
Обозначим критическую область .
Если вычисленное по выборке значение критерия K попадает в
критическую область , то гипотеза H 0 отвергается и принимается гипотеза
H 1 . В этом случае можно совершить ошибку первого рода, вероятность которой
равна . Иначе, вероятность того, что критерий K примет значение из
критической области , должна быть равна заданному значению , то
есть PK .
Критическая область определяется неоднозначно. Возможны три случая
расположения . Они определяются видом нулевой и альтернативной гипотез и
законом распределения критерия K .
Правосторонняя критическая область (рис.4 а) состоит из интервала
кр
k пр
.
кр
; , где k пр
. определяется из условия
кр
P K k пр
.
называется правосторонней точкой, отвечающей уровню значимости
Левосторонняя критическая область
; k , где
кр
л.
и
.
(рис.4 б) состоит из интервала
k лкр. определяется из условия
P K k лкр.
называется левосторонней точкой, отвечающей уровню значимости
.
и
Двусторонняя критическая область (рис.4 в) состоит из следующих двух
кр
кр
кр
кр
; k л . и k пр . ; , где точки k л .
и k пр .
2
2
2
2
P K k кр
P K k кр
определяются из условий
и
л.
пр .
2
2
2
2
интервалов:
и называются двусторонними критическими точками.
27
f k
f k
кр
k пр
.
k
f k
k лкр.
а
k
k кр
л.
б
k кр
2
пр .
k
2
в
Рис.4
3.3. Алгоритм проверки нулевой гипотезы
1. Располагая
выборкой,
формулируют
нулевую
гипотезу
H0
и
альтернативную гипотезу H 1 .
2. Выбирают критерий проверки гипотезы H 0 , зависящий от
выборочных данных и условий рассматриваемой задачи. Наиболее часто
используют случайные величины, имеющие следующие законы распределения:
нормальный, Стъюдента, Фишера-Снедекора, хи-квадрат.
3. Задают уровень значимости выбранного критерия и определяют
соответствующую ему критическую область. Для определения критической
области достаточно найти критическую точку t кр - ее границу. Для каждого
критерия имеются таблицы, по которым находят критическую точку.
4. Вычисляют значение критерия по результатам произведенных
измерений и сравнивают с критической точкой.
5. Нулевую гипотезу отвергают, если вычисленное значение критерия
попадает в критическую область, или считают справедливой, если оно окажется
внутри области допустимых значений.
3.4. Проверка гипотез о законе распределения
Во многих случаях закон распределения изучаемой случайной величины
X неизвестен, но есть основания предположить, что он имеет вполне
определенный вид: нормальный, экспоненциальный или какой-либо другой.
28
Пусть выдвинута гипотеза H 0 о каком-либо законе распределения.
Для проверки этой гипотезы H 0 требуется по выборке сделать заключение,
согласуются ли результаты наблюдений с высказанным предположением.
Статистический критерий проверки гипотезы о предполагаемом законе
неизвестного распределения называется критерием согласия.
Он используется для проверки согласия предполагаемого вида
распределения с опытными данными на основании выборки.
Существуют различные критерии согласия: Пирсона, Колмогорова,
Фишера и другие. Наиболее часто применяется критерий Пирсона.
3.5. Проверка гипотезы
о нормальном распределении генеральной совокупности
по критерию Пирсона
Пусть выборка из генеральной совокупности
статистического интервального ряда ряда:
x1 , x2 x2 , x3
n1
n2
где
ni - интервальные частоты,
ni
i 1
задана в виде
xm , xm1
m
X
nm
n - объем выборки,
m - число интервалов, h - длина интервала, xi - середина интервала.
Требуется проверить гипотезу H 0 о том, что генеральная совокупность
X распределена по нормальному закону, применяя критерий Пирсона.
(К.Пирсон, 1857-1936 г; английский математик, биолог, философ).
Правило проверки
1. Вычисляем xв и в ( см. Пример 5).
2. Находим теоретические частоты ni ' .
Их можно вычислить двумя способами.
Первый способ
ni '
где n - объем выборки, h - шаг, t i
nh
в
ti ,
xi xв
в
29
;
x
1
e
2
x2
2
- функция Гаусса, значение которой в точке t i
находим по таблице (Приложение 1).
Pi
ti
h - вероятность попадания значений случайной
в
величины X в i - й интервал.
Для вычисления ni ' составляем табл. 9.
i
xi
ni
xi xв
ti
1
x1
n1
nm
x1 xв
x m xв
t1
tm
m
xm
Таблица 9
ti
t1
t m
n
Второй способ.
Pi
ni ' Pi n
P1
Pm
n1' P1 n
nm' Pm n
1
n
ni ' Pi n
xi xв
где n - объем выборки, zi
,
в
Pi zi 1 zi - вероятность попадания X в i - й интервал,
z - значение функции Лапласа (Приложение 2).
Полагают z1 , z m1 .
Для вычисления ni ' составляем табл. 10.
Таблица 10
i
1
m
Границы
интервала
xi
x1
xm
xi 1
x2
xm 1
ni
n1
nm
n
Границы
интервала
zi
zm
zi 1
z2
z i
zi 1
-0,5
z 2
z m
0,5
Pi
ni '
P1
Pm
n1'
nm '
n
1
30
3. Сравниваем эмпирические ( ni ) и теоретические ( ni ' ) частоты с помощью
критерия Пирсона.
Для этого:
1) составляем расчетную табл.11 , по которой находим
2
набл
- наблюдаемое значение критерия
ni
i
2
набл
ni '
ni ni '
ni ni '
m
ni ni ' 2
i 1
ni '
Таблица 11.
ni ni '
2
2
ni2
ni '
1
n1
n1'
n1 n1'
n1 n1'
m
nm
nm '
nm nm'
nm nm' 2
n
2
n1 n1' 2
n12
n1'
nm nm ' 2
nm '
nm2
ni2
ni '
n12
n1'
nm2
nm '
2
набл
Контроль:
2
набл
ni2
n.
n
'
i 1 i
m
2) Находим число степеней свободы k :
где m - число
распределения,
интервалов;
r-
число
k m r 1
параметров
предполагаемого
Для нормального распределения k m 3 , так как r 2 (нормальный
закон распределения характеризуется двумя параметрами a и ).
4. В таблице критических точек ( квантилей) распределения
(Приложение 3) по заданному уровню значимости и числу степеней свободы
2
находим
2
; k правосторонней критической области.
кр
Если набл кр - нет оснований отвергнуть гипотезу H 0
о нормальном распределении генеральной совокупности.
2
Если
2
2
2
набл
кр
- гипотезу отвергаем.
31
Замечание.
1) Объем выборки должен быть достаточно велик n 50 .
2) Малочисленные частоты ni 5 следует объединить. В этом случае и
соответствующие им теоретические частоты также надо сложить.
Если производилось объединение частот, то при определении числа
степеней свободы по формуле k m 3 следует в качестве m принять число
интервалов, оставшихся после объединения частот.
Пример 10. Пусть из генеральной совокупности X задана выборка объемом 50
(табл.4). Требуется проверить гипотезу H 0 о нормальном распределении
генеральной совокупности по данной выборке.
1. Из рассмотренных выше примеров известно:
- интервальный ряд табл. 12
Интервалы
2,06;1,46 1,46; 0,86 0,86; 0,26
Частоты ni
2
6
11
Интервалы
0,34; 0,94
0,94;1,54
1,54; 2,14
Таблица 12
0,26; 0,34
15
7
Частоты ni
11
3
2
ni 50 .
i 1
- числовые характеристики выборки xв 0,032 ,
в 0,8195 ,
A*S 0,0759 , E*k 0,3112 (см. Пример 5).
2. Проверим гипотезу H 0 с помощью средних квадратических отклонений
*
*
коэффициентов AS и E k .
Критерием распределения выборки по нормальному закону является
*
*
равенство нулю коэффициентов AS и E k .
Если они отличны от нуля, то для предварительного выбора закона
*
*
распределения вычисляют средние квадратические отклонения для AS и E k :
*AS
6n 1
n 1 n 3
*Ek
32
24n n 2 n 3
n 12 n 3 n 5
*
*
Если AS и E k отличаются по модулю от нуля не более чем на удвоенные
средние квадратические отклонения, то есть AS 2 A* и Ek 2 E* , то
S
k
*
*
можно предположить, что данная выборка распределена по нормальному закону.
*
Рассчитаем AS
*Ek
650 1
294
0,1087 0,3297
50 1 50 3 2703
1200 48 47
2707200
0,3868 0,6219 .
2401 53 55
6998915
Для AS условие критерия выполняется: 0,0759 2 0,3297 .
*
Для E k условие критерия выполняется: 0,3112 2 0,6219 .
*
Гипотезу H 0 принимаем, то есть можно предположить, что генеральная
совокупность X распределена по нормальному закону.
3. Проверим гипотезу H 0 по критерию Пирсона.
1) xв 0,032 , в 0,8195 .
2) Найдем теоретические частоты ni ' вторым способом.
Интервальный ряд (табл.12) содержит интервалы с частотами меньшими 5.
Следовательно, два первых и два последних интервала объединяем, при этом
соответствующие частоты суммируем.
Составим расчетную табл.13 по форме табл.10.
Таблица 13
i
1
2
3
4
5
Границы
интервала
xi
xi 1
-2,06
-0,86
-0,26
0,34
0,94
-0,86
-0,26
0,34
0,94
2,14
ni
8
11
15
11
5
Границы
интервала
zi
-1,01
-0,28
0,45
1,19
zi 1
-1,01
-0,28
0,45
1,19
33
z i
zi 1
-0,5
-0,3438
-0,1103
0,1736
0,3830
-0,3438
-0,1103
0,1736
0,3830
0,5
Pi
ni '
0,1562
0,2335
0,2839
0,2094
0,1170
1
7,81
11,675
14,195
10,47
5,85
50
3) Сравним эмпирические ( ni ) и теоретические ( ni ' ) частоты. Для этого
составляем расчетную табл.14 по форме табл.11
i
ni
ni '
ni ni '
ni ni '
1
2
3
4
5
8
11
15
11
5
7,810
11,675
14,195
10,470
5,850
0,190
-0,675
0,805
0,530
-0,850
0,0361
0,4556
0,6480
0,2809
0,7225
2
ni ni ' 2
ni '
0,0046
0,0390
0,0457
0,0268
0,1235
Таблица 14
ni2
ni2
ni '
64
121
225
121
25
8,1946
10,3640
15,8507
11,5568
4,2735
0,2396
50,2396
ni2
n 50,2396 50 0,2396
Контроль:
n
'
i 1 i
5
2
набл
0,2396 . Расчеты проведены верно.
4) Зададим 0,05 .
Вычислим
число
степеней
k 53 2
и
найдем
2
2
2
кр
0,05; 2 6,0 (Приложение 3). Получим набл
кр
.
Следовательно, нет оснований отвергать гипотезу H 0 о нормальном
распределении генеральной совокупности X .
Другими словами различие между эмпирическими ( ni ) и теоретическими
( ni ' ) частотами незначительное (случайное), которое можно объяснить малым
свободы
объемом выборки.
Построим нормальную кривую. Для этого составим табл.15.
Таблица 15
Середины интервалов
-1,76
-1,16
-0,56
0,04
0,64
1,24
1,84
pi
h
0,05
0,19
0,39
0,52
0,34
0,14
0,03
34
pi
h
гистограмма
0,52
0,39
нормальная
0,34
кривая
0,19
0,14
0,05
0,03
-1,76
-1,16
-0,56
0,04
0,64
1,24
1,84
x
Рис.5
Так как гипотеза о нормальном распределении не отвергается, то
нормальная кривая хорошо сглаживает гистограмму.
§ 4. ЭЛЕМЕНТЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА
4.1. Понятие функциональной,
статистической и корреляционной зависимости.
Две случайные величины X и Y могут быть связаны функциональной
зависимостью, либо зависимостью другого рода, либо быть независимыми.
Зависимость величины Y от X называется функциональной, если
каждому значению величины X соответствует единственное значение Y .
Строгая функциональная зависимость в окружающем нас мире
встречается редко, так как обе величины X и Y , или одна из них , подвержены
еще действию случайных факторов. Если среди этих факторов есть общие для
обеих величин, то в этом случае возникает статистическая зависимость.
Статистической называется зависимость, при которой изменение одной
величины влечет изменение распределения другой.
Если изменение одной из переменных сопровождается изменениями
условного среднего значения другой переменной величины, то такая
зависимость является корреляционной.
35
Условным средним y x называют среднее арифметическое значений Y ,
соответствующих значению X x .
Например, пусть при x1 2 случайная величина Y приняла значения
y1 5 , y 2 7 , y3 9 . Тогда условное среднее равно y x
579
7.
3
Если каждому значению X соответствует одно значение условной
средней, то условная средняя есть функция от x . В этом случае говорят, что
случайная величина Y зависит от X корреляционно.
Корреляционной зависимостью Y от X называют функцию y x f x .
Уравнение y x f x называют уравнением регрессии Y на X , а ее
график – линией регрессии Y на X .
Аналогично определяется условная средняя x y и корреляционная
зависимость X от Y .
Условным средним x y называется среднее арифметическое значений X ,
соответствующих Y y .
Корреляционной зависимостью X от Y называют функцию x y y .
Уравнение y x f y называют уравнением регрессии X на Y , а ее
график – линией регрессии X на Y .
Корреляционный анализ рассматривает две задачи.
Первая задача теории корреляции – установить форму корреляционной
связи, то есть вид функции регрессии (линейная, квадратичная и так далее).
Вторая задача теории корреляции – оценить силу (тесноту)
корреляционной связи. Теснота корреляционной связи (зависимости) Y на X
оценивается по величине рассеивания значений Y вокруг условного среднего.
Большое рассеивание свидетельствует о слабой зависимости Y от X , малое
рассеивание указывает на наличие сильной зависимости.
4.2. Отыскание параметров выборочного уравнения линейной регрессии
по несгруппированным данным
Пусть имеются две случайные величины, и проводится их измерение.
В результате n независимых опытов получены, n пар чисел x1 ; y1 ,
x2 ; y2 , , xn ; yn
Будем искать линейное выборочное уравнение регрессии
y x kx b
36
Y на X в виде:
Так как по выборочным данным можно получить только оценки
параметров, то оценку коэффициента k обозначим через , а оценку
через
b—
, то есть y x x .
Параметры и находим методом наименьших квадратов по
формулам:
n n
n xi yi xi yi
i 1 i 1
i 1
2
,
n
n
2
n xi xi
i 1
i 1
n
n
i 1
xi2
n n n
yi xi xi yi
i 1 i 1 i 1
n
n
i 1
xi2
n
xi
i 1
2
Аналогично находится выборочное уравнение линейной регрессии
X на Y :
x y 1 y 1 ,
где
n n
n xi yi xi yi
i 1 i 1
1 i 1
2
,
n
n
2
n yi yi
i 1
i 1
n
n
n n
2
y
x
y
x
y
i i i i i
i 1 i 1 i 1
1 i 1
2
.
n
n
2
n yi yi
i 1
i 1
n
Для оценки связи (тесноты) между случайными величинами обычно
используется выборочная ковариация и выборочный коэффициент корреляции.
37
Выборочная ковариация (эмпирический корреляционный момент)
записывается в виде:
*xy
1n
xi yi n x в y в ,
n i 1
а выборочный коэффициент корреляции имеет вид:
*xy
rв
xв yв
*xy
rв
или
x xв
2
2
y yв
2
2 ,
1 n 2
1 n 2
2
где x xi , y yi .
n i 1
n i 1
2
Абсолютная величина (модуль) выборочного коэффициента корреляции не
rв 1 или 1 rв 1. С возрастанием rв
линейная корреляционная зависимость становится более тесной, и при rв 1
переходит в функциональную. Если rв 0 , то корреляционная связь
испытаний X и Y отсутствует.
превосходит единицы, то есть
Пример 11. В результате независимых испытаний получены пары значений
случайных величин X и Y :
xi
10
20
25
28
30
yi
4
8
7
12
14
В таблице значения X расставлены в возрастающем порядке.
Найти выборочное уравнение линейной регрессии и выборочный
коэффициент корреляции. Построить прямые регрессии Y на X и X на
Y.
Составим таблицу подсчетов ( табл.16 ).
Таблица 16
xi
yi
xi2
xi yi
yi2
1
10
4
100
40
16
2
20
8
400
160
64
3
25
7
625
175
49
4
28
12
784
336
144
5
30
14
900
420
196
113
45
2809
1131
469
Номер опыта
i
38
113
45
y
, в
.
5
5
2
2809 113
51,04 ,
5
5
1) Находим xв
2)
Dxв
xв Dxв 51,04 7,14 .
2
D yв
469 45
12,8 ,
5 5
yв D yв 12,8 3,58 .
3) Вычислим эмпирический корреляционный момент:
1
5
113 45 1
1131 5 22,6 9 22,8 .
5
5 5
*xy 1131 5
Тогда коэффициент корреляции:
*xy
22,8
rв
0,89 .
xв yв 7 ,14 3,58
Значение rв довольно близко к 1, следовательно, связь между случайными
величинами X и Y довольно тесная.
4) Найдем уравнения линий регрессии
Y на X :
y x kx b
5 1131 113 45
5655 5085
570
0,447
2
14045
12769
1276
5 2809 113
2809 45 113 1131 126405 127803 1398
1,1
2
14045 12769
1276
5 2809 113
y x 0,447 x 1,1
X на Y : x y 1 y 1
5 1131 113 45 5655 5085 570
1,78
2
2345 2025 320
5 469 45
39
469 113 45 1131 52997 50895 2102
6,57
2
2345
2025
320
5 469 45
x y 1,78 y 6,57
5) Построим линии регрессии ( Рис.6) . Для этого найдем точки пересечения
линий с осями координат:
y x 0,447 x 1,1:
x 0 , y 1,1 ;
1,1
x
2,46
y 0,
0,447
x y 1,78 y 6,57 :
x 0, y
6,57
3,69 ;
1,78
y 0 , x 6,75 .
y
y 0,447 x 1,1
x 1,78 y 6,57
-6,57
2,46
-1,1
x
-3,69
Рис.6
40
4.3. Отыскание параметров выборочного уравнения линейной регрессии
по сгруппированным данным
При большом числе опытов одно и то же значение
xi может встретиться
n xi раз, а одно и то же значение y j , соответственно, n y j раз. Причем обычно
nxi n y j nij n , где n - объем выборки.
Одна и та же пара значений
xi y j может наблюдаться nx y
i
j
nij
раз.
В этом случае наблюдаемые значения группируют. Для этого подсчитывают
частоты, и все эти результаты вносят в таблицу, которая называется
корреляционной табл. 17.
Таблица 17.
xi
yj
x1
xi
xk1
ny
y1
yj
yk2
n11
n1 j
n1k 2
ni1
nij
nik2
nk11
nk1 j
nk1k 2
n y1
ny j
nyk
nx
n x1
n xi
n xk
1
2
n
где
x1 , x2 , , xk1 ; y1 , y2 , , yk2 - значения случайных величин X и Y или
середины интервалов;
n x1 , n x2 , , n xk
nij
1
;
n y1 , n y2 , , n yk
2
- соответствующие им частоты;
- частота, с которой встречается пара
xi y j .
Выборочный коэффициент корреляции определяется по формуле:
rв
*xy
2
x 2 xв
2
y 2 yв
, где
41
*xy
1n
xi yi n x в y в .
n i 1
rв
xy x y
x y .
Вычисление rв значительно упрощается, если ввести условные варианты
42