Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 2 (2 часа). Вероятностное описание событий и процессов.
Статистическая обработка экспериментальных данных. Оценивание показателей систем и определение их точности методами математической статистики. Регрессионный и дисперсионный анализ.
Корреляционно-регрессионный анализ
Как найти в виде формулы зависимость между двумя случайными величинами, полученными в результате наблюдений, если каждому значению одной величины соответствует несколько значений другой? Как найти параметры этих формул при условии, чтобы они отражали сущность изучаемого процесса и «сглаживали» влияние случайных, не характерных для данного процесса факторов? Насколько сильно влияет изменение одной величины на изменение другой? Ответы на эти вопросы составляют содержание настоящей главы.
2.1. Понятие корреляционной и регрессионной зависимости. Корреляционная таблица
Проведено наблюдение двух признаков у 15 колосьев пшеницы — измерена длина каждого колоса Х (см) и подсчитано число зерен Y. Составлена следующая таблица:
Xi
10
9
11
8
9
10
9
11
8
10
9
10
8
9
11
Yi
24
20
27
18
20
24
20
27
20
27
24
27
20
27
30
Интуитивно можно предположить, что большей длине колоса отвечает большее число зерен в нем. Упорядочим эти первичные данные, поместив их в таблицу. В первом столбце запишем в порядке возрастания значения xi 8, 9, 10, 11, а в первой строке — в том же порядке значения yi : 18, 20, 24, 27, 30. На пересечении строк и столбцов запишем число повторений одинаковых пар (хi ; уi ) в ряду наблюдений (табл. 4.1).
Требуется установить и оценить степень зависимость случайной величины Y от величины X. Эти задачи являются основными в теории корреляции и регрессии и формулируются так:
• определение зависимости между случайными величинами в виде формулы;
• определение силы или тесноты этой зависимости;
• прогнозирование значений одной случайной величины по известным значениям другой.
Таблица 4.1
Y
X
18
20
24
27
30
nx
8
1
2
3
9
3
1
1
5
10
2
2
4
11
2
1
3
ny
1
5
3
5
1
15
Для того чтобы их решить, необходимо построить соответствующий математический аппарат.
Пусть имеются два ряда наблюдений зависимых между собой величин Х и Y. Если xi и yi встречаются по одному разу, то их записывают в виде табл. 4.2:
Таблица 4.2
N
1
2
3
…
k
...
n
Xi
x1
x2
x3
…
…
xn
Уi
y1
y2
y3
…
…
yn
где xi , yi — наблюдавшиеся значения зависимых между собой признаков Х и Y;
N — номер наблюдения.
Если каждому значению yi, отвечает несколько значений X, а каждому хi — несколько Y, то эти данные надо упорядочить и записать в виде таблицы 4.3.
Таблица 4.3
Y
X
y1
y2
y3
…
yn
X1
n1,1
n1,2
n1,3
n1,n
X2
n2,1
n2,2
n2,3
n2,n
X3
n3,1
n3,2
n3,3
n3,n
…
X
…
…
…
…
…
…
Xm
nm,1
nm,2
nm,3
nm,n
…
Здесь числа пi,j — частоты, показывающие, сколько раз повторяются парные значения хi, уj. Например, п2,3 показывает, сколько раз произошло событие, состоящее в том, что Х = x2, а Y = у3 Табл. 4.3, в которой результаты наблюдений записаны в порядке возрастания с указанием частот ni,j , называется таблицей распределения. Такая таблица может быть составлена как для дискретных признаков, так и для непрерывных.
В последнем случае разность признаков хmax - xmin или ymax - ymin делится точками на ряд частичных интервалов (классов), обычно равных, а при дальнейшей обработке переходят к дискретному статистическому распределению, заменяя интервал хi-1...хi, его центром .Так же поступают в отношении случайной величины Y.
Из табл. 4.3 видно, что каждому значению признака X отвечает распределение признака У и, наоборот, одному значению Y отвечает распределение признака X.
Так, например, при Х = х1, имеем
yi
y1
y2
y3
…
yn
y1,j
n1,1
n1,2
n1,3
…
n1,n
При X – x2 распределение имеет следующий вид:
yi
y1
y2
y3
…
yn
n2,j
n2,1
n2,2
n2,3
…
n2,n
Далее при Y =у1, получаем
xi
x1
x2
x3
…
xm
ni1
ni,1
ni,2
ni,3
…
nm,1
При Y =у2, имеем
xi
x1
x2
x3
…
xm
ni,2
n1,2
n2,2
n3,2
…
nm,2
и так далее.
В отличие от функциональной зависимости здесь нет строгого соответствия между Х и Y, но можно найти соответствие между значениями одной и средним значением другой величины.
Определение 1. Зависимость между случайными величинами (СВ) Х и Y, состоящая в том, что каждому значению одной величины соответствует распределение другой, называется статистической.
Статистическая зависимость состоит в том, что одна СВ реагирует на изменение другой СВ изменением параметров своего распределения. Эта зависимость характеризуется двумерным законом распределения двумерной плотностью f(x,y), или двумерной функцией распределения F(x,y). Нахождение вида двумерного закона распределения по выборке ограниченного объема приводит к значительным ошибкам, поэтому на практике при исследовании зависимости между СВ X и Y обычно ограничиваются изучением зависимости одной из них и условным средним другой.
Статистическая зависимость показывает, что если величина Х принимает одно значение или попадает в определенный интервал, то при этом другая величина Y принимает несколько значений с определенными частотами. Каждому значению Х сопоставляется условное распределение f(y/x) и наоборот.
Особенно важным является частный случай статистической зависимости, когда каждому возможному значению одной величины сопоставляется какая-либо числовая характеристика соответствующего распределения другой. Такая зависимость называется регрессией.
Определение 2. Среднее арифметическое значение величины Y, вычисленное при условии, что Х принимает фиксированное значение, называется условным средним и обозначается .
Аналогично определяется условное среднее .
Обратимся к табл. 4.1. Значению x1 = 8 отвечает распределение
и условное среднее
Далее при х2 = 9
при x3 = 10
при x4 = 11
Таким образом, получена следующая новая таблица:
xi
8
9
10
11
19,3
22,2
25,5
28
Эта таблица определяет соответствие между значениями хi и условными средними . Построим в декартовой системе координат точки Мi(хi , ) и соединим их отрезками прямых. Полученная линия называется эмпирической линией регрессии Y на Х (рис. 5).
Из табл. 4.1 можно составить еще одну таблицу, показывающую соответствие между значениями уi и условными средними :
yi
18
20
24
27
30
8
8,6
9,7
10,2
11
Ломаная линия с вершинами N,( ;yj) называется эмпирической линией регрессии Х на Y (рис. 6). Изучая линию, построенную по данным приведенных выше таблиц, можно «наметить» некоторую плавную «сглаживающую» кривую, около которой группируются или к
Рис. 5 Рис. 6
которой «тяготеют» точки М. или N.. Такую линию называют теоретической линией регрессии Y на Х (Х на Y), или линией регрессии, а соответствующее уравнение — уравнением регрессии Y на Х (Х на Y). Наиболее простым является уравнение прямой линии. Как же найти уравнение линии регрессии?
Форма линии регрессии и соответствующее уравнение часто подсказываются эмпирической линией регрессии. Если точки Mi или Nj располагаются вдоль прямой, то линия регрессии называется прямой регрессии и операция «сглаживания» ломаной сводится к нахождению параметров a и b функции у = ах + b.
Регрессионная зависимость, или просто регрессия, называется прямой (положительной), если большему значению х отвечает большее значение , и обратной, если с возрастанием х значение убывает. Для прямой регрессии в уравнении регрессии а > 0, а для обратной а < 0. Функция y = ах + b является математической моделью изучаемой зависимости, которая при правильном ее построении будет выявлять главнейшие свойства изучаемого процесса или явления и исключать отдельные «возмущения», вызванные случайными, не характерными для данного явления факторами.
2.2. Линейная регрессия. Определение параметров линейной зависимости методом наименьших квадратов
Предположим, что по эмпирической линии регрессии или из других соображений установлено, что между двумя количественными признаками существует линейная регрессионная зависимость. Уравнение регрессии имеет вид или
. (28)
Сначала рассмотрим простейший случай, когда пары чисел в табл. 4.3 наблюдались по одному разу, т. е. ni,j = 1 для всех i = j и ni,j = 0 для всех i j (см. табл. 4.2). Подставив в (28) вместо х и соответственно хi и yi мы не получим в правой части равенства ноль, так как на результаты каждого наблюдения влияют случайные «возмущения». Имеем:
Числа e1, e2, e3 ..., en называются отклонениями. Параметры а и b находят из условия, состоящего в том, чтобы сумма квадратов отклонений
, (29)
была наименьшей из всех возможных. Поэтому метод называется методом наименьших квадратов.
Сумма (29) является функцией параметров а и b. Составим эту функцию, заменив значения vi на уi - ахi - b. Имеем
. (29*)
Для нахождения минимума функции F(a, b), зависящей от двух неизвестных — а и b, найдем частные производные — и и приравняем их нулю, причем при нахождении первой частной производной элементы, стоящие в круглых скобках выражения (29*) сгруппируем так, чтобы в одной группе были элементы не зависящие от параметра а, а во второй – зависящие, то есть - ((yi - b) - axi); наконец, при нахождении второй частной производной группировку выполним аналогично по параметру b, а именно - ((yi - axi) - b):
(30)
Вынесем постоянный множитель за знак суммы, и, перегруппировав слагаемые, запишем
(31)
Найдя из системы (31) а и b, получаем искомое уравнение прямой линии регрессии:
(32)
где а — выборочный коэффициент регрессии.
Система уравнений (31) была составлена для случая, когда пары чисел xi и yi . Если необходимо найти параметры a и b, когда связь между X и Y описывается корреляционной таблицей, то в системе (31) необходимо все элементы разделить на число элементов корреляционной таблицы N, в результате система уравнений (31) примет вид
(33)
где:
Значения пx,i, пy,j, пy,j поясняются табл. 4.3.
Для определения а и b из системы (33) умножим второе уравнение на и вычтем результат почленно из первого уравнения откуда
Из второго уравнения найдем и подставим его в уравнение регрессии (32). В результате имеем . Далее получаем или
. (34)
Проводя аналогичные рассуждения для уравнения регрессии приходим к уравнению (35)
Угловой коэффициент прямой (34) называется выборочным коэффициентом регрессии с Y на X, его обозначают символом :
.
В результате уравнения прямых регрессии принимают следующий вид:
; (36)
. (37)
2.3. Определение параметров линейной зависимости способом выбранных точек и способом средней
Пусть данные наблюдений представлены в виде табл. 4.2. Построим в системе координат точки Мi(xi; yi), i = 1, 2, ..., п и проведем прямую l таким образом, чтобы она проходила как можно ближе к этим точкам. Далее выберем на прямой две произвольные точки N1 и N2 . Их координаты найдем с помощью циркуля или подсчитав длину соответствующих отрезков, воспользовавшись миллиметровой бумагой. Получим две пары чисел (x1;y1 ) и (x2;y2). Уравнение прямой, проходящей через две данные точки, и определит параметры эмпирической формулы:
.
В этом и состоит способ выбранных точек.
Рассмотрим теперь способ средней. Разобьем результаты наблюдений, помещенных в табл. 4.1, на две равные (или почти равные) по объему группы. Для определения параметров а и b потребуем, чтобы отклонения взаимно погашались в каждой группе:
yi - ахi - b = vi , (38)
т. е. чтобы выполнялись равенства
После перегруппировки слагаемых приходим к системе двух уравнений с двумя неизвестными: (39)
Найденные из (39) числа а и b подставляют в уравнение .
Пример 1. Используя метод выбранных точек, найти регрессионную зависимость вида у = ax + b, если результаты наблюдений представлены в следующей таблице:
xi
1
2
3
4
5
yi
2,8
1,3
4,1
2,1
3,9
Решение. Строим точки М1 (1; 2,8), M2(2; 1,3), M3(3; 4,1), M4(4; 2,1), М5(5; 3,9) (рис. 7). Проведем прямую l. Выберем две точки N1 l и N2 l и измерим их координаты. Пусть N1 (l; 2), N2(4; 3,3). Запишем уравнение прямой (N1,N2):
.
В результате преобразований получим у = 0,43x + 1,57.
Рис.7
Таким образом, а = 0,43, b = 1,57.
Пример 2. Используя способ средней, найти регрессионную зависимость вида у = ax + b, если результаты наблюдений представлены таблицей примера 1.
Решение. Разбиваем результаты на две группы. Пусть т = 2, п - т = 3. Для составления системы уравнений вычисления проведем во вспомогательной таблице.
xi ,i=1,2
yi i=1,2
xi, i = 3,4, 5
yi i = 3,4,5
1,0
2,8
3,0
4,1
2,0
1,3
4,0
2,1
5,0
3,9
= 3,0
4,1
12,0
10,1
Решив систему находим а = 0,53, b = 1,26, у = 0,53x + 1,26.
Пример 3. Используя метод наименьших квадратов, найти регрессионную зависимость вида у = ax + b, если результаты наблюдений представлены таблицей примера 1. Решение. Для определения параметров а и b воспользуемся системой
Вычисление коэффициентов а и b проведем во вспомогательной таблице.
Номер наблюдения
xi
yi
xi2
xi , yi
1
1
2,8
1
2,8
2
2
1,3
4
2,6
3
3
4,1
9
12,3
4
4
2,1
16
8,4
5
5
3,9
25
19,5
xi =15
yi =14,2
x2i = 55
xi yi= 45,6
Решая систему находим а = 0,3, b = 1,94, у = 0,3х + 1,94.
Как видим, применяя различные методы, мы получили и разные результаты. Расхождение объясняется прежде всего тем, что число пар наблюдений сравнительно мало (п = 5). Метод наименьших квадратов имеет строгое математическое обоснование, поэтому результаты вычислений, полученные с его помощью, считаются наиболее близкими к точному значению неизвестных параметров а и b. Это утверждение мы подтвердим в дальнейшем.
2.4. Коэффициент корреляции и его свойства. Пример выравнивания опытных данных
Обратимся к табл. 4.2 и найдем и , далее составим разности хi - и yi - , затем вычислим произведения (хi - )( yi - ) . Все вычисления поместим в таблицу.
Таблица 4.4
Номер наблюдения
xi
yi
xi -
yi -
(хi - )( yi - )
1
x1
y1
x1 -
y1 -
(х1 - )( y1 - )
2
xi
y2
x2 -
y2 -
(х2 - )( y2 - )
3
xi
y2
x3 -
y3 -
(х3 - )( y3 - )
—
—
—
—
—
—
N
xn
yn
xn -
yn -
(хn - )( yn - )
( xi)
( yi)
( xi - )
)
( yi - )
(хn - )( yn - )
Если между Х и Y существует линейная корреляция, то разности (хi - )( yi - ) для каждого i, i = 1,2,3,..., п, имеют одинаковые знаки в случае прямой корреляции и противоположные — в случае обратной корреляции. Следовательно, при наличии корреляционной зависимости величина - (хn - )( yn - ) есть число, отличное от нуля. Если же Х и Y не связаны корреляционной зависимостью или, как говорят, не коррелированны, то знаки разностей носят случайный характер, при суммировании они взаимно погашаются и сумма при большом числе наблюдений будет мала или равна нулю. Следовательно, эта сумма характеризует меру связи изменения одной величины при изменение другой.
Определение 1. Выборочным корреляционным моментом, или ковариацией К , называется второй смешанный центральный момент случайных величин X и Y, определяемый формулой:
. (40)
В теории корреляции доказывается, что если Х и Y независимы, то Кx,y = 0. Корреляционный момент характеризует силу связи между Х и Y. Размерность Кx,y равна произведению размерностей наблюдаемых случайных величин. Разделив Кx,y на произведение средних квадратических отклонений, получим безразмерный коэффициент
, (41)
Коэффициент r также называют коэффициентом корреляции Пирсона.
Определение 2. Выборочным коэффициентом корреляции x,y называется отношение выборочного корреляционного момента Kx,y к произведению выборочных средних квадратичных отклонений этих величин.
Формулу (41) можно записать в другой форме, удобной для случаев, когда зависимость между Х и Y задается корреляционной таблицей. Имеем
.
Рассмотрим свойства выборочного коэффициента корреляции.
1. Значения коэффициента корреляции изменяются на множестве
[-1,1] = {r : -1 r 1}.
2. Чем больше r , тем теснее связь между изучаемыми количественными признаками.
3. Если r = 1, то корреляционная зависимость становится функциональной.
4. Если r = 0 , то между изучаемыми признаками нет линейной корреляционной зависимости, но условие r = 0 не исключает существования какого-либо другого вида корреляционной зависимости (параболической, показательной и др.).
Выборочный коэффициент корреляции подвержен случайным воздействиям, связанным с объемом выборки и, вообще говоря, отличается от истинного (теоретического) значения коэффициента корреляции, имеющего место для генеральных совокупностей X и Y. В случае n > 50 проверить гипотезу Н0: r = 0 можно с помощью критерия Стьюдента, при этом в качестве критерия используется статистика
, имеющая распределение Стьюдента с (n-2) степенями свободы.
Тогда , а значение tкр находят по таблице распределения Стьюдента, причем, если |tнабл| > tкр, то нулевая гипотеза отвергается, т.е. принимается гипотеза, что r 0.
Если случайная величина не имеет количественного выражения, а носит только качественный характер, то такую случайную величину можно упорядочить по возрастанию качества и после этого присвоить ранг (выше качество – меньше числовое выражение ранга, т.е. ранг выше). Для таких случайных величин вычисляют статистическую зависимость не в виде коэффициента корреляции, а в виде коэффициента ранговой корреляции Спирмена
.
При n < 50 для проверки гипотезы Н0: rсп = 0, применяют таблицы критических значений ранговой корреляции Спирмена. Входными параметрами в этих таблицах являются уровень значимости и объем выборки n. Затем проверяют условие
, если оно выполняется, то нулевая гипотеза отвергается.
При n > 50, можно применять квантили распределения Стьюдента. Для этого вычисляется наблюденное значение статистики Стьюдента
,
Для чего вычисляют выборочный коэффициент ранговой корреляции Спирмена, и проверяют условие, что модуль выборочного коэффициента больше критического значения (квантиля для заданного уровня значимости ) распределения Стьюдента с (n-2) степенями свободы.
,
в этом случае нулевая гипотеза отвергается.
Пример. Зависимость массы пушного зверька Y (кг) от его возраста Х (в месяцах) характеризуется следующей таблицей:
xi
1
2
3
4
5
6
7
8
yi
1,3
2,5
3,9
5,2
5,+3
7,5
9,0
10,8
13,1
• показать, что корреляция линейная;
• с помощью способа наименьших квадратов найти линейную зависимость между Х и Y;
• найти выборочный коэффициент корреляции.
Решение. Построим в системе координат Оху точки Мi (хi уi ) (рис. 8). Из рисунка видно, что точки располагаются вдоль прямой линии. Для определения коэффициентов а и b составим вспомогательную таблицу.
Система уравнений имеет вид 204,0 а + 36,0 b = 319,0,
36,0 а + 9,0 b = 58,6,
откуда находим: а = 1,42, b = 0,83, у = 1,42x + 0,83.
Номер
наблюдения
x i месяцы
yi, кг
x2i
xi yi
1
1,3
2
1
2,5
1
2,5
3
2
3,9
4
7,8
4
3
5,2
9
15,6
5
4
5,3
16
21,2
6
5
7,5
25
37.5
7
6
9,0
36
54,0
8
7
10,8
49
75,6
9
8
13,1
64
104,8
xi =36,0
yi= 58,6
Определим теперь выборочный коэффициент корреляции. Воспользовавшись формулой (41), находим
Составляем вспомогательную таблицу:
Номер наблюдения
xi
yi
()()
()2
()2
1
1,3
-1,0
-5,21
20,84
16,0
27,14
2
1
2,5
-3,0
-4,01
12,03
9,0
16,08
3
2
3,9
-2,0
-2,61
5,22
4,0
6,81
4
3
5,2
-1,0
-1,31
1,31
1,0
1,72
5
4
5,3
0,0
-1,21
0,00
0,0
1,46
6
5
7,5
1,0
0,99
0,99
1,0
0,98
7
6
9,0
2,0
2,49
4,98
4,0
6,20
8
7
10,8
3,0
4,29
12,87
9,0
18,40
9
8
13.1
4,0
6,59
26,36
16,0
43,43
84,60
60,00
122,22
Имеем r = 0,98.
Как видим, связь между величинами Х и Y очень тесная. Коэффициент корреляции близок к 1.
2.5. Оценка адекватности линейной регрессии
Оценка адекватности линейной регрессии с одновременной оценкой доверительного интервала для коэффициентов а и b проводится по алгоритму, предложенному Гауссом. Для этого разницу между измеренными значениями у. и вычисленными из уравнения Yi= axi + b нужно сделать минимальной, т. е. воспользоваться методом наименьших квадратов. Тогда наилучший возможный коэффициент регрессии будет вычисляться по формуле:
.
Второй коэффициент в этом случае может быть найден по формуле:
.
Константы а и b — выборочные оценки теоретических параметров. Вследствие этого адекватность модели определяется доверительными интервалами для них.
Сначала вычисляют дисперсию разности между опытными (у) и рассчитанными У значениями:
Дисперсии для констант а и b ищут с помощью закона сложения ошибок с
f = т - 2 степенями свободы, а т — число наблюдений. Тогда:
Доверительные интервалы для а и Ь получают из соотношений:
a = ± t (P, f)sa b = ± t (P, f)sb.
по процентным точкам распределения Стьюдента.
Полученную таким образом сглаженную (выровненную) функцию у = ax + b можно использовать для вычисления прогнозных значений зависимой переменной. При этом необходимо учитывать, что одному значению хk мы ставим в соответствие единственное Yk являющееся случайной величиной в силу стохастичности а и b. Зная ошибки sa и sb можно найти доверительный интервал для вычисляемого значения Yy
.
Отметим, что доверительный интервал зависит от разности и становится тем больше, чем дальше хi от среднего .
2.6. Прогнозирование производственных показателей методами корреляционно-регрессионного анализа
Предсказание будущего — дело рискованное, и детали (обозначаемые обычно термином «интуиция») играют в нем главную роль. Научный метод предсказания — это эконометрический анализ поведения системы в прошлом. Данные о таком поведении часто обладают некоторой степенью регулярности, на которую накладываются случайные флуктуации. Задача заключается в том, чтобы выявить лежащую в основе этой регулярности тенденцию на фоне кратковременных отклонений.
Самый простой метод для этого — графическая экстраполяция, т. е. продолжение некоторой зависимости, подобранной под имевшие место данные, в будущее (см. рис. 9).