Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Глава 4. Нахождение линейной связи между величинами.
4.1 Графическая взаимосвязь двух признаков.
Важнейшая задача теории статистики – исследование объективно существующих
связей между явлениями. В самом простом случае исследуется взаимодействие двух
факторов. Например, объёма продукции предприятия и численности работников, или
прибыли и стоимости производственных фондов и т.д. (хотя, конечно, как правило, вторая
величина зависит не только от первой, но и от многих других факторов).
Если с изменением значения одной из переменной вторая изменяется строго
определённым образом, связь между ними является функциональной. По аналитическому
выражению выделяют связи прямолинейные (или линейные) и нелинейные. Картина
осложняется, если переменные являются случайными величинами. Для обнаружения
зависимости между величинами также необходимо провести большое число наблюдений,
следовательно, для их обработки требуется привлечение методов математической
статистики.
Статистическая связь между величинами, которая может быть приближённо выражена
уравнением прямой линии, называется линейной связью. Если же она выражается
уравнением какой-либо кривой линии, то такую связь называют нелинейной. Часто
важно выявить лишь наличие связи, её характер и направление. Для этого используются
таблицы, аналитическая группировка, метод корреляции и графическое представление
величин.
Таблицы могут состоять из двух строк:
X
Y
1
8
2
9
3
10
4
11
5
12
6
13
7
14
(демонстрирует, что Y с ростом X растёт почти линейно) или быть двумерными
(состоять из n строк и m столбцов):
X
10
30
50
70
Y
10
12
14
9
4
1
1
10
2
16
9
6
1
18
3
14
10
20
6
18
6
(X – количество удобрений на 100 га, Y – урожайность в ц/га; на пересечении строки и
столбца указано количество хозяйств, в которых при указанном количестве удобрений
получен соответствующий урожай).
Графически взаимосвязь двух признаков изображается в виде поля корреляции. При
отсутствии тесных связей имеет место беспорядочное расположение точек (x,y). Чем
сильнее связь между признаками, тем теснее будут группироваться точки вокруг
определённой линии, выражающей форму связи.
Иногда одним из двух признаков, например x, выступает в качестве независимой
компоненты (чаще всего время). Однако переменная х не случайна, а случайна только
переменная y. В этом случае говорят о регрессионной модели.
Когда обе переменные “равноправны”, то модель называется корреляционной.
4.2 Построение прямой методом наименьших квадратов.
Пусть известны результаты опыта, целью которого является исследование
зависимости определённой величины от другой (y от x) (например, величины прибыли от
объёма инвестиций, изменения по месяцам курса доллара и т.д.).
Предположим вначале, что имеет место зависимость y=φ(x). В результате опыта
получен ряд точек (xi, yi). Обычно эти точки не ложатся точно на график функции y=φ(x).
Всегда имеется некоторый разброс, то есть обнаруживаются случайные отклонения от
этой функциональной зависимости. Эти отклонения связаны с различными случайными
колебаниями.
В связи со сказанным возникает естественный вопрос: как наилучшим образом
воспроизвести эту зависимость по полученным данным?
Простое проведение через все полученные точки некоторой кривой, являющейся
графиком определённой функции, лишено смысла. Вид этой зависимости будет меняться
от одной серии измерений к другой, а в некоторых случаях её в принципе нельзя получить
(несколько экспериментальных точек могут иметь одинаковые абсциссы и разные
ординаты). В этом случае возникает типичная для практики задача: найти такую функцию
y = ϕ (x) , которая некоторым наилучшим образом отражала бы функциональную
зависимость y от x, и вместе с тем были бы сглажены случайные, незакономерные
отклонения.
К счастью, обычно ситуация облегчается тем, что из теоретических или других
соображений, связанных с существом рассматриваемой задачи, и даже функциональной
зависимости y от x (линейная, квадратичная, показательная или какая-нибудь другая
функция). Требуется только установить численные значения параметров этой
зависимости. Именно задачу рационального выбора таких числовых значений параметров
мы и будем решать.
Рассмотрим решение этой задачи на частном примере проведения прямой методом
наименьших квадратов (МНК) через точки (x1, y1),…,(xn, yn).
Итак, пусть имеются результаты n независимых измерений – опытные точки (xi, yi),
где i=1,…,n.
Среди всех прямых линий y = ax + b на плоскости мы ищем наиболее близкую к
данной системе точек, причём близость измеряем суммой квадратов отклонений
n
S = ∑ [ y i − (axi + b)
]2 .
i =1
Теперь для определения параметров a и b воспользуемся идеей, согласно которой из
всех прямых наилучшей является та, для которой сумма S минимальна.
Поскольку минимизируется сумма квадратов разностей экспериментальных и
теоретических значений функции (их называют невязками), предложенная процедура
получила название метод наименьших квадратов (МНК).
Эта задача сводится к решению двух уравнений:
n
∂ n
2
(
y
−
ax
−
b
)
=
−
2
i
∂a ∑ i
∑ ( y i − axi − b) * xi = 0;
i =1
i =1
⇒
n
n
2
∂
− 2 ( y − a * x − b ) = 0.
(
y
−
ax
−
b
)
=
i
i
i
i
∂b ∑
∑
i =1
i =1
Раскрывая скобки и группируя, в результате получим следующую систему двух
линейных уравнений для определения а и b:
1 n 2
1 n
1 n
∑ xi * a + ∑ xi * b = ∑ xi * yi ;
n i =1
n i =1
n i =1
1 n
1 n
∑ xi * a + b = ∑ y i .
n i =1
n i =1
Решая эту систему методом исключения (Гаусса), в итоге получим:
1
1
1
xi y i − ∑ xi * ∑ y i
∑
n
n
a= n
=
2
1
1
2
∑ xi − n ∑ xi
n
b = y − a * x;
x=
1
∑ xi ;
n
∑ y ∆x
∑ (∆x )
i
i
i
2
=
∑ y ∆x
∑ x ∆x
i
i
i
i
;
∆xi = xi − x;
n
(во всех суммах знак ∑ означает суммирование по всем точкам
∑
).
i =1
Уравнение МНК можно написать и в такой форме:
y = a( x − x) + y,
откуда видно, что эта прямая проходит через точку ( x, y ) , являющуюся центром
тяжести данной системы точек.
Пример 8. Проведена серия опытов по определению влияния дозы внесённых
удобрений на повышение урожайности пшеницы. Соответствующие данные приведены в
первых трёх столбцах таблицы (x- внесённая доза удобрений в центнерах на гектар, y –
прирост урожайности в центнерах с гектара).
Требуется по методу наименьших квадратов подобрать линейную функцию,
выражающую y через x.
i
xi
yi
1
2
3
4
5
6
7
8
9
10
0,342
0,417
0,675
0,867
1,000
1,158
1,283
1,500
1,733
2,008
2,10
4,70
6,05
8,65
10,00
12,60
12,08
14,68
16,65
19,25
xi2
0,1170
0,1739
0,4556
0,7517
1,0000
1,3410
1,6461
2,2500
3,0033
4,0321
xi*yi
0,718
1,960
4,084
7,500
10,000
14,591
15,499
22,020
28,854
38,654
11
12
13
1 13
∑
13 i =1
2,083
2,242
2,508
19,98
23,20
23,93
4,0321
4,3389
5,0266
41,618
52,014
60,016
1,370
13,37
2,3405
22,887
Решение. Искомые величины связаны линейной
коэффициенты которой и требовалось определить:
зависимостью:
y=ax+b,
a=9,86; b=-0,14 ⇒ y=9,86x-0,14.
a
+ b, линейные
x
относительно параметров a и b. В этом случае задача легко может быть сведена к
1
предыдущей заменой переменной: u = .
x
Построенная методом наименьших квадратов линия часто используется для получения
представления о динамики процесса и, следовательно, для прогнозов.
Во многих приложениях часто используются зависимости вида y =
Пример 9 Динамика производства готовой продукции на фирме:
ti (годы)
1989
yi
18
(продукция)
1990
1991
21
1992
26
1993
22
1994
25
1995
28
30
Поскольку начало отсчёта времени мы можем выбрать произвольно, при построении
прямой для облегчения счета мы переходим от года к условной единице измерения
x=t-1992. За ноль мы приняли среднюю точку. Тогда x = 0; ∆xi = xi − x = xi .
ti (годы)
1989
yi
18
(продукция)
xi или ∆xi
-3
2
xi или
9
(∆xi ) 2
yi*xi
-54
a=
∑ y ∆x
∑ (∆x )
i
i
2
i
=
1990
1991
1992
1993
1994
1995
21
26
22
25
28
30
-2
-1
1
2
3
4
1
1
4
9
28
-42
-26
25
49
= 1,75;
28
170
− 1,75 * 0 = 24,286;
7
y = 1,75( x − x) + 24,286 = 1,75 x + 24,286.
b = y −a*x =
Здесь х измеряется в годах и отсчитывается от 1992 года.
Прогнозом на 1996 год будет значение:
56
90
Σ
170
49
y=1,75*(1996-1992)+24,286=7+24,286=31,284
Такой прогноз будет точечным.
Приведённый пример демонстрирует самую простую схему, позволяющую быстро и
прочно получить представление о динамике процесса и элементарный прогноз на
ближайшее будущее. Перед тем, как начать строить методом наименьших квадратов
прямую (или другую линию), обычно применяют сглаживание данных методом
скользящих средних
Эмпирический коэффициент корреляции.
Когда наблюдения проводятся над системой (X,Y) двух равноправных случайных
величин, то по результатам выборки может быть построена статистика, называемая
эмпирическим коэффициентом корреляции.
n
rxy =
∑ (x
i
− x)( y i − y )
i =1
n
∑ (x
i =1
n
i
− x) 2 ∑ ( y i − y ) 2
i =1
или, что то же самое:
rxy =
1 n
∑ ( xi − x)( yi − y ) / S x S y .
n i =1
Эту формулу легко преобразовать к виду
rxy =
1 n
∑ ( xi y i ) − x * y
n i =1
2
1 n 2
1 n 2
xi − x *
yi − y
∑
∑
n i =1
n i =1
По виду формулы легко заметить, что в неё входят отнормированные значения обеих
компонент – из каждого значения вычитается среднее и разность делится на
среднеквадратическое отклонение. Эта операция проделывается для того, чтобы
избавиться от влияния сдвига и выбора масштаба, в котором измеряется компонента. Так
что нормировка переводит каждый ряд значений в шкалу, у которой нулём считается
среднеарифметическое исходных цифр, а за единицу принята величина
среднеквадратического отклонения.
Выборочный коэффициент корреляции rxy заключён между –1 и +1. Если точки (xi,yi)
лежат строго на прямой, то есть имеет место строгая линейная зависимость между
значениями X и Y, то rxy=±1. В этом можно убедиться, подставив в формулу (2.24)
yi = axi + b .
Пример 10. В таблице приведены идеальные данные о росте и весе людей среднего
возраста, сохранивших “спортивный” вес – вес=рост-102:
Рост xi
Вес yi
178
76
166
64
172
70
168
66
176
74
Вычислите по формуле коэффициент корреляции и убедитесь, что он равен 1.
Случаи, когда эмпирическая корреляция оказывается близкой по модулю к 1,
указывает на то, что компоненты связаны друг с другом и связь близка к линейной
зависимости.
Пример 11. В таблице приведены данные о производительности труда (Y – в единицах
т/ч) и уровне механизации работ (X – в процентах) для 14 предприятий. Требуется
установить зависимость между производительностью труда и уровнем механизации
работ:
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
∑
X,
32
30
36
40
41
47
56
54
60
55
61
67
69
76
724
%
Y,
20
24
28
30
31
33
34
37
38
40
41
43
45
48
492
т/ч
ax+b 24,4 23,3 26,6 28,8 29,3 32,6 37,5 36,4 39,6 36,9 40,2 43,5 44,5 48,3
∆y
4,4 -0,7 -1,4 -1,2 -1,7 -0,4 3,5 -0,6 1,6 -3,1 -0,8 0,5 -0,5 0,3
x=
1
(32 + 30 + ... + 76) = 51,71
14
y=
1
(20 + 24 + ... + 48) = 35,14
14
1 n
1
xi y i = (32 * 20 + 30 * 30 + ... + 76 * 48) = 1921,92
∑
n i =1
14
1 n 2 1
∑ xi = 14 (32 * 32 + 30 * 30 + ... + 76 * 76) = 2866,71
n i =1
1 n 2 1
∑ yi = 14 (20 * 20 + 24 * 24 + ... + 48 * 48) = 1295,57;
n i =1
r=
1921,93 − 51,71 * 35,14
(2866,71 − 51,712 )(1295,57 − 35,14 2 )
=
104,14
192,79 * 60,75
=
104,14
= 0,96.
108,22
Величина r близка к единице. Следовательно, между величинами существует линейная
корреляционная зависимость. Построим по этим точкам прямую, методом наименьших
квадратов:
1
1
1
xi y i − ∑ xi * ∑ y i
∑
104,14
n
n
a= n
=
= 0,54;
2
192
,
8
1
1
∑ xi2 − n ∑ xi
n
b = y − a * x = 7,04
Следовательно, уравнение прямой имеет вид: y=0,54x+7,04 и можно сделать вывод,
что производительность труда в среднем возрастает на 0,54 т/ч, если коэффициент
механизации работ увеличится на один процент. Вычислив значения axi+b, можно
посмотреть, на каких предприятиях отклонения положительные, на каких –
отрицательные, на каких – самые большие.
Статистика ω =
rxy
1 − rxy2
n − 2 имеет распределение Стьюдента с (n-2) степенями
свободы (2 средних заменены на эмпирические значения). Это обстоятельство можно
использовать для построения доверительного интервала для истинного коэффициента
корреляции, для которого эмпирический коэффициент является точечной оценкой.
Близость коэффициента корреляции к нулю не говорит прямо о независимости величин,
но является одним из её признаков. Так что при близости эмпирического коэффициента к
нулю можно с помощью распределения Стьюдента проверить гипотезу о равенстве нулю
истинного коэффициента корреляции.
ЗАКЛЮЧЕНИЕ
Трудно перечислить всё многообразие задач, решаемых статистикой. К ним относятся
и задачи дисперсионного анализа, которых мы не касались в нашем курсе. Подробнее с
этими и другими вопросами статистики можно познакомиться в книгах [1,2,3,4,5]. Но в
основе всех методов всегда лежит один и тот же подход – вычисление по выборке
интересующих исследователя характеристик, распространение их на всю генеральную
совокупность или на будущее и определение уровня доверия к полученным результатам.
ИСПОЛЬЗОВАННЫЕ ИСТОЧНИКИ
1.
2.
3.
4.
5.
. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003,
479с.
. Гмурман В.Е. Руководство к решению задач по теории вероятностей и
математической статистики. М., 2003, 405с.
Кремер Н.Ш. Теория вероятностей и математическая статистика. М., 2007, 573с.
Калинина В.Н.,. Панкин В.Ф. Математическая статистика. М., 1998.
Чернышева И.Б.. Основные понятия математической статистики. М., 2001, 120с.