Корреляционный и регрессионный анализ. Выявление связи между величинами
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Корреляционный и регрессионный анализ. Выявление связи между величинами
Корреляционный метод позволяет получить числовые показатели, характеризующие степень (тесноту) связи между двумя или несколькими признаками.
Для характеристики количественной связи между явлениями и отдельными признаками следует различать функциональную (полную) и статистическую (неполную) связь между признаками.
Статистической называют зависимость случайной величины У от Х, при которой изменение одной из величин (Х) влечет изменение другой (У).
Возникновение понятия статистической связи обуславливается тем, что зависимая переменная подвержена влиянию ряда контролируемых или неучтенных факторов, а также тем, что изменение значений переменных неизбежно сопровождается некоторыми случайными ошибками.
Корреляционная зависимость между двумя переменными величинами – это зависимость между значениями одной из них и условным математическим ожиданием другой.
Сравнивая различные виды зависимости между Х и У, можно сказать, что с изменением значений переменной Х при функциональной зависимости однозначно изменяется определенное значение переменной У, при корреляционной – определенное среднее значение У, при статистической – определенное распределение переменной У.
Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными. Основной задачей корреляционного анализа является выявление связи между случайными переменными и оценка ее тесноты.
Установление форм связи и подбор математического уравнения в большинстве случаев решается на основе логического анализа предыдущих исследований, данных статистических группировок, графического метода.
Линейная парная связь выражается уравнением прямой регрессии:
где а – угловой коэффициент прямой регрессии У на Х, называемый выборочным коэффициентом регрессии.
При малых выборках данные не группируются. Параметры а и b находятся по методу наименьших квадратов из нормальной системы уравнений
где n – число наблюдаемых значений пар взаимосвязанных величин (xi;yi).
Выборочный линейный коэффициент корреляции характеризует тесноту связи между Х и У. Коэффициент корреляции находится по формуле:
где и - выборочные средние случайных величин Х и У;
- среднее значение произведений
и - выборочные средние квадратические отклонения,
Свойства коэффициента корреляции :
1) Если =0, то Х и У не связаны корреляционной зависимостью;
2) Если то Х и У связаны функциональной зависимостью;
3) Если коэффициент корреляции положителен, то связь прямая; если коэффициент корреляции отрицателен, то связь обратная;
4) Связь тем теснее, чем ближе к единице:
связь практически
отсутствует
связь
слабая
связь
умеренная
связь
высокая
Пример 1. Найти коэффициент корреляции между производительностью труда У (тыс.руб.) и энерговооруженностью труда Х (кВт) (в расчете на одного работающего) для 14 предприятий региона по следующим данным:
xi
2,8
2,2
3,0
3,5
3,2
3,7
4,0
4,8
6,0
5,4
5,2
5,4
6,0
9,0
yi
6,7
6,9
7,2
7,3
8,4
8,8
9,1
9,8
10,6
10,7
11,1
11,8
12,1
12,4
Найти коэффициент корреляции и построить уравнение регрессии.
Решение. Для вычисления коэффициента корреляции составим расчетную таблицу:
№ п/п
1
2,8
6,7
7,84
44,89
18,76
7,686
2
2,2
6,9
4,84
47,61
15,18
7,074
3
3,0
7,2
9
51,84
21,6
7,89
4
3,5
7,3
12,25
53,29
25,55
8,4
5
3,2
8,4
10,24
70,56
26,88
8,094
6
3,7
8,8
13,64
77,44
32,56
8,604
7
4,0
9,1
16
82,81
36,4
8,91
8
4,8
9,8
23,04
96,04
47,04
9,726
9
6,0
10,6
36
112,36
63,6
10,95
10
5,4
10,7
29,16
114,49
57,78
10,338
11
5,2
11,1
27,04
123,21
57,72
10,134
12
5,4
11,8
29,16
139,24
63,72
10,338
13
6,0
12,1
36
146,41
72,6
10,95
14
9,0
12,4
81
153,76
111,6
14,01
64,2
132,9
335,26
1313,95
650,99
133,104
Средние
значения
4,59
9,49
23,95
93,85
46,5
===
===
Связь сильная, прямая.
Для получения уравнения регрессии составим и решим систему уравнений:
На одном графике изобразим исходные данные (в виде точечного графика) и уравнение регрессии (прямая линия):
Пример 2. Распределение 100 предприятий по объему выпускаемой продукции Х (в тыс.руб.) и по себестоимости единицы продукции У (тыс.руб.) дано в корреляционной таблице.
y х
3,5
4,0
4,5
5,0
5,5
6,0
6,5
∑
4,1
-
-
-
-
-
1
-
1
4,3
-
-
-
3
1
2
1
7
4,5
-
-
2
5
3
6
-
16
4,7
-
-
5
7
9
1
-
22
4,9
-
1
15
11
2
-
-
29
5,1
-
5
6
1
3
-
-
15
5,3
3
2
4
-
-
-
-
9
5,5
1
-
-
-
-
-
-
1
∑
4
8
32
27
18
10
1
100
Предполагая, что между переменными Х и У существует корреляционная зависимость, определить выборочный коэффициент корреляции; найти уравнение прямой регрессии; сделать вывод о тесноте и направлении связи.
Решение. 1. Найдем средние значения , и вычислим
Так как коэффициент корреляции отрицателен, то связь между величинами Х и У обратная. Теснота связи высокая.
2. Для получения уравнения прямой линии регрессии составим и решим систему.
Система имеет вид:
Таким образом, уравнение регрессии примет вид: .