Регрессионный анализ
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Регрессионный анализ
Регрессионный анализ применяется в том случае, если выявлена корреляция между двумя случайными величинами х и у, для нахождения точного уравнения функциональной зависимости и прогнозирования дальнейшего поведения данных.
Изучение корреляционных зависимостей основывается на исследовании таких связей между переменными, при которых значения одной переменной (ее можно принять за зависимую переменную) «в среднем» изменяются в зависимости от того, какие значения принимает другая переменная, рассматриваемая как причина по отношению к зависимой переменной. Действие данной причины осуществляется в условиях сложного взаимодействия различных факторов.
Вычисляя средние значения результативного признака для данной группы значений признака-фактора, мы отчасти нивелируем влияние случайных составляющих. Вычисляя параметры теоретической линии связи, мы производим дальнейшее их нивелирование и получаем однозначное (по форме) изменение случайной величины у в зависимости от изменения фактора х.
Теоретической линией регрессии называется линия, вокруг которой группируются точки корреляционного поля и которая указывает основную тенденцию функциональной взаимосвязи. Теоретическая линия регрессии должна отображать изменение средних величин результативного признака у по мере изменения величин факторного признака х при условии полного взаимопогашения всех прочих, случайных по отношению к фактору х, причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек поля корреляции от соответствующих точек теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонении была бы минимальной величиной.
Эмпирическая линия строится по наблюдаемым значениям признаков и обычно является ломаной линией, имеет более или менее значительный излом. Объясняется это тем, что влияние прочих неучтенных факторов, оказывающих воздействие на вариацию результативного признака, в средних погашается не полностью, в силу недостаточно большого количества наблюдений. Поэтому эмпирической линией взаимосвязи для выбора и обоснования типа теоретической кривой можно воспользоваться при условии, что число наблюдений будет достаточно велико.
Одним из элементов исследований является сопоставление различных уравнений зависимости, основанное на использовании критериев качества аппроксимации эмпирических данных разными вариантами теоретических кривых.
Для характеристики функциональных взаимосвязей случайных величин используют следующие типы функций:
• линейную;
• параболическую;
• гиперболическую;
• показательную;
• степенную;
• логарифмическую.
1. Линейная регрессия с несгруппированными данными
Рассмотрим случай использования для аппроксимации эмпирических данных линейной функции. Этот случай носит название линейной регрессии. В этом случае результативный признак зависит от одного факторного признака и линия регрессии описывается выражением: .
Оценка параметров уравнения линейной регрессии (a, b) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров a и b линейной функции, при которых минимизируется сумма квадратов отклонений эмпирических значений результативного признака от теоретических, полученных по выбранному уравнению регрессии.
ПРИМЕР:
С целью анализа взаимного влияния заработной платы и текучести кадров в 5 организациях с одинаковым количеством работников проведены измерения уровня среднегодовой заработной платы (х) и количества уволившихся за год работников (у). Результаты измерений представлены в таблице:
х, у.е.
у, чел.
100
60
150
35
200
20
250
20
300
15
Требуется найти выборочный коэффициент корреляции и, в случае значимой функциональной взаимосвязи, составить уравнение линейной регрессии.
Решение:
1) Составляем расчётную таблицу:
№ измерения
х
у
х2
у2
ху
1
100
60
10000
3600
6000
2
150
35
22500
1225
5250
3
200
20
40000
400
4000
4
250
20
62500
400
5000
5
300
15
90000
225
4500
Суммы по столбцам
1000
150
225000
5850
24750
2) Находим коэффициент корреляции между данными случайными величинами (по материалам предыдущей лекции):
3) Оцениваем значимость найденного коэффициента корреляции. В нашем примере коэффициент корреляции значимый, следовательно, между величинами х и у наблюдается сильная отрицательная корреляция (т.е. обратно пропорциональная зависимость). Можно сделать первичный вывод – чем выше уровень заработной платы, тем меньше работников увольняется (и наоборот, чем ниже заработная плата, тем больше работников увольняется).
4) Находим параметры линейной регрессии по формулам:
Уравнение линейной регрессии (тренд) имеет вид:
5) Находим коэффициент детерминации, показывающий долю объяснённой дисперсии:
Этот коэффициент показывает, что в рассматриваемых организациях 81% сотрудников увольняются из-за уровня заработной платы.
6) Строим графики эмпирических (исходных) данных и найденного уравнения линейной регрессии (линии тренда):
Задания:
На основании полученных измерений случайных величин х и у найти уравнения линейной регрессии и построить графики:
х
у
3
14
5
10
7
9
9
9
10
6
12
5
х
у
10
4
12
4
18
6
20
7
23
7
25
8
28
10
30
11
33
9
37
12
40
12
45
11
50
15
54
14
56
18
60
18
61
20
68
21
72
22
74
20
77
25
80
26
83
30
85
38
90
35
92
38
93
39
95
40
98
45
100
45