Линейная регрессия со сгруппированными данными
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
3. Линейная регрессия со сгруппированными данными
На любой экономический показатель практически всегда оказывают влияние не один, а несколько факторов. Например, спрос на некоторое благо определяется не только ценой данного блага, но и ценами на заменяющие и дополняющие блага, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии рассматривается множественная регрессия. Задача оценки статистической взаимосвязи переменных формулируется аналогично случаю парной регрессии.
Мультиколлинеарность – это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. При наличии мультиколлинеарности статистические оценки, полученные методом наименьших квадратов, формально существуют, но обладают рядом недостатков:
1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;
2) найденные статистические оценки, как правило, имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой.
Если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. При наличии мультиколлинеарности для ее устранения или уменьшения имеется ряд методов, в частности пошаговые процедуры отбора наиболее информативных переменных. Например, на первом шаге рассматривается лишь одна объясняющая переменная, имеющая с зависимой переменной Y наибольший коэффициент детерминации. На втором шаге включается в регрессию новая объясняющая переменная, которая вместе с первоначально отобранной образует пару объясняющих переменных, имеющую с Y наиболее высокий (скорректированный) коэффициент детерминации. На третьем шаге вводится в регрессию еще одна объясняющая переменная, которая вместе с двумя первоначально отобранными образует тройку объясняющих переменных, имеющую с Y наибольший (скорректированный) коэффициент детерминации, и т.д. Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться соответствующий (скорректированный) коэффициент детерминации R2. В большинстве случаев получаемые с помощью пошаговой процедуры наборы переменных оказываются оптимальными или близкими к оптимальным.
В случае, когда варианты парной выборки встречаются по нескольку раз, причём с одним значением варианты xi может встретиться несколько вариант yi, исходные данные представляют в виде корреляционной таблицы.
ПРИМЕР:
Исследовать влияние рекламы на различные целевые аудитории:
хi
15
20
25
30
35
40
уi
100
2
1
7
120
4
2
3
140
5
10
5
2
160
3
1
2
3
В таблице исходных данных:
- хi – возрастные группы целевой аудитории;
- уi – количество просмотров рекламы за отчетный период;
- zi – количество покупок рекламируемого товара целевой аудиторией.
Решение:
1) Вычисляем частоты по строкам и столбцам и вносим в таблицу исходных данных:
х
15
20
25
30
35
40
Частота ny
у
100
2
1
7
10
120
4
2
3
9
140
5
10
5
2
22
160
3
1
2
3
9
Частота nx
6
6
5
18
7
8
Всего = 50
2) Находим точечные оценки:
3) Находим коэффициент корреляции:
/(7,72*20)=0,314
Корреляция довольно слабая, следовательно, реклама неудачная, т.к. плохо влияет на уровень продаж.
4) Находим уравнение регрессии:
Выражаем отсюда у и уравнение принимает окончательный вид:
5) Находим коэффициент детерминации:
Вывод: данная реклама обуславливает всего 9,8% продаж.
ЗАДАНИЕ:
Найти выборочное уравнение линейной регрессии по сгруппированным данным:
х
10
15
20
25
30
35
у
15
6
4
25
6
8
35
21
2
5
45
4
12
6
55
1
5