Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Тема:
ПАРНАЯ
РЕГРЕССИЯ И
КОРРЕЛЯЦИЯ
План:
1. Линейная модель парной
регрессии и корреляции
2. Оценка тесноты связи
3. Оценка существенности
параметров линейной регрессии и
корреляции
1. Линейная модель парной регрессии и
корреляции
Линейная регрессия сводится к нахождению
уравнения вида
= a + bx или y = a + bx + (1)
.
Уравнение
вида ŷ x = a + bx позволяет по
заданным значениям фактора x находить
теоретические
значения
результативного
признака, подставляя в него фактические
значения фактора x. На графике эти
теоретические значения представляют линию
регрессии.
ŷ x
Построение линейной регрессии сводится
к оценке ее параметров – a и b.
Классический подход к оцениванию
параметров линейной регрессии основан на
методе наименьших квадратов (МНК).
МНК позволяет получить такие оценки
параметров a и b, при которых сумма квадратов
отклонений
фактических
значений
результативного признака y от теоретических
минимальна:
n
n
2 2 min
(2)
ˆ
(
y
y
)
i xi
i
i 1
i 1
Т.е. из всего множества линий линия
регрессии на графике выбирается так, чтобы
сумма квадратов расстояний по вертикали
между точками и этой линией была бы
минимальной
y
Линия регрессии с минимальной дисперсией
остатков.
ŷ xi
}
i
yi
xi
x
Как известно из курса математического
анализа, чтобы найти минимум функции (2),
надо вычислить частные производные по
каждому из параметров a и b и приравнять их к
нулю.
2
i
Обозначим
через S (a, b), тогда:
2
S (a,b) ( y a bx)
S
a
S
b
2 ( y a bx) 0;
2 ( y a bx) 0.
(3)
xy.
an b x y;
2
a x b x
(6)
Решая систему уравнений (6), найдем
искомые оценки параметров a и b.
Можно воспользоваться следующими
готовыми формулами, которые следуют
непосредственно из решения системы:
a y bx ,
cov( x, y)
b
,
2
x
(7)
где cov (x, y) = xy x y - ковариация
признаков x и y ,
– дисперсия признака x и
2
2
2
x x x
1
1
1
x x, y y, xy x y,
n
n
n
1
2
2
x x .
n
Параметр b называется коэффициентом
регрессии.
Его величина показывает среднее изменение
результата с изменением фактора на одну
единицу.
Формально a – значение y при x = 0.
Если признак-фактор x не может иметь
нулевого значения, то параметр a не имеет
экономического содержания.
2. Оценка тесноты связи
Коэффициент корреляции
Уравнение регрессии всегда дополняется
показателем тесноты связи.
При использовании линейной регрессии в
качестве такого показателя выступает линейный
коэффициент корреляции r ,
xy
который можно рассчитать по следующим
формулам:
x cov(x, y) xy x y
r b
.
xy
y
x y
x y
Линейный коэффициент корреляции находится
в пределах:
1 r 1
xy
Чем ближе абсолютное значение rxy к единице,
тем сильнее линейная связь между факторами
(при rxy = ± 1 имеем строгую функциональную
зависимость).
Но следует иметь в виду, что близость
абсолютной величины линейного
коэффициента корреляции к нулю еще не
означает отсутствия связи между признаками.
При другой (нелинейной) спецификации
модели связь между признаками может
оказаться достаточно тесной.
Для оценки качества подбора линейной
функции рассчитывается квадрат линейного
коэффициента корреляции r 2 , называемый
xy
коэффициентом детерминации.
Коэффициент детерминации характеризует
долю дисперсии результативного признака y ,
объясняемую регрессией, в общей дисперсии
результативного признака:
2
2
где
ост
r 1
xy
2
y
1
1
2
2
2
2
2
2
ост ( y yˆ x ) ; y ( y y ) y y .
n
n
2
Соответственно величина 1 rxy
характеризует долю дисперсии y, вызванную
влиянием остальных, не учтенных в модели,
факторов.
После того как найдено уравнение линейной
регрессии, проводится оценка значимости как
уравнения в целом, так и отдельных его
параметров.
Средняя ошибка аппроксимации
Проверить значимость уравнения регрессии
– значит установить, соответствует ли
математическая модель, выражающая
зависимость между переменными,
экспериментальным данным и достаточно ли
включенных в уравнение объясняющих
переменных (одной или нескольких) для
описания зависимой переменной.
Чтобы иметь общее суждение о качестве
модели из относительных отклонений по
каждому наблюдению, определяют среднюю
ошибку аппроксимации:
1 y yˆ x
A
100%.
n
y
Средняя ошибка аппроксимации
должна превышать 8–10%.
не
3. Оценка существенности параметров
линейной регрессии и корреляции
3.1. Оценка значимости уравнения
регрессии
Оценка значимости уравнения регрессии в
целом производится на основе F -критерия
Фишера, которому предшествует
дисперсионный анализ.
В математической статистике
дисперсионный анализ рассматривается
как самостоятельный инструмент
статистического анализа.
В эконометрике он применяется как
вспомогательное средство для изучения
качества регрессионной модели.
Основные
положения
дисперсионного
анализа
Согласно основной идее дисперсионного
анализа, общая сумма квадратов отклонений
y
переменной y от среднего значения
раскладывается на две части – «объясненную» и
«необъясненную»:
2
2
2
( y y ) ( yˆ x y ) ( y yˆ x )
где
2
( y y)
2
( yˆ x y )
– общая сумма
квадратов
отклонений;
– сумма
квадратов
отклонений,
объясненная
регрессией (или
факторная сумма
квадратов
отклонений);
2
( y yˆ x )
– остаточная сумма квадратов
отклонений, характеризующая
влияние неучтенных в модели
факторов.
Общая
сумма
квадратов
отклонений
индивидуальных значений результативного
признака у от своего среднего значения
вызвана влиянием множества причин. y
Условно разделим всю совокупность причин на
две группы: изучаемый фактор х и прочие
факторы.
Если фактор не оказывает влияния на результат,
то линия регрессии на графике параллельна оси
Ох и у = y .
Тогда
вся
дисперсия
результативного
признака обусловлена воздействием прочих
факторов и общая сумма квадратов отклонений
совпадет с остаточной.
Если же прочие факторы не влияют на
результат, то у связан с х функционально, и
остаточная сумма квадратов равна нулю.
В этом случае общая сумма квадратов
совпадает с суммой квадратов отклонений,
обусловленной регрессией.
Поскольку не все точки поля корреляции лежат на
линии регрессии, то всегда имеет место их
разброс, как обусловленный влиянием фактора х,
т.е. регрессией у по х, так и вызванный действием
прочих причин (необъясненная вариация).
Пригодность линии регрессии для последующего
прогноза зависит от того, какая часть общей
вариации признака у приходится на объясненную
вариацию.
Очевидно, что если сумма квадратов
отклонений, обусловленная регрессией, будет
много больше остаточной суммы квадратов,
то уравнение регрессии статистически
значимо и фактор х оказывает существенное
воздействие на результат у.
Это равносильно тому, что коэффициент
детерминации r
xy
будет приближаться к 1.
Степени свободы
Любая сумма квадратов отклонений
связана с числом степеней свободы, т.е. с
числом свободы независимого варьирования
признака.
Число степеней свободы связано с числом
единиц совокупности n и с числом
определяемых по ней констант m.
Применительно к исследуемой проблеме
число степеней свободы должно показать,
сколько независимых отклонений из п
возможных требуется для образования
данной суммы квадратов, m – число
параметров при переменной x
y y ,( y y ),...,( y y )
2
n
1
Число степеней свободы для общей суммы
квадратов
Для общей суммы квадратов
n
2
( yi y )
i 1
требуется (n-1) независимых отклонений, т.к. по
совокупности из n единиц после расчета
среднего уровня свободно варьируют лишь
(n- 1) - число отклонений. Например, имеем ряд
значений у: 1, 2, 3, 4, 5. Среднее значение равно
3 и тогда и n отклонений от среднего составят:
—2; —1; 0; 1; 2.
Свободно варьируют лишь 4 отклонения,
а пятое может быть определено, если
предыдущие 4 известны.
Так как
( yi y ) 0
Число степеней свободы для факторной
суммы квадратов
Для факторной суммы квадратов число
степеней свободы определяется числом
констант при х.
Для линейной регрессии
ŷ
x = a+bx
при х находится коэффициент регрессии
b, т. е. m=1, для параболической
регрессии
2
yˆ a bx cx
x
при х находятся коэффициенты b и c,
т. е. m = 2, для полинома второй степени
2
3
yˆ a bx cx dx
x
при х находятся коэффициенты b, c, d т.е.
m = 3.
Число степеней свободы для
остаточной суммы квадратов
Поскольку
существует
балансное
равенство между числом степеней свободы
общей, факторной и остаточной сумм
квадратов, то число степеней свободы
остаточной
суммы
квадратов
при
произвольной регрессии составит n – m –1,
т.е. n – 1 = m + (n – m – 1).
3.2. F – критерий Фишера
Схема дисперсионного анализа имеет вид,
представленный в таблице ( n – число наблюдений,
m – число параметров при переменной x ).
Компонент
дисперсии
Общая
Факторная
Остаточная
Сумма
квадратов
( y y)
( yˆ
x
2
y)
( y yˆ
x)
2
2
Число
степеней
свободы
n-1
m
n –m -1
Дисперсия на одну
степень свободы
2
S общ
2
S факт
2
S оcт
( y y)
2
n -1
( yˆ
x
y) 2
m
( y yˆ
x)
n m 1
2
Поделив каждую сумму квадратов на
соответствующее ей число степеней свободы,
получим средний квадрат отклонений или, что
то же самое, дисперсию 2 на одну степень
S
свободы.
Определение дисперсии на одну степень
свободы приводит дисперсии к сравнимому
виду.
Сопоставляя факторную и остаточную
дисперсии в расчете на одну степень свободы,
получим величину F -критерия Фишера:
2
S
факт
F
2
S
ост
Для парной линейной регрессии m = 1, поэтому
2
Sфакт ( yˆ y )2
x
F
( n2 )
2
2
Sост ( y yˆ x )
Нулевая гипотеза дисперсионного анализа
гласит, что коэффициент регрессии равен 0:
b = 0 и, следовательно, фактор х не оказывает
влияния на результат у
Если нулевая гипотеза справедлива, то
факторная и остаточная дисперсии не
отличаются друг от друга. Для опровержения ее
необходимо, чтобы факторная дисперсия
превышала остаточную в несколько раз.
Табличное значение F- критерия — это
максимальное значение отношения
дисперсий, которое может иметь место при
случайном их расхождении для данного
уровня вероятности наличия нулевой
гипотезы.
Фактическое значение F -критерия Фишера
сравнивается с табличным значением
F ( ,k ,k )
1 2
при уровне значимости и степенях свободы
k1 = m и k2 = n - m-1.
Вычисленное
значение
F-отношения
признается достоверным (отличным от 1),
если оно больше табличного. В этом случае
отбрасывается нулевая гипотеза об отсутствии
связи признаков и делается вывод о
существенности этой связи.
Если же значение F-критерия окажется
меньше табличного, то вероятность нулевой
гипотезы выше заданного уровня (например,
0,05) и она не может быть отклонена без
серьезного риска сделать неправильный вывод
о наличии связи. В этом случае уравнение
регрессии
считается
статистически
незначимым.
Связь F - критерия с коэффициентом
детерминации
Величина F-критерия связана с
2
коэффициентом детерминации rxy
и ее можно рассчитать по следующей
формуле:
3.3. Оценка значимости коэффициента
регрессии
В парной линейной регрессии оценивается
значимость не только уравнения в целом, но и
отдельных его параметров. С этой целью по
каждому из параметров определяется его
стандартная ошибка: mb и ma .
Стандартная ошибка коэффициента регрессии
определяется по формуле:
2
S
S
ост
ост
m
b
2
ч n
(x x)
где
2
ˆ
( y yx )
2
- остаточная дисперсия на
S
ост
n2
одну степень свободы.
Величина стандартной ошибки совместно с
t – распределением Стьюдента при (n – 2)
степенях свободы применяется для проверки
существенности коэффициента регрессии и
для расчета его доверительного интервала.
Для оценки существенности коэффициента
регрессии его величина сравнивается с его
стандартной ошибкой, т.е. определяется
фактическое
значение
t
-критерия
Стьюдента:
b
t
b m
b
которое затем сравнивается с табличным
значением
при
определенном
уровне
значимости α и числе степеней свободы (n - 2).
Доверительный интервал для коэффициента
регрессии определяется как
b t табл mb
Поскольку знак коэффициента регрессии
указывает на рост результативного признака
y при увеличении признака-фактора x (b >
0), уменьшение результативного признака
при увеличении признака-фактора ( b < 0 )
или его независимость от независимой
переменной (b = 0), то границы
доверительного интервала для
коэффициента регрессии не должны
содержать противоречивых результатов,
например, -1,5 ≤ b ≤ 0,8.
Такого рода запись указывает, что
истинное значение коэффициента
регрессии одновременно содержит
положительные и отрицательные
величины и даже ноль, чего не может
быть.
3.4. Оценка значимости коэффициента а
Стандартная ошибка параметра a определяется
по формуле:
ma
2
Sо ст
n (x x)
x
2
2
S о ст
x
2
x n
Процедура
оценивания
существенности
данного параметра не отличается от
рассмотренной выше для коэффициента
регрессии.
Вычисляется t -критерий:
a
ta
ma
его
величина
сравнивается
с
табличным значением при (n – 2)
степенях свободы.