Парная регрессия и корреляция
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Парная регрессия и корреляция
Результаты
корреляционного
анализа
служат
основой
для
регрессионного анализа, позволяющего выразить аналитическую форму
связи в виде теоретического уравнения.
Парная регрессия – уравнение связи двух переменных 𝑦 и 𝑥:
𝑦̃ = 𝑓(𝑥),
где 𝑦 – зависимая переменная,
𝑥 – независимая переменная.
Зависимость между переменными может выражаться следующими
уравнениями:
1. Линейными уравнениями: 𝑦 = 𝑎 + 𝑏𝑥,
2. Нелинейными уравнениями:
𝑏
2.1 Гипербола: 𝑦 = 𝑎 + ,
𝑥
2.2 Степенная функция: 𝑦 = 𝑎 ∙ 𝑥 𝑏 ,
2.3 Показательная функция: 𝑦 = 𝑎 ∙ 𝑏 𝑥 ,
и т.д.
Построение уравнения регрессии сводится к оценке ее параметров.
Для оценки параметров регрессии линейных по параметру, используют
метод наименьших квадратов (МНК).
МНК позволяет получить такие оценки параметров, при которых сумма
квадратов отклонений фактических значений результативного признака y, от
теоретических 𝑦̃, минимальна.
Алгоритм проведения парной регрессии и корреляции.
1.
Определение параметров уравнения.
Для линейных, и не линейных уравнений приводимых к линейным,
решается следующая система относительно а и b.
𝑛𝑎 + 𝑏 ∑ 𝑥 = ∑ 𝑦 ,
{
𝑎 ∑ 𝑥 + 𝑏 ∑ 𝑥 2 = ∑ 𝑥𝑦 ,
Т.е. параметры находятся по формулам:
𝑎 = 𝑦̅ − 𝑏𝑥̅ , 𝑏 =
2.
𝑐𝑜𝑣(𝑥,𝑦)
𝜎𝑥
.
Нахождение коэффициента корреляции.
Тесноту
связи
изучаемых
явлений
оценивают
с
помощью
коэффициента парной корреляции 𝑟𝑥𝑦 для линейной регрессии и с помощью
индекса корреляции 𝑝𝑥𝑦 для нелинейной регрессии.
3.
Оценка качества построенной модели.
Оценка качества построенной модели производится с помощью
коэффициента детерминации и коэффициента аппроксимации.
3.1 Коэффициент детерминации.
Коэффициент детерминации - доля дисперсии зависимой переменной,
объясняемая рассматриваемой моделью зависимости, то есть объясняющими
переменными. Т.е. коэффициент детерминации характеризует долю вариации
(дисперсии) результативного признака y, объясняемую регрессией, в общей
вариации (дисперсии) y.
Коэффициент детерминации обозначается и находится, как 𝑟𝑥𝑦 2 для
линейной регрессии и 𝑝𝑥𝑦 2 для нелинейной регрессии.
Таким образом, коэффициент детерминации определяет долю вариации
(изменяемости) признака y в зависимости от влиянием на него независимого
фактора x, включенного в модель.
Свойства:
1) Данный показатель может принимать значения в пределах от 0 до
1.
2) Чем ближе его значение к 1, тем связаннее результативный
признак с исследуемыми факторами.
3.2 Коэффициент аппроксимации1 (средняя ошибка аппроксимации)
Коэффициент
аппроксимации
–
среднее
отклонение
расчетных
значений от фактических.
̅ и находится по формуле:
Обозначается А
𝑛
1
𝑦 − 𝑦̃𝑖
̅ = ∑| 𝑖
А
| ∙ 100%.
𝑛
𝑦𝑖
𝑖=1
Допустимый предел значений не более 10%.
4.
Коэффициент эластичности2
Общая формула коэффициента эластичности имеет вид:
𝑥̅
Э = 𝑓 ′ (𝑥) ∙ ̃ .
𝑦
где 𝑦̃ = 𝑎 + 𝑏𝑥̅ .
Формулы для расчета средних коэффициентов эластичности для
наиболее часто используемых уравнений регрессии приведены на рисунке 1.
1
Аппроксимация (от лат. proxima — ближайшая) или приближение — научный метод, состоящий в замене
одних объектов другими, в каком-то смысле близкими к исходным, но более простыми.
2
Эластичность (англ. elasticity) — мера чувствительности одной переменной (например, спроса или
предложения) к изменению другой (например, цены, дохода), показывающая на сколько процентов
изменится первый показатель при изменении второго на 1%.
Рисунок 1 - Формулы для расчета средних коэффициентов эластичности
в зависимости от используемого уравнения регрессии
Средний коэффициент эластичности ̅
Э показывает на сколько
процентов в среднем по совокупности изменится результат y от своей
средней величины при изменении фактора x на 1% от своего среднего
значения.
Обозначается ̅
Э и находится по формуле:
̅
𝑥̅
̅
Э = 𝑓 ′ (𝑥) ∙ ̅ ,
𝑦
где f ′(x) – первая производная, характеризующая соотношение приростов
результата и фактора для соответствующей формы связи.
Оценка значимости уравнения регрессии.
5.
Оценка значимости уравнения регрессии проводится с помощью Fкритерия Фишера.
5.1 Зададим гипотезы:
𝐻0 – уравнение регрессии статистически не значимо,
𝐻1 – уравнение регрессии статистически значимо.
5.2 Найдем фактическое значение критерия Фишера по формуле:
𝐹факт
(𝑛 − 𝑚 − 1)
𝑟𝑥𝑦 2
=
∙
,
1 − 𝑟𝑥𝑦 2
𝑚
где n – число единиц совокупности,
m – число параметров при независимой переменной.
5.3 Найдем критическое (табличное) значение критерия Фишера.
𝐹табл – максимально возможное значение критерия под влиянием
случайных факторов при данных степенях свободы 𝑘1 = 𝑛 − 𝑚 − 1, 𝑘2 = 𝑚
и уровне значимости 𝛼.
5.4 Сравним фактическое и критическое значения.
Если 𝐹факт > 𝐹табл , то гипотеза 𝐻0 отклоняется и принимается
статистическая значимость и надежность уравнения регрессии.
Если 𝐹факт ≤ 𝐹табл , то гипотеза 𝐻0 не отклоняется и признается
статистическая незначимость уравнения регрессии.
6.
Оценка значимости коэффициентов уравнения регрессии.
Такую
проверку
можно
провести
с
использованием
критерия
Стьюдента.
Оценка значимости коэффициентов уравнения регрессии проводится с
помощью t-критерия Стьюдента.
6.1 Зададим гипотезы:
𝐻0 – коэффициенты уравнения регрессии статистически не
значимы,
𝐻1 – коэффициенты уравнения регрессии статистически значимы.
6.2 Найдем фактические значения по формулам:
𝑡𝑎 =
𝑎
𝑚𝑎
, 𝑡𝑏 =
𝑏
𝑚𝑏
,
где 𝑚𝑎 – случайная ошибка параметра a,
𝑚𝑏 – случайная ошибка параметра b.
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̃𝑖 )2
∑𝑛𝑖=1 𝑥𝑖 2
𝑚𝑎 = √
∙
𝑛−2
𝑛 ∙ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̃𝑖 )2
𝑚𝑏 = √ 𝑛 𝑛 − 2 2
∑𝑖=1(𝑥𝑖 − 𝑥̅ )
6.3 Найдем критическое (табличное) значение критерия Стьюдента.
𝑡табл – максимально возможное значение критерия под влиянием
случайных факторов при данной степени свободы 𝑘 = 𝑛 − 𝑚 − 1 и уровне
значимости 𝛼.
6.4 Сравним фактическое и критическое значения.
Если |𝑡факт | > 𝑡табл , то гипотеза 𝐻0 отклоняется и принимается
статистическая
значимость
и
надежность
коэффициентов
уравнения
регрессии.
Если |𝑡факт | ≤ 𝑡табл , то гипотеза 𝐻0 не отклоняется и признается
статистическая незначимость коэффициентов уравнения регрессии.
7.
Доверительные интервалы коэффициентов уравнения регрессии.
Для расчета доверительного интервала определите предельную ошибку
∆:
∆𝑎 = 𝑡табл ∙ 𝑚𝑎 , ∆𝑏 = 𝑡табл ∙ 𝑚𝑏 .
Тогда доверительные интервалы имеют вид:
𝑎 − ∆𝑎 ≤ 𝑎 ≤ 𝑎 + ∆ 𝑎 , 𝑏 − ∆𝑏 ≤ 𝑏 ≤ 𝑏 + ∆𝑏 .
Задание: посмотрите, какие выводы можно сделать, если границы
интервала разных знаков.
8.
Прогнозное значение, построенное по уравнению регрессии.
Если полученные оценки уравнения регрессии на этапах 1-7 позволяют
использовать его для прогноза, т.е. уравнение является качественным и
надежным, то по уравнению строится прогнозное значение.
8.1 Зададим прогнозное значение 𝑥𝑝 .
8.2 Определим
прогнозное
значение
𝑦𝑝 ,
подстановкой
соответствующего значения 𝑥𝑝 в уравнение 𝑦̃ = 𝑎 + 𝑏𝑥.
8.3 Построим доверительный интервал для 𝑦𝑝 .
Для расчета доверительного интервала определите предельную ошибку
∆:
∆𝑦𝑝 = 𝑡табл ∙ 𝑚𝑦𝑝 .
Случайную ошибку 𝑚𝑦𝑝 определим по формуле:
1
(𝑥𝑝 −𝑥̅ )2
𝑚𝑦𝑝 = 𝜎ост √1 + + ∑𝑛
𝑛
𝑖=1(𝑥𝑖
− 𝑥̅ )
, 𝜎ост = √
2
∑𝑛
̃ 𝑖 )2
𝑖=1(𝑦𝑖 − 𝑦
𝑛−𝑚−1
.
Доверительный интервал примет вид:
𝑦𝑝 − ∆𝑦𝑝 ≤ 𝑦𝑝 ≤ 𝑦𝑝 + ∆𝑦𝑝 .
Итак, подытожим результаты: в этой лекции Вы ознакомились с
понятием парной регрессии и алгоритмом проведения парной регрессии и
корреляции, который состоит из 8 пунктов и представляет собой этапы
идентификации – пункт 1, и верификации – пункты 2-7. В случае
удовлетворительных результатов, т.е. значимости и надежности уравнения
парной регрессии, уравнение используют для получения прогнозных
значений и построения доверительных интервалов.