Эконометрическое моделирование
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 1 (2ч)
1.1.1 Линейная модель парной регрессии
1.Эконометрика как наука. История развития эконометрики.
2. Предмет, цель и задачи эконометрики.
3.Эконометрическая модель-основа механизма эконометрического моделирования.
Классы моделей.
4.Типы данных и виды переменных в эконометрических исследованиях экономических
явлений.
5.Выбор инструментальных средств для обработки экономических данных в соответствии
с поставленной задачей.
6. Этапы эконометрического моделирования.
7. Парная регрессия и корреляция.
Эконометрическое знание выделилось и сформировалось как закономерный
результат развития и взаимодействия экономической теории, математической экономики,
экономической статистики и теории вероятностей.
Эконометрика- это наука, предметом изучения которой является качественное
выражение взаимосвязей экономических явлений и процессов.
Термин «эконометрика» экономисты начали применять благодаря исследованиям
П.Цъемпы (1910), Й. Шумпетера (1923), Р.Фриша (1930). Этот термин появился в
результате соединения двух слов: «экономика» и «метрика». В переводе с греческого
oikonomos (экономист) – это управляющий домом; metrihe, metron – мера, размер.
Цель эконометрики - разработка способов моделирования и количественного
анализа реальных экономических объектов.
Задачи эконометрики:
1) спецификация модели – построение экономических моделей для эмпирического
анализа;
2) параметризация модели – оценка параметров строящейся модели;
3) верификация модели - проверка качества параметров модели и самой модели в
целом;
4) прогнозирование модели - составление прогноза и рекомендаций для
конкретных экономических явлений по результатам эконометрического моделирования.
Парная регрессия и корреляция
Парная регрессия представляет собой модель, где среднее значение зависимой
(объясняемой) переменной y рассматривается как функция одной независимой
(объясняющей) переменной x, то есть модель вида 𝑦
̂𝑥 = 𝑓 (𝑥 ).
Так же y называют результативным признаком; x– признак - фактором. Знак
«^» означает, что между переменными x и y нет строгой функциональной зависимости.
Поэтому практически в каждом отдельном случае величина y складывается из двух
слагаемых:
𝑦=𝑦
̂𝑥 + 𝜀,
(1.1)
где y – фактическое значение результативного признака; 𝑦
̂𝑥 – теоретическое
значение результативного признака, найденное исходя из уравнения регрессии; 𝜀 –
случайная величина (возмущение), характеризующая отклонения реального значения
результативного признака от теоретического, найденного по уравнению регрессии.
Случайная величина 𝜀 включает влияние не учтенных в модели факторов,
случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя
источниками: спецификацией модели, выборочным характером исходных данных,
особенностями измерения переменных.
Предполагая, что ошибки измерения сведены к минимуму, основное внимание в
эконометрических исследованиях уделяется ошибкам спецификации модели.
Лекция 2 (2ч)
1.1.2 Линейная модель парной регрессии
1. Спецификация эконометрических моделей.
2. Спецификация моделей парной регрессии.
3.Оценка параметров парной линейной регрессии и их экономическая интерпретация.
Метод наименьших квадратов.
Под спецификацией модели понимается формулировка вида модели исходя из
соответствующей теории связи между переменными. В первую очередь из всего круга факторов,
влияющих на результативный признак, необходимо выделить наиболее существенно влияющие
факторы. Парная регрессия достаточна, если имеется один доминирующий фактор, который и
используется в качестве объясняющей переменной.
В парной регрессии выбор вида математической функции 𝑦
̂𝑥 = 𝑓(𝑥) может быть
осуществлен тремя методами:
- графическим;
- аналитическим;
- экспериментальным.
При изучении зависимости между двумя признаками графический метод подбора вида
уравнения регрессии достаточно нагляден. Он основан на поле корреляции.
Каждую пару наблюдений (xi ,yi ) можно представить в виде точки на плоскости xOу.
Такое графическое построение называется полем корреляции. В этом случае наилучшей
считается функция, график которой проходит через наибольшее количество точек или как можно
ближе к ним (рис. 1.).
Рис. 1. Поле корреляции и график функции наиболее близко расположенный к точкам поля
корреляции.
Основные типы кривых, используемые при количественной оценке связей, представлены
на рис. 2:
̂
𝑦𝑥 = 𝑎 + 𝑏 ∙ 𝑥
𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 + 𝑐 ∙ 𝑥 2
̂
𝑦𝑥 = 𝑎 + 𝑏⁄𝑥
̂
𝑦𝑥 = 𝑎 + 𝑏 ∙ 𝑥 + 𝑐 ∙ 𝑥 2 + 𝑑 ∙ 𝑥 3
𝑦
̂𝑥 = 𝑎 ∙ 𝑥 𝑏
𝑦
̂𝑥 = 𝑎 ∙ 𝑏 𝑥
Рис. 2. Основные типы кривых, используемые при количественной оценке связей между двумя
переменными с минимальной остаточной дисперсией.
Аналитический метод выбора типа уравнения регрессии
материальной природы связи исследуемых признаков.
основан
на изучении
При экспериментальном выборе уравнения регрессии информация обрабатывается на
2
компьютере. Сравниваются величины остаточной дисперсии 𝜎ост
, рассчитанной при разных
моделях:
1
2
2
𝜎ост
= 𝑛 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂
𝑥𝑖 ) ,
(2.1)
где n – количество наблюдений, i –номер наблюдения.
Если линия регрессии проходит через все точки корреляционного поля, что возможно
только при функциональной связи между x и y, то фактические значения результативного
признака совпадают с теоретическими 𝑦𝑖 = 𝑦̂
𝑥𝑖 , т.е. они полностью обусловлены влиянием
2
фактора x. В этом случае остаточная дисперсия 𝜎ост
= 0.
В практических исследованиях, как правило, имеет место некоторое рассеяние точек
относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении
регрессии, факторов. Иными словами, имеют место отклонения фактических данных от
теоретических, т.е.
̅̅̅̅̅
𝜀𝑖 = 𝑦𝑖 − 𝑦̂
𝑥𝑖 ≠ 0, где 𝑖 = 1, 𝑛, 𝑛– число наблюдений.
Чем меньше величина 𝜀𝑖 = 𝑦𝑖 − 𝑦̂
𝑥𝑖 , тем меньше величина остаточной дисперсии и влияние
не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к
исходным данным.
Считается, что число наблюдений должно в 7-8 раз превышать число рассчитываемых
параметров при переменной 𝑥.
Пример 1. В линейном уравнении регрессии 𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥
параметр b. Значит, число наблюдений должно быть не менее 7-8.
при переменной x один
Если вид функции усложняется, то требуется увеличение объема наблюдений, ибо каждый
параметр при x должен рассчитываться хотя бы по 7 наблюдениям.
Пример 2. Для квадратичной функции 𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 + 𝑐 ∙ 𝑥 2 требуется объем информации
уже не менее 14 наблюдений (при переменной x два параметра b и c).
Линейная регрессия и корреляция. Смысл и оценка параметров
Рассмотрим простейшую модель парной регрессии – линейную регрессию.
Линейная регрессия находит широкое применение в эконометрике ввиду четкой
экономической интерпретации ее параметров.
Линейная регрессия сводится к нахождению уравнения вида
𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 или 𝑦 = 𝑎 + 𝑏 ∙ 𝑥 + 𝜀
(3.1)
Уравнение вида 𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 позволяет по заданным значениям фактора x находить
теоретические значения результативного признака y. Построение линейной регрессии сводится к
оценке ее параметров – a и b. Классический подход к оцениванию параметров линейной
регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие
оценки параметров a и b, при которых сумма квадратов отклонений фактических значений
результативного признака y от теоретических 𝑦
̂𝑥 минимальна:
𝑛
2
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂
𝑥𝑖 ) = ∑𝑖=1 𝜀𝑖 → 𝑚𝑖𝑛,
(3.2)
где n- число наблюдений.
Т.е. из всего множества линий линия регрессии на графике выбирается так, чтобы сумма
квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 3):
Рис. 3. Линия регрессии с минимальной остаточной дисперсией.
Как известно из курса математического анализа, чтобы найти минимум функции (3.2), надо
вычислить частные производные по каждому из параметров a и b и приравнять их к нулю.
Обозначим ∑𝑛𝑖=1 𝜀𝑖2 через S (a,b), тогда:
𝑆(𝑎, 𝑏) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖 )2 ;
𝜕𝑆
𝜕𝑎
{𝜕𝑆
𝜕𝑏
= −2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖 ) = 0,
(3.3)
= −2 ∑𝑛𝑖=1 𝑥(𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖 ) = 0.
После несложных преобразований, получим следующую нормальную систему линейных
уравнений для оценки параметров a и b:
𝑎 ∙ 𝑛 + 𝑏 ∙ ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑖=1 𝑦𝑖 ,
{
𝑎 ∙ ∑𝑛𝑖=1 𝑥𝑖 + 𝑏 ∙ ∑𝑛𝑖=1 𝑥𝑖2 = ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖.
(3.4)
Решая систему уравнений (3.4), найдем искомые оценки параметров a и b. Можно
воспользоваться следующими готовыми формулами, которые следуют непосредственно из
решения системы (3.4):
𝑎 = 𝑦̅ − 𝑏 ∙ 𝑥̅ , 𝑏 =
𝑐𝑜𝑣(𝑥,𝑦)
𝜎𝑥2
,
(3.5)
где 𝑐𝑜𝑣(𝑥, 𝑦) = ̅̅̅̅̅̅
𝑦 ∙ 𝑥 − 𝑦̅ ∙ 𝑥̅ – ковариация признаков x и y,
признака x,
𝜎𝑥2 = ̅̅̅
𝑥 2 − 𝑥̅ 2 – дисперсия
𝑛
𝑛
𝑛
𝑛
𝑖=1
𝑖=1
𝑖=1
𝑖=1
1
1
1
1
𝑥̅ = ∑ 𝑥𝑖 , 𝑦̅ = ∑ 𝑦𝑖 , ̅̅̅̅̅̅
𝑦 ∙ 𝑥 = ∑ 𝑦𝑖 ∙ 𝑥𝑖 , ̅̅̅
𝑥 2 = ∑ 𝑥𝑖2 .
𝑛
𝑛
𝑛
𝑛
Ковариация – характеризует сопряженность вариации (изменение значений) двух
признаков и представляет собой статистическую меру взаимодействия двух случайных
переменных. При прямой связи между x и y ковариация будет величиной положительной, а при
обратной отрицательной.
Дисперсия – характеристика случайной величины, определяемая как математическое
ожидание квадрата отклонения случайной величины от ее математического ожидания.
Математическое ожидание – сумма произведений значений случайной величины на
соответствующие вероятности.
Параметр b называется линейным коэффициентом регрессии. Его величина показывает
среднее изменение результата с изменением фактора на одну единицу.
Возможность четкой экономической интерпретации коэффициента регрессии b сделала
линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.
Формально a – значение y при x=0. Если признак-фактор x не может иметь нулевого
значения, то вышеуказанная трактовка свободного члена a не имеет смысла, т.е. параметр a может
не иметь экономического содержания.
Пример 3. Уравнение парной линейной регрессии есть 𝑦 = −12,5 + 3,4𝑥 + 𝜀. Линейный
коэффициент регрессии
𝑏 = 3,4 показывает, что с увеличением признак - фактора x на
одну единицу среднее значение результативного признака y возрастет на 3,4.
Лекция 3 (2ч)
1.1.3 Линейная модель парной регрессии
1. Расчет и интерпретация коэффициента корреляции для парной линейной регрессии.
2. Коэффициент детерминации и его характеристика.
3. Дисперсионный анализ: сущность и методика проведения.
4. Оценка значимости уравнения регрессии.
Коэффициенты корреляции и детерминации
Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании
линейной регрессии в качестве такого показателя выступает линейный коэффициент
корреляции rxy , который можно рассчитать по следующим формулам:
𝜎
𝑟𝑥𝑦 = 𝑏 ∙ 𝜎𝑥 =
𝑐𝑜𝑣(𝑥,𝑦)
𝑦
𝜎𝑥∙𝜎𝑦
.
(3.6)
Значение линейного коэффициента корреляции находится в пределах:
−1 ≤ 𝑟𝑥𝑦 ≤ 1.
Чем ближе абсолютное значение линейного коэффициента корреляции, т.е. | 𝑟𝑥𝑦 |, к
единице, тем сильнее линейная связь между факторами x и y (при 𝑟𝑥𝑦 = ±1 имеем строгую
линейную функциональную зависимость).
Близость | 𝑟𝑥𝑦 | к нулю еще не означает отсутствия связи между признаками. Это
характеризует отсутствие линейной связи между x и y, но при другой (нелинейной) спецификации
модели связь между признаками может оказаться достаточно тесной.
Положительное значение линейного коэффициента корреляции свидетельствует о прямой
связи между x и y, отрицательное об обратной связи.
В таблице 1 приведена качественная характеристика связи между x и y в зависимости от
значений линейного коэффициента связи.
Таблица 1
Значение линейного
коэффициента корреляции
𝒓𝒙𝒚
Характер связи между x и y
от -0,3 до 0,3
практически отсутствует
от -0.5 до -0.3 или от 0.3 до 0,5
слабая
от -0,7 до -0,5 или от 0,5 до 0,7
умеренная
от -0,9 до -0,7 или от 0,7 до 0,9
высокая
от-1 до -0,9 или от 0.9 до 1
очень высокая
Для оценки качества подбора линейной функции рассчитывается квадрат линейного
коэффициента корреляции
𝜎 2
2
𝑟𝑥𝑦
= 𝑏2 ∙ 𝜎𝑥 2 ,
𝑦
(3.7)
называемый коэффициентом детерминации.
Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений
фактических значений переменной y от своего среднего значения 𝑦̅ раскладывается на две части –
«объясненную» и «необъясненную»:
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂
̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂
𝑥𝑖 − 𝑦
𝑥𝑖 ) ,
сумма квадратов отклонений;
(3.8)
где ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 – общая
∑𝑛𝑖=1(𝑦̂
̅)2 – сумма квадратов отклонений, объясненная регрессией (или факторная сумма
𝑥𝑖 − 𝑦
квадратов отклонений);
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂
𝑥𝑖 ) – необъясненная или остаточная сумма квадратов отклонений, характеризующая
влияние неучтенных в модели факторов.
Разделим левую и правую часть равенства (3.8) на n:
∑𝑛
̅)2
𝑖=1(𝑦𝑖 −𝑦
𝑛
где
∑𝑛
̅)2
𝑖=1(𝑦𝑖 −𝑦
𝑛
∑𝑛
̅)2
𝑥𝑖 −𝑦
𝑖=1(𝑦̂
𝑛
=
∑𝑛
̅)2
𝑥𝑖 −𝑦
𝑖=1(𝑦̂
𝑛
+
̂2
∑𝑛
𝑖=1(𝑦𝑖 −𝑦𝑥𝑖 )
𝑛
,
(3.9)
= ̅̅̅
𝑦 2 − 𝑦̅ 2 = 𝝈𝟐общ = 𝝈𝟐𝒚 - общая дисперсия результативного признака,
= 𝝈𝟐объсн = 𝝈𝟐факт - объясненная или факторная дисперсия,
̂2
∑𝑛
𝑖=1(𝑦𝑖 −𝑦𝑥𝑖 )
𝑛
= 𝝈𝟐ост - остаточная дисперсия.
Тогда равенство (3.9) можно переписать как
2
2
2
𝜎общ
= 𝜎объсн
+ 𝜎ост.
(3.10)
2
Разделим левую и правую часть полученного равенства (3.10) на 𝜎общ
=𝜎𝑦2
2
𝜎общ
2
𝜎общ
1=
=
2
𝜎объсн
2
𝜎общ
2
𝜎объсн
2
𝜎общ
𝜎2
+ 𝜎 2ост ,
общ
𝜎2
+ 𝜎 2ост или 1 =
общ
Можно доказать, что 𝑏2 ∙
2
𝑟𝑥𝑦
=
2
𝜎объсн
𝜎𝑦2
2
𝜎объсн
𝜎𝑦2
𝜎𝑥2
𝜎𝑦
2
+
=
2
𝜎ост
𝜎𝑦2
.
2
𝜎объсн
𝜎𝑦2
2
или 𝑟𝑥𝑦
=
, т.е. коэффициент детерминации
2
𝜎объсн
2
𝜎общ
.
(3.11)
Поэтому коэффициент детерминации характеризует долю дисперсии (вариации)
результативного признака y, объясняемую регрессией, в общей дисперсии (вариации)
результативного признака.
2
Так как 1 = 𝑟𝑥𝑦
+
2
𝜎ост
𝜎𝑦2
, то соответственно величина
2
1 − 𝑟𝑥𝑦
=
2
𝜎ост
𝜎𝑦2
характеризует
долю дисперсии (вариации) y, вызванную влиянием остальных, не учтенных в модели, факторов.
Оценка значимости уравнения линейной регрессии и корреляции и существенности
его параметров
После того как найдено уравнение линейной регрессии, проводится оценка значимости как
уравнения в целом, так и отдельных его параметров.
Проверить значимость уравнения регрессии – значит установить, соответствует ли
математическая модель, выражающая зависимость между переменными, экспериментальным
данным и достаточно ли включенных в уравнение объясняющих переменных (одной или
нескольких) для описания зависимой переменной.
Оценка значимости уравнения регрессии в целом производится на основе F - критерия
Фишера. При этом выдвигается нулевая гипотеза Н0 , что коэффициент регрессии равен нулю, то
есть b=0 и следовательно фактор x не оказывает влияния на результат y и модель не значима.
Оценке значимости на основе F - критерия Фишера предшествует дисперсионный анализ.
Напомним, что согласно основной идее дисперсионного анализа, общая сумма квадратов
отклонений переменной y от среднего значения 𝑦̅ раскладывается на две части – «объясненную» и
«необъясненную»:
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂
̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂
𝑥𝑖 − 𝑦
𝑥𝑖 ) , где
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 – общая сумма квадратов отклонений;
∑𝑛𝑖=1(𝑦̂
̅)2 – сумма квадратов
𝑥𝑖 − 𝑦
отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂
𝑥𝑖 ) – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в
модели факторов.
Для того чтобы дисперсию привести к сравнимому виду определяют дисперсию на одну
степень свободы.
Схема дисперсионного анализа имеет вид, представленный в таблице 2 (n – число
наблюдений, m – число параметров при переменной x).
Таблица 2
Компоне
нты
дисперси
и
Число
степеней
свободы
Сумма
квадратов
Дисперсия на одну
степень свободы
𝑛
∑(𝑦𝑖 − 𝑦̅)2
Общая
2
𝑆общ
=
n-1
𝑖=1
Факторн
ая
(объясне
нная)
Остаточн
ая
𝑛
∑(𝑦̂
̅)2
𝑥𝑖 − 𝑦
m
2
𝑆факт
=
n-m-1
2
𝑆ост
=
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
𝑛−1
∑𝑛𝑖=1(𝑦̂
̅)2
𝑥𝑖 − 𝑦
𝑖=1
𝑛
2
∑(𝑦𝑖 − 𝑦̂
𝑥𝑖 )
𝑖=1
𝑚
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂
𝑥𝑖 )
𝑛−𝑚−1
Сопоставляя факторную (объясненную) и остаточную дисперсии в расчете на одну
степень свободы, получим величину F- критерия Фишера:
𝐹=
2
𝑆факт(объясн)
2
𝑆ост
(3.13)
Фактическое значение F--критерия Фишера сравнивается с табличным значением
𝐹табл (𝛼; 𝑘1 ; 𝑘2 ) (см. приложение, таблица 10) при уровне значимости 𝛼 и степенях свободы 𝑘1 =
𝑚 и 𝑘2 = 𝑛 − −𝑚 − 1. При этом, если 𝐹 > 𝐹табл (фактическое значение F-критерия больше
табличного), то гипотеза Н0 о случайной природе оцениваемых характеристик отклоняется и
признается их статистическая значимость и надежность. Модель считается значимой с
вероятностью 1- 𝛼.
Для парной линейной регрессии 𝑚 = 1, поэтому
𝐹=
2
𝑆факт
2
𝑆ост
∑𝑛 (𝑦̂
̅)2
𝑥 −𝑦
𝑖
= ∑𝑛𝑖=1(𝑦 −𝑦
̂)2 ∙ (𝑛 − 2).
𝑖=1
𝑖
𝑥𝑖
2
Величина F-критерия связана с коэффициентом детерминации 𝑟𝑥𝑦
и ее можно рассчитать
по следующей формуле:
2
𝑟𝑥𝑦
𝐹 = 1−𝑟2 ∙ (𝑛 − 2).
𝑥𝑦
(3.14)
Лекция 4(1ч)
1.1.4 Линейная модель парной регрессии
1. Оценка значимости параметров парной линейной регрессии.
2. Интервалы прогноза по линейному уравнению регрессии.
3. Средняя ошибка аппроксимации.
Проверка значимости отдельных параметров линейной регрессии проводится по tкритерию Стьюдента путем проверки гипотезы о равенстве нулю каждого параметра.
С этой целью по каждому из параметров определяются их стандартные ошибки: 𝑚𝑏 и 𝑚𝑎 .
Стандартная ошибка коэффициента регрессии b определяется по формуле:
𝑚𝑏 =
2
̂
∑𝑛 (𝑦𝑖 −𝑦
𝑥 )
2
где 𝑆ост
= 𝑖=1𝑛−𝑚−1 𝑖
признака x.
𝑆ост
𝜎𝑥 √𝑛
,
(3.15)
- остаточная дисперсия на одну степень свободы, 𝜎𝑥2 = ̅̅̅
𝑥 2 − 𝑥̅ 2 – дисперсия
Для оценки существенности коэффициента регрессии b определяется фактическое
значение t-критерия Стьюдента:
𝑏
𝑡𝑏 = 𝑚 ,
(3.16)
𝑏
которое затем сравнивается с табличным значением 𝑡табл (𝛼, 𝑘) (см.приложение, таблица 11) при
определенном уровне значимости 𝛼 и числе степеней свободы 𝑘 = 𝑛 − 2.
Если |𝑡𝑏 | > 𝑡табл , то параметр b не случайно отличен от нуля и признается значимым с
вероятностью 1- 𝛼.
Доверительный интервал для коэффициента регрессии b определяется как
𝑏 ± 𝑡табл ∙ 𝑚𝑏 .
(3.17)
Поскольку знак коэффициента регрессии указывает на рост результативного признака y
при увеличении признака-фактора x (𝑏 > 0), уменьшение результативного признака при
увеличении признака-фактора (𝑏 < 0), или его независимость от независимой переменной (𝑏 =
0), (см. рис. 4), то границы доверительного интервала для коэффициента регрессии не должны
содержать противоречивых результатов.
Пример 4. −1,3 ≤ 𝑏 ≤ 1,2. Такого рода запись указывает, что истинное значение
коэффициента регрессии b одновременно содержит положительные и отрицательные величины и
даже ноль, чего не может быть.
Рис.4 . Наклон линии регрессии в зависимости от значения параметра b.
Стандартная ошибка параметра a определяется по формуле:
𝑚𝑎 = 𝑆ост ∙
2
√∑𝑛
𝑖=1 𝑥𝑖
𝜎𝑥∙𝑛
.
(3.18)
Процедура оценивания существенности
рассмотренной выше для коэффициента регрессии.
Вычисляется
данного
параметра
не
отличается
от
𝑎
t - критерий: 𝑡𝑎 = 𝑚 , его величина сравнивается с табличным значением
𝑎
𝑡табл (𝛼, 𝑘) при определенном уровне значимости 𝛼 и числе степеней свободы 𝑘 = 𝑛 − 2.
Если |𝑡𝑎 | > 𝑡табл , то параметр a не случайно отличен от нуля и признается значимым с
вероятностью 1-𝛼.
Доверительный интервал для параметра a определяется как
𝑎 ± 𝑡табл ∙ 𝑚𝑎 .
(3 .19)
Значимость линейного коэффициента корреляции
величины ошибки коэффициента корреляции 𝑚𝑟 :
1−𝑟2
𝑚𝑟 = √ 𝑛−2 .
𝒓𝒙𝒚 проверяется на основе
(3.20)
𝑟
Фактическое значение t -критерия Стьюдента определяется как 𝑡𝑟 = 𝑚 и сравнивается с
табличным значением 𝑡табл (𝛼, 𝑘) при определенном уровне значимости 𝛼
свободы 𝑘 = 𝑛 − 2.
𝑟
и числе степеней
Если выполняется |𝑡𝑟 | > 𝑡табл , то значение линейного коэффициента корреляции
𝑟𝑥𝑦 признается значимым, то есть нулевая гипотеза, утверждающая равенство нулю линейного
коэффициента корреляции, отвергается и делается вывод о том, что между исследуемыми
переменными x и y есть тесная статистическая зависимость.
Прогнозные расчеты по линейному уравнению парной регрессии
В прогнозных расчетах по уравнению регрессии определяется предсказываемое 𝑦
̂0
значение как точечный прогноз 𝑦
̂𝑥 при 𝑥 = 𝑥0 , т.е. путем подстановки в уравнение регрессии
𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 соответствующего значения 𝑥0 . Однако точечный прогноз явно не реален. Поэтому
он дополняется расчетом стандартной ошибки 𝑦
̂0 , т.е. 𝑚𝑦̂0 , и соответственно интервальной
̂:
оценкой прогнозного значения 𝒚𝟎
̂
𝑦0 − 𝑚𝑦̂0 ∙ 𝑡табл ≤ 𝑦
̂0 ≤ 𝑦
̂0 + 𝑚𝑦̂0 ∙ 𝑡табл ,
(3.21)
где 𝑚𝑦̂0 – средняя ошибка прогнозируемого индивидуального значения:
1
(𝑥0−𝑥̅ )2
𝑛
𝑛∙𝜎𝑥2
𝑚𝑦̂0 = 𝑆ост ∙ √1 + +
.
(3.22)
Чтобы иметь общее суждение о качестве модели из относительных отклонений по
каждому наблюдению, определяют среднюю ошибку аппроксимации:
𝑦𝑖−𝑦̂
1
𝑥
𝐴̅ = 𝑛 ∑𝑛𝑖=1 | 𝑦 𝑖 | ∙ 100%.
𝑖
(3.12)
Средняя ошибка аппроксимации не должна превышать 8–10%.
Пример построения модели парной линейной регрессии
(пример
можно не конспектировать, он является образцом выполнения
практического задания)
Пример 5. Были получены следующие данные (условные) о расходах на рекламу x
(сот тыс. руб.) и объеме реализации продукции y (млн. руб.) по семи предприятиям за один год
(таблица 3):
Таблица 3
№ предприятия
1
2
3
4
5
6
7
Расходы на рекламу x (сот тыс. руб.)
3
5
7
8
9
10
12
Объем реализации продукции y (млн.
руб.)
15
21
28
30
34
38
40
Предположим, что связь между расходами предприятий на рекламу
x и объемом
реализации продукции y линейная. Для подтверждения нашего предположения построим поле
корреляции (рис.5).
Рис. 5. Поле корреляции
По полю корреляции видно, что точки выстраиваются в некоторую прямую линию.
Поэтому будем строить модель парной линейной регрессии 𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥.
Для удобства дальнейших вычислений составим расчетную таблицу 4.
1) Заполним столбцы 2-6 таблицы 4.
Рассчитаем параметры линейного уравнения парной регрессии 𝑦
̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥. Для этого
воспользуемся формулами (3.5):
𝑏=
𝑐𝑜𝑣(𝑥,𝑦)
𝜎𝑥2
=
𝑦∙𝑥
̅̅̅̅̅−𝑦̅∙𝑥̅
̅̅̅̅
𝑥 2−𝑥̅ 2
=
250,29−29.43∙7,71
67,43−(7,71)2
=
23,3847
7,9859
= 2,93;
(𝜎𝑥2 = 7,9859 ≅ 7,99, 𝜎𝑥 = 2,83 − заполним во 2 −
ом столбце две последние ячейки);
𝑎 = 𝑦̅ − 𝑏 ∙ 𝑥̅ = 29,43 − 2,93 ∙ 7,71 = 6,84.
Получим следующее линейное уравнение парной регрессии: 𝑦
̂𝑥 = 6,84 + 2,93 ∙ 𝑥.
Т.е. с увеличением затрат на рекламу на 1 единицу, то есть на 100 000 руб.
реализации продукции возрастает на 2,93 млн. руб.
объем
3,13
1,32
-0,01
29,44
935,71
67,4
3
7,99
𝜎2
69,59
2,83
𝜎
8,34
250,29
7,71
Среднее
значение
29,43
21,9
9,22
-0,1
206,1
6550
472
1752
54
Итого
206
5
4
-2
42
1600
144
480
12
7
40
4,9
3,46
1,86
36,14
1444
100
380
10
6
38
2,3
0,62
0,79
33,21
1156
81
306
9
5
34
0,9
0,08
-0,28
30,28
900
64
240
30
8
7
3
4
2,3
0,42
0,65
27,35
784
49
5
2
21
196
-0,49
21,49
441
25
105
9
45
15
3
1
28
2,3
0,24
4,2
0,4
-0,63
15,63
225
10
9
8
4
3
2
1
x
y
𝑥∙𝑦
5
𝑥2
6
𝑦2
7
̂
𝑦𝑥
𝑦−̂
𝑦𝑥
(𝑦 − 𝑦̂𝑥 )2
𝐴𝑖 , %
Таблица 4
2) Уравнение линейной регрессии всегда дополняется показателем тесноты связи –
линейным коэффициентом корреляции 𝑟𝑥𝑦 . Рассчитаем сначала общую дисперсию
результативного признака 𝜎𝑦2 :
𝜎𝑦2 = ̅̅̅
𝑦 2 − 𝑦̅ 2 = 935,71 − (29,43)2 = 69,59 и, следовательно, 𝜎𝑦 = 8,34 (заполним в 3-ем
столбце две последние ячейки);
𝜎
2,83
𝑟𝑥𝑦 = 𝑏 ∙ 𝜎𝑥 = 2,93 ∙ 8,34 = 0,994.
𝑦
Близость линейного коэффициента корреляции 𝑟𝑥𝑦 к 1 указывает на очень высокую
линейную связь между признаками (см. таблицу 1).
2
Коэффициент детерминации 𝑟𝑥𝑦
= 0,988 показывает, что уравнением регрессии
объясняется 98,8% дисперсии (вариации) результативного признака y, а на долю прочих факторов
приходится лишь 1,2%.
2
Другими словами, коэффициент детерминации 𝑟𝑥𝑦
= 0,988 показывает, что на 98,8%
изменение объема реализации продукции объясняется расходами на рекламу, а на долю прочих
факторов, влияющих на объем реализации продукции, приходится 1,2%.
3) Оценим качество уравнения регрессии в целом с помощью F-критерия Фишера.
Сосчитаем фактическое значение F-критерия по формуле (3.14):
2
𝑟𝑥𝑦
0,988
𝐹 = 1−𝑟2 ∙ (𝑛 − 2) = 1−0,988 ∙ (7 − 2) = 411,67.
𝑥𝑦
Табличное значение 𝐹табл = 6,61 (см. приложение, таблица 10) (число степеней свободы
𝑘1 = 1, 𝑘2 = 𝑛 − 2 = 5; уровень значимости критерия 𝛼 = 0,05).
Так как 𝐹 > 𝐹табл , то с вероятностью 1-0,05=0,95 признается статистическая значимость
уравнения в целом .
4) Заполним 7 ,8,9,10 столбцы таблицы 4.
Например, так как уравнение линейной регрессии:
наблюдения (𝑥1 , 𝑦1 ) получим:
𝑦
̂𝑥 = 6,84 + 2,93 ∙ 𝑥, то для первого
𝑦̂
𝑥1 = 6,84 + 2,93 ∙ 𝑥1 = 6,84 + 2,93 ∙ 3 = 15,63;
𝑦1 − 𝑦̂
𝑥1 = 15 − 15,63 = −0,63;
2
2
(𝑦1 − 𝑦̂
𝑥1 ) = (−0,63) = 0,4;
𝐴1 = |
𝑦1−𝑦̂
𝑥1
𝑦1
| ∙ 100% = |
−0,63
15
| ∙ 100% = 4,2%.
Аналогично выполним процедуру расчета для оставшихся наблюдений.
5) Среднюю ошибку аппроксимации находим с помощью
формулы (3.12):
10 столбца таблицы 4
и
𝑦𝑖−𝑦̂
1
𝑥
𝐴̅ = 𝑛 ∑𝑛𝑖=1 | 𝑦 𝑖 | ∙ 100%.
𝑖
𝐴̅ = 3,13%. Значит, качество модели оценивается, как хорошее, так как не превышает 10%.
6) Для оценки статистической значимости параметров линейной регрессии
и
коэффициента корреляции рассчитаем t-критерий Стьюдента и доверительные интервалы каждого
из показателей. Рассчитаем случайные ошибки параметров линейной регрессии и коэффициента
корреляции:
2
𝑆ост
=
̂2
∑𝑛
𝑖=1(𝑦𝑖 −𝑦𝑥𝑖 )
𝑛−2
𝑆
9,22
= 7−2 = 1,844; 𝑆ост = 1,36;
1,36
𝑚𝑏 =𝜎 ост
= 2,83∙√7 = 0,182;
∙√𝑛
𝑥
√∑𝑛𝑖=1 𝑥𝑖 2 √1,844 ∙ 472
𝑚𝑎 = 𝑆ост ∙
=
= 1,49;
𝜎𝑥 ∙ 𝑛
2,83 ∙ 7
2
1 − 𝑟𝑥𝑦
1 − 0,988
𝑚𝑟 = √
=√
= 0,049.
𝑛−2
5
Фактические значения t-статистик:
𝑏
2,93
𝑎
6,84
𝑡𝑏 = 𝑚 = 0,182 = 16,01; 𝑡𝑎 = 𝑚 = 1,49 = 4,59;
𝑏
𝑡𝑟 =
𝑟
𝑚𝑟
𝑎
=
0,994
0,049
= 20,286.
Табличное значение t-критерия Стьюдента при
𝛼 = 0,05 (уровень значимости
критерия) 𝑘 = 𝑛 − 2 = 5 (число степеней свободы) есть 𝑡табл = 2,5706 (см. приложение, таблица
11).
Так как |𝑡𝑏 | > 𝑡табл , |𝑡𝑎 | > 𝑡табл , |𝑡𝑟 | > 𝑡табл , то с вероятностью 1-0,05=0,95 признаем
статистическую значимость параметров регрессии и коэффициента корреляции.
Рассчитаем доверительные интервалы для параметров регрессии a и b:
(𝑏 − 𝑡табл ∙ 𝑚𝑏 ; 𝑏 + 𝑡табл ∙ 𝑚𝑏 ); (𝑎 − 𝑡табл ∙ 𝑚𝑎 ; 𝑎 + 𝑡табл ∙ 𝑚𝑎 ).
Получим, что
𝑎 ∈ (6,84 − 2,5706 ∙ 1,49; 6,84 + 2,5706 ∙ 1,49);
𝑎 ∈ (3,01; 10,67);
𝑏 ∈ (2,93 − 2,5706 ∙ 0,182; 2,93 + 2,5706 ∙ 0,182);
𝑏 ∈ (2,462; 3,398).
7) Найдем прогнозное значение результативного фактора 𝑦
̂0 при значении признака фактора, составляющем 120% от среднего уровня 𝑥0 = 1,2 ∙ 𝑥̅ = 1,2 ∙ 7,71 = 9,252, то есть найдем
объем реализации продукции предприятием при расходах на рекламу 9,252 сот тыс. руб.
𝑦
̂0 = 6,84 + 2,93 ∙ 9,252 = 33,94.
Значит, если расходы на рекламу составят 925 200 руб., то объем реализации продукции
будет 33, 94 млн. руб.
Найдем доверительный интервал прогноза.
Вычислим сначала ошибку прогноза:
𝑚𝑦̂0 = 𝑆ост ∙ √1 +
1 (𝑥0 + 𝑥̅ )2
1 (9,252 − 7,71)2
√
+
==
1,844
∙
(1
+
+
) = 1,48,
𝑛
7
7 ∙ 7,99
𝑛 ∙ 𝜎𝑥2
а доверительный интервал
̂
𝑦0 − 𝑚𝑦̂0 ∙ 𝑡табл ≤ 𝑦
̂0 ≤ 𝑦
̂0 + 𝑚𝑦̂0 ∙ 𝑡табл ;
33,94 − 1,48 ∙ 2,5706 ≤ 𝑦
̂0 ≤ 33,94 + 1,48 ∙ 2,5706;
30,136 ≤ 𝑦
̂0 ≤ 37,744.
Т.е. прогноз является статистически надежным
Теперь в одной системе координат отложим исходные данные и построим линию
регрессии (рис.6).
Рис.6. Исходные данные примера 5 и график функции
3. 6 Пример решения типовой задачи в MS Excel
𝑦
̂𝑥 = 6,84 + 2,93 ∙ 𝑥.
С помощью инструмента анализа данных Регрессия можно получить результаты
регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и
графики подбора линии регрессии.
Если в меню Данные еще нет команды Анализ данных, то необходимо сделать
следующее. В параметрах Excel выбираем
Надстройки → Пакет анализа→ОК. (рис.7)
Рис.7. Установка команды Анализ данных
Далее следуем по плану:
1. Вносим исходные данные (рис.8).
Рис. 8. Внесение исходных данных
2. Выбираем Данные→Анализ данных→Регрессия.
3. Заполняем диалоговое окно ввода данных и параметров вывода (рис. 9).
Рис.9. Заполнение диалогового окна ввода данных и параметров вывода.
Входной интервал Y здесь - диапазон, содержащий данные результативного признака;
Входной интервал X здесь - диапазон, содержащий данные признак - фактора;
Метки - «флажок», который указывает, содержит ли первая строка названия столбцов;
Константа-ноль - «флажок», указывающий на наличие или отсутствие свободного члена в
уравнении
Новый рабочий лист – можно указать произвольное имя нового листа (или не указывать,
тогда результаты выводятся на новый рабочий лист).
Получаем следующие результаты для примера 5 рассмотренного выше (таблица 5):
Таблица 5
ВЫВОД
ИТОГОВ
Регрессионная статистика
Множественный R
0,990506273
R-квадрат
0,981102676
Нормированный R-квадрат
0,977323211
Стандартная ошибка
1,357681468
Наблюдения
7
Дисперсионный анализ
df
SS
MS
F
Регрессия
1
478,498
478,498
Остаток
5
9,21649
1,8433
Итого
6
487,714
Коэффициенты
259,59
Стандартная
ошибка
t-статистика
Y-пересечение
6,8
1,49745
4,51626
Переменная X 1
2,9
0,18236
16,1117
Нижние 95%
Верхние 95%
2,913562657
10,61221054
2,469371447
3,406917213
ВЫВОД ОСТАТКА
Предсказанное
Y
Остатки
Наблюдение
1
16
-0,5773
2
21
-0,4536
3
27
0,6701
4
30
-0,268
5
33
0,79381
6
36
1,85567
7
42
-2,0206
Y
Переменная X 1 График
подбора
60
40
20
Y
3
5
7
8
9 10 12
Предсказанное Y
Переменная X 1
Сравним результаты, полученные самостоятельно в примере 5 и с помощью MS Excel
(таблица 6).
Таблица 6
Результаты,
полученные
самостоятельно
Уравнение
регрессии
Коэффициент
корреляции
Результаты,
полученные
с
помощью MS Excel.
𝑦
̂𝑥 = 6,84 + 2,93 ∙ 𝑥
𝑦
̂𝑥 = 6,8 + 2,9 ∙ 𝑥
𝑟𝑥𝑦 = 0,994
𝑟𝑥𝑦 = 0,991
Коэффициент
детерминации
2
𝑟𝑥𝑦
= 0,988
2
𝑟𝑥𝑦
= 0,981
Фактическое
значение
F
–
критерия Фишера
𝐹 = 411,67
𝐹 = 259,59
Остаточная
дисперсия на одну
2
𝑆ост
= 1,844
2
𝑆ост
= 1,843
степень свободы
Корень квадратный
из
остаточной
дисперсии
(стандартная
ошибка)
𝑆ост = 1,36
𝑆ост = 1,358
Стандартные
ошибки
параметров
регрессии
𝑚𝑏 = 0,182;
𝑚𝑏 = 0,182;
𝑚𝑎 = 1,49
𝑚𝑎 = 1,497
для
Фактическое
значение t-критерия
Стьюдента
Доверительные
интервалы
параметров
регрессии
𝑡𝑏 = 16,01;
𝑡𝑎 = 4,59
𝑡𝑏 = 16,112;
𝑡𝑎 = 4,516
𝑎 ∈ (3,01; 10,67);
𝑎 ∈ (2,914; 10,612);
𝑏 ∈ (2,462; 3,398).
𝑏 ∈ (2,469; 3,407).
Приложение
Математико-статистические таблицы
Таблица значений F -критерия Фишера при уровне
значимости 𝜶 = 𝟎, 𝟎𝟓
k1
1
2
3
4
5
6
1
2
3
4
5
6
7
1
161,5
199,5
215,7
224,6
230,2
233,9
2
18,51
19,00
19,16
19,25
19,30
19,33
3
10,13
9,55
9,28
9,12
9,01
8,94
4
7,71
6,94
6,59
6,39
6,26
6,16
5
6,61
5,79
5,41
5,19
5,05
4,95
6
5,99
5,14
4,76
4,53
4,39
4,28
7
5,59
4,74
4,35
4,12
3,97
3,87
8
5,32
4,46
4,07
3,84
3,69
3,58
k2
Таблица 10
9
5,12
4,26
3,86
3,63
3,48
3,37
10
4,96
4,10
3,71
3,48
3,33
3,22
11
4,84
3,98
3,59
3,36
3,20
3,09
12
4,75
3,88
3,49
3,26
3,11
3,00
13
4,67
3,80
3,41
3,18
3,02
2,92
14
4,60
3,74
3,34
3,11
2,96
2,85
15
4,54
3,68
3,29
3,06
2,90
2,79
16
4,49
3,63
3,24
3,01
2,85
2,74
17
4,45
3,59
3,20
2,96
2,81
2,70
18
4,41
3,55
3,16
2,93
2,77
2,66
19
4,38
3,52
3,13
2,90
2,74
2,63
20
4,35
3,49
3,10
2,87
2,71
2,60
Критические значения t - критерия Стьюдента при уровне значимости 0,10, 0,05, 0,01
(двухсторонний)
Таблица 11
Число
степеней
свободы
d.f.
00,10
0,05
0,01
1
6,3138
12,706
63,657
2
2,9200
4,3027
9,9248
3
2,3534
3,1825
5,8409
4
2,1318
2,7764
4,5041
5
2,0150
2,5706
4,0321
6
1,9432
2,4469
3,7074
7
1,8946
2,3646
3,4995
8
1,8595
2,3060
3,3554
9
1,8331
2,2622
3,2498
10
1,8125
2,2281
3,1693
11
1,7959
2,2010
3,1058
12
1,7823
2,1788
3,0545
13
1,7709
2,1604
3,0123
14
1,7613
2,1448
2,9768
15
1,7530
2,1315
2,9467
16
1,7459
2,1199
2,9208
17
1,7396
2,1098
2,8982