Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛЕКЦИЯ ПО ДИСЦИПЛИНЕ
«ЭКОНОМЕТРИКА»
Преподаватель:
доцент кафедры информационных технологий
Дяминова Элина Ильдаровна
ПРЕДМЕТ И ЗАДАЧИ
ЭКОНОМЕТРИКИ
2
Определение эконометрики
Эконометрика
Эконометрика
Статистика
• Это экономико-математическая
научная дисциплина,
разрабатывающая и
использующая приемы, модели и
методы, позволяющие дать
конкретные количественные
выражения общим
экономическим закономерностям
на базе экономической и
математической статистики
3
Определение эконометрики
Методы и модели
Приложения
1. Регрессионный и корреляционный
анализ
2. Анализ временных рядов
3. Системы одновременных
уравнений
4. Статистические методы
классификации и снижения
размерностиданных
Экономическая
теория
1. Макроуровень (государство)
2. Мезоуровень (регионы, отрасли)
3. Микроуровень (фирмы, хозяйства,
предприятия, семьи)
Социальноэкономическая
статистика
Теория вероятностей
и математическая
статистика
4
Пример
Изучается спрос на некоторый товар для учета его изменеия в зависимости от
ряда факторов
Качество товара
yi -
Ожидание
изменения цен
Спрос на товар
xi -
Цена товара
Цены на товарызаменители
Доход потребителей
Предположим, что зависимость функциональная, т.е.:
yi = f (xi ), i = от
Мода
1 до
n
Данная модель не адекватна реальности, т.к. согласно ней потребители с
одинаковыми доходами имеют одинаковый спрос.
Предположим, что разные объемы спроса у потребителей с одинаковыми доходами
объясняются случайной величиной ui , т.е.:
yi = f (xi ) + ui , i = от
1 до
n
Ошибка модели (возмущение)
5
Спецификация модели
yi = f (xi ) + ui , i = от
Вид функциональной
зависимости
?
1 до
n
Закон распределения
вероятностей случайной величины
?
Предположение
f (xi ) = a + b ∙ xi
линейная функция
ui
подчиняется нормальному
закону распределения
6
Этапы построения модели
Теоретическое описание изучаемого процесса
Определение целей, ограничений, требований и наиболее существенных факторов, определяющих
процесс
Выбор вида модели, адекватной реальному процессу (спецификация)
Сбор информации и статистических данных для проведения расчетов
Выбор методов оценки параметров, позволяющих получить наилучшее приближение результатов
к реальности с учетом особенностей статистических данных
Верификация (проверка) полученных результатов на их соответствие реальной ситуации
7
ОСНОВНЫЕ ПОНЯТИЯ
ЭКОНОМЕТРИКИ
8
Переменные в эконометрической модели
Эндогенные переменные
• Это переменные, определяемые эконометрической моделью. Значения их определяются в
результате одновременного взаимодействия переменных, образующих модель (экзогенных и
возмущающих)
• Обозначаются через 𝑦
Экзогенные переменные
• Независимые переменные, которые определяются вне модели, при этом, оказывая влияние на
эндогенные переменные, сами они не испытывают этого влияния, т.е. связь односторонняя
• Обозначаются через 𝑥
Возмущающие переменные
• Это переменные, которые не определяются моделью, но влияют на эндогенные переменные.
Эмпирических значений этих переменных получить нельзя, можно получить лишь их оценки
после расчета модели
• Обозначаются через 𝑢
9
Переменные в эконометрической модели
Предопределенные переменные
• Это переменные, которые зависят не только от текщих значений - 𝑡, но и от
предыдущих – лаговых переменных
• К ним относятся: экзогенные переменные (𝑥𝑡 ), экзогенные лаговые
переменные (𝑥𝑡−𝑖 ), эндогенные лаговые переменные (𝑦𝑡−𝑗 )
Совместнозависимые переменные
• Это переменные, значение которых описывается и рассчитывается не одним
аналитическим выражением, а системой
• Пример: Пусть 𝑥1 - уровень дохода покупателей, 𝑦1 - спрос на товар, 𝑦2 спрос на альтернативный товар, тогда:
𝑦1 = 𝑎1 𝑦2 + 𝑏1 𝑥1
𝑦2 = 𝑎2 𝑦1 + 𝑏2 𝑥1
10
Регрессионный анализ
Регрессия – это односторонняя стохастическая зависимость, выраженная с
помощью функции, которая устанавливает соответствие между случайными
величинами (эндогенными, экзогенными и возмущающими переменными)
Виды регрессии:
По числу переменных
• Простая (парная) регрессия
• Множественная (частная)
регрессия – когда эндогенная
переменная зависит от ряда
независимых
По форме зависимости
• Линейная (по параметрам)
• Нелинейная (по параметрам,
по эндогенным переменным,
по экзогенным переменным)
По характеру зависимости
• Положительная (𝑦 ↑↓, 𝑥 ↑↓)
• Отрицательная (𝑦 ↑↓, 𝑥 ↓↑)
Задачи регрессионного анализа:
1.
Установление формы зависимости
2.
Определение оценок параметров модели
11
Корреляционный анализ
Корреляция (в узком смысле) –
это причинно обусловленная связь
между случайными величинами.
Количественной характеристикой
корреляции является коэффициент
линейной корреляции
𝑟𝑥𝑦 =
𝑛
𝑖=1(𝑥𝑖
𝑛
𝑖=1(𝑥𝑖
−
− 𝑥 )(𝑦𝑖 − 𝑦)
𝑥 )2
𝑛
𝑖=1(𝑦𝑖
−
𝑦 )2 )
Виды корреляции:
По числу переменных
Простая
(парная)
корреляция
Множественная
корреляция – сила
связи между
эндогенной и
множеством
экзогенных факторов
Частная корреляция – связь
между эндогенной
переменной и одной из
экзогенных переменных при
исключении влияния всех
остальных переменных
,
−1 ≤ 𝑟𝑥𝑦 ≤ 1
По форме связи
Линейная
Нелинейная
Задачи корреляционного
анализа:
1.
Измерение степени тесноты
связи между переменными
2.
Отбор факторов с наибольшей
силой связи для включения в
модель
По характеру связи
Положительная
Отрицательная
По типу связи
Непосредственная –
объясняющая
переменная
оказывает прямое
влияение на
зависимую
Косвенная –
переменные не имеют
непосредственной
причинно-следственной
связи, но имеют общую
для них причину
Ложная –
чисто
формальная
связь, которая
не подлежит
объяснению
12
ПАРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
13
Понятие парной регрессии
Парной регрессией называется модель, выражающая зависимость среднего значения зависимой
переменной 𝑦 от одной независимой переменной 𝑥: 𝒚 = 𝒇(𝒙)
(2.1)
где 𝑦 – зависимая переменная (результативный признак); 𝑥 – независимая, объясняющая переменная
(признак–фактор).
Парная регрессия применяется, если имеется доминирующий фактор, обуславливающий большую долю
изменения изучаемой объясняемой переменной, который и используется в качестве объясняющей
переменной.
Используя уравнение регрессии (2.1), соотношение между значениями переменными 𝑦 и 𝑥 можно
записать как:
𝒚=𝒇 𝒙 +𝒖
(2.2)
где 𝑓 𝑥 – это та часть значения 𝑦, которая объяснена уравнением регрессии (2.1), 𝑢 – необъясненная
часть значения 𝑦 (возмущение, ошибка модели), случайная величина, удовлетворяющую определенным
предположениям. Соотношение между этими частями характеризует качество уравнения регрессии.
Наличие составляющей 𝑢 обусловлено такими причинами, как:
наличие дополнительных факторов, оказывающих влияние на переменную 𝑦,
неверный вид функциональной зависимости 𝑓 𝑥 ,
ошибки измерения,
выборочный характер исходных данных.
14
Постановка задачи
По имеющимся данным 𝑛
наблюдений за совместным
изменением двух переменных
показателей 𝑥 и 𝑦 {(𝑥𝑖 , 𝑦𝑖), 𝑖 =
1,2, … , 𝑛} необходимо
определить аналитическую
зависимость 𝑦 = 𝑓(𝑥),
наилучшим образом
описывающую данные
наблюдений.
Значения 𝑥𝑖 , 𝑦𝑖 из каждой
строки можно рассматривать
как координаты точки (𝑥𝑖, 𝑦𝑖 )
на координатной плоскости
𝑥𝑦. Совокупность всех точек
составляют поле корреляций
x
y
20
24
28
30
31
33
34
37
38
40
41
43
45
48
32
30
26
40
41
47
56
54
60
55
61
67
69
76
15
Спецификация модели
Для выбора вида аналитической зависимости можно использовать следующие методы:
графический
• вид зависимости
определяется на
основе анализа
поля корреляций
аналитический
• на основе
качественного
анализа изучаемой
взаимосвязи
экспериментальный
• построение нескольких моделей
различного вида с выбором
наилучшей согласно применяемому
критерию качества
Примеры наиболее часто используемых регрессий:
Вид регрессии
Общий вид уравнения регрессии
линейная
𝑦 =𝑎+𝑏∙𝑥
полиномы разных степеней
𝑦 = 𝑎 + 𝑏1 ∙ 𝑥 + 𝑏2 ∙ 𝑥 2 + 𝑏3 ∙ 𝑥 3 + ⋯
степенная
𝑏
𝑥
𝑦 = 𝑎 ∙ 𝑥𝑏
экспоненциальная
𝑦 = 𝑒 𝑎+𝑏∙𝑥
показательная
𝑦 = 𝑎 ∙ 𝑏𝑥
равносторонняя гипербола
𝑦=𝑎+
16
Оценка параметров регрессии методом наименьших квадратов
(МНК)
Для оценки параметров 𝑎 и 𝑏 уравнения регрессии 𝑦 = 𝑎 + 𝑏 ∙ 𝑥 воспользуемся методом
наименьших квадратов (МНК). При выполнении предпосылок относительно ошибки 𝑢 МНК
дает наилучшие оценки параметров линейной модели 𝑦 = 𝑎 + 𝑏 ∙ 𝑥 + 𝑢.
Согласно МНК, выбираются такие значения параметров 𝑎 и 𝑏, при которых сумма квадратов
отклонений фактических значений 𝑦𝑖 от теоретических значений 𝑦𝑖 = 𝑓(𝑥𝑖 ) (при тех же
значениях фактора 𝑥𝑖) минимальна, т.е.
𝑆 = 𝑦𝑖 − 𝑦𝑖 2 → 𝑚𝑖𝑛
С учетом вида линейной парной регрессии:
𝑆=
𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖
2
→ 𝑚𝑖𝑛
Тогда оптимальные значения параметров 𝑎 и 𝑏 удовлетворяют условиям:
Записываем частные производные
определния параметров 𝑎 и 𝑏:
𝜕𝑆
𝜕𝑎
𝜕𝑆
𝜕𝑏
= −2
𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖 = 0
− 2𝑏
𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖 = 0
⟹
и
получаем
следующую
𝜕𝑆
𝜕𝑎
𝜕𝑆
= 0, 𝜕𝑏 = 0
систему
уравнений
для
𝑛𝑎 + 𝑏 𝑥𝑖 = 𝑦𝑖
𝑎+𝑏∙𝑥 =𝑦
⇒
⇒
𝑎 𝑥𝑖 + 𝑏 𝑥𝑖 2 = 𝑥𝑖 𝑦𝑖
𝑎 ∙ 𝑥 + 𝑏 ∙ 𝑥2 = 𝑦 ∙ 𝑥
𝑎 = 𝑦 − 𝑏 ∙ 𝑥; 𝑏 =
𝑦∙𝑥−𝑥∙𝑦
𝑥2 − 𝑥2
17
Предпосылки МНК (условия Гаусса-Маркова)
1. E(ui) = 0, i = от 1 до n – отсутствие систематического
2. Var(ui) = σ2, i = от 1 до n – гомоскедастичность
3. E(ui ∙ uj) = E(ui) ∙ E(uj) = 0, i = от 1 до n, i ≠ j – отсутствие
автокорреляции в остатках
основные
накопления возмущений
4. E(xi ∙ ui) = E(xi) ∙ E(ui) = 0, i = от 1 до n - экзогенная переменная
5. u имеет нормальный закон рапределения вероятностей
6. m < n – число наблюдение должно быть больше числа
переменных, что позволяет избежать мультиколлинеарности
дополнительные
и остатки совместно независимы
18
Интерпретация параметров линейной регрессии
Экономическая интерпретация:
Коэффициент 𝑏 при факторной переменной 𝑥
показывает насколько изменится в среднем
величина 𝑦 при изменении фактора 𝑥 на
единицу
Свободный член 𝑎 играет роль выравнивания
уравнения регрессии, он показывает уровень
явления при 𝑥 = 0 и не всегда имеет
экономическую интерпретацию
Пример: пусть зависимость между затратами
(𝑥, тыс. руб.) и объемом выпуска (𝑦, шт.)
продукции описывается соотношением:
𝑦 = 35023 + 0,552 · 𝑥
Интерпретация параметра 𝒃: увеличение
объема выпуска на 1 шт. потребует
дополнительных затрат на 522 руб.
Интерпретация параметра 𝒂: при нулевом
объеме выпуска затраты составят 35023 тыс.
руб.
Графическая интерпретация:
𝑦𝑖
𝑢𝑖
𝑦𝑖
γ
𝑏 = tan 𝛾
𝑎
𝑥𝑖
19
Оценка качества модели. Коэффициент детерминации
Коэффициент детерминации определяет, какая часть рассеивания (дисперсии) y
объясняется изменчивостью x
𝑅2𝑦𝑥 =
𝑛
𝑖=1
𝑛
𝑖=1
𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥
𝑦𝑖 − 𝑦
2
𝑛
𝑖=1
2
𝑥𝑖 − 𝑥
2
где 𝑥 =
𝑛
𝑖=1 𝑥𝑖
𝑛
; 𝑦=
𝑛
𝑖=1 𝑦𝑖
𝑛
- средние арифметические x и y
или
𝑅2𝑦𝑥 =
𝑆2𝑥 ∙ 𝑏2
𝑆2𝑦
где
𝑆𝑥2 , 𝑆𝑦2 - дисперсии x и y;
b – коэффициент уравнения регрессии 𝑦𝑖 = 𝑎 + 𝑏 ∙ 𝑥𝑖
где
𝑟𝑥𝑦 - коэффициент линейной корреляции между x и y
или
𝑅2𝑦𝑥 = 𝑟𝑥𝑦
2
20
Оценка качества модели. Свойства коэффициента детерминации
Коэффициент детерминации не имеет единицы измерения
2
0 ≤ 𝑅𝑦𝑥
≤ 1 – чем ближе коэффициент детерминации к 1, тем больше функция
регрессии определяется объясняющими переменными
2
Если 𝑅𝑦𝑥
= 0, то уравнение регрессии – прямая, параллельная оси OX
2
Если 𝑅𝑦𝑥
= 1, то все исходные данные лежат на прямой уравнения регрессии
2
2
Оценочная симметрия: 𝑅𝑦𝑥
= 𝑅𝑥𝑦
Коэффициент детерминации зависит только от данных наблюдений.
Рекомендуется рассчитывать его до построения модели. Если полученное
значение близко к 0, то стоит пересмотреть модель (например, включить другой
набор факторов)
Коэффициент детерминации не может быть единственным показателем полноты
регрессии, если данные – временные ряды, а также если экзогенные переменные
имеют связи между собой
21
Оценка качества модели. Остаточная дисперсия и средняя
ошибка аппроксимации
Остаточная дисперсия
𝑆2𝑈
=
𝑛
𝑖=1
𝑦𝑖 − 𝑦𝑖
𝑛−𝑚−1
2
Средняя ошибка аппроксимации
1
𝐴=
𝑛
𝑛
𝑖=1
𝑦𝑖 − 𝑦𝑖
∙ 100
𝑦𝑖
где m – количество экзогенных
переменных
Измеряется в %
Чем меньше остаточная дисперсия,
тем лучше подобранная регрессия
соответствует опытным данным
Показывает, на сколько процентов в
среднем отличаются значения,
полученные по модели, от исходных
данных
Наименьшее возможное значение –
0, верхней границы нет
Удовлетворительной считается
ошибка на более 10%
Имеет единицу измерения фактора y
в квадрате
22
Оценка качества модели. Критерий Фишера
1. Для проверки адекватности модели формулируется две гипотезы:
H0: a = 0, b = 0, ryx = 0 – неадекватность модели, статистическая незначимость
параметров регрессии и коэффициента корреляции
H1: a ≠ 0, b ≠ 0, ryx ≠ 0 – адекватность модели, статистическая значимость
2. Рассчитывается F-статистика:
𝐹=
𝑅2𝑦𝑥
𝑛−𝑚−1
𝑚
1−𝑅2𝑦𝑥
∙
3. Для заданного α (вероятность ошибки первого рода – вероятность отвергнуть верную
гипотезу), количества независимых переменных k1 = m, числа степеней свободы k2 = n-m-1
находится табличное значение Fα(k1, k2)
4. Если F ≤ Fα(k1, k2),
Если F > Fα(k1, k2),
то гипотеза H0 не противоречит опытным данным, т.е.
модель статистически незначима
то гипотезу H0 отвергаем, принимаем H1, т.е.
модель статистически значима
23
Пример таблицы значений критерия Фишера
24
Проверка значимости оценок параметров регрессии.
t-критерий Стьюдента
1. Для оценки значимости каждого параметра регрессии выдвигается две гипотезы:
H0: a = 0 – параметр a не значим
H0: b = 0 – параметр b не значим
H1: a ≠ 0 – параметр a значим
H1: b ≠ 0 – параметр b значим
2. Рассчитывается t-статистика:
𝑎
𝑡= ,
𝑆𝑎
где 𝑆𝑎 = 𝑆𝑈
1
+
𝑛
𝑛
𝑖=1
𝑥2
𝑥𝑖 − 𝑥
2
𝑏
𝑡= ,
𝑆𝑏
где 𝑆𝑏 =
𝑆𝑈
𝑛
𝑖=1
𝑥𝑖 − 𝑥
2
3. Для заданного α (вероятность ошибки первого рода – вероятность отвергнуть верную
гипотезу) и числа степеней свободы f = n-m-1 находится табличное значение tf,α для
двусторонней критической области
4. Если |t | ≤ tf,α, то принимаем гипотезу H0, т.е. параметр незначим
Если |t | > tf,α, то принимаем гипотезу H1, т.е. параметр значим
25
Проверка значимости коэффициента корреляции.
t-критерий Стьюдента
t-критерий Стьюдента может использоваться и для оценки статистической значимости
выборочного коэффициента корреляции:
1.
Рассчитывается t-статистика:
𝑡=
𝑟𝑦𝑥 𝑛 − 2
1 − 𝑟2𝑦𝑥
2. Для заданного α и числа степеней свободы f = n-2 находится табличное значение tf,α
для двусторонней критической области
3. Если |t | ≤ tf,α, то принимаем гипотезу H0, т.е. коэффициент корреляции незначим
Если |t | > tf,α, то принимаем гипотезу H1, т.е. коэффициент корреляции значим
26
Пример таблицы значений критерия Стьюдента
для двусторонней критической области
27
Точечный и интервальный прогноз
Точечный прогноз
Интервальный прогноз
заключается в получении
прогнозного значения уp, которое
определяется путем подстановки
в уравнение регрессии
𝑦𝑥 = 𝑎 + 𝑏 ∙ 𝑥
соответствующего (прогнозного)
значения xp:
𝑦𝑝 = 𝑎 + 𝑏 ∙ 𝑥𝑝
заключается в построении
доверительного интервала прогноза, т. е.
нижней и верхней границ интервала,
содержащего точную величину для
прогнозного значения yp с заданной
вероятностью.
показывает, чему в среднем
будет равен y, если x примет
значение xp
Вероятность интервальной оценки
называется доверительной
вероятностью и принимается близкой
к 1 с тем, чтобы уменьшить риск ошибки:
𝑝=1−𝛼
28
Доверительные интервалы
Доверительный интервал
для значения регрессии
генеральной совокупности
𝑦𝑖 − 𝑡𝑓,𝛼 ∙ 𝑆𝑦𝑖 ≤ 𝑦𝑖 ≤ 𝑦𝑖 + 𝑡𝑓,𝛼 ∙ 𝑆𝑦𝑖 ,
𝑦𝑖 - значение оценки, полученное по МНК;
𝑆𝑦𝑖 =
∙
1
+
𝑛
𝑥𝑖 −𝑥 2
𝑛
2
𝑖=1 𝑥𝑖 −𝑥
𝑦𝑖 − 𝑡𝑓,𝛼 ∙ 𝑆𝑙𝑖 ≤ 𝑦𝑖 ≤ 𝑦𝑖 + 𝑡𝑓,𝛼 ∙ 𝑆𝑙𝑖 ,
где
𝑦𝑖 - истинное значение генеральной
совокупности в точке i;
𝑆2𝑈
Доверительный интервал
для прогнозного значения
зависимой переменной
𝑆𝑙𝑖 =
𝑆2𝑈
∙ 1+
1
+
𝑛
где
𝑥𝑖 −𝑥 2
𝑛
2
𝑖=1 𝑥𝑖 −𝑥
y
;
𝑡𝑓,𝛼 - табличное значение t-распределения
Стьюдента для заданного значения α и
числа степеней свободы f = n-m-1
x
29