Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по эконометрике
Парная регрессия и корреляция. Генеральная совокупность и выборка

Парная регрессия и корреляция. Генеральная совокупность и выборка

👀 585 просмотров
📌 520 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Парная регрессия и корреляция. Генеральная совокупность и выборка», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Парная регрессия и корреляция. Генеральная совокупность и выборка», Word формат

ЭКОНОМЕТРИКА Часть 1. Парная регрессия и корреляция. 1.1. ВЫБОРОЧНЫЙ МЕТОД. 1.1.1. ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА Генеральная совокупность – это общая группа объектов, подлежащих статистическому исследованию. Выборка (выборочная совокупность) – это часть генеральной совокупности, отобранная случайным образом. Для того, чтобы выборка отражала свойства генеральной совокупности, она должна быть репрезентативной. 2 1.1.2. ТОЧЕЧНЫЕ ОЦЕНКИ ОДНОМЕРНОЙ ВЫБОРКИ. ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ Каждая из оценок дает характеристику исследуемой выборке и может быть использована для HR-анализа:  Выборочное среднее дает среднее значение исследуемого показателя.  Дисперсия и среднее квадратическое отклонение характеризуют степень рассеяния значений показателя вдоль числовой прямой.  Медиана указывает на середину упорядоченного множества значений показателя и устойчива к аномальным выбросам  Мода определяет наиболее часто встречающееся значение показателя.  Разброс определяет расстояние между наибольшим и наименьшим значением выборки.  Асимметрия и эксцесс характеризуют степень отклонения выборки от нормального распределения, играющего главенствующую роль в 3 эконометрическом анализе. 1.1.3. ТОЧЕЧНЫЕ ОЦЕНКИ ОДНОМЕРНОЙ ВЫБОРКИ С ПОМОЩЬЮ MS EXCEL Основные точечные характеристики одномерной выборки и функции MS Excel:  Среднее выборочное (СРЗНАЧ)  Мода (МОДА)  Медиана (МЕДИАНА)  Разброс (МАКС-МИН)  Выборочная (ДИСПР) и исправленная (ДИСП) дисперсии  Выборочное (СТАДОТКЛОНП) и исправленное (СТАНДОТКЛОН) средние квадратические отклонения  Асимметрия (СКОС)  Эксцесс (ЭКСЦЕСС)  И т.д. 4 1.2. ПРЕДМЕТ И МЕТОД ЭКОНОМЕТРИКИ. Эконометрика как наука возникла в 1920-е гг. Термин введен норвежским экономистом Р. Фришем (нобелевская премия по экономике в 1969 году). 5 1.2. ПРЕДМЕТ И МЕТОД ЭКОНОМЕТРИКИ. Главной задачей эконометрики является количественная оценка имеющихся взаимосвязей между экономическими явлениями и процессами. Эконометрика базируется на синтезе трех наук: математики, статистики и экономической теории. Основным инструментом корреляционного и анализа. являются методы регрессионного 6 1.2. ПРЕДМЕТ И МЕТОД ЭКОНОМЕТРИКИ. Корреляционный анализ ставит своей целью проверку наличия и значимости линейной зависимости между переменными без разделения переменных на зависимые и объясняющие. Регрессионный анализ направлен на выражение изучаемой зависимости в виде аналитической формулы с предварительным выделением зависимых и объясняющих переменных. 7 1.2.1. ОСНОВНЫЕ ЭТАПЫ ЭКОНОМЕТРИЧЕСКОГО ИССЛЕДОВАНИЯ 1. Постановка проблемы (цели, задачи, переменные и т.п.) 4. Использование модели для анализа и прогнозирования 2. Сбор исходных данных 5. Качественная и количественная интерпретация результатов 3. Построение эконометрическ ой модели и оценка ее качества 6. Практическое использование результатов 8 1.2.2. ПРОЦЕСС ПОСТРОЕНИЯ ЭКОНОМЕТРИЧЕСКОЙ МОДЕЛИ 1. Спецификация модели: А). Отбор факторов (независимых переменных); Б). Выбор типа модели. 2. Оценка параметров (получение числовых значений констант) 3. Проверка качества полученной модели 9 1.2.3. ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ Переменные (признаки) Факторные (независимые, входные, объясняющие, экзогенные), xj Результативные (зависимые, выходные, объясняемые, эндогенные), y 10 1.2.3. ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ Связь между результативными признаками и факторами Стохастическая Функциональная (в т.ч. Корреляционная) 11 1.2.3. ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ Связь между результативными признаками и факторами Линейная Нелинейная 12 1.2.3. ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ В обобщенной форме эконометрическая модель, описывающая взаимосвязи между явлениями или закономерности их развития, представляется с помощью соотношения y  f x1 , x2 ,..., x p    , где y – результативная переменная, X  ( x1 , x2 ,..., x p )  набор факторных признаков (факторов) - ошибка модели 13 1.2.3. ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ Для расчета численных значений параметров модели используется накопленный массив наблюдений за совместным проявлением изучаемого процесса и рассматриваемых факторов. Одно наблюдение представляет собой множество значений ( yi , x1i , x2i ,..., x pi ). Индекс i соответствует номеру наблюдения. 14 1.2.3. ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ Отдельные наблюдения могут характеризовать уровни изучаемого наблюдения в разные моменты времени… 15 1.2.3. ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ …либо его проявление для различных однородных объектов в один и тот же момент времени. 16 1.2.4. ВЫБОР ВИДА ЭКОНОМЕТРИЧЕСКОЙ МОДЕЛИ. Виды аналитических зависимостей, наиболее часто используемые при построении моделей: линейная y  b0  b1  x1  b2  x2  ...  b p  x p   , степенная y  b0  x  x  ...  x b1 b2 bp , полулогарифмическая y  b0  b1  ln x1  b2  ln x2  ...  b p  ln x p   , гиперболическая экспоненциальная bp b1 b2 y  b0    ...  , x1 x2 xp ye b0 b1x1 b2 x2 ...b p x p  . 17 1.2.5. МЕТОДЫ ОТБОРА ФАКТОРОВ. Для определения «оптимального» набора факторов можно использовать либо метод включения, либо метод исключения Для получения более или менее надежных оценок параметров желательно, чтобы количество наблюдений превышало количество определяемых параметров в 6-7 раз. 18 1.2.6. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ. Оценка параметров модели – и процесс и результат. Оценка параметра модели – случайная величина и точность оценки (близость к истинному значению)зависит от выбора метода оценивания Оценки параметров должны обладать свойствами несмещенности, эффективности и состоятельности 19 Изучить указанные свойства самостоятельно. 1.2.6. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ. Для оценки параметров моделей используют чаще всего метод максимального правдоподобия или МЕТОД НАИМЕНЬШИХ КВАДРАТОВ (МНК). 20 1.3. ОЦЕНКА ПАРАМЕТРОВ ПАРНОЙ РЕГРЕССИИ. 1.3.1. ПОНЯТИЕ ПАРНОЙ РЕГРЕССИИ. Парной регрессией называется модель, выражающая зависимость среднего значения зависимой переменной у от одной независимой переменной х yˆ  f  x . (1.3.1) Парная регрессия применяется в ситуациях, когда имеется доминирующий фактор, обуславливающий большую долю изменения изучаемой объясняемой переменной, который и используется в качестве 21 объясняющей переменной. 1.3.1. ПОНЯТИЕ ПАРНОЙ РЕГРЕССИИ. Используя уравнение парной регрессии (1.4.1.) соотношение (модель связи) между значениями переменных х и у можно записать как (1.3.2) y  f  x     yˆ   , где первое слагаемое f(x) - есть та часть значения у, которая объяснена уравнением регрессии (1.3.1), а второе слагаемое ε как необъясненную часть значения у. Различают линейную и нелинейные модели парной регрессии (в 22 зависимости от вида объясненной части). 1.3.2. ПОСТРОЕНИЕ УРАВНЕНИЯ ПАРНОЙ РЕГРЕССИИ. Пусть результаты наблюдений представлены таблицей x y 1 x1 y1 2 x2 y2 … … … n xn yn 23 1.3.2. ПОСТРОЕНИЕ УРАВНЕНИЯ ПАРНОЙ РЕГРЕССИИ. Изобразим данные на координатной плоскости. Построим так называемое корреляционное поле или поле корреляций. У yi xi Х 24 1.3.2. ПОСТРОЕНИЕ УРАВНЕНИЯ ПАРНОЙ РЕГРЕССИИ. x  Зависимости yˆ  f соответствует некоторая кривая на плоскости. Чем ближе данная кривая подходит ко всем точкам поля корреляций, тем лучше найденная зависимость описывает исходные данные У Х 25 1.3.2. ПОСТРОЕНИЕ УРАВНЕНИЯ ПАРНОЙ РЕГРЕССИИ. Введем понятие отклонения ei расчетного значения yˆ i  f xi от наблюдаемого значения yi. yi ei  yi  yˆ i ŷi У   xi Х 26 1.3.2. ПОСТРОЕНИЕ УРАВНЕНИЯ ПАРНОЙ РЕГРЕССИИ. Наилучшей будем считать такую зависимость, для которой сумма квадратов отклонений принимает наименьшее значение n n S   ei    yi  yˆ i 2  min i 1 2 i 1 (1.3.3) В этом состоит сущность МНК 27 1.3.2. ПОСТРОЕНИЕ УРАВНЕНИЯ ПАРНОЙ РЕГРЕССИИ. Построение уравнения регрессии предполагает решение двух задач: 1). спецификация модели; 2). оценка параметров выбранной модели. Для решения проблем спецификации можно использовать : А). Графический метод; Б). Аналитический метод; В). Экспериментальный метод. 28 1.3.3. ОЦЕНКА ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Уравнение парной линейной регрессии имеет вид yˆ  b0  b1  x (1.3.4) Сама зависимость переменной у от переменной х выглядит так y  b0  b1  x   (1.3.5) 29 1.3.3. ОЦЕНКА ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Оценку параметров будем проводить с помощью МНК. Для этого необходимо решить следующую задачу уже сформулированную выше n n S   ei    yi  yˆ i 2  min 2 i 1 i 1 Или с учетом формулы (1.3.4) n n S   ei    yi  b0  b1 xi   min i 1 2 2 (1.3.6) i 1 30 1.3.3. ОЦЕНКА ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Величина S является функцией от двух переменных b0 ,b1 , поэтому ее минимум будет находиться из условия  S   b  0   S  0  b1 (1.3.7) 31 1.3.3. ОЦЕНКА ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. После нахождения частных производных система уравнений (1.3.7) примет вид n   2  yi  b0  b1 xi   0  i 1  n  2 x  y  b  b x   0 i i 1 i   i 1 или n n  nb0  b1  xi   yi i 1 i 1  n n 2 n b  x  b  x   x y i i  0 i 1 i 1 i 1 i i 1 32 1.3.3. ОЦЕНКА ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Разделив оба уравнения последней системы на n, получим систему, называемую системой нормальных уравнений b0  b1x  y ,  b0 x  b1 x 2  xy. Откуда получаем параметров формулы  xy  x  y , b1  2  x  x2 b  y  b  x.  0 1 (1.3.8) для оценки (1.3.9) 33 1.3.4. ИНТЕРПРЕТАЦИЯ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Рассмотрим экономическую полученных параметров интерпретацию Параметр b1 показывает на сколько изменится в среднем величина у при изменении фактора х на единицу Если переменная х представляет собой время то параметр b0 показывает уровень явления в начальный момент времени. В других случаях параметр b0 может не иметь экономической интерпретации. 34 1.3.5. ПРИМЕР ПОСТРОЕНИЯ УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ По группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек, имеющая вид 𝑦 = 𝑏0 + 𝑏1 ∙ 𝑥 + 𝑒 Необходимая для расчета оценок параметров информация представлена в таблице. Номер предпри тия Выпуск продукции 𝒙, тыс.ед. Затраты на производство 𝒚, млн. руб. 𝒚∙𝒙 𝒙𝟐 𝒚𝟐 1 2 3 4 5 6 7 1 2 4 3 5 3 4 30 70 150 100 170 100 150 30 140 600 300 850 300 600 1 4 16 9 25 9 16 900 4900 22500 10000 28900 10000 22500 Средние 3,143 110 402,857 11,429 14242,857 35 1.3.5. ПРИМЕР ПОСТРОЕНИЯ УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ ЗАТРАТЫ НА ПРОИЗВОДСТВО, МЛН. РУБ. Для принятия решения о виде уравнения (один из этапов спецификации модели) и визуальной оценки качества связи между переменными желательно построить корреляционное поле. 170 180 150 160 140 120 100 100 70 80 60 30 40 20 1 2 3 4 5 ВЫПУСК ПРОДУКЦИИ, ТЫС. ЕД. 6 Какие гипотезы Вы можете выдвинуть, глядя на корреляционное поле? 36 1.3.5. ПРИМЕР ПОСТРОЕНИЯ УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ Используя формулы (1.3.9), получаем 402,857  3,143 110  b   36,84, 1 2 11,429  3,143  b  110  36,84  3,143  5,79.  0 Уравнение (1.3.4) парной линейной регрессии принимает вид yˆ  5,79  36,84  x (1.3.10) Параметр 𝑏1 в последнем уравнении можно интерпретировать следующим образом: при увеличении выпуска продукции на 1 тыс. ед. затраты на производство увеличатся в среднем на 36,84 млн. руб. 37 1.3.5. ПРИМЕР ПОСТРОЕНИЯ УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ Используя уравнение (1.3.10), можно дополнить исходную таблицу столбцом 𝑦 расчетных (теоретических) значений показателя 𝑦, а корреляционное поле – линией регрессии. Номер предпри тия Выпуск продукции 𝒙, тыс.ед. Затраты на производство 𝒚, млн. руб. Расчетные значения 𝒚 1 2 3 4 5 6 7 1 2 4 3 5 3 4 30 70 150 100 170 100 150 31,1 67,9 141,6 104,7 178,4 104,7 141,6 Средние 3,143 110 110,0 38 1.3.5. ПРИМЕР ПОСТРОЕНИЯ УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ 200 ЗАТРАТЫ НА ПРОИЗВОДСТВО, МЛН. РУБ. 180 170 160 150 140 120 100 100 80 70 60 40 30 20 1 2 3 4 ВЫПУСК ПРОДУКЦИИ, ТЫС. ЕД. 5 6 39 1.4. ПРОВЕРКА КАЧЕСТВА УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ В ЦЕЛОМ. 1.4.1. КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ. Ковариация переменных – абсолютная мера взаимосвязи 𝑐𝑜𝑣𝑥𝑦 = 𝑥𝑦 − 𝑥 ∙ 𝑦 Некоторые свойства ковариации. 1. 𝑐𝑜𝑣𝑥𝑥 = 𝐷в 𝑥 . 2. Если 𝑥 и 𝑦 независимы, то 𝑐𝑜𝑣𝑥𝑦 = 0. 3. 𝑐𝑜𝑣𝑥𝑦 ≤ 𝜎𝑥 𝜎𝑦 . 4. Положительная ковариация может служить индикатором наличия положительной (прямой) зависимости между переменными, отрицательная ковариация– индикатором наличия отрицательной (обратной) зависимости между переменными. 40 1.4.1. КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ. Коэффициент корреляции– связи между переменными 𝑟𝑥𝑦 показатель тесноты 𝑥𝑦 − 𝑥 ∙ 𝑦 𝑐𝑜𝑣𝑥𝑦 = = 𝜎𝑥 𝜎𝑦 𝜎𝑥 𝜎𝑦 Некоторые свойства коэффициента корреляции. 1. 𝑟𝑥𝑥 =1. 2. 𝑟𝑥𝑦 = 𝑟𝑦𝑥 . 3. −1 ≤ 𝑟𝑥𝑦 ≤ 1. 4. Если 𝑥 и 𝑦 независимы, то 𝑟𝑥𝑦 = 0. 5. 𝑟𝑥𝑦 = 1 тогда и только тогда, когда 𝑦 = 𝑎 + 𝑏𝑥 (т. е. между переменными существует линейная функциональная зависимость). 41 1.4.1. КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ. Для оценки силы связи использовать шкалу Чеддока. можно Абсолютное значение коэффициента корреляции Характеристика связи 0÷0,1 Отсутствует 0,1÷0,3 Слабая 0,3÷0,5 Умеренная 0,5÷0,7 Заметная 0,7÷0,9 Тесная 0,9÷0,99 Сильная 0,99÷1 Функциональная 42 1.4.1. КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ. Для большей надежности можно проверить гипотезу о статистической значимости коэффициента корреляции (результат проверки зависит не только от значения коэффициента корреляции, но и от объема выборки и уровня значимости). 1). Формулировка нулевой гипотезы 𝑯𝟎 ∶ 𝒓𝒙𝒚 = 𝟎 2). Формулировка альтернативной гипотезы 𝑯𝟏 ∶ 𝒓𝒙𝒚 ≠ 𝟎 3). Расчет наблюдаемого значения t-критерия 𝒓𝒙𝒚 Стьюдента 𝒕набл = ∙ 𝒏−𝟐 𝟏−𝒓𝟐𝒙𝒚 Пункт 5 б). сформулируйте самостоятельно!!! 4). Расчет критического значения t-критерия Стьюдента для заданного уровня значимости 𝒕крит = 𝒕(𝜶; 𝒏 − 𝟐) 5). а). Если 𝒕набл > 𝒕крит , то коэффициент корреляции 𝒓𝒙𝒚 признается на уровне значимости α статистически значимым (существенно отличным от нуля), а связь между переменными статистически обоснованной. 43 1.4.2. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ И F-КРИТЕРИЙ ФИШЕРА. 𝑅2 𝑅𝑆𝑆 𝐸𝑆𝑆 = =1− 𝑇𝑆𝑆 𝑇𝑆𝑆 𝑇𝑆𝑆 = 𝑛𝑖=1 𝑦𝑖 − 𝑦 2 - полная сумма квадратов отклонений; 𝑅𝑆𝑆 = 𝑛𝑖=1 𝑦𝑖 − 𝑦 2 - сумма квадратов отклонений, объясненная регрессией; 𝐸𝑆𝑆 = 𝑛𝑖=1 𝑦𝑖 − 𝑦𝑖 2 - остаточная (необъясненная) сумма квадратов отклонений. Для парной линейной регрессии справедливы следующее равенства 𝑇𝑆𝑆 = 𝑅𝑆𝑆 + 𝐸𝑆𝑆 2 𝑅2 = 𝑟𝑥𝑦 44 1.4.2. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ И F-КРИТЕРИЙ ФИШЕРА. 𝑅2 𝑅𝑆𝑆 𝐸𝑆𝑆 = =1− 𝑇𝑆𝑆 𝑇𝑆𝑆 0 ≤ 𝑅2 ≤ 1 Чем больше 𝑅2 , тем большая часть дисперсии результативного признака 𝑦 объясняется уравнением регрессии и тем лучше уравнение регрессии объясняет исходные данные. 45 1.4.2. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ И F-КРИТЕРИЙ ФИШЕРА. 𝑅𝑆𝑆 𝐸𝑆𝑆 = =1− 𝑇𝑆𝑆 𝑇𝑆𝑆 При каких значениях коэффициента детерминации 𝑅2 уравнение парной линейной регрессии 𝑦 = 𝑏0 + 𝑏1 𝑥 можно считать качественным? 𝑅2 Как проверить статистическую коэффициента детерминации 𝑅2 ? значимость Для этого Фишера. F-критерий можно применять 46 1.4.2. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ И F-КРИТЕРИЙ ФИШЕРА. Очевидно, что если 𝐹набл < 𝐹крит , то уравнение признается некачественны м на заданном уровне значимости 47 1.4.3.СРЕДНЯЯ ОТНОСИТЕЛЬНАЯ ОШИБКА АППРОКСИМАЦИИ. 1 𝐴= ∙ 𝑛 𝑛 𝑖=1 𝑦𝑖 − 𝑦𝑖 𝑦𝑖 ∙ 100% Значение A, % Точность Менее 10 Высокая 10-20 Хорошая 20-50 Удовлетворитель ная Более 50 Неудовлетворите льная У yi ŷi xi Х 48 1.4.4. ПРОВЕРКА КАЧЕСТВА УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ В ЦЕЛОМ (НА ПРИМЕРЕ) Номер предпри тия Выпуск продукции 𝒙, тыс.ед. Затраты на производство 𝒚, млн. руб. 𝒚∙𝒙 𝒙𝟐 𝒚𝟐 1 2 3 4 5 6 7 1 2 4 3 5 3 4 30 70 150 100 170 100 150 30 140 600 300 850 300 600 1 4 16 9 25 9 16 900 4900 22500 10000 28900 10000 22500 Средние 3,143 110 402,857 11,429 14242,857 Напомним, что уравнение парной линейной регрессии в данном примере имеет вид yˆ  5,79  36,84  x 49 1.4.4. ПРОВЕРКА КАЧЕСТВА УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ В ЦЕЛОМ (НА ПРИМЕРЕ) 𝑥𝑦 − 𝑥 ∙ 𝑦 Коэффициент корреляции 𝑟𝑥𝑦 = 𝜎𝑥 ∙ 𝜎𝑦 𝑟𝑥𝑦 = 402,857−3,143∙110 =0,991 1,245∙46,291 ВЫВОД: 1. 2. Абсолютное значение (модуль) коэффициента корреляции говорит о наличии практически функциональной связи между выпуском продукции и затратами на производство. Знак коэффициента корреляции подсказывает, что связь эта прямая. 50 1.4.4. ПРОВЕРКА КАЧЕСТВА УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ В ЦЕЛОМ (НА ПРИМЕРЕ) Коэффициент детерминации 𝑅𝑆𝑆 𝐸𝑆𝑆 𝑅 = =1− 𝑇𝑆𝑆 𝑇𝑆𝑆 2 𝑅2 =1− 𝑦𝑖 − 𝑦𝑖 𝑦𝑖 − 𝑦 2 2 263,16 =1− = 0,982 15000 ВЫВОД: На 98,2% разброс значений затрат на производство объясняется объемом выпуска продукции. 51 1.4.4. ПРОВЕРКА КАЧЕСТВА УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ В ЦЕЛОМ (НА ПРИМЕРЕ) Наблюдаемое значение F-критерия Фишера 𝐹набл 𝑅2 (𝑛 − 2) = 1 − 𝑅2 𝐹набл = 280 Критическое (теоретическое) значение F-критерия Фишера (можно найти в MS Excel с помощью функции FРАСПОБР 𝐹крит = 𝐹(𝛼; 1; 𝑛 − 2) 𝐹крит = 6,61 ВЫВОД: 𝑭набл > 𝑭крит , следовательно уравнение парной линейной регрессии в целом признается статистически значимым 52 1.4.4. ПРОВЕРКА КАЧЕСТВА УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ В ЦЕЛОМ (НА ПРИМЕРЕ) Средняя относительная ошибка аппроксимации 1 𝐴= ∙ 𝑛 𝑛 𝑖=1 𝑦𝑖 − 𝑦𝑖 𝑦𝑖 ∙ 100% 𝐴 = 4,6% ВЫВОД: Значение ошибки указывает на высокое качество модели. Подведите итоги проверки самостоятельно 53 1.4.5. ТОЧНОСТЬ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Уравнение имеет вид парной линейной регрессии yˆ  b0  b1  x Оценки параметров регрессии являются случайными величинами. Как проверить их статистическую значимость? Как оценить их точность? 54 1.4.5. ТОЧНОСТЬ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Для ответов на приведенные выше вопросы нам понадобятся значения стандартных ошибок параметров регрессии, рассчитываемые по формулам 𝑚𝑏0 2 𝑥𝑖 2 = 𝑆ост ∙ 𝑛𝜎𝑥 𝑚𝑏1 𝑆ост = 𝜎𝑥 ∙ 𝑛 (1.4.1.) 𝑦𝑖 −𝑦𝑖 2 𝑛−2 где 𝑆ост = - несмещенная оценка остаточной дисперсии результативного признака 𝑦. 55 1.4.5. ТОЧНОСТЬ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Проверка статистической значимости каждого параметра уравнения парной линейной регрессии проходит по следующей схеме 1). Формулировка нулевой гипотезы 𝒋 𝑯𝟎 : 𝒃 𝒋 = 𝟎 2). Формулировка альтернативной 𝒋 гипотезы 𝑯𝟏 : 𝒃𝒋 ≠ 𝟎 Пункт 5 б). Сформулируйте самостоятельно!!! 3). Расчет наблюдаемого значения t𝒃 критерия Стьюдента 𝒕𝒃𝒋 = 𝒊 𝒎𝒃 𝒋 4). Расчет критического значения tкритерия Стьюдента 𝒕крит = 𝒕(𝜶; 𝒏 − 𝟐) 5). а). Если 𝒕𝒃𝒋 > 𝒕крит , то параметр 𝒃𝒋 на уровне значимости α признается статистически значимым (существенно отличным от нуля) 56 1.4.5. ТОЧНОСТЬ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Проверка значимости ничего не говорит о точности найденных оценок параметров регрессии Доверительные интервалы для параметра регрессии bj, покрывающие выбранный параметр с надежностью γ=1-α, имеют вид b  m j bj  tкрит ; b j  mb j  tкрит  (1.4.2) Если границы найденного интервала имеют разные знаки (т.е. интервал содержит ноль), то соответствующий параметр регрессии статистически незначим (несущественно отличен от нуля). Верно и обратное утверждение. 57 1.4.5. ТОЧНОСТЬ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Вернемся к рассмотренному выше примеру Номер предпри тия 1 2 3 4 5 6 7 1 2 4 3 5 3 4 30 70 150 100 170 100 150 30 140 600 300 850 300 600 1 4 16 9 25 9 16 900 4900 22500 10000 28900 10000 22500 Средние 3,143 110 402,857 11,429 14242,857 Напомним, что уравнение парной линейной регрессии в данном примере имеет вид yˆ  5,79  36,84  x 58 1.4.5. ТОЧНОСТЬ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Рассчитаем для начала стандартные ошибки параметров регрессии по формулам (1.4.1). Получим mb0  7,44, mb1  2,20 Проверку двух гипотез о значимости параметров регрессии на уровне α=5% по схеме, указанной выше, проведем параллельно Параметр b0 Параметр b1 H00:b0=0 H01:b1=0 H10:b0≠0 H11:b1≠0 tb0=0,78 tb1=16,73 tкрит=2,57 tкрит=2,57 ВЫВОДЫ: 1. 2. Параметр b0 статистически незначим на уровне значимости 5%. Параметр b1 статистически значим на уровне значимости 5%. 59 1.4.5. ТОЧНОСТЬ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. По формулам параметра b0: (1.4.2) найдем доверительный интервал для  24,93;13,34 ВЫВОДЫ: 1. 2. Найденный интервал с вероятностью 95% покрывает истинное значение параметра b0. Параметр b0 статистически незначим на уровне значимости 5%, так как концы интервала имеют разные знаки. 60 1.4.5. ТОЧНОСТЬ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. По формулам (1.4.2) найдем доверительный интервал для параметра b1: 31,18;42,50 ВЫВОДЫ: 1. 2. Найденный интервал с вероятностью 95% покрывает истинное значение параметра b1. Параметр b1 статистически значим на уровне значимости 5%, так как концы интервала имеют одинаковые знаки. 61 1.5. ИСПОЛЬЗОВАНИЕ ПАКЕТА «АНАЛИЗ ДАННЫХ» MS EXCEL ДЛЯ ПОСТРОЕНИЯ МОДЕЛИ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ И ПРОВЕРКИ ЕГО КАЧЕСТВА Для построения и анализа качества уравнения парной линейной регрессии можно использовать инструмент «Регрессия» из пакета «Анализ данных» MS Excel. 62 1.5. ИСПОЛЬЗОВАНИЕ ПАКЕТА «АНАЛИЗ ДАННЫХ» MS EXCEL ДЛЯ ПОСТРОЕНИЯ МОДЕЛИ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ И ПРОВЕРКИ ЕГО КАЧЕСТВА Интерпретация результатов анализа представлена на рисунке 63 1.6. ПРАКТИЧЕСКИЕ ПРИЛОЖЕНИЯ РЕГРЕССИОННОЙ МОДЕЛИ. 1.6.1. ТОЧЕЧНЫЙ ПРОГНОЗ ПО УРАВНЕНИЮ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Осуществляется подстановкой прогнозного значения 𝑥𝑝 факторной переменной в уравнение парной линейной регрессии. 𝑦𝑝 = 𝑏0 + 𝑏1 𝑥𝑝 Замечание. Следует помнить о том, что точечный прогноз будет адекватным только в случае надлежащего качества построенного прогноза. Также можно дать интервальный прогноз, который учитывает качество построенной модели и представляет собой доверительный интервал, в который с заданной вероятностью (надежностью) попадает истинное значение оцениваемого результативного показателя. 64 1.6.1. ТОЧЕЧНЫЙ ПРОГНОЗ ПО УРАВНЕНИЮ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Вернемся к рассмотренному выше примеру 𝑦 = −5,79 + 36,84x Номер предпр ития 1 2 3 4 5 6 7 1 2 4 3 5 3 4 30 70 150 100 170 100 150 Средние 3,143 110 Пусть, например, открытие нового предприятия, для которого выпуск продукции составит 110% от среднего значения. Как оценить прогнозное значение затрат на производство для такого предприятия? Очевидно, что 𝑥𝑝 = 𝑥 ∙ 1,1 = 3.143 ∙ 1,1 = 3,457. Тогда 𝑦𝑝 = −5,79 + 36,84 ∙ 3,457 = 121,58. Таким образом, если планируется выпуск продукции 3,457 тыс. ед., что составляет 110% от среднего, то планируемые затраты составят 121,58 млн. руб. 65 1.6.2. КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ. Коэффициент эластичности показывает, на сколько процентов в среднем изменится результирующий показатель 𝑦 при изменении факторного признака 𝑥 на 1% от своего номинального значения. 𝑥 Э = 𝑓′(𝑥) ∙ 𝑦 Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности значений факторного признака 𝑥 изменится результирующий показатель 𝑦 при изменении среднего значения факторного признака 𝑥 на 1%. 𝑥 Э = 𝑓′(𝑥) ∙ 𝑦 66 1.6.2. КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ. Для парной линейной регрессии коэффициент эластичности рассчитывается по формуле 𝑏1 𝑥 Э= 𝑏0 + 𝑏1 𝑥 Для парной линейной регрессии средний коэффициент эластичности рассчитывается по формуле 𝑏1 𝑥 Э= 𝑏0 + 𝑏1 𝑥 67 1.6.2. КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ. 𝑦 = −5,79 + 36,84x Вернемся к рассмотренному выше примеру Номер предпри тия Выпуск продукции 𝒙, тыс.ед. Затраты на производство 𝒚, млн. руб. Э 1 2 3 4 5 6 7 1 2 4 3 5 3 4 30 70 150 100 170 100 150 1,19 1,09 1,04 1,06 1,03 1,06 1,04 Средние 3,143 110 Э= 𝑏1 𝑥 𝑏0 +𝑏1 𝑥 = 36,84∙3,143 =1,05 −5,79+36,84∙3,143 Вывод. При увеличении выпуска продукции на 1% в среднем по совокупности, затраты на производство вырастут в среднем на 1,05%. 68 1.7. ОЦЕНКА КАЧЕСТВА ОЦЕНОК МНК ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. Теорема Гаусса-Маркова. При выполнении следующих пяти предпосылок оценки параметров, полученные по методу МНК будут наилучшими (несмещенными и эффективными) в классе линейных несмещенных оценок: 1) Среднее значение ошибки модели равно нулю (𝒆 = 𝟎) 2) Постоянство дисперсии остатков – свойство гомоскедастичности остатков (𝑫 𝒆 = 𝒄𝒐𝒏𝒔𝒕) 3) Случайные отклонения (остатки) не коррелируют между собой – отсутствие автокорреляции остатков (𝒄𝒐𝒗(𝒆𝒊 , 𝒆𝒋 ) = 𝟎) 4) Детерминированность (неслучайность) значений факторной переменной) 5) Соблюдение условия нормального распределения остатков Если нарушается хотя бы одно из условий, модель нужно модернизировать 69

ЭКОНОМЕТРИКА

#Лекция

Парная регрессия и корреляция. Генеральная совокупность и выборка

Тебе могут подойти лекции

Анализ парной линейной статистической зависимости

Методы анализа статистической информации

Статистика

Эконометрика. Статистическая оценка достоверности выборочных показателей связи.Системы эконометрических уравнений

Эконометрика

Математическая статистика. Применение в профессиональной деятельности

Парная линейная регрессия

Методы компьютерной обработки экспериментальных данных

Элементы комбинаторики

Предмет и метод статистики

Парная регрессия и корреляция. Генеральная совокупность и выборка

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ