Справочник от Автор24
Поделись лекцией за скидку на Автор24

Эконометрическое моделирование

  • 👀 496 просмотров
  • 📌 477 загрузок
Выбери формат для чтения
Статья: Эконометрическое моделирование
Найди решение своей задачи среди 1 000 000 ответов
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Эконометрическое моделирование» pdf
Лекция 1 (2ч) 1.1.1 Линейная модель парной регрессии 1.Эконометрика как наука. История развития эконометрики. 2. Предмет, цель и задачи эконометрики. 3.Эконометрическая модель-основа механизма эконометрического моделирования. Классы моделей. 4.Типы данных и виды переменных в эконометрических исследованиях экономических явлений. 5.Выбор инструментальных средств для обработки экономических данных в соответствии с поставленной задачей. 6. Этапы эконометрического моделирования. 7. Парная регрессия и корреляция. Эконометрическое знание выделилось и сформировалось как закономерный результат развития и взаимодействия экономической теории, математической экономики, экономической статистики и теории вероятностей. Эконометрика- это наука, предметом изучения которой является качественное выражение взаимосвязей экономических явлений и процессов. Термин «эконометрика» экономисты начали применять благодаря исследованиям П.Цъемпы (1910), Й. Шумпетера (1923), Р.Фриша (1930). Этот термин появился в результате соединения двух слов: «экономика» и «метрика». В переводе с греческого oikonomos (экономист) – это управляющий домом; metrihe, metron – мера, размер. Цель эконометрики - разработка способов моделирования и количественного анализа реальных экономических объектов. Задачи эконометрики: 1) спецификация модели – построение экономических моделей для эмпирического анализа; 2) параметризация модели – оценка параметров строящейся модели; 3) верификация модели - проверка качества параметров модели и самой модели в целом; 4) прогнозирование модели - составление прогноза и рекомендаций для конкретных экономических явлений по результатам эконометрического моделирования. Парная регрессия и корреляция Парная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной y рассматривается как функция одной независимой (объясняющей) переменной x, то есть модель вида 𝑦 ̂𝑥 = 𝑓 (𝑥 ). Так же y называют результативным признаком; x– признак - фактором. Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости. Поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых: 𝑦=𝑦 ̂𝑥 + 𝜀, (1.1) где y – фактическое значение результативного признака; 𝑦 ̂𝑥 – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; 𝜀 – случайная величина (возмущение), характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии. Случайная величина 𝜀 включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных. Предполагая, что ошибки измерения сведены к минимуму, основное внимание в эконометрических исследованиях уделяется ошибкам спецификации модели. Лекция 2 (2ч) 1.1.2 Линейная модель парной регрессии 1. Спецификация эконометрических моделей. 2. Спецификация моделей парной регрессии. 3.Оценка параметров парной линейной регрессии и их экономическая интерпретация. Метод наименьших квадратов. Под спецификацией модели понимается формулировка вида модели исходя из соответствующей теории связи между переменными. В первую очередь из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия достаточна, если имеется один доминирующий фактор, который и используется в качестве объясняющей переменной. В парной регрессии выбор вида математической функции 𝑦 ̂𝑥 = 𝑓(𝑥) может быть осуществлен тремя методами: - графическим; - аналитическим; - экспериментальным. При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции. Каждую пару наблюдений (xi ,yi ) можно представить в виде точки на плоскости xOу. Такое графическое построение называется полем корреляции. В этом случае наилучшей считается функция, график которой проходит через наибольшее количество точек или как можно ближе к ним (рис. 1.). Рис. 1. Поле корреляции и график функции наиболее близко расположенный к точкам поля корреляции. Основные типы кривых, используемые при количественной оценке связей, представлены на рис. 2: ̂ 𝑦𝑥 = 𝑎 + 𝑏 ∙ 𝑥 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 + 𝑐 ∙ 𝑥 2 ̂ 𝑦𝑥 = 𝑎 + 𝑏⁄𝑥 ̂ 𝑦𝑥 = 𝑎 + 𝑏 ∙ 𝑥 + 𝑐 ∙ 𝑥 2 + 𝑑 ∙ 𝑥 3 𝑦 ̂𝑥 = 𝑎 ∙ 𝑥 𝑏 𝑦 ̂𝑥 = 𝑎 ∙ 𝑏 𝑥 Рис. 2. Основные типы кривых, используемые при количественной оценке связей между двумя переменными с минимальной остаточной дисперсией. Аналитический метод выбора типа уравнения регрессии материальной природы связи исследуемых признаков. основан на изучении При экспериментальном выборе уравнения регрессии информация обрабатывается на 2 компьютере. Сравниваются величины остаточной дисперсии 𝜎ост , рассчитанной при разных моделях: 1 2 2 𝜎ост = 𝑛 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂ 𝑥𝑖 ) , (2.1) где n – количество наблюдений, i –номер наблюдения. Если линия регрессии проходит через все точки корреляционного поля, что возможно только при функциональной связи между x и y, то фактические значения результативного признака совпадают с теоретическими 𝑦𝑖 = 𝑦̂ 𝑥𝑖 , т.е. они полностью обусловлены влиянием 2 фактора x. В этом случае остаточная дисперсия 𝜎ост = 0. В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении регрессии, факторов. Иными словами, имеют место отклонения фактических данных от теоретических, т.е. ̅̅̅̅̅ 𝜀𝑖 = 𝑦𝑖 − 𝑦̂ 𝑥𝑖 ≠ 0, где 𝑖 = 1, 𝑛, 𝑛– число наблюдений. Чем меньше величина 𝜀𝑖 = 𝑦𝑖 − 𝑦̂ 𝑥𝑖 , тем меньше величина остаточной дисперсии и влияние не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным. Считается, что число наблюдений должно в 7-8 раз превышать число рассчитываемых параметров при переменной 𝑥. Пример 1. В линейном уравнении регрессии 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 параметр b. Значит, число наблюдений должно быть не менее 7-8. при переменной x один Если вид функции усложняется, то требуется увеличение объема наблюдений, ибо каждый параметр при x должен рассчитываться хотя бы по 7 наблюдениям. Пример 2. Для квадратичной функции 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 + 𝑐 ∙ 𝑥 2 требуется объем информации уже не менее 14 наблюдений (при переменной x два параметра b и c). Линейная регрессия и корреляция. Смысл и оценка параметров Рассмотрим простейшую модель парной регрессии – линейную регрессию. Линейная регрессия находит широкое применение в эконометрике ввиду четкой экономической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 или 𝑦 = 𝑎 + 𝑏 ∙ 𝑥 + 𝜀 (3.1) Уравнение вида 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 позволяет по заданным значениям фактора x находить теоретические значения результативного признака y. Построение линейной регрессии сводится к оценке ее параметров – a и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических 𝑦 ̂𝑥 минимальна: 𝑛 2 2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂ 𝑥𝑖 ) = ∑𝑖=1 𝜀𝑖 → 𝑚𝑖𝑛, (3.2) где n- число наблюдений. Т.е. из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 3): Рис. 3. Линия регрессии с минимальной остаточной дисперсией. Как известно из курса математического анализа, чтобы найти минимум функции (3.2), надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю. Обозначим ∑𝑛𝑖=1 𝜀𝑖2 через S (a,b), тогда: 𝑆(𝑎, 𝑏) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖 )2 ; 𝜕𝑆 𝜕𝑎 {𝜕𝑆 𝜕𝑏 = −2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖 ) = 0, (3.3) = −2 ∑𝑛𝑖=1 𝑥(𝑦𝑖 − 𝑎 − 𝑏 ∙ 𝑥𝑖 ) = 0. После несложных преобразований, получим следующую нормальную систему линейных уравнений для оценки параметров a и b: 𝑎 ∙ 𝑛 + 𝑏 ∙ ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑖=1 𝑦𝑖 , { 𝑎 ∙ ∑𝑛𝑖=1 𝑥𝑖 + 𝑏 ∙ ∑𝑛𝑖=1 𝑥𝑖2 = ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖. (3.4) Решая систему уравнений (3.4), найдем искомые оценки параметров a и b. Можно воспользоваться следующими готовыми формулами, которые следуют непосредственно из решения системы (3.4): 𝑎 = 𝑦̅ − 𝑏 ∙ 𝑥̅ , 𝑏 = 𝑐𝑜𝑣(𝑥,𝑦) 𝜎𝑥2 , (3.5) где 𝑐𝑜𝑣(𝑥, 𝑦) = ̅̅̅̅̅̅ 𝑦 ∙ 𝑥 − 𝑦̅ ∙ 𝑥̅ – ковариация признаков x и y, признака x, 𝜎𝑥2 = ̅̅̅ 𝑥 2 − 𝑥̅ 2 – дисперсия 𝑛 𝑛 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 𝑖=1 1 1 1 1 𝑥̅ = ∑ 𝑥𝑖 , 𝑦̅ = ∑ 𝑦𝑖 , ̅̅̅̅̅̅ 𝑦 ∙ 𝑥 = ∑ 𝑦𝑖 ∙ 𝑥𝑖 , ̅̅̅ 𝑥 2 = ∑ 𝑥𝑖2 . 𝑛 𝑛 𝑛 𝑛 Ковариация – характеризует сопряженность вариации (изменение значений) двух признаков и представляет собой статистическую меру взаимодействия двух случайных переменных. При прямой связи между x и y ковариация будет величиной положительной, а при обратной отрицательной. Дисперсия – характеристика случайной величины, определяемая как математическое ожидание квадрата отклонения случайной величины от ее математического ожидания. Математическое ожидание – сумма произведений значений случайной величины на соответствующие вероятности. Параметр b называется линейным коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии b сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях. Формально a – значение y при x=0. Если признак-фактор x не может иметь нулевого значения, то вышеуказанная трактовка свободного члена a не имеет смысла, т.е. параметр a может не иметь экономического содержания. Пример 3. Уравнение парной линейной регрессии есть 𝑦 = −12,5 + 3,4𝑥 + 𝜀. Линейный коэффициент регрессии 𝑏 = 3,4 показывает, что с увеличением признак - фактора x на одну единицу среднее значение результативного признака y возрастет на 3,4. Лекция 3 (2ч) 1.1.3 Линейная модель парной регрессии 1. Расчет и интерпретация коэффициента корреляции для парной линейной регрессии. 2. Коэффициент детерминации и его характеристика. 3. Дисперсионный анализ: сущность и методика проведения. 4. Оценка значимости уравнения регрессии. Коэффициенты корреляции и детерминации Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции rxy , который можно рассчитать по следующим формулам: 𝜎 𝑟𝑥𝑦 = 𝑏 ∙ 𝜎𝑥 = 𝑐𝑜𝑣(𝑥,𝑦) 𝑦 𝜎𝑥∙𝜎𝑦 . (3.6) Значение линейного коэффициента корреляции находится в пределах: −1 ≤ 𝑟𝑥𝑦 ≤ 1. Чем ближе абсолютное значение линейного коэффициента корреляции, т.е. | 𝑟𝑥𝑦 |, к единице, тем сильнее линейная связь между факторами x и y (при 𝑟𝑥𝑦 = ±1 имеем строгую линейную функциональную зависимость). Близость | 𝑟𝑥𝑦 | к нулю еще не означает отсутствия связи между признаками. Это характеризует отсутствие линейной связи между x и y, но при другой (нелинейной) спецификации модели связь между признаками может оказаться достаточно тесной. Положительное значение линейного коэффициента корреляции свидетельствует о прямой связи между x и y, отрицательное об обратной связи. В таблице 1 приведена качественная характеристика связи между x и y в зависимости от значений линейного коэффициента связи. Таблица 1 Значение линейного коэффициента корреляции 𝒓𝒙𝒚 Характер связи между x и y от -0,3 до 0,3 практически отсутствует от -0.5 до -0.3 или от 0.3 до 0,5 слабая от -0,7 до -0,5 или от 0,5 до 0,7 умеренная от -0,9 до -0,7 или от 0,7 до 0,9 высокая от-1 до -0,9 или от 0.9 до 1 очень высокая Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции 𝜎 2 2 𝑟𝑥𝑦 = 𝑏2 ∙ 𝜎𝑥 2 , 𝑦 (3.7) называемый коэффициентом детерминации. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений фактических значений переменной y от своего среднего значения 𝑦̅ раскладывается на две части – «объясненную» и «необъясненную»: 2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂ ̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂ 𝑥𝑖 − 𝑦 𝑥𝑖 ) , сумма квадратов отклонений; (3.8) где ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 – общая ∑𝑛𝑖=1(𝑦̂ ̅)2 – сумма квадратов отклонений, объясненная регрессией (или факторная сумма 𝑥𝑖 − 𝑦 квадратов отклонений); 2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂ 𝑥𝑖 ) – необъясненная или остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов. Разделим левую и правую часть равенства (3.8) на n: ∑𝑛 ̅)2 𝑖=1(𝑦𝑖 −𝑦 𝑛 где ∑𝑛 ̅)2 𝑖=1(𝑦𝑖 −𝑦 𝑛 ∑𝑛 ̅)2 𝑥𝑖 −𝑦 𝑖=1(𝑦̂ 𝑛 = ∑𝑛 ̅)2 𝑥𝑖 −𝑦 𝑖=1(𝑦̂ 𝑛 + ̂2 ∑𝑛 𝑖=1(𝑦𝑖 −𝑦𝑥𝑖 ) 𝑛 , (3.9) = ̅̅̅ 𝑦 2 − 𝑦̅ 2 = 𝝈𝟐общ = 𝝈𝟐𝒚 - общая дисперсия результативного признака, = 𝝈𝟐объсн = 𝝈𝟐факт - объясненная или факторная дисперсия, ̂2 ∑𝑛 𝑖=1(𝑦𝑖 −𝑦𝑥𝑖 ) 𝑛 = 𝝈𝟐ост - остаточная дисперсия. Тогда равенство (3.9) можно переписать как 2 2 2 𝜎общ = 𝜎объсн + 𝜎ост. (3.10) 2 Разделим левую и правую часть полученного равенства (3.10) на 𝜎общ =𝜎𝑦2 2 𝜎общ 2 𝜎общ 1= = 2 𝜎объсн 2 𝜎общ 2 𝜎объсн 2 𝜎общ 𝜎2 + 𝜎 2ост , общ 𝜎2 + 𝜎 2ост или 1 = общ Можно доказать, что 𝑏2 ∙ 2 𝑟𝑥𝑦 = 2 𝜎объсн 𝜎𝑦2 2 𝜎объсн 𝜎𝑦2 𝜎𝑥2 𝜎𝑦 2 + = 2 𝜎ост 𝜎𝑦2 . 2 𝜎объсн 𝜎𝑦2 2 или 𝑟𝑥𝑦 = , т.е. коэффициент детерминации 2 𝜎объсн 2 𝜎общ . (3.11) Поэтому коэффициент детерминации характеризует долю дисперсии (вариации) результативного признака y, объясняемую регрессией, в общей дисперсии (вариации) результативного признака. 2 Так как 1 = 𝑟𝑥𝑦 + 2 𝜎ост 𝜎𝑦2 , то соответственно величина 2 1 − 𝑟𝑥𝑦 = 2 𝜎ост 𝜎𝑦2 характеризует долю дисперсии (вариации) y, вызванную влиянием остальных, не учтенных в модели, факторов. Оценка значимости уравнения линейной регрессии и корреляции и существенности его параметров После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров. Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Оценка значимости уравнения регрессии в целом производится на основе F - критерия Фишера. При этом выдвигается нулевая гипотеза Н0 , что коэффициент регрессии равен нулю, то есть b=0 и следовательно фактор x не оказывает влияния на результат y и модель не значима. Оценке значимости на основе F - критерия Фишера предшествует дисперсионный анализ. Напомним, что согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения 𝑦̅ раскладывается на две части – «объясненную» и «необъясненную»: 2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂ ̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂ 𝑥𝑖 − 𝑦 𝑥𝑖 ) , где ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 – общая сумма квадратов отклонений; ∑𝑛𝑖=1(𝑦̂ ̅)2 – сумма квадратов 𝑥𝑖 − 𝑦 отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); 2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂ 𝑥𝑖 ) – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов. Для того чтобы дисперсию привести к сравнимому виду определяют дисперсию на одну степень свободы. Схема дисперсионного анализа имеет вид, представленный в таблице 2 (n – число наблюдений, m – число параметров при переменной x). Таблица 2 Компоне нты дисперси и Число степеней свободы Сумма квадратов Дисперсия на одну степень свободы 𝑛 ∑(𝑦𝑖 − 𝑦̅)2 Общая 2 𝑆общ = n-1 𝑖=1 Факторн ая (объясне нная) Остаточн ая 𝑛 ∑(𝑦̂ ̅)2 𝑥𝑖 − 𝑦 m 2 𝑆факт = n-m-1 2 𝑆ост = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 𝑛−1 ∑𝑛𝑖=1(𝑦̂ ̅)2 𝑥𝑖 − 𝑦 𝑖=1 𝑛 2 ∑(𝑦𝑖 − 𝑦̂ 𝑥𝑖 ) 𝑖=1 𝑚 2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂ 𝑥𝑖 ) 𝑛−𝑚−1 Сопоставляя факторную (объясненную) и остаточную дисперсии в расчете на одну степень свободы, получим величину F- критерия Фишера: 𝐹= 2 𝑆факт(объясн) 2 𝑆ост (3.13) Фактическое значение F--критерия Фишера сравнивается с табличным значением 𝐹табл (𝛼; 𝑘1 ; 𝑘2 ) (см. приложение, таблица 10) при уровне значимости 𝛼 и степенях свободы 𝑘1 = 𝑚 и 𝑘2 = 𝑛 − −𝑚 − 1. При этом, если 𝐹 > 𝐹табл (фактическое значение F-критерия больше табличного), то гипотеза Н0 о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Модель считается значимой с вероятностью 1- 𝛼. Для парной линейной регрессии 𝑚 = 1, поэтому 𝐹= 2 𝑆факт 2 𝑆ост ∑𝑛 (𝑦̂ ̅)2 𝑥 −𝑦 𝑖 = ∑𝑛𝑖=1(𝑦 −𝑦 ̂)2 ∙ (𝑛 − 2). 𝑖=1 𝑖 𝑥𝑖 2 Величина F-критерия связана с коэффициентом детерминации 𝑟𝑥𝑦 и ее можно рассчитать по следующей формуле: 2 𝑟𝑥𝑦 𝐹 = 1−𝑟2 ∙ (𝑛 − 2). 𝑥𝑦 (3.14) Лекция 4(1ч) 1.1.4 Линейная модель парной регрессии 1. Оценка значимости параметров парной линейной регрессии. 2. Интервалы прогноза по линейному уравнению регрессии. 3. Средняя ошибка аппроксимации. Проверка значимости отдельных параметров линейной регрессии проводится по tкритерию Стьюдента путем проверки гипотезы о равенстве нулю каждого параметра. С этой целью по каждому из параметров определяются их стандартные ошибки: 𝑚𝑏 и 𝑚𝑎 . Стандартная ошибка коэффициента регрессии b определяется по формуле: 𝑚𝑏 = 2 ̂ ∑𝑛 (𝑦𝑖 −𝑦 𝑥 ) 2 где 𝑆ост = 𝑖=1𝑛−𝑚−1 𝑖 признака x. 𝑆ост 𝜎𝑥 √𝑛 , (3.15) - остаточная дисперсия на одну степень свободы, 𝜎𝑥2 = ̅̅̅ 𝑥 2 − 𝑥̅ 2 – дисперсия Для оценки существенности коэффициента регрессии b определяется фактическое значение t-критерия Стьюдента: 𝑏 𝑡𝑏 = 𝑚 , (3.16) 𝑏 которое затем сравнивается с табличным значением 𝑡табл (𝛼, 𝑘) (см.приложение, таблица 11) при определенном уровне значимости 𝛼 и числе степеней свободы 𝑘 = 𝑛 − 2. Если |𝑡𝑏 | > 𝑡табл , то параметр b не случайно отличен от нуля и признается значимым с вероятностью 1- 𝛼. Доверительный интервал для коэффициента регрессии b определяется как 𝑏 ± 𝑡табл ∙ 𝑚𝑏 . (3.17) Поскольку знак коэффициента регрессии указывает на рост результативного признака y при увеличении признака-фактора x (𝑏 > 0), уменьшение результативного признака при увеличении признака-фактора (𝑏 < 0), или его независимость от независимой переменной (𝑏 = 0), (см. рис. 4), то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов. Пример 4. −1,3 ≤ 𝑏 ≤ 1,2. Такого рода запись указывает, что истинное значение коэффициента регрессии b одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть. Рис.4 . Наклон линии регрессии в зависимости от значения параметра b. Стандартная ошибка параметра a определяется по формуле: 𝑚𝑎 = 𝑆ост ∙ 2 √∑𝑛 𝑖=1 𝑥𝑖 𝜎𝑥∙𝑛 . (3.18) Процедура оценивания существенности рассмотренной выше для коэффициента регрессии. Вычисляется данного параметра не отличается от 𝑎 t - критерий: 𝑡𝑎 = 𝑚 , его величина сравнивается с табличным значением 𝑎 𝑡табл (𝛼, 𝑘) при определенном уровне значимости 𝛼 и числе степеней свободы 𝑘 = 𝑛 − 2. Если |𝑡𝑎 | > 𝑡табл , то параметр a не случайно отличен от нуля и признается значимым с вероятностью 1-𝛼. Доверительный интервал для параметра a определяется как 𝑎 ± 𝑡табл ∙ 𝑚𝑎 . (3 .19) Значимость линейного коэффициента корреляции величины ошибки коэффициента корреляции 𝑚𝑟 : 1−𝑟2 𝑚𝑟 = √ 𝑛−2 . 𝒓𝒙𝒚 проверяется на основе (3.20) 𝑟 Фактическое значение t -критерия Стьюдента определяется как 𝑡𝑟 = 𝑚 и сравнивается с табличным значением 𝑡табл (𝛼, 𝑘) при определенном уровне значимости 𝛼 свободы 𝑘 = 𝑛 − 2. 𝑟 и числе степеней Если выполняется |𝑡𝑟 | > 𝑡табл , то значение линейного коэффициента корреляции 𝑟𝑥𝑦 признается значимым, то есть нулевая гипотеза, утверждающая равенство нулю линейного коэффициента корреляции, отвергается и делается вывод о том, что между исследуемыми переменными x и y есть тесная статистическая зависимость. Прогнозные расчеты по линейному уравнению парной регрессии В прогнозных расчетах по уравнению регрессии определяется предсказываемое 𝑦 ̂0 значение как точечный прогноз 𝑦 ̂𝑥 при 𝑥 = 𝑥0 , т.е. путем подстановки в уравнение регрессии 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥 соответствующего значения 𝑥0 . Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки 𝑦 ̂0 , т.е. 𝑚𝑦̂0 , и соответственно интервальной ̂: оценкой прогнозного значения 𝒚𝟎 ̂ 𝑦0 − 𝑚𝑦̂0 ∙ 𝑡табл ≤ 𝑦 ̂0 ≤ 𝑦 ̂0 + 𝑚𝑦̂0 ∙ 𝑡табл , (3.21) где 𝑚𝑦̂0 – средняя ошибка прогнозируемого индивидуального значения: 1 (𝑥0−𝑥̅ )2 𝑛 𝑛∙𝜎𝑥2 𝑚𝑦̂0 = 𝑆ост ∙ √1 + + . (3.22) Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации: 𝑦𝑖−𝑦̂ 1 𝑥 𝐴̅ = 𝑛 ∑𝑛𝑖=1 | 𝑦 𝑖 | ∙ 100%. 𝑖 (3.12) Средняя ошибка аппроксимации не должна превышать 8–10%. Пример построения модели парной линейной регрессии (пример можно не конспектировать, он является образцом выполнения практического задания) Пример 5. Были получены следующие данные (условные) о расходах на рекламу x (сот тыс. руб.) и объеме реализации продукции y (млн. руб.) по семи предприятиям за один год (таблица 3): Таблица 3 № предприятия 1 2 3 4 5 6 7 Расходы на рекламу x (сот тыс. руб.) 3 5 7 8 9 10 12 Объем реализации продукции y (млн. руб.) 15 21 28 30 34 38 40 Предположим, что связь между расходами предприятий на рекламу x и объемом реализации продукции y линейная. Для подтверждения нашего предположения построим поле корреляции (рис.5). Рис. 5. Поле корреляции По полю корреляции видно, что точки выстраиваются в некоторую прямую линию. Поэтому будем строить модель парной линейной регрессии 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥. Для удобства дальнейших вычислений составим расчетную таблицу 4. 1) Заполним столбцы 2-6 таблицы 4. Рассчитаем параметры линейного уравнения парной регрессии 𝑦 ̂𝑥 = 𝑎 + 𝑏 ∙ 𝑥. Для этого воспользуемся формулами (3.5): 𝑏= 𝑐𝑜𝑣(𝑥,𝑦) 𝜎𝑥2 = 𝑦∙𝑥 ̅̅̅̅̅−𝑦̅∙𝑥̅ ̅̅̅̅ 𝑥 2−𝑥̅ 2 = 250,29−29.43∙7,71 67,43−(7,71)2 = 23,3847 7,9859 = 2,93; (𝜎𝑥2 = 7,9859 ≅ 7,99, 𝜎𝑥 = 2,83 − заполним во 2 − ом столбце две последние ячейки); 𝑎 = 𝑦̅ − 𝑏 ∙ 𝑥̅ = 29,43 − 2,93 ∙ 7,71 = 6,84. Получим следующее линейное уравнение парной регрессии: 𝑦 ̂𝑥 = 6,84 + 2,93 ∙ 𝑥. Т.е. с увеличением затрат на рекламу на 1 единицу, то есть на 100 000 руб. реализации продукции возрастает на 2,93 млн. руб. объем 3,13 1,32 -0,01 29,44 935,71 67,4 3 7,99 𝜎2 69,59 2,83 𝜎 8,34 250,29 7,71 Среднее значение 29,43 21,9 9,22 -0,1 206,1 6550 472 1752 54 Итого 206 5 4 -2 42 1600 144 480 12 7 40 4,9 3,46 1,86 36,14 1444 100 380 10 6 38 2,3 0,62 0,79 33,21 1156 81 306 9 5 34 0,9 0,08 -0,28 30,28 900 64 240 30 8 7 3 4 2,3 0,42 0,65 27,35 784 49 5 2 21 196 -0,49 21,49 441 25 105 9 45 15 3 1 28 2,3 0,24 4,2 0,4 -0,63 15,63 225 10 9 8 4 3 2 1 x y 𝑥∙𝑦 5 𝑥2 6 𝑦2 7 ̂ 𝑦𝑥 𝑦−̂ 𝑦𝑥 (𝑦 − 𝑦̂𝑥 )2 𝐴𝑖 , % Таблица 4 2) Уравнение линейной регрессии всегда дополняется показателем тесноты связи – линейным коэффициентом корреляции 𝑟𝑥𝑦 . Рассчитаем сначала общую дисперсию результативного признака 𝜎𝑦2 : 𝜎𝑦2 = ̅̅̅ 𝑦 2 − 𝑦̅ 2 = 935,71 − (29,43)2 = 69,59 и, следовательно, 𝜎𝑦 = 8,34 (заполним в 3-ем столбце две последние ячейки); 𝜎 2,83 𝑟𝑥𝑦 = 𝑏 ∙ 𝜎𝑥 = 2,93 ∙ 8,34 = 0,994. 𝑦 Близость линейного коэффициента корреляции 𝑟𝑥𝑦 к 1 указывает на очень высокую линейную связь между признаками (см. таблицу 1). 2 Коэффициент детерминации 𝑟𝑥𝑦 = 0,988 показывает, что уравнением регрессии объясняется 98,8% дисперсии (вариации) результативного признака y, а на долю прочих факторов приходится лишь 1,2%. 2 Другими словами, коэффициент детерминации 𝑟𝑥𝑦 = 0,988 показывает, что на 98,8% изменение объема реализации продукции объясняется расходами на рекламу, а на долю прочих факторов, влияющих на объем реализации продукции, приходится 1,2%. 3) Оценим качество уравнения регрессии в целом с помощью F-критерия Фишера. Сосчитаем фактическое значение F-критерия по формуле (3.14): 2 𝑟𝑥𝑦 0,988 𝐹 = 1−𝑟2 ∙ (𝑛 − 2) = 1−0,988 ∙ (7 − 2) = 411,67. 𝑥𝑦 Табличное значение 𝐹табл = 6,61 (см. приложение, таблица 10) (число степеней свободы 𝑘1 = 1, 𝑘2 = 𝑛 − 2 = 5; уровень значимости критерия 𝛼 = 0,05). Так как 𝐹 > 𝐹табл , то с вероятностью 1-0,05=0,95 признается статистическая значимость уравнения в целом . 4) Заполним 7 ,8,9,10 столбцы таблицы 4. Например, так как уравнение линейной регрессии: наблюдения (𝑥1 , 𝑦1 ) получим: 𝑦 ̂𝑥 = 6,84 + 2,93 ∙ 𝑥, то для первого 𝑦̂ 𝑥1 = 6,84 + 2,93 ∙ 𝑥1 = 6,84 + 2,93 ∙ 3 = 15,63; 𝑦1 − 𝑦̂ 𝑥1 = 15 − 15,63 = −0,63; 2 2 (𝑦1 − 𝑦̂ 𝑥1 ) = (−0,63) = 0,4; 𝐴1 = | 𝑦1−𝑦̂ 𝑥1 𝑦1 | ∙ 100% = | −0,63 15 | ∙ 100% = 4,2%. Аналогично выполним процедуру расчета для оставшихся наблюдений. 5) Среднюю ошибку аппроксимации находим с помощью формулы (3.12): 10 столбца таблицы 4 и 𝑦𝑖−𝑦̂ 1 𝑥 𝐴̅ = 𝑛 ∑𝑛𝑖=1 | 𝑦 𝑖 | ∙ 100%. 𝑖 𝐴̅ = 3,13%. Значит, качество модели оценивается, как хорошее, так как не превышает 10%. 6) Для оценки статистической значимости параметров линейной регрессии и коэффициента корреляции рассчитаем t-критерий Стьюдента и доверительные интервалы каждого из показателей. Рассчитаем случайные ошибки параметров линейной регрессии и коэффициента корреляции: 2 𝑆ост = ̂2 ∑𝑛 𝑖=1(𝑦𝑖 −𝑦𝑥𝑖 ) 𝑛−2 𝑆 9,22 = 7−2 = 1,844; 𝑆ост = 1,36; 1,36 𝑚𝑏 =𝜎 ост = 2,83∙√7 = 0,182; ∙√𝑛 𝑥 √∑𝑛𝑖=1 𝑥𝑖 2 √1,844 ∙ 472 𝑚𝑎 = 𝑆ост ∙ = = 1,49; 𝜎𝑥 ∙ 𝑛 2,83 ∙ 7 2 1 − 𝑟𝑥𝑦 1 − 0,988 𝑚𝑟 = √ =√ = 0,049. 𝑛−2 5 Фактические значения t-статистик: 𝑏 2,93 𝑎 6,84 𝑡𝑏 = 𝑚 = 0,182 = 16,01; 𝑡𝑎 = 𝑚 = 1,49 = 4,59; 𝑏 𝑡𝑟 = 𝑟 𝑚𝑟 𝑎 = 0,994 0,049 = 20,286. Табличное значение t-критерия Стьюдента при 𝛼 = 0,05 (уровень значимости критерия) 𝑘 = 𝑛 − 2 = 5 (число степеней свободы) есть 𝑡табл = 2,5706 (см. приложение, таблица 11). Так как |𝑡𝑏 | > 𝑡табл , |𝑡𝑎 | > 𝑡табл , |𝑡𝑟 | > 𝑡табл , то с вероятностью 1-0,05=0,95 признаем статистическую значимость параметров регрессии и коэффициента корреляции. Рассчитаем доверительные интервалы для параметров регрессии a и b: (𝑏 − 𝑡табл ∙ 𝑚𝑏 ; 𝑏 + 𝑡табл ∙ 𝑚𝑏 ); (𝑎 − 𝑡табл ∙ 𝑚𝑎 ; 𝑎 + 𝑡табл ∙ 𝑚𝑎 ). Получим, что 𝑎 ∈ (6,84 − 2,5706 ∙ 1,49; 6,84 + 2,5706 ∙ 1,49); 𝑎 ∈ (3,01; 10,67); 𝑏 ∈ (2,93 − 2,5706 ∙ 0,182; 2,93 + 2,5706 ∙ 0,182); 𝑏 ∈ (2,462; 3,398). 7) Найдем прогнозное значение результативного фактора 𝑦 ̂0 при значении признака фактора, составляющем 120% от среднего уровня 𝑥0 = 1,2 ∙ 𝑥̅ = 1,2 ∙ 7,71 = 9,252, то есть найдем объем реализации продукции предприятием при расходах на рекламу 9,252 сот тыс. руб. 𝑦 ̂0 = 6,84 + 2,93 ∙ 9,252 = 33,94. Значит, если расходы на рекламу составят 925 200 руб., то объем реализации продукции будет 33, 94 млн. руб. Найдем доверительный интервал прогноза. Вычислим сначала ошибку прогноза: 𝑚𝑦̂0 = 𝑆ост ∙ √1 + 1 (𝑥0 + 𝑥̅ )2 1 (9,252 − 7,71)2 √ + == 1,844 ∙ (1 + + ) = 1,48, 𝑛 7 7 ∙ 7,99 𝑛 ∙ 𝜎𝑥2 а доверительный интервал ̂ 𝑦0 − 𝑚𝑦̂0 ∙ 𝑡табл ≤ 𝑦 ̂0 ≤ 𝑦 ̂0 + 𝑚𝑦̂0 ∙ 𝑡табл ; 33,94 − 1,48 ∙ 2,5706 ≤ 𝑦 ̂0 ≤ 33,94 + 1,48 ∙ 2,5706; 30,136 ≤ 𝑦 ̂0 ≤ 37,744. Т.е. прогноз является статистически надежным Теперь в одной системе координат отложим исходные данные и построим линию регрессии (рис.6). Рис.6. Исходные данные примера 5 и график функции 3. 6 Пример решения типовой задачи в MS Excel 𝑦 ̂𝑥 = 6,84 + 2,93 ∙ 𝑥. С помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии. Если в меню Данные еще нет команды Анализ данных, то необходимо сделать следующее. В параметрах Excel выбираем Надстройки → Пакет анализа→ОК. (рис.7) Рис.7. Установка команды Анализ данных Далее следуем по плану: 1. Вносим исходные данные (рис.8). Рис. 8. Внесение исходных данных 2. Выбираем Данные→Анализ данных→Регрессия. 3. Заполняем диалоговое окно ввода данных и параметров вывода (рис. 9). Рис.9. Заполнение диалогового окна ввода данных и параметров вывода. Входной интервал Y здесь - диапазон, содержащий данные результативного признака; Входной интервал X здесь - диапазон, содержащий данные признак - фактора; Метки - «флажок», который указывает, содержит ли первая строка названия столбцов; Константа-ноль - «флажок», указывающий на наличие или отсутствие свободного члена в уравнении Новый рабочий лист – можно указать произвольное имя нового листа (или не указывать, тогда результаты выводятся на новый рабочий лист). Получаем следующие результаты для примера 5 рассмотренного выше (таблица 5): Таблица 5 ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,990506273 R-квадрат 0,981102676 Нормированный R-квадрат 0,977323211 Стандартная ошибка 1,357681468 Наблюдения 7 Дисперсионный анализ df SS MS F Регрессия 1 478,498 478,498 Остаток 5 9,21649 1,8433 Итого 6 487,714 Коэффициенты 259,59 Стандартная ошибка t-статистика Y-пересечение 6,8 1,49745 4,51626 Переменная X 1 2,9 0,18236 16,1117 Нижние 95% Верхние 95% 2,913562657 10,61221054 2,469371447 3,406917213 ВЫВОД ОСТАТКА Предсказанное Y Остатки Наблюдение 1 16 -0,5773 2 21 -0,4536 3 27 0,6701 4 30 -0,268 5 33 0,79381 6 36 1,85567 7 42 -2,0206 Y Переменная X 1 График подбора 60 40 20 Y 3 5 7 8 9 10 12 Предсказанное Y Переменная X 1 Сравним результаты, полученные самостоятельно в примере 5 и с помощью MS Excel (таблица 6). Таблица 6 Результаты, полученные самостоятельно Уравнение регрессии Коэффициент корреляции Результаты, полученные с помощью MS Excel. 𝑦 ̂𝑥 = 6,84 + 2,93 ∙ 𝑥 𝑦 ̂𝑥 = 6,8 + 2,9 ∙ 𝑥 𝑟𝑥𝑦 = 0,994 𝑟𝑥𝑦 = 0,991 Коэффициент детерминации 2 𝑟𝑥𝑦 = 0,988 2 𝑟𝑥𝑦 = 0,981 Фактическое значение F – критерия Фишера 𝐹 = 411,67 𝐹 = 259,59 Остаточная дисперсия на одну 2 𝑆ост = 1,844 2 𝑆ост = 1,843 степень свободы Корень квадратный из остаточной дисперсии (стандартная ошибка) 𝑆ост = 1,36 𝑆ост = 1,358 Стандартные ошибки параметров регрессии 𝑚𝑏 = 0,182; 𝑚𝑏 = 0,182; 𝑚𝑎 = 1,49 𝑚𝑎 = 1,497 для Фактическое значение t-критерия Стьюдента Доверительные интервалы параметров регрессии 𝑡𝑏 = 16,01; 𝑡𝑎 = 4,59 𝑡𝑏 = 16,112; 𝑡𝑎 = 4,516 𝑎 ∈ (3,01; 10,67); 𝑎 ∈ (2,914; 10,612); 𝑏 ∈ (2,462; 3,398). 𝑏 ∈ (2,469; 3,407). Приложение Математико-статистические таблицы Таблица значений F -критерия Фишера при уровне значимости 𝜶 = 𝟎, 𝟎𝟓 k1 1 2 3 4 5 6 1 2 3 4 5 6 7 1 161,5 199,5 215,7 224,6 230,2 233,9 2 18,51 19,00 19,16 19,25 19,30 19,33 3 10,13 9,55 9,28 9,12 9,01 8,94 4 7,71 6,94 6,59 6,39 6,26 6,16 5 6,61 5,79 5,41 5,19 5,05 4,95 6 5,99 5,14 4,76 4,53 4,39 4,28 7 5,59 4,74 4,35 4,12 3,97 3,87 8 5,32 4,46 4,07 3,84 3,69 3,58 k2 Таблица 10 9 5,12 4,26 3,86 3,63 3,48 3,37 10 4,96 4,10 3,71 3,48 3,33 3,22 11 4,84 3,98 3,59 3,36 3,20 3,09 12 4,75 3,88 3,49 3,26 3,11 3,00 13 4,67 3,80 3,41 3,18 3,02 2,92 14 4,60 3,74 3,34 3,11 2,96 2,85 15 4,54 3,68 3,29 3,06 2,90 2,79 16 4,49 3,63 3,24 3,01 2,85 2,74 17 4,45 3,59 3,20 2,96 2,81 2,70 18 4,41 3,55 3,16 2,93 2,77 2,66 19 4,38 3,52 3,13 2,90 2,74 2,63 20 4,35 3,49 3,10 2,87 2,71 2,60 Критические значения t - критерия Стьюдента при уровне значимости 0,10, 0,05, 0,01 (двухсторонний) Таблица 11  Число степеней свободы d.f. 00,10 0,05 0,01 1 6,3138 12,706 63,657 2 2,9200 4,3027 9,9248 3 2,3534 3,1825 5,8409 4 2,1318 2,7764 4,5041 5 2,0150 2,5706 4,0321 6 1,9432 2,4469 3,7074 7 1,8946 2,3646 3,4995 8 1,8595 2,3060 3,3554 9 1,8331 2,2622 3,2498 10 1,8125 2,2281 3,1693 11 1,7959 2,2010 3,1058 12 1,7823 2,1788 3,0545 13 1,7709 2,1604 3,0123 14 1,7613 2,1448 2,9768 15 1,7530 2,1315 2,9467 16 1,7459 2,1199 2,9208 17 1,7396 2,1098 2,8982
«Эконометрическое моделирование» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач

Тебе могут подойти лекции

Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot