Парная линейная регрессия

👀 1514 просмотров
📌 1438 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Парная линейная регрессия», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Парная линейная регрессия», Word формат

Тема 1. Парная линейная регрессия Цель и задачи Цель контента темы 1 — дать представление об эконометрическом моделировании, познакомить с моделью парной линейной регрессии. Задачи контента темы 1: • Ввести понятие эконометрической модели, сформулировать основные этапы эконометрического моделирования; • Ввести понятие парной линейной регрессии, дать спецификацию этой модели; • Познакомить с методом наименьших квадратов (МНК), вывести оценки параметров парной линейной регрессии по МНК, дать им экономическую интерпретацию; • Сформулировать основные предположения регрессионного анализа и статистические свойства оценок; • Обсудить критерии качества парной регрессии, сформулировать критерии проверки статистической значимости (оценок по отдельности и регрессии в целом), построить доверительные интервалы и прогнозы с помощью парной линейной регрессии. Оглавление. § 1.1. Введение. § 1.2. Основные элементы эконометрической модели. § 1.3 Спецификация модели парной линейной регрессии. § 1.4 Оценка параметров. Метод наименьших квадратов. Экономическая интерпретация. § 1.5. Основные предположения регрессионного анализа. § 1.6. Статистические свойства оценок. Теорема Гаусса-Маркова. § 1.7. Показатели качества регрессии. Коэффициент детерминации. Коэффициент парной корреляции. § 1.8. Проверка статистической значимости в парной линейной регрессии. § 1.9. Доверительные интервалы. § 1.1 Введение Математические модели широко используются в экономике, в финансах, в общественных науках. Обычно модели строятся и верифицируются на основе имеющихся наблюдений изучаемого показателя и, так называемых, объясняющих факторов. Язык экономики все больше становится математическим, а саму экономику все чаще упоминают как одну из наиболее математизированных наук. В течение 1 последних десятилетий математические и, в частности, статистические методы в экономике стремительно развиваются. Свидетельством признания эконометрики является присуждение за наиболее выдающиеся работы в этой области Нобелевских премий по экономике: Р. Фришу и Я. Тинбергу (1969) за разработку математических методов анализа экономических процессов, Л. Клейну (1980) за создание эконометрических моделей и их применение к анализу экономических колебаний и экономической политике, Т. Хаавельмо (1989) за работы в области вероятностных основ эконометрики и анализ одновременных экономических структур, Дж. Хекману и Д. Макфаддену (2000) за развитие методов анализа селективных выборок и моделей дискретного выбора. Вряд ли возможно в настоящее время дать единое общепринятое определение эконометрики. Термин «эконометрика» был предложен в 1926 г. норвежским ученым Р. Фришем и дословно означает «эконометрические измерения». Более узкое значение этого термина подразумевает набор математико-статистических методов, используемых в приложениях математики в экономике. Ниже приводятся несколько определений известных ученых — экономистов, математиков, позволяющих получить представление о содержании эконометрики. «Эконометрика — это раздел математики, занимающийся разработкой и применением статистических методов для измерений взаимосвязей между экономическими переменными» (С. Фишер). «Основная задача эконометрики — наполнить эмпирическим содержанием априорные экономические рассуждения» (Л. Клейн). «Цель эконометрики — эмпирический вывод экономических законов» (Э. Маленво). «Эконометрика есть единство трех составляющих — статистики, экономической теории и математики» (Р. Фриш). Не будет преувеличением сказать, что эконометрика объединяет совокупность методов и моделей, позволяющих на базе экономической теории, экономической статистики и математико-статистического инструментария придавать количественные выражения качественным зависимостям. Успешное освоение и применение эконометрических методов анализа экономических явлений требует знания основных разделов теории вероятностей и, в особенности, математической статистики (см., например, вопросы для самопроверки №№1–9). Часто говорят, что современное экономическое образование основывается на макроэкономике, микроэкономике и эконометрике. Можно указать следующие взаимосвязи между этими элементами: • Основные результаты экономической теории носят качественный характер, а эконометрика вносит в них эмпирическое содержание; 2 • Математическая экономика выражает экономические законы в виде математических соотношений, а эконометрика осуществляет опытную проверку этих законов; • Экономическая статистика дает информационное обеспечение исследуемых явлений в виде исходных статистических данных и экономических показателей, а эконометрика проводит анализ количественных взаимосвязей между этими показателями. Несмотря на то, что многие эконометрические результаты являются, по сути и форме, математическими (имеют, например, вид теорем), именно экономическая теория определяет постановку задач и исходные предпосылки, а полученные результаты представляют интерес лишь тогда, когда удается их экономическая интерпретация. § 1.2. Основные элементы эконометрической модели В рамках эконометрического анализа обычно ставится задача определения некоторой величины (показателя), значение которой формируется под воздействием некоторых факторов. Так, цена на подержанный автомобиль может зависеть от года выпуска, пробега, мощности двигателя и т.п. Такие показатели, как например цена, обычно называют зависимыми (объясняемыми) переменными, а факторы, от которых они зависят — объясняющими переменными (факторами). Нас обычно интересует среднее или ожидаемое значение зависимой переменной при заданных значениях объясняющих переменных. Конкретное значение зависимой переменной (наблюдаемое значение) обычно зависит и от случайных явлений. В примере с автомобилем случайным может быть состоянием рынка, характер продавца и т.д. Для экономики типична такая форма связи между переменными величинами, когда каждому значению одной переменной соответствует не какое-то определенное значение другой переменной, а множество возможных значений (более точно — некоторое условное распределение) другой переменной. Такая зависимость называется статистической (стохастической, вероятностной). Стохастическая форма связи обуславливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных обычно сопровождается некоторыми случайными ошибками. Таким образом, зависимая переменная является случайной величиной, имеющей при заданных значениях факторов некоторое распределение. В любой эконометрической модели зависимая переменная обычно разбивается на две части: объясненную и случайную. В общем виде задача эконометрического моделирования состоит в следующем: 3 На основании экспериментальных данных определить (оценить) объясненную часть зависимой переменной и, рассматривая случайную составляющую как случайную величину, получить оценки параметров ее распределения. Обозначим зависимую переменную через y , ее объясненную часть, зависящую от значений объясняющих переменных X = ( x1 , x2 ,K , xk ) через f ( X) (т.е. объясненная часть представляет собой функцию от значений факторов), а случайную составляющую (называемую также возмущением или ошибкой) — через ε . Тогда в общем виде эконометрическая модель имеет вид: y = f ( X) + ε . (1.2.1) В качестве объясненной части f ( X) случайной величины y естественно выбрать ее среднее (ожидаемое) значение при заданных значениях X — иными словами, условное математическое ожидание EX ( y ) , полученное при данном значении объясняющих переменных X = ( x1 , x2 ,K , xk ) : EX ( y ) = f ( X ) . (1.2.2) Это уравнение (зависимость) называется теоретическим уравнением регрессии, функция f ( X) — теоретической функцией регрессии, а уравнение y = EX ( y ) + ε , (1.2.3) уравнением регрессионной модели. В силу своего определения регрессионная модель обладает особыми свойствами. Так, взяв от обеих частей равенства математическое ожидание при заданном наборе значений объясняющих переменных, получаем, что EX (ε ) = 0 , а значит, что и E (ε ) = 0 — т.е. в регрессионной модели среднее значений случайной ошибки равно нулю. Это свойство оказывается весьма существенным условием, влияющим на статистические свойства получаемых результатов. Исходной точкой любого эконометрического исследования является выборка наблюдений зависимой переменной y и объясняющих переменных x j , j = 1,K k . Такие выборки представляют собой наборы значений ( xi1 , xi 2 ,K , xik , yi ) , где i = 1,K, n — номер наблюдения, k — количество объясняющих переменных (факторов). Обычно выделяются два типа выборочных данных: • Пространственная выборка (cross-sectional data) — набор экономических показателей, полученных в некоторый момент времени (или в относительно небольшом промежутке времени), т.е. набор независимых выборочных данных из некоторой генеральной совокупности (так как практически независимость 4 случайных величин проверить трудно, то обычно за независимые принимаются величины, не связанные причинно); • Временной (динамический) ряд (time-series data) — выборка, в которой важны не только сами наблюдаемые значения, но и порядок их следования друг за другом. Чаще всего данные представляют собой наблюдения одной и той же величины в последовательные моменты времени. Необходимо, однако, заметить, что такое разделение во многом условно и определяется целью и содержанием исследования. После того, как определен набор объясняющих переменных, получены эмпирические (выборочные) данные, для точного описания уравнения регрессии необходимо найти объясненную часть зависимой переменной y , обозначенную нами через f ( X) (как указывалось выше, представляющую собой условное математическое ожидание). Однако на практике точное ее определение, как правило, невозможно, поэтому можно говорить только об оценке (приближенном выражении, аппроксимации) теоретической функции регрессии по выборке. Стандартная процедура оценивания состоит в следующем: Шаг 1. Выбирается вид функции f ( X) (точнее — параметрическое семейство, к которому принадлежит искомая функция, рассматриваемая как функция от значений объясняющих переменных X ); Шаг 2. С помощью методов математической статистики находятся оценки параметров этой функции. Важно иметь в виду, что в общем случае не существует формальных способов выбора наилучшего семейства функций f ( X) на шаге 1. Очень часто выбирается семейство линейных функций. Выбор линейной модели, кроме вполне очевидного преимущества — простоты, имеет ряд существенных математических оснований, оправдывающих этот выбор. В целом формулировку исходных предпосылок и ограничений, выбор структуры уравнения модели, представление в математической форме обнаруженных взаимосвязей и соотношений, установление состава объясняющих переменных называют спецификацией модели. От того, насколько удачно решена проблема спецификации, в значительной степени зависит успех всего процесса эконометрического моделирования. Оценку теоретической функции регрессии, построенную по эм) пирическим данным, обозначим через y . Уравнение ) ) y = f ( X, B) , (1.2.4) ) полученное по выборке, где y — оценка условной средней переменной y при значениях переменных X = ( x1 , x2 ,K , xk ) , B — вектор пара) метров функции f (которая является аппроксимацией функции f ), 5 называется выборочным (эмпирическим) уравнением регрессии (модельной функцией регрессии). Итак, можно выделить несколько основных этапов эконометрического моделирования и анализа: Этап 1. Постановочный — формируется цель исследования (анализ экономического объекта, прогноз его показателей, имитация развития, выработка управленческих решений), теоретическое обоснование выбора переменных; Этап 2. Априорный — анализ сущности изучаемого объекта, формирование и формализация имеющейся информации; Этап 3. Параметризация — выбор вида модели (вида функции f ( X) ), анализ взаимосвязей и спецификация модели; Этап 4. Информационный — сбор необходимой статистической информации — наблюдаемых значений переменных; Этап 5. Идентификация модели — статистический анализ модели и оценка ее параметров; Этап 6. Верификация модели — проверка адекватности, статистической значимости модели. § 1.3. Спецификация модели парной линейной регрессии В случае парной регрессии рассматривается один объясняющий фактор: через y обозначим изучаемый эконометрический показатель; через x — объясняющий фактор. Эконометрическая модель, приводящая к парной регрессии, имеет следующий вид y = f ( x) + ε , (1.3.1) где f ( x) — неизвестная функциональная зависимость (теоретическая регрессия); ε — возмущение, случайное слагаемое, представляющее собой совокупное действие не включенных в модель факторов, погрешностей. Основная задача эконометрического моделирования — построение по выборке эмпирической модели, выборочной парной регрессии ) f ( x) , являющейся оценкой теоретической регрессии (функции f ( x) ): ) ) y = f ( x) , (1.3.2) ) здесь f ( x) — эмпирическая (выборочная) регрессия, описывающая усредненную по x зависимость между изучаемым показателем и объясняющим фактором. После построения выборочной регрессии обычно производится верификация модели — проверка статистической значимости и адекватности построенной парной регрессии имеющимся эмпирическим данным. 6 Экспериментальная основа построения парной эмпирической регрессии — двумерная выборка: ( x1 , y1 ),K,( xn , yn ) , где n — объем выборки (объем массива экспериментальных данных). Основная задача спецификации модели — выбор вида функциональной зависимости. В случае парной регрессии обычно рассматриваются функциональные зависимости следующего вида f ( x) = α + β x — линейная; (1.3.3) f ( x ) = α + β1 x + β 2 x 2 — параболическая; (1.3.4) β f ( x) = α + — гиперболическая; (1.3.5) x f ( x ) = α e β x — показательная; (1.3.6) f ( x) = α x β — степенная, (1.3.7) а так же некоторые другие. Заметим, что функциональные зависимости 1.3.3, 1.3.4 и 1.3.5 линейны по своим параметрам α и β . Основные методы выбора функциональной зависимости f ( x) : 1) Геометрический; 2) Эмпирический; 3) Аналитический. Геометрический метод выбора функциональной зависимости сводится к следующему. На координатной плоскости Oxy наносятся 6 5 Y 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 12 X Рис. 1.3.1 точки ( xi , yi ), i = 1,K, n, , соответствующие выборке. Полученное графическое изображение называется полем корреляции (диаграммой рассеяния). Исходя из получившейся конфигурации точек, выбирается наиболее подходящий вид параметрической функциональной зависимости f ( x) . На рисунке 1.3.1 приведен пример поля корреляции для некоторой выборки объемом 11 наблюдений (каждому наблюдению со7 ответствует одна точка) с графиками двух функциональных зависимостей — линейной функции и параболы. Эмпирический метод состоит в следующем. Выбирается некоторая параметрическая функциональная зависимость f ( x) (см., напри) мер, 1.3.3–1.3.7). Для построения по выборке оценки f ( x) этой зависимости чаще всего используется метод наименьших квадратов (МНК). Согласно методу наименьших квадратов значения параметров ) функции f ( x) (будем обозначать их через a , b ) выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений yi ) от значений f ( xi ) была минимальной n ) 2 y − f x  → min , ( ) (1.3.8) ∑ i i a ,b i =1 ( ) минимум ищется по параметрам a b , которые входят в зависимость ) f ( x) . Найденные значения параметров, которые минимизируют указанную сумму квадратов разностей, называются оценками неизвестных параметров регрессии по методу наименьших квадратов (оцен) ) ) ) ками МНК). Выборочная регрессия y = f ( x) (или yi = f ( xi ), i = 1,K, n ), в которую подставлены найденные значения, уже не содержит неизвестных параметров и является оценкой теоретической регрессии. ) Именно эту зависимость f ( x) будем рассматривать как эмпирическую усредненную зависимость изучаемого показателя от объясняющего фактора. После нахождения эмпирического уравнения регрессии вычис) ) ) ляются значения yi = f ( xi ) и остатки ei = yi − yi , i = 1, n . По величине n ) остаточной суммы квадратов ∑ ( yi − yi )2 можно судить о качестве соi =1 ) ответствия эмпирической функции f ( x) имеющимся в наличии статистическим наблюдениям. Перебирая разные функциональные зависимости и, каждый раз, действуя подобным образом можно практически подобрать наиболее подходящую функцию для описания имеющихся данных. Аналитический метод сводится к попытке выяснения содержательного смысла зависимости изучаемого показателя от объясняющего фактора и последующего выбора на этой основе соответствующей функциональной зависимости. Так, если y — расходы фирмы, x — объем выпущенной продукции за месяц, то нетрудно получить следующую модель зависимости расходов от объема выпущенной продукции: 8 y =α + β x+ε , где α — условно-постоянные расходы, β x — условно-переменные расходы. В практике эконометрического анализа часто используют линейную парную регрессию. В модели парной линейной регрессии зависимость 1.3.1 между переменными представляется в виде y =α + β x +ε , (1.3.9) т.е. теоретическая регрессия имеет вид 1.3.3. На основе выборочных наблюдений оценка теоретической рег) рессии — выборочная (эмпирическая) регрессия y строится в виде: ) y = a + bx , (1.3.10) где a , b являются оценками параметров α , β теоретической регрессии. § 1.4. Оценка параметров. Метод наименьших квадратов. Экономическая интерпретация Рассматривается модель парной линейной регрессии yi = α + β xi + ε i , i = 1, n . На основе эмпирических наблюдений построим оценку теоретической регрессии — найдем выборочное уравнение регрессии ) yi = a + bxi , i = 1, n . Оценки a , b параметров α , β определяются по методу наименьших квадратов из соотношения: n 2 ) 2 n ( y − y → min , (1.4.1) ∑ i i ) = ∑ ( yi − (a + bxi ) )  a ,b i =1 i =1 т.е. a , b выбираются таким образом, чтобы минимизировать сумму квадратов отклонений выборочных (эмпирических) значений показа) теля yi от расчетных yi . Вычисляя производные по параметрам a , b и приравнивая их к нулю, приходим к следующей системе из двух уравнений (т.н. система нормальных уравнений): n n  an + b x = yi ∑ ∑ i   i =1 i =1 . (1.4.2)  n n n a x + b x2 = x y ∑ ∑ i i i i  ∑ i =1 i =1 i =1 Решение этой системы уравнений называется оценкой неизвестных параметров по методу наименьших квадратов, его можно найти по формулам: xy − x y (1.4.3) b= 2 , a = y − bx , x − x2 где 9 1 n 1 n 1 n 1 n 2 2 = = = y , x x , xy x y , x ∑ i ∑i ∑ii ∑ xi . n i =1 n i =1 n i=1 n i=1 Таким образом, парная эмпирическая линейная регрессия имеет y= вид: ) y = a + bx = y + b( x − x ) , (1.4.4) где коэффициенты a и b определяются по формуле 1.4.3. Коэффициенту b при объясняющем факторе x в парной линейной регрессии можно дать естественную экономическую интерпретацию. Коэффициент b показывает, на какую величину изменяется в среднем изучаемый эконометрический показатель при увеличении объясняющего фактора на одну единицу. Нетрудно найти значения показателя, рассчитанные по выборочной линейной регрессии для тех значений объясняющего фактора, которые содержатся в выборке: ) yi = a + bxi = y + b( xi − x ) , i = 1,K, n . (1.4.5) Особое значение для проверки статистической значимости парной линейной регрессии имеют остатки (разности между истинными значениями показателя и значениями, вычисленными по уравнению линейной регрессии): ) ei = yi − yi , i = 1,K, n . (1.4.6) § 1.5. Основные предположения регрессионного анализа Основные предположения регрессионного анализа относятся к случайной компоненте ε и имеют решающее значение для правильного и обоснованного применения регрессионного анализа в эконометрических исследованиях. В классической модели регрессионного анализа предполагаются выполненными следующие предположения (условия Гаусса-Маркова): Условие 1.5.1. Величины ε i являются случайными. Условие 1.5.2. Математическое ожидание возмущений равно нулю: E (ε i ) = 0 . Условие 1.5.3. Возмущения ε i и ε j некоррелированы: E (ε iε j ) = 0 , i≠ j. Условие 1.5.4. Дисперсия возмущения ε i постоянна для каждого i : D(ε i ) = σ 2 . Это условие называется условием гомоскедастичности. Нарушение этого условия называется гетероскедастичностью. Условие 1.5.5. Величины ε i взаимно независимы со значениями объясняющих переменных. Здесь, во всех условиях i = 1,2,K , n . 10 Эти предположения образуют первую группу предположений, необходимых для проведения регрессионного анализа в рамках классической модели. Вторая группа предположений дает достаточные условия для обоснованного проведения проверки статистической значимости эмпирических регрессий: Условие 1.5.6. Совместное распределение случайных величин ε1 ,K, ε n является нормальным. При выполнении предположений первой и второй групп случайные величины ε1 ,K, ε n оказываются взаимно независимыми, одинаково распределенными случайными величинами, подчиняющимися нормальному распределению с нулевым математическим ожиданием и дисперсией σ 2 . § 1.6. Статистические свойства оценок. Теорема ГауссаМаркова При выполнении предположений первой группы справедлива Теорема 1.6.1. (Гаусса-Маркова) Если регрессионная модель y =α + βx +ε удовлетворяет условиям 1.5.1–1.5.5, то оценки МНК a и b (1.4.3) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок. Заметим, что после построения уравнения выборочной регрессии, наблюдаемые значения yi можно представить в виде ) yi = yi + ei , i = 1, n , (1.6.1) ) где yi = a + bxi , i = 1, n , коэффициенты a , b определяются по формуле 1.4.3. Остатки ei являются, в отличие от возмущений ε i , наблюдаемыми величинами, с помощью которых можно оценить воздействие неучтенных факторов и ошибок наблюдений. Говорят, что ei является выборочной оценкой возмущения ε i . Можно показать, что статистика (выборочная остаточная дисперсия), определяемая с помощью остатков ei (см. 1.4.6): n n ) 2 ( y − y ) ei ∑ ∑ i i 2 S ост = i =1 = i=1 (1.6.2) n−2 n−2 является несмещенной оценкой дисперсии σ 2 — дисперсии возмущений (теоретической остаточной дисперсии). При выполнении условий Гаусса-Маркова первой и второй групп (1.5.1–1.5.6) справедливы утверждения: 11 a −α распределена по закону ma Стьюдента с n − 2 степенями свободы, здесь Утверждение 1.6.1. Статистика n ma = Sост ∑x i =1 2 i , sx n стандартную ошибку (1.6.3) представляет собой коэффициента a , n 1 s x2 = ∑ ( xi − x ) 2 — выборочная дисперсия x . n i=1 b−β Утверждение 1.6.2. Статистика распределена по закону mb Стьюдента с n − 2 степенями свободы, здесь S mb = ост , (1.6.4) sx n представляет собой стандартную ошибку коэффициента b , 1 n s x2 = ∑ ( xi − x ) 2 — выборочная дисперсия x . n i=1 Утверждение 1.6.3. Если y и x некоррелированы, то статистика rxy tr = n−2 (1.6.5) 1 − rxy 2 распределена по закону Стьюдента с n − 2 степенями свободы. Здесь ρ ( y, x ) — теоретический коэффициент парной корреляции, rxy — выборочный коэффициент парной корреляции: 1 n ∑ ( yi − y )( xi − x ) n i=1 rxy = , (1.6.6) sx s y 1 n 1 n 2 2 где s = ∑ ( xi − x ) , s y = ∑ ( yi − y ) 2 — выборочные дисперсии x и y , n i=1 n i =1 соответственно. 2 x § 1.7. Показатели качества регрессии. Коэффициент детерминации. Коэффициент парной корреляции Коэффициент детерминации является одной из наиболее эффективных оценок адекватности регрессионной модели, т.е. мерой качества уравнения регрессии (соответствия регрессионной модели эмпирическим данным). После построения выборочного уравнения регрессии, как уже указывалось выше в 1.6.1, значение зависимой переменной y в каждом наблюдении можно разложить на две составляющие: 12 ) yi = yi + ei , i = 1, n , здесь остаток ei представляет собой ту часть зависимой переменной y , которую невозможно «объяснить» с помощью выборочной регрессии. Можно показать, что дисперсия y может быть представлена в виде суммы: ) D ( y ) = D ( y ) + D ( e) , (1.7.1) в которой первое слагаемое представляет собой часть, «объясненную» регрессионным уравнением (или обусловленную регрессией), а второе — «необъясненную» часть, характеризующую влияние неучтенных факторов и т.п. Необходимо заметить, что такое разложение справедливо только в том случае, когда в уравнение регрессии включена константа a . Разложение 1.7.1 часто записываю в следующем виде: n n n ) ) 2 2 − = − + ( y y ) ( y y ) (1.7.2) ∑ i ∑ i ∑ ( yi − yi )2 , i =1 где n ∑(y − y) i =1 i 2 i =1 i =1 представляет собой общую сумму квадратов отклоне- ний зависимой переменной от средней, n ) ∑(y − y) i =1 2 i тов отклонений, обусловленная регрессией, а есть сумма квадра- n ) ∑(y − y ) i =1 i i 2 — остаточ- ная сумма квадратов. Коэффициент детерминации определяется по формуле: n n ) ) 2 − ( y y ) ( yi − yi )2 ∑ ∑ i R 2 = i =n1 = 1 − i =n1 . 2 2 ∑ ( yi − y ) ∑ ( yi − y ) i =1 (1.7.3) i =1 Величина R , как видно из формул 1.7.2 и 1.7.3, представляет собой часть (долю) вариации (разброса, дисперсии) зависимой переменной обусловленную («объясненную») уравнением регрессии (иногда говорят — обусловленную вариацией объясняющей переменной). Свойства коэффициента детерминации: Свойство 1.7.1 0 ≤ R 2 ≤ 1 ; Свойство 1.7.2. Чем ближе R 2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, т.е. эмпирические наблюдения ближе к линии выборочной регрессии. Если R 2 = 1 , то между y и x есть линейная функциональная зависимость, в этом случае все эмпирические точки наблюдений лежат на прямой регрессии; 2 13 Свойство 1.7.3. Если R 2 = 0 , то в этом случае вариация зависимой переменной полностью обусловлена случайными воздействиями и линия выборочной регрессии параллельна оси Ox . Заметим, что коэффициент детерминации R 2 имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии, так как лишь в этом случае справедливо равенство 1.7.2. Оценка качества соответствия выборочного равнения регрессии наблюдаемым данным может производиться и с помощью средней ошибки аппроксимации регрессии по формуле: ) 1 n yi − yi A= ∑ 100% . (1.7.4) n i=1 yi Как указывают некоторые авторы, в практических исследованиях значение этой ошибки в пределах 5-7% свидетельствует о хорошем соответствии модели эмпирическим данным. Коэффициент регрессии b , как уже отмечалось выше, показывает, на сколько единиц в среднем изменяется значение показателя y , когда фактор x увеличивается на одну единицу — поэтому он также может служить мерой тесноты связи между y и x . Однако b зависит от единиц измерения переменных. Именно поэтому удобно использовать некоторую «стандартную» систему единиц измерения тесноты связи, в которой различные данные были бы сравнимы между собой. В качестве единиц измерения такой системы используется среднее квадратическое отклонение переменных, а показателем тесноты связи служит коэффициент корреляции. Действительно, используя понятия выборочных дисперсий, ковариации и корреляции, оценки МНК можно записать специальным образом: s s a = y − y rxy x , b = y rxy , (1.7.5) sx sx 1 n 1 n 1 n 2 где y = ∑ yi , x = ∑ xi — выборочные средние, s y = ∑ ( yi − y ) 2 , n i =1 n i =1 n i =1 n 1 s x 2 = ∑ ( xi − x ) 2 — выборочные дисперсии, rxy — выборочный коэфn i=1 фициент корреляции (см. 1.6.5). Следовательно, парная эмпирическая линейная регрессия может быть записана в виде: s ) y = a + bx = y + y rxy ( x − x ) . (1.7.6) sx Таким образом, величина s rxy = b x (1.7.7) sy 14 показывает, на сколько величин s y изменится (в среднем) y , если x увеличится на одно sx , поэтому выборочный коэффициент корреляции rxy также является показателем тесноты связи (более точно — характеризует тесноту линейной зависимости) между переменными. Выборочный коэффициент корреляции является безразмерной величиной и обладает следующими свойствами: Свойство 1.7.4. −1 ≤ rxy ≤ 1 ; Свойство 1.7.5. При rxy = ±1 корреляционная зависимость представляет собой линейную функциональную зависимость (все наблюдаемые значения располагаются на прямой линии регрессии); Свойство 1.7.6. При rxy = 0 линейная корреляционная связь отсутствует (линия регрессии параллельна оси Ox ). Заметим, что выборочный коэффициент корреляции rxy полностью оценивает тесноту связи только в случае совместного нормального распределения случайных величин y и x , в других случаях выборочный коэффициент корреляции является оценкой меры только линейной зависимости. Практически наиболее удобна следующая формула вычисления rxy (которая непосредственно может быть получена из определения): n n n i =1 i =1 n ∑ xi yi − ∑ xi ∑ yi rxy = i =1 2 2 . (1.7.8)     n ∑ xi2 −  ∑ xi  ⋅ n ∑ yi2 −  ∑ yi  i =1  i=1  i =1  i =1  В случае парной линейной регрессии между коэффициентом детерминации R 2 и коэффициентом корреляции rxy существует следуюn n n n щая связь: R 2 = rxy2 . (1.7.9) § 1.8. Проверка статистической значимости в парной линейной регрессии Проверка значимости (статистической) уравнения регрессии означает проверку соответствия модели, выражающей зависимость между переменными, экспериментальным данным, а также проверку достаточности включенных в уравнение объясняющих переменных для описания зависимой переменной. Правило проверки статистической значимости оценок a и b основывается на статистических свойствах оценок МНК (§ 1.6) и проверке статистических гипотез H 0 : α = 0, H1 : α ≠ 0 и H 0 : β = 0, H1 : β ≠ 0 . Невозможность отклонения какой-либо из гипотез означает статистиче15 скую незначимость соответствующего коэффициента и наоборот, отклонение какой-либо из гипотез означает, что соответствующий коэффициент статистически значим. Как всегда, проверка статистических гипотез осуществляется при некотором уровне значимости. В практических эконометрических исследованиях наиболее часто используются 5% и 1% уровни значимости. Выбор того или иного уровня значимости определяется исследователем. Напомним, что если нулевая гипотеза отклоняется при 1%-ном уровне значимости, то она автоматически отклоняется и при 5%-ном уровне. Если нулевая гипотеза принимается при 5%-ном уровне значимости, то она принимается и при 1%-ном уровне. Если же при 5%-ном уровне значимости нулевая гипотеза отклоняется, то необходимо проверить ее при 1%-ном уровне и, если при этом уровне она принимается, то результаты проверки гипотезы приводятся для двух уровней значимости. 1.8.1. Правило проверки значимости коэффициента b : b Статистика tb = при выполнении гипотезы H 0 : β = 0 распредеmb лена по закону Стьюдента с n − 2 степенями свободы. Из таблицы распределения Стьюдента с n − 2 степенями свободы по заданному уровню значимости выбирается значение tтабл как критическая точка, соответствующая двусторонней области. Тогда: 1) Если tb ≥ tтабл , то гипотезу H 0 : β = 0 следует отклонить и, следовательно, признать коэффициент b статистически значимым, 2) Если tb < tтабл , то гипотезу H 0 : β = 0 следует принять и, следовательно, признать коэффициент b статистически незначимым. 1.8.2. Правило проверки значимости коэффициента a : a при выполнении гипотезы H 0 : α = 0 распредеСтатистика ta = ma лена по закону Стьюдента с n − 2 степенями свободы. Из таблицы распределения Стьюдента с n − 2 степенями свободы по заданному уровню значимости выбирается значение tтабл как критическая точка, соответствующая двусторонней области. Тогда: 1) Если ta ≥ tтабл , то гипотезу H 0 : α = 0 следует отклонить и, следовательно, признать коэффициент a статистически значимым, 2) Если ta < tтабл , то гипотезу H 0 : α = 0 следует принять и, следовательно, признать коэффициент a статистически незначимым. 16 1.8.3. Правило проверки значимости коэффициента корреляции rxy : Статистика tr = rxy 1 − rxy2 n − 2 при выполнении гипотезы H 0 : ρ yx = 0 (т.е. при отсутствии корреляционной связи, здесь ρ — генеральный коэффициент корреляции) распределена по закону Стьюдента с n − 2 степенями свободы. Из таблицы распределения Стьюдента с n − 2 степенями свободы по заданному уровню значимости выбирается значение tтабл как критическая точка, соответствующая двусторонней области. Тогда: 1) Если tr ≥ tтабл , то гипотезу H 0 : ρ yx = 0 следует отклонить и, следовательно, признать коэффициент rxy статистически значимым, 2) Если tr < tтабл , то гипотезу H 0 : ρ yx = 0 следует принять и, следовательно, признать коэффициент rxy статистически незначимым. Проверка значимости коэффициента b одновременно является проверкой значимости парной линейной регрессии в целом. Еще один способ проверки значимости парной линейной регрессии основан на коэффициенте детерминации R 2 и статистике, распределенной по закону Фишера с числом степеней свободы числителя равном 1 и числом степеней свободы знаменателя равном n − 2 . 1.8.4. Правило проверки значимости линейной регрессии в целом (гипотезы H 0 : β = 0 ) с использованием F статистики: Если выполнены предположения регрессионного анализа, то при выполнении гипотезы H 0 : β = 0 (что означает отсутствие взаимосвязи между x и y , а так же статистическую незначимость построенной парR2 ной регрессии) статистика F = (n − 2) распределена по закону 1 − R2 Фишера с числом степеней свободы числителя равном 1 и числом степеней свободы знаменателя равном n − 2 . По таблице распределения Фишера-Снедекора при заданном уровне значимости определяется значение Fтабл как критическая точка при числе степеней свободы числителя равном 1 и числе степеней свободы знаменателя равном n − 2 . Тогда: 1) Если F ≥ Fтабл , то гипотезу H 0 : β = 0 следует отклонить и, следовательно, признать построенное уравнение линейной регрессии статистически значимым, 2) Если F < Fтабл , то гипотезу H 0 : β = 0 следует принять и, следовательно, признать построенное уравнение статистически незначимым. 17 1.8.5. Взаимосвязь критериев В случае парного регрессионного анализа оба способа проверки статистической значимости (использование t -критерия проверки значимости коэффициента b и F -критерия проверки значимости уравнения в целом) равносильны, так как можно показать, что соответствующие статистики связаны между собой следующим образом tb2 = tr2 = F . Кроме того, критическое значение Fтабл равно квадрату tтабл . § 1.9. Доверительные интервалы 1.9.1. Доверительные интервалы для параметров регрессии Учитывая статистические свойства оценок МНК, можно построить доверительные интервалы для параметров α и β с заданным уровнем доверия, в качестве которого на практике обычно выбирают вероятность 0,95 (соответствующую уровню значимости 5%). По таблицам распределения Стьюдента с n − 2 степенями свободы определяется tтабл — критическое значение для заданного уровня значимости и числа степеней свободы n − 2 , тогда (a − matтабл ; a + matтабл ) (1.9.1) есть доверительный интервал для α с заданным уровнем доверия, n здесь ma = Sост ∑x i =1 sx n 2 i — стандартная ошибка коэффициента a (см. 1.6.2). Аналогично для коэффициента β : (b − mbtтабл ; b + mbt табл ) (1.9.2) есть доверительный интервал для β с заданным уровнем доверия, S здесь mb = ост — стандартная ошибка коэффициента b (см. 1.6.3). sx n 1.9.2. Доверительный интервал прогноза для парной линейной регрессии Точечный прогноз y p значения показателя y согласно линейной парной регрессии для x = x p вычисляется по формуле y p = a + bx p = y + sy rxy ( x p − x ) . (1.9.3) sx Интервальный прогноз (доверительный интервал прогноза) для x = x p вычисляется аналогично доверительному интервалу для параметров регрессии. 18 По таблицам распределения Стьюдента с n − 2 степенями свободы определяется tтабл — критическое значение для заданного уровня значимости и числа степеней свободы n − 2 , тогда ( y p − my tтабл ; y p + my tтабл ) (1.9.4) есть доверительный интервал прогноза индивидуального значения показателя y p в точке x = x p с заданным уровнем доверия, где стандартная ошибка индивидуального прогноза определяется следующим образом: ( x p − x )2 1 . (1.9.5) m y = S ост 1 + + n n 2 ∑ ( xi − x ) i =1 Нетрудно видеть, что чем дальше x p от x , тем шире доверительный интервал прогноза, или, другими словами, тем выше погрешность прогноза. Выводы • Эконометрика — это наука, в рамках которой на базе реальных статистических данных строятся, анализируются и совершенствуются математические модели экономических явлений. Эконометрика позволяет найти количественное подтверждение либо опровержение экономического закона, либо гипотезы. Одним из важнейших направлений эконометрики является построение прогнозов по различным экономическим показателям. • Модель парной линейной регрессии является наиболее распространенным (и простым) уравнением зависимости между экономическими переменными. Метод наименьших квадратов дает наилучшие (в определенном смысле) оценки параметров регрессии. Решающее значение для правильного и обоснованного применения регрессионного анализа в эконометрических исследованиях имеет выполнение условий Гаусса–Маркова. • Необходимым элементом эконометрического анализа является проверка статистической значимости полученных оценок коэффициентов, а также всего уравнения регрессии в целом. В качестве показателя качества регрессии может использоваться коэффициент детерминации. • При использовании парной линейной регрессии для построения прогнозов необходимо учитывать доверительные интервалы прогноза и параметров регрессии. Вопросы для самопроверки 1. Что такое генеральная совокупность и выборка? 19 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. Как вычисляются основные выборочные числовые характеристики: выборочные среднее, дисперсия, среднее квадратическое отклонение? Как вычисляется выборочный коэффициент корреляции? Приведите основные свойства выборочного коэффициента корреляции. В чем различие между точечными и интервальными оценками? Дайте определения эффективности, несмещенности и состоятельности оценок. В чем состоит общая схема проверки статистической гипотезы? Какова ее цель? Что такое уровень значимости? Как определяются распределения Стьюдента, Фишера, хиквадрат? Каковы основные этапы эконометрического моделирования? Опишите эконометрическую модель, приводящую к парной линейной регрессии. Какова эмпирическая основа построения эмпирической парной регрессии? Назовите основные причины присутствия в регрессионной модели случайного члена. Что понимается под спецификацией модели, и как она осуществляется? Приведите примеры функциональных зависимостей, используемых в парных регрессиях. В чем состоит отличие теоретического и эмпирического уравнений регрессии? В чем состоит суть МНК? Докажите справедливость формул вычисления МНК оценок параметров парной линейной регрессии. Почему регрессию (в частности парную линейную) называют усредненной эмпирической зависимостью? Дайте интерпретацию уравнению регрессии y = 3 + 2 x , где y — объем продукции (в млн. руб), x — объем инвестиций в ИТ технологии (в сотнях тыс. долларов). Чем отличаются возмущения ε i от остатков ei ? В чем состоят основные предположения регрессионного анализа? Как связаны коэффициенты линейной регрессии с выборочным коэффициентом корреляции? Докажите формулы 1.7.3. Как определяются стандартные ошибки регрессии и коэффициентов регрессии? 20 26. Что является несмещенной оценкой дисперсии возмущений? Приведите формулу. 27. Укажите статистики, распределенные по закону Стьюдента в парной линейной регрессии. 28. Каким образом можно оценить качество уравнения регрессии? 29. Как связаны между собой коэффициент парной корреляции и коэффициент детерминации? 30. Является ли значимым коэффициент выборочный корреляции r = 0,8 , если он получен по выборке объемом n = 6 ? 31. В чем суть статистической значимости коэффициентов регрессии? Сформулируйте правило проверки статистической значимости коэффициентов парной линейной регрессии. 32. В чем состоит идея проверки статистической значимости уравнения регрессии в целом? Сформулируйте правило проверки. 33. Как связаны между собой критерии проверки статистической значимости в парном регрессионном анализе? Библиография 1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. — М.: ЮНИТИ, 1998. — 650 с. 2. Буре В.М.. Евсеев Е.А. Основы эконометрики: Учеб. Пособие. — СПб.: Изд-во С.-Петерб. ун-та, 2004.— 72 с. 3. Валландер С.С. Заметки по эконометрике. — СПб.: Европ. ун-т, 2001. — 46 с. 4. Доугерти К. Введение в эконометрику: учебник. 2-е изд. М.: ИНФРА-М, 2004.— 432 с. 5. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов.— М.: ЮНИТИ-ДАНА, 2004.— 311 с. 6. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. — М.: Дело, 2000. — 400 с. 7. Эконометрика: Учебник / Под ред. И.И.Елисеевой. — М.: Финансы и статистика, 2001. — 344 с. 21