Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
КОНСПЕКТ ЛЕКЦИЙ
РАЗДЕЛ I. ЭКОНОМЕТРИКА КАК НАУКА
Тема 1. Проблемы эконометрического моделирования
1.1. Понятие эконометрики и ее место в экономических исследованиях
Эконометрика - математическое моделирование реальных экономических объектов (бюджета семьи, отдельного предприятия, отрасли промышленности, региона, экономики страны, мировой экономики). Эконометрика изучает количественные закономерности и взаимозависимости между анализируемыми экономическими показателями при помощи методов математической статистики.
В основе этих методов лежит корреляционно-регрессионный анализ. Впервые современные методы математической статистики стали использоваться в биологии. В конце XIX века английский биолог К. Пирсон положил начало современной математической статистике изучением кривых распределения числовых характеристик организма. Затем он и его школа перешли к изучению корреляций в биологии и построению линейных функций регрессии.
Первые работы по эконометрике появились в конце XIX-начале XX века. В 1897 г. была опубликована работа одного из основателей математической школы в экономической теории В. Парето, посвященная статистическому изучению доходов населения в разных странах. Была предложена кривая Парето: y = A(x-a)a, где x - величина дохода, A и a - параметры зависимости, полученные статистическими методами.
В самом начале XX века вышло несколько работ английского статистика Гукера, в которых он применил корреляционно-регрессионные методы, разработанные Пирсоном и его школой для изучения взаимосвязей экономических показателей, в частности, влияния числа банкротств на товарной бирже на цену зерна. В работах Гукера содержалась идея временного лага между экономическими переменными, а также идея корреляционного анализа не самих величин, а их приращений. В дальнейшем появилось большое число работ как по развитию теории математической статистики и ее прикладных элементов, так и по практическому приложению этих методов в экономическом анализе. К первой группе могут быть, например, отнесены работы Р. Фишера по дисперсионному анализу, ко второй - работы по оценке и исследованию производных функций, в частности, классическая работа Кобба и Дугласа 1982 г.
Экономические модели и эконометрические методы сейчас - это не только мощный инструмент для получения новых знаний в экономике, но и широко применяемый аппарат для принятия практических решений в прогнозировании, банковском деле, бизнесе.
Эконометрические модели позволяют определять особенности поведения экономического объекта и на основе этого предсказывать его функционирование при изменении каких-либо параметров. Т.е. эконометрическое исследование предполагает получение конкретного, количественного результата для исследуемого экономического объекта. Такое исследование должно базироваться на объединении теории (различных экономических моделей) и практики (данных статистических исследований). Как свидетельствует экономическая теория, в экономике действуют устойчивые количественные закономерности, поэтому возможно их строго формализованное математическое описание (описание знаковыми математическими средствами), построение математических моделей.
Использование математического моделирования в экономике позволяет:
1) формально описать наиболее важные связи экономических переменных и объектов;
2) использовать методы дедукции для адекватных выводов из четко сформулированных исходных данных;
3) использовать методы математики и статистики для получения новых знаний об объекте;
4) излагать точно и компактно на языке математики положения экономической теории.
Математические модели использовались с иллюстративными и исследовательскими целями еще Ф. Кенэ, А. Смитом, Д. Рикардо. В XIX веке большой вклад в моделирование рыночной экономики внесла математическая школа (Л. Вальрас, О. Курно, В. Парето, Ф. Эджворт и т.д.). В XX веке математические методы моделирования применялись очень широко, с их использованием связаны многие работы, удостоенные Нобелевской премии по экономике (Д. Хикс, Р. Солоу, В. Леонтьев, П. Самуэльсон и др.).
В России в начале XX века большой вклад в математическое моделирование внесли В. Дмитриев и Е. Слуцкий. В 60-80-е годы после почти тридцатилетнего перерыва экономико-математическое направление возродилось (В. Немчинов, В. Новожилов, Л. Канторович, ЦЭМИ РАН), но это были попытки формально описать «систему оптимального функционирования социалистической экономики». Строились многоуровневые системы моделей народнохозяйственного планирования, оптимизационные модели отраслей и предприятий. Сейчас важной задачей является моделирование процессов рыночной экономики. Теоретические модели используются для описания и объяснения наблюдаемых процессов, эмпирическое построение и обоснование модели происходит на базе статистических данных.
Разрабатывая модели, экономисты выявляют существенные факторы, определяющие изучаемое явление, и отбрасывают детали, не существенные для решения поставленной проблемы. Формализация основных особенностей функционирования экономических объектов позволяет оценить возможные последствия воздействий на них и использовать эти оценки в управлении.
Построение экономико-математической модели происходит в несколько этапов:
1) формулировка предмета и цели исследования;
2) выявление структурных и функциональных элементов, их качественных характеристик;
3) словесное описание взаимосвязей между элементами модели;
4) формализация описательной модели;
5) расчеты по математической модели и анализ полученного решения.
Экономические модели позволяют выявить особенности функционирования экономического объекта и на основе этого предсказать будущее поведение объекта при изменении каких-либо параметров.
Примерами экономических моделей являются: модели потребительского выбора, модели фирмы, модели экономического роста, модели равновесия на финансовых, факторных и товарных рынках, модели макроэкономической динамики и другие. Однако любая экономическая модель абстрактна по определению и, следовательно, неполна, т.к. учитывает лишь существенные факторы, определяющие закономерности функционирования анализируемого объекта. Привязка экономической модели к конкретному экономическому объекту (например, к какому-либо предприятию, работающему в конкретных условиях) потребует от исследователя учитывать реакцию экономических показателей этого объекта на изменения каких-либо условий, а это возможно только при условии обработки реальных статистических данных, которые необходимы для эмпирического построения и обоснования моделей.
Примером эконометрической модели, имитирующей мировую экономику, может служить математическая модель «Мир-1», разработанная профессором прикладной математики и кибернетики Массачусетского университета США Д. Форрестором в 1970-х годах. Она состояла из 40 нелинейных уравнений, которые описывали взаимосвязь пяти параметров: численность населения, капиталовложения в экономику, объем использования невозобновляемых энергоресурсов, объем загрязнения окружающей среды и объем производства продовольствия. Это была попытка глобального моделирования, но результаты расчетов имели невысокую достоверность из-за сложности объекта и примитивности модели. В 1972 году Денис Медоуз сделал прогнозы состояния мировой экономики на 2047 год, используя более совершенную модель «Мир-3». По его расчетам к этому времени невозобновляемые сырьевые ресурсы будут исчерпаны, а нехватка продовольствия окажется катастрофической. Однако эти прогнозы можно оценивать лишь как качественные тенденции, имеющие место в мировой экономике.
1.2. Типы эконометрическихмоделей
Существует три основных типа моделей, результаты расчетов по которым можно использовать для имитации функционирования исследуемого объекта или прогнозирования его развития: регрессионные модели с одним уравнением, модели временных рядов и системы одновременных уравнений.
Регрессионная модель с одним уравнением основана на уравнении регрессии, которое устанавливает функциональную взаимосвязь между зависимой переменной y и независимыми переменными :
(1.1)
где - параметры уравнения.
В зависимости от вида функции уравнения регрессии делятся на линейные и нелинейные. Такие модели имеют широкую область применения: исследование зависимости спроса на какой-либо товар от времени, урожайности - от количества внесенных удобрений, вида вспашки, и т.д. В теории регрессионного анализа решаются проблемы оценивания, верификации и отбора значимых параметров регрессионной модели.
К моделям временных рядов относятся модели: тренда, сезонности и модель тренда и сезонности. Их объединяет то, что они рассчитывают значения временного ряда, исходя из предыдущих его значений. Областью применения моделей временных рядов являются, например: изучение и прогнозирование объема продаж, объема производства, спроса и т.д.
При эконометрическом моделировании экономических объектов возможно построение таких систем уравнений, в которых одни и те же переменные в различных регрессионных уравнениях могут одновременно выступать и в качестве результирующих и в роли объясняющих переменных (например, модель спроса и предложения на какой-либо товар). Эти системы уравнений называют системами одновременных уравнений. Эконометрическая модель, содержащая систему одновременных уравнений, может быть представлена в структурной или приведенной форме.
Для описания основных видов элементов экономической модели целесообразно рассмотреть конкретную ситуацию и построить соответствующую ей модель.
Пусть существует фирма, выпускающая несколько видов продукции. В процессе производства используются три вида ресурсов: оборудование, рабочая сила и сырье. Эти ресурсы однородны, количество их известно и в данном производственном цикле увеличено быть не может. Задан расход каждого из ресурсов на производство единицы продукции каждого вида. Заданы цены продуктов. Нужно определить объем производства с целью максимизации стоимости произведенной продукции (или если предположить, что вся она найдет сбыт на рынке - общей выручки от реализации).
Для решения поставленной задачи нужно построить математическую модель, наполнить ее информацией, а затем провести по ней необходимые расчеты. Вначале при построении модели нужно определить индексы, экзогенные и эндогенные переменные и параметры. В нашей задаче свой индекс должен иметь каждый вид продукции (пусть это индекс i, меняющийся от 1 до n), а также вид ресурсов (если мы обозначим их одной переменной; пусть в нашей задаче ресурсы обозначены разными переменными). Далее опишем экзогенные переменные. Часто экзогенные переменные и параметры в моделях не разделяют. В рассматриваемой задаче заданы экзогенные переменные - это имеющиеся количества оборудования K, рабочей силы L и сырья R; заданные параметры - коэффициенты их расхода на единицу i-й продукции ki, li, и ri соответственно. Цены продуктов pi также известны.
Далее вводятся обозначения для эндогенных переменных - тех, которые определяются в ходе расчетов по модели и не задаются в ней извне. В нашем случае это неизвестные объемы производства продукции каждого i-го вида; обозначим их через x.
Закончив описание переменных и параметров, переходят к формализации условий задачи, к описанию ее допустимого множества и целевой функции (если таковая имеется). В нашей задаче допустимое множество - это совокупность всех вариантов производства, обеспеченных имеющимися ресурсами. Оно описывается с помощью системы неравенств:
k1 x1 +k2 x2 + .... + kn xn ≤ K,
l1 x1 +l2 x2 + .... + ln xn ≤ L, или (1.2)
r1 x1 +r2 x2 + .... + rn xn ≤ R,
К этим ограничениям по ресурсам добавляются требования неотрицательности переменных x > 0; если бы какой-то ресурс нужно было израсходовать полностью (например, полностью занять всю рабочую силу), соответствующее неравенство превратилось бы в уравнение.
Если модель является оптимизационной (а данная модель такова), то наряду с ограничениями должна быть определена целевая функция, т.е. максимизируемая или минимизируемая величина, отражающая интересы принимающего решение субъекта. Для данной задачи максимизируется величина:
или (1.3)
Следует отметить, прежде всего, большой класс оптимизационных моделей. Такие задачи возникают при попытке оптимизировать планирование и управление сложными системами, в первую очередь, экономическими. Оптимизационную задачу можно сформулировать в общем виде: найти переменные х1, х2,...,хп, удовлетворяющие системе неравенств (уравнений)
i=1,2,…,m (1.4)
и обращающие в максимум (или минимум) целевую функцию, т.е.
Z = (1.5)
(Условия неотрицательности переменных, если они есть, входят в ограничения (1.4)).
Как известно, упорядоченная совокупность значений n переменных представляется точкой n-мерного пространства. В дальнейшем эту точку будем обозначать Х = , а само оптимальное решение Х = .
Рассмотрим еще одну задачу - классическую задачу потребления, имеющую важное значение в экономическом анализе.
Пусть имеется n видов товаров и услуг, количество их (в натуральных единицах) , цены, соответственно, за единицу. Суммарная стоимость этих товаров и услуг составляет:
(1.6)
Уровень потребления определяется функцией Z =, называемой функцией полезности. Необходимо найти такой набор товаров и услуг при данной величине доходов I, чтобы обеспечить максимальный уровень полезности,
т. е.
Z = (1.7)
При условии
(i=1,2,…,n) (1.8)
Решения этой задачи, зависящие от цен и величины дохода I, называется функциями спроса:
X=X (1.9)Задачи оптимального программирования в наиболее общем виде классифицируются по следующим признакам:
1. По характеру взаимосвязей между переменными:
а) линейные;
б) нелинейные.
В случае (а) все функциональные связи в системе ограничений и функция цели - линейные функции; наличие нелинейности хотя бы в одном из упомянутых элементов приводит к случаю (б).
2. По характеру изменения переменных:
а) непрерывные;
б) дискретные.
В случае (а) значения каждой из управляющих переменных могут заполнять полностью некоторую область действительных чисел; в случае (б) все или хотя бы одна переменная могут принимать только целочисленные значения.
3. По учету фактора времени:
а) статические;
б) динамические.
В задачах (а) моделирование и принятие решений осуществляются в условиях независимости от времени элементов модели в течение периода времени, на который принимается планово-управленческое решение. В случае (б) необходимо учитывать фактор времени.
4. По наличию информации о переменных:
а) задачи в условиях полной определенности (детерминированные);
б) задачи в условиях неполной информации;
в) задачи в условиях неопределенности.
В задачах (б) отдельные элементы являются вероятностными величинами, однако известны или дополнительными статистическими исследованиями могут быть установлены законы их распределения. В случае (в) можно сделать предположение о возможных исходах случайных элементов, но нет возможности сделать вывод о вероятностях исходов.
5. По числу критериев оценки альтернатив:
а) простые, однокритериальные задачи;
б) сложные, многокритериальные задачи.
В задачах (а) экономически приемлемо использование одного критерия оптимальности или удается специальными процедурами (например, «взвешиванием приоритетов») свести многокритериальный поиск к однокритериальному.
Сочетание признаков 1-5 позволяет группировать (классифицировать) в самом общем виде задачи и методы оптимального программирования.
Если критерий эффективности Z = f(x1,x2,..., , ,...) представляет линейную функцию, а функции (x1,x2,…,xn) в системе ограничений (1.4) также линейны, то такая задача является задачей линейного программирования. Если, исходя из содержательного смысла, ее решения должны быть целыми числами, то эта задача целочисленного линейного программирования. Если критерий эффективности и (или) система ограничений задаются не линейными функциями, то имеем задачу нелинейного программирования. В частности, если указанные функции обладают свойствами выпуклости, то полученная задача является задачей выпуклого программирования.
Заметим, что задача нелинейного программирования после соответствующих преобразований может быть сведена к задаче линейного программирования.
1.3. Переменные эконометрических моделей
В эконометрических моделях в зависимости от конечных прикладных целей их использования можно выделить три основных типа переменных: экзогенные (определяющие), эндогенные (результирующие) и предопределенные.
Экзогенные переменные - переменные, которые заранее известны и задаются пользователем модели в начале расчетов. Другими словами, это объясняющие переменные регрессии (регрессоры) x,x,...,xm .
Эндогенные переменные - переменные, значения которых определяются в ходе расчетов по модели и не задаются в начале расчета. Это зависимые (по экономическим соображениям) переменные регрессии y, y, ...,yn .
Предопределенные переменные - совокупность экзогенных переменных и лаговых переменных (эндогенных переменных, взятых за предыдущие моменты наблюдений).
Эконометрическая модель устанавливает определенную взаимосвязь между эконометрическими переменными. Например, формирующийся на рынке спрос на некоторый товар рассматривается как функция его цены; затраты производства зависят от объема производства; потребительские расходы функция от доходов и т.д. Здесь спрос, производственные расходы и потребительские расходы играют роль результирующих переменных, а цена, объем производства и уровень доходов - объясняющие переменные.
Для определения влияния на значение результирующей переменной всех неучтенных факторов в данной эконометрической модели в уравнение регрессии добавляют в виде слагаемого остаточную случайную составляющую .
Модель парной регрессии будет иметь вид:
y = а + а x + (1.10)
Остаточная случайная составляющая отражает вероятностный характер значений результирующих переменных эконометрической модели, т.е. обуславливает стохастический характер зависимостей.
РАЗДЕЛ II. МОДЕЛИ ПАРНОЙ РЕГРЕССИИ
Тема 2. Основы регрессионного анализа
2.1. Основные этапы регрессионного анализа
В статистике принято различать следующие варианты зависимостей:
1) парную корреляцию - связь между двумя признаками (результативным и факторным);
2) частную корреляцию - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
3) множественную корреляцию - зависимость результативного и двух или более факторных признаков, включенных в исследование.
В процессе этих статистических исследований вскрываются причинно- следственные отношения между явлениями, которые записываются в виде тех или иных функциональных зависимостей.
Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака (Y) от факторных
(х, х,…, х), выражаемая в виде уравнения регрессии:
Y =f(x, x,…,х) (2.1)
Регрессионный анализ включает следующие этапы:
1) предварительный анализ свойств моделируемой совокупности единиц;
2) определение типа функции;
3) определение и проверку коэффициентов регрессии;
4) расчет значений функции для отдельных значений аргумента;
5) исследование рассеивания по отклонениям расчетных значений от эмпирических данных.
На стадии предварительного анализа свойств моделируемой совокупности единиц выявляют наличие или отсутствие корреляционной связи между признаками. Это делается с помощью анализа корреляционной и групповой таблицы, поля корреляции и эмпирической линии связи.
Для количественной оценки тесноты связи широко используется линейный коэффициент корреляции, который был впервые введен в начале 90-х годов прошлого столетия английским математиком К. Пирсоном.
Прежде чем вывести формулу коэффициентов корреляции необходимо дать определения дисперсии (D) и среднего квадратического отклонения ().
Дисперсия (D) - характеристика значений показателя, отражающая степень разброса отдельных значений показателя от среднего. Дисперсия рассчитывается по следующим формулам.
Для несгруппированных данных:
D= (2.2)
Для сгруппированных данных (вариационного ряда):
D = (2.3)
Формулу для расчета дисперсии после некоторых преобразований можно привести к следующему виду:
(2.4)
При пользовании этой формулой исключается дополнительная процедура по расчету отклонений индивидуальных значений признака от , а также ошибка в расчете, связанная с округлением отклонений .
Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии.
Для несгруппированных данных:
(2.5)
для вариационного ряда:
(2.6)
Единица измерения среднего квадратического отклонения та же, что и индивидуального значения признака. В теории разработаны и на практике применяются различные модификации формул расчета коэффициента корреляции:
(2.7)
Используя математические свойства средней, получаем следующую формулу для коэффициента парной корреляции - показателя тесноты связи для линейных однофакторных зависимостей:
(2.8)
Преобразование данной формулы позволяет получить следующую формулу линейного коэффициента корреляции:
(2.9)
Вычисление коэффициента корреляции по формуле является достаточно трудоемкой операцией. Выполнив несложные преобразования, можно получить следующую формулу для расчета линейного коэффициента корреляции:
(2.10)
Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выражаемая формулой:
(2.11)
где ai - коэффициент регрессии в уравнении связи;
, - средние квадратические отклонения соответствующих признаков (факторного и результативного).
Линейный коэффициент корреляции имеет большое значение при исследовании социально-экономических явлений и процессов, распределение которых близко к нормальному. Легко доказывается, что условие r = 0 является необходимым для того, чтобы величины х и у были независимы. Если же r = 1, то это означает, что все точки с координатами (х, Y) находятся на прямой и зависимость между Y и х является функциональной.
Линейный коэффициент корреляции изменяется в пределах от -1 до +1; т.е. -1 < r < 1. Знаки коэффициентов регрессии и корреляции совпадают.
Пример 1. Пусть имеются данные зависимости количества туристов от затрат на рекламу, представленные в таблице 2.2.1:
Таблица 2.2.1
Используя данные зависимости количества туристов от затрат на рекламу, рассчитаем по формуле (2.10) коэффициент корреляции:
Полученная величина линейного коэффициента корреляции свидетельствует о возможном наличии сильной прямой связи между рассматриваемыми признаками, т.к. его величина близка к 1,0.
Для проверки наличия корреляции при парной связи может быть использован также такой показатель, как коэффициент ковариации. Коэффициент кова- риации - характеристика тесноты связи показателей У и х, значения которых Yi, xi (i = l,...,n) содержат случайные составляющие, вычисляется по формуле:
(2.12)
Между коэффициентами корреляции и ковариации существует следующая взаимосвязь:
(2.13)
Следует отметить недостаток коэффициента ковариации, связанный с тем, что его значение зависит от единицы измерения.
Важным этапом регрессионного анализа является определение типа функции, которая характеризует зависимость между результирующими (Y) и объясняющими переменными (х, х2, ... , х) и правильно отражает сущность связи между явлениями. Определяющим основанием для выбора вида уравнения служит анализ экономической природы изучаемого объекта. Однако на основе теоретического анализа могут быть сделаны общие, т.е. неточные выводы относительно направления искомой зависимости. Поэтому эти предположения должны быть дополнены корреляционным анализом конкретных фактических данных. Чтобы можно было правильно определить тип функции, нужно на основе эмпирических данных определить:
1) направление связи;
2) изменяется ли направление связи для представленной совокупности эмпирических данных, т.е. является ли зависимость монотонной;
3) имеет связь линейный или нелинейный характер.
Необходимые для определения типа функции сведения получают из эмпирического материала. Представление о направлении и форме связи (аналитическом выражении) получают путем параллельного сравнения рядов из графика. Пары величин Y и х располагают по мере возрастания или убывания величины х.
По направлению связи различают:
а) прямую регрессию, возникающую при условии: с увеличением или уменьшением независимой величины х значение зависимой величины Y также соответственно увеличивается или уменьшается;
б) обратную регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины х зависимая величина Y соответственно уменьшается или увеличивается.
Для определения формы связи рекомендуется сравнить разность между следующими друг за другом величинами признаков. Если признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная. Если тенденция изменения Y в зависимости от изменения х отсутствует, то это свидетельствует о сильной вариации Y или невозможности установить наличие действительной связи.
Для характеристики связей экономических явлений применяют, прежде всего, следующие типы функций:
• линейную: Y = a0 + a1x;
• гиперболическую: Y = a0 +;
• показательную: Y = a0 a;
• параболическую: Y = a0 +
• степенную: Y =
• логарифмическую: Y = a0 + a lg x.
Линейная функция используется в том случае, когда результативный и факторный признаки возрастают одинаково (примерно в арифметической прогрессии), гиперболическая - когда связь между Y и х обратная. Параболическая или степенная функция применяются, если факторный признак увеличивается в арифметической прогрессии, а результативный - значительно быстрее.
Таким образом, задачи корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками и оценке факторов, наиболее влияющих на результативный признак.
Регрессионный анализ решает задачи выбора типа модели, установление степени влияния определяющей переменной на результирующую переменную и определение расчетных значений результирующей переменной, т. е. цель регрессионного анализа состоит в объяснении поведения зависимой переменной Y. Следующий этап корреляционного анализа - параметризация, т.е. определение коэффициентов выбранного уравнения регрессии. Для нахождения параметров а0 и а1 уравнения регрессии используют метод наименьших квадратов.
В зависимости от количества переменных различают модели парной регрессии и модели множественной регрессии. Приведенные выше рассуждения относятся к парной регрессии, характеризующей связь между двум признаками: результативным (Y) и факторным (х).
2.2. Метод наименьших квадратов
Пусть Y = a0 + ax - уравнение связи результативного показателя и фактора в виде линейного уравнения, где Y - результативный признак; х - факторный признак.
Для нахождения параметров а0 и а уравнения регрессии обычно используют метод наименьших квадратов - метод определения зависимости результативного признака от факторного путем минимизации суммы квадратов отклонений фактических значений результирующего показателя от значений, определяемых уравнением регрессии.
Сущность метода наименьших квадратов заключается в нахождении параметров модели а0 и а1, при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:
S = (2.14)
Для линейной однофакторной модели:
S = (2.15)
Функция двух переменных S () может достигнуть экстремума в том случае, когда первые частные производные этой функции равняются нулю, т.е. когда
и (2.16)
Вычисляя эти частные производные, получим:
(2.17)
После несложных преобразований получаем систему нормальных уравнений для определения величины параметров а0 и а1 уравнения линейной однофак- торной модели:
(2.18)
где п - объем исследуемой совокупности (число единиц наблюдений).
В уравнении регрессии свободный член регрессии коэффициент а0 показывает совокупное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; его вклад в значение результирующего показателя не зависит от изменения факторов; параметр а1 - коэффициент регрессии - показывает, на сколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.
Пример 2. Допустим, что мы имеем 7 наблюдений величин x и y , т.е. семь пар чисел. Например, это результат наблюдений зависимости производственных затрат y (млн. руб.) от объема выпускаемой продукции x (тыс.шт.) для пяти различных предприятий, выпускающих один и тот же вид продукции.
Если коэффициент корреляции переменных x и y отличен от нуля, то эти величины статистически зависимы, однако он не дает представления о том, каким образом они связаны. Если абсолютное значение коэффициента корреляции близко к 1.0, то определить значения коэффициентов а0 и a в линейном уравнении регрессии можно следующим образом:
y =
Необходимо понять, что мы никогда не сможем рассчитать истинные значения а0 и a при попытке построить прямую и определить положение линии регрессии. Можно получить только оценки коэффициентов а0 и а1, а они могут быть «хорошими» или «плохими». Рассмотрим алгебраический способ, позволяющий достаточно точно оценить значения коэффициентов а0 и a. Для этого необходимо определить остатки для каждого наблюдения i:
где yi - истинное значение переменной y в i-ом наблюдении;
- значение переменной у в i-ом наблюдении, рассчитанное по искомому уравнению регрессии.
Метод наименьших квадратов (МНК) для рассматриваемой модели парной регрессии заключается в выборе таких коэффициентов а0 и а1, которые обеспечивают наименьшее значение суммы квадратов остатков:
S= (2.19)
Полученное выражение для S является квадратичной функцией от а0 и а1 и ее коэффициенты определяются выборочными значениями x и y . При этом значения x и y не могут быть изменены, т.к. они характеризуют реальную выборку по анализируемым торговым точкам (для нашего примера).
Принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков. Т.е. МНК дает максимально возможное для данной выборки значение коэффициента детерминации R2. Чем ближе коэффициент детерминации R2 к 1, тем ближе точки корреляционного поля (выборка (x, y)) к линии регрессии
По данным таблицы, полагая, что зависимость между х и Y линейная, определим значения коэффициентов и : для определения величин и необходимо вычислить следующие значения:
Расчеты рекомендуется проводить по образцу табл. 2.2.2.
Система нормальных уравнений для данного примера имеет вид:
Умножим первое уравнение на -11 и прибавим его ко второму для того, чтобы исключить переменную . Получим:
Подставим полученное значение ai в первое уравнение:
7а0 +771,284 = 105;
7а0 + 98,87 = 105;
а0 = 0,876.
Следовательно, Yx = 0,876 +1,284x.
Коэффициент а1 показывает, что при увеличении x на единицу Yx увеличивается на 1,284. Коэффициент а0 = 0,876 показывает влияние неучтенных факторов. Связь между x и Y по направлению прямая, по форме - линейная.
Линейную однофакторную модель очень удобно представлять графически. Она изображается прямой Y =
Параметр а1 называют коэффициентом регрессии, выражающим величину изменения результативного признака при изменении фактора на единицу собственного измерения. При наличии прямой связи а1 имеет положительное значение, в случае обратной связи коэффициент регрессии отрицательный. Коэффициенты регрессии применяют для определения коэффициента эластичности, который показывает, на сколько процентов изменится величина результативного признака Y при изменении факторного признака х на один процент.
2.3. Свойства коэффициентов регрессии
Свойства коэффициентов регрессии существенно зависят от свойств остаточной случайной составляющей . Для того чтобы регрессионный анализ, использующий классический метод наименьших квадратов, давал наилучшие результаты, остаточная случайная составляющая для модели парной регрессии должна удовлетворять следующим условиям:
• остаточная случайная составляющая в каждом наблюдении имеет нулевое математическое ожидание: M= 0 для любого i-го наблюдения;
• дисперсия остаточной случайной составляющей не зависит от номера наблюдения: =const. Это свойство называется гомоскедастичностью;
• остаточные случайные составляющие уравнения регрессии в разных наблюдениях не зависят друг от друга: = 0, при условии ;
• остаточная случайная составляющая и объясняющая переменная для каждого наблюдения не зависят друг от друга: = 0.
Фактически это условия Гаусса-Маркова для модели парной регрессии.
Случайная остаточная составляющая определяется несколькими факторами, которые не учитываются объясняющими переменными в уравнении регрессии. Известно, что если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не преобладает, то она имеет приблизительно нормальное распределение (центральная предельная теорема). Поэтому предполагается нормальность распределения остаточной случайной составляющей, что приводит к нормальному распределению коэффициентов регрессии. Коэффициент а0 есть мера наклона линии регрессии.
Тема 3. Статистическая проверка гипотез
3.1. Точечные оценки и их свойства
Пусть оценивается некоторый параметр Q наблюдаемой СВ X генеральной совокупности. Пусть из генеральной совокупности извлечена выборка объема п: xn ,x2 ,... ,xn, по которой может быть найдена оценка Q* параметра Q.
Точечной оценкой Q* параметра Q называется числовое значение этого параметра, полученное по выборке объема п.
Приведем свойства, выполнимость которых желательна для того, чтобы оценка была признана удовлетворительной.
В силу случайности точечной оценки Q* она может рассматриваться как СВ со своими числовыми характеристиками - математическим ожиданием М^*) и дисперсией D(Q*). Чем ближе М(Q*) к истинному значению Q и чем меньше D(Q*), тем лучше будет оценка (при прочих равных условиях). Таким образом, качество оценок характеризуется следующими основными свойствами: несмещенностью, эффективностью и состоятельностью.
Оценка Q* называется несмещенной оценкой параметра Q, если ее математическое ожидание равно оцениваемому параметру: М(Q*) = Q.
Разность (М(Q*) - Q) называется смещением или систематической ошибкой оценивания. Для несмещенных оценок систематическая ошибка равна нулю.
Оценка Q* называется эффективной оценкой параметра Q, если ее дисперсия D(Q*) меньше дисперсии любой другой альтернативной оценки при фиксированном объеме выборки п, т.е. D(Q*)= Dmin.
Оценка Q* называется состоятельной оценкой параметра Q, если Q* сходится по вероятности к Q при п, т.е. для любого > 0 при п P(|Q*N - Q|<). Другими словами, состоятельной называется такая оценка, которая дает истинное значение при достаточно большом объеме выборки вне зависимости от значений входящих в нее конкретных наблюдений.
3.2. Основные понятия
Большинство эконометрических моделей требуют многократного улучшения и уточнения. Для этого необходимо проведение соответствующих расчетов, связанных с установлением выполнимости или невыполнимости тек или иных предпосылок, анализом качества найденных оценок, достоверностью полученных выводов. Обычно эти расчеты проводятся по схеме статистической проверки гипотез. Поэтому знание основных принципов проверки гипотез является обязательным для эконометриста.
Гипотеза Н0, подлежащая проверке, называется нулевой (основной). Наряду с нулевой рассматривают гипотезу H, которая будет приниматься, если отклоняется H0. Такая гипотеза называется альтернативной (конкурирующей). Например, если проверяется гипотеза о равенстве параметра Q некоторому значению Q0, т.е. H0:Q = Q0, то в качестве альтернативных могут рассматриваться следующие гипотезы:
Н(1): Q Q; H (2): Q > Q; H (3): Q < Q; H: Q = Q;(Q Q)
Выбор альтернативной гипотезы определяется конкретной формулировкой задачи, а нулевая гипотеза часто специально подбирается так, чтобы отвергнуть ее и принять тем самым альтернативную гипотезу. Для того чтобы принять гипотезу о наличии корреляции между двумя экономическими показателями (например, между инфляцией и безработицей), можно опровергнуть гипотезу об отсутствии такой корреляции, взяв ее в качестве нулевой гипотезы.
Гипотезу называют простой, если она содержит одно конкретное предположение (Н : Q = Q; Н: Q = Q). Гипотезу называют сложной, если она состоит из конечного или бесконечного числа простых гипотез:
(Н (1) : Q Q; Н (2) : Q > Q;: Q < Q)
При проверке гипотезы выборочные данные могут противоречить гипотезе Н0. Тогда она отклоняется. Если же статистические данные согласуются с выдвинутой гипотезой, она не отклоняется. В последнем случае часто говорят, что нулевая гипотеза принимается (такая формулировка не совсем точна, однако она широко распространена). Статистическая проверка гипотез на основании выборочных данных неизбежно связана с риском принятия ложного решения. При этом возможны ошибки двух родов.
Ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза.
Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, в то время как в действительности верна альтернативная гипотеза.
Возможные результаты статистических выводов представлены в табл. 2.2.3.
Последствия указанных ошибок неравнозначны. Первая приводит к более осторожному, консервативному решению, вторая - к неоправданному риску. Что лучше или хуже - зависит от конкретной постановки задачи и содержания нулевой гипотезы. Например, если Н0 состоит в признании продукции предприятия качественной и допущена ошибка первого рода, то будет забракована годная продукция. Допустив ошибку второго рода, мы отправим потребителю брак. Очевидно, последствия второй ошибки более серьезны с точки зрения имиджа фирмы и ее долгосрочных перспектив.
Исключить ошибки первого и второго рода невозможно в силу ограниченности выборки. Поэтому стремятся минимизировать потери от этих ошибок. Отметим, что одновременное уменьшение вероятностей данных ошибок невозможно, так как задачи их уменьшения являются конкурирующими, и снижение вероятности допустить одну из них влечет за собой увеличение вероятности допустить другую. В большинстве случаев единственный способ уменьшения вероятности ошибок состоит в увеличении объема выборки.
Вероятность совершить ошибку первого рода принято обозначать буквой а, и ее называют уровнем значимости. Вероятность совершить ошибку второго рода обозначают . Вероятность не совершить ошибку второго рода (1- ) называется мощностью критерия.
Обычно значения а задают заранее «круглыми» числами (например, 0,1; 0,05; 0,01 и т.п.), а затем стремятся построить критерий наибольшей мощности. Таким образом, если = 0,05, то это означает, что исследователь не хочет совершить ошибку первого рода более чем в 5 случаях из 100.
3.3. Проверка линейности модели
Простейшим уравнением регрессии является парная линейная регрессия:
y = а0 + а1 х (3.1)
Поэтому начальный этап эконометрического анализа зависимости результирующей переменной y от определяющей переменной х начинается с предположения линейности этой зависимости. Предварительно необходимо рассчитать коэффициент корреляции:
(3.2)
При наличии же криволинейной зависимости линейный коэффициент корреляции недооценивает степень тесноты связи и даже может быть равен 0, а потому в таких случаях рекомендуется использовать в качестве показателя степени тесноты корреляционное отношение - характеристику тесноты связи результативного и факторного признаков при их криволинейной зависимости.
Различают эмпирическое и теоретическое корреляционное отношение. Корреляционное отношение рассчитывают по данным группировки. Расчет корреляционного отношения основан на использовании известной теоремы сложения дисперсий. Общая дисперсия результативного признака может быть разложена на две составляющие. Первая составляющая - межгрупповая дисперсия , характеризующая ту часть разброса результативного признака, которая складывается под влиянием изменения признака-фактора, положенного в основу группировки.
Вычисляя квадратный корень из этого отношения, мы получаем эмпирическое корреляционное отношение:
(3.3)
Теоретическое корреляционное отношение определяется по формуле:
(3.4)
где - дисперсия выравненных значений результативного признака, т.е. рассчитанных по уравнению регрессии;
- дисперсия эмпирических (фактических) значений результативного признака.
Важный момент - сопоставление величины линейного коэффициента корреляции и корреляционного отношения. Сравнив полученную величину корреляционного отношения для рассматриваемого примера 1 = 0,819 с величиной линейного коэффициента корреляции r = 0,8105, полученного при расчете по не- сгруппированным данным, можно увидеть, что незначительно больше r. Когда связь между переменными уклоняется от линейной формы, то и r несколько отличаются по величине, причем всегда больше r по абсолютной величине.
Сопоставление линейного коэффициента корреляции и эмпирического корреляционного отношения имеет смысл только в случае, если эти показатели вычислены для одинаковым образом сгруппированных данных, т.е. при сравнении и коэффициент корреляции, и корреляционное отношение должны быть вычислены либо по данным корреляционной таблицы, либо по первичным данным и групповой таблице.
При проверке возможности использования линейной функции в качестве формы уравнения определяют разность квадратов (2 - r2), и если эта разность менее 0.1, то считается возможным применять линейное уравнение корреляционной зависимости. В нашем примере разность квадратов корреляционного отношения и линейного коэффициента корреляции равна:
(2 - r2) = 0,8192 - 0,81052 = 0,6708 - 0,6569 = 0,0139, что меньше 0,1.
Следовательно, для уравнения регрессии можно использовать линейную форму.
3.4. Т-тест выборочного коэффициента корреляции
Рассмотрим проблему необходимости оценки линейного коэффициента корреляции. Сама по себе величина коэффициента корреляции не служит доказательством наличия причинно-следственной связи между исследуемыми признаками, а является скорее оценкой степени взаимной согласованности в изменениях признаков. Установлению причинно-следственной зависимости предшествует анализ качественной природы явлений. Есть еще одно обстоятельство, объясняющее формулировку выводов о возможном наличии связи по величине коэффициентов корреляции. Дело в том, что оценка степени тесноты связи с помощью коэффициента корреляции производится, как правило, на основе более или менее ограниченной информации об излагаемом явлении. Возникает вопрос: насколько правомерно наше заключение по выборочным данным в отношении действительного наличия корреляционной связи в той генеральной совокупности, из которой была произведена выборка?
Принципиально возможны случаи, когда отклонение от нуля полученной величины выборочного коэффициента корреляции оказывается целиком обусловленным неизбежными случайными колебаниями тех выборочных данных, на основании которых он вычислен. Особенно осторожно следует подходить к истолкованию полученных коэффициентов корреляции при незначительных объемах выборочной совокупности.
В этой связи и возникает необходимость оценки важности линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции. В отношении приводимых ниже критериев существенности можно сделать общее замечание, касающееся свойств исходной совокупности. Этим свойством является нормальное распределение значений признака в генеральной совокупности.
Значимость линейного коэффициента корреляции проверяется на основе t- критерия Стьюдента. При этом выдвигается и проверяется гипотеза (Ho) о равенстве коэффициента корреляции нулю [Н0: г = 0]. При проверке этой гипотезы используется t-статистика:
(3.5)
При выполнении Н0 t-статистика имеет распределение Стьюдента с входными параметрами: {, v = n - 2}, где - уровень значимости.
Если расчетное значение tp > tKp (табличное), то гипотеза Н0 отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а следовательно, и о статистической существенности корреляции х и Y.
Данный критерий оценки значимости применяется для совокупности n < 50.
При большом числе наблюдений (n > 100) используется следующая формула t-статистики:
(3.6)
Применим указанный метод к примеру 1 для оценки существенности корреляции между уровнем затрат туристических фирм на рекламу и числом туристов, воспользовавшихся услугами фирм. При объеме выборки, равном 20, и при условии, что величина коэффициента корреляции равна 0,8105 (см. пример анализа зависимости количества туристов от затрат на рекламу):
В таблице распределения Стьюдента (t-статистика) для числа степеней свободы v = n - 2 = 18 и уровня значимости 1% находим, что t = 2,878. Таким образом, лишь с вероятностью меньше 1% можно утверждать, что величина t = 5,871 могла появиться в силу случайной выборки. Такое событие является маловероятным, а поэтому можно считать с вероятностью 99%, что в генеральной совокупности действительно существует прямая зависимость между изучаемыми признаками, т.е. отличие выборочного коэффициента корреляции от нуля является существенным.
3.5. F-тест Фишера на состоятельность регрессии
F-тест Фишера основан на сравнении расчетного критерия F с табличным значением FKp. Таблицы критических значений составлены на основе двухпара- метрического распределения неотрицательной случайной величины (F-распреде- ления Фишера) в зависимости от численных значений степеней свободы v1 = m и v2 = n - m -1, при различных уровнях значимости (в приложении дана таблица F- распределения Фишера для трех различных значений уровня значимости 5%, 1%, 0,1%).
В случае парной регрессии F-статистика равна квадрату t-статистики. Поэтому особую ценность F-тест Фишера приобретает для случая множественной регрессии. При формировании линейной множественной регрессии F-тест позволяет оценить обоснованность исключения отдельных переменных (xi) из числа объясняющих переменных, или наоборот, их добавления в это число. Например, первоначально была предложена линейная множественная регрессия: Y = a0 + a1x1 + a2x2 +...+amxm, составленная по выборке объемом n. Она имеет m объясняющих переменных и коэффициент детерминации R i. На следующем этапе формирования модели добавили еще к новых объясняющих переменных, и уравнение регрессии приобрело вид:
Y =
Для проверки целесообразности такого шага рассчитывается F-статистика:
F = которая имеет распределение F (k, n - m - k - 1).
i - r2 k
По таблице находим критическое значение FKp.
Если F > FKp, то добавление новых объясняющих переменных обоснованно
и выявляет существенную часть необъясненной ранее дисперсии зависимой величины Y.
3.6. Анализ точности определения оценок коэффициентов регрессии
В силу случайного отбора элементов в выборку случайными являются также оценки а0 и а1 коэффициентов а0 и а1 теоретического уравнения регрессии. Их математические ожидания при выполнении предпосылок об отклонениях равны соответственно М(а0) = а0, М(а1) = а1. При этом оценки тем надежнее, чем меньше их разброс вокруг а0 и а1э, т.е. чем меньше дисперсии D(a0) и D(a1) оценок. Надежность получаемых оценок, очевидно, тесно связана с дисперсией случайных отклонений . Фактически D() является дисперсией D(Y | X = x) переменной Y относительно линии регрессии (дисперсией Y, очищенной от влияния X). Полагая, что измерения равноточные, можно считать, что все эти дисперсии
равны между собой D()=
Приведем формулы связи дисперсий коэффициентов D(a0) и D(a1) с дисперсией случайных отклонений . Для этого представим формулы определения коэффициентов а0 и а1 в виде линейных функций относительно значений Y:
так как
Введя обозначение имеем :
Аналогично:
Обозначив имеем
Так как предполагается, что дисперсия Y постоянна и не зависит от значений X, то и можно рассматривать как некоторые постоянные. Следовательно:
(3.7)
(3.8)
• Дисперсии а0 и а1 прямо пропорциональны дисперсии случайного отклонения . Следовательно, чем больше фактор случайности, тем менее точными будут оценки.
• Чем больше число п наблюдений, тем меньше дисперсии оценок. Это вполне логично, так как чем большим числом данных мы располагаем, тем вероятнее получение более точных оценок.
• Чем больше дисперсия (разброс значений ) объясняющей переменной, тем меньше дисперсия оценок коэффициентов. Другими словами, чем шире область изменений объясняющей переменной, тем точнее будут оценки (тем меньше доля случайности в их определении).
Наглядное обсуждение этих выводов проведем чуть позже на основе следующих рассуждений.
В силу того что случайные отклонения si по выборке определены быть не могут, при анализе надежности оценок коэффициентов регрессии они заменяются отклонениями значений , переменной Y от оцененной линии регрессии. Дисперсия случайных отклонений заменяется ее несмещенной оценкой.
Необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии):
(3.9)
Тогдa
где - стандартная ошибка оценки (стандартная ошибка регрессии);S= и = - стандартные отклонения случайных величин а
и а, называемые стандартными ошибками регрессии.
Объяснение данных соотношений имеет весьма наглядную графическую интерпретацию.
Коэффициент а определяет наклон прямой регрессии. Чем больше разброс значений Y вокруг линии регрессии, тем больше (в среднем) ошибка определения наклона прямой регрессии. Действительно, если такой разброс совсем отсутствует (= 0), то прямая определяется однозначно и ошибки при определении а и а не будет вовсе (). Например, на рис.2.2.1 (а) все наблюдаемые точки лежат на одной прямой (). Тогда через
любой набор точек проводится одна и та же прямая. На рис. 2.2.1 (б) точки не лежат на одной прямой, но для трех точек прямая регрессии будет такой же (хотя отклонения от линии регрессии существенны), как и на рис. 2.2.1 (а). Однако при исключении из рассмотрения любой из указанных трех точек прямые регрессии будут существенно отличаться друг от друга ((1, 2), (1, 3), (2, 3)). Следовательно, значительно различаются их углы наклона, а значит, стандартная ошибка коэффициента регрессии а будет существенной.
В знаменателе дроби, определяющей значение S, стоит сумма квадратов
отклонений от среднего значения х. Эта сумма велика (а следовательно, вся дробь мала, и дисперсия S оценки меньше), если регрессия определяется на
широком диапазоне значений переменной X.
Например, на рис. 2.2.2 через пары точек (1, 3) и (2, 3) проведена одна и та же прямая. Однако диапазон (1, 3) шире диапазона (2, 3). Если вместо точки 3 рассмотреть либо точку 3а, либо 3б (т.е. при случайном изменении выборки), то наклон прямой для пары (1, 3) изменится значительно меньше, чем для пары (2, 3).
Дисперсия свободного члена уравнения регрессии про-
порциональна дисперсии S . Действительно, чем сильнее меняется наклон пря-
мой, проведенной через данную точку (), тем больше разброс значений свободного члена, характеризующего точку пересечения этой прямой с осью ОУ.
Рис. 2.2.2. Изменение наклона регрессионной прямой
Кроме того, разброс значений свободного члена тем больше, чем больше средняя величина. Это связано с тем, что при больших по модулю значениях X даже небольшое изменение наклона регрессионной прямой может вызвать большое изменение оценки свободного члена, поскольку в этом случае в среднем велико расстояние от точек наблюдений до оси OY.
3.7. Проверка выполнимости предпосылок МНК.
Статистика Дарбин-Уотсона
Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R не гарантирует высокое качество уравнения регрессии. Поэтому следующим этапом проверки качества уравнения регрессии является определение выполнимости предпосылок МНК. Для этого рассмотрим статистику Дарбина-Уотсона.
Оценивая линейное уравнение регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна, а отклонения от регрессионной прямой являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки несмещенности, эффективности, состоятельности и анализ их значимости будут неточными.
На практике для анализа коррелированности отклонений вместо коэффициента корреляции используют тесно с ним связанную статистику Дарбина-Уотсо- на DW, рассчитываемую по формуле:
(3.10)
Здесь сделано допущение, что при больших n выполняется соотношение:
(3.11)
Тогда
(3.12)
Нетрудно заметить, что если = , то = 1 и DW=0. Если = -, то = -1 и DW=4. Во всех других случаях 0 4 - d1, то это свидетельствует об отрицательной автокорреляции остатков.
При du < DW < 4 - du гипотеза об отсутствии автокорреляции остатков принимается.
Если d1 < DW < du или 4 - du < DW < 4 - d1, то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена.
Тема 4. Модели парной нелинейной регрессии
Различают два класса нелинейных регрессий:
• регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
• регрессии, нелинейные по оцениваемым параметрам.
Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции:
• полиномы разных степеней: y = a + bx + cx + , y = a + b х + cx+ d х + ;
• равносторонняя гипербола: у =
К нелинейным регрессиям по оцениваемым параметрам относятся функции:
• степенная: у = а ;
• показательная: у = а bx;
• экспоненциальная: у = е .
Нелинейность по переменным устраняется путем замены переменной. Например, нелинейное уравнение y = после замены переменной z =
становится линейным: y = .
Нелинейность по параметру часто устраняется путем логарифмического преобразования уравнения. Например, следующие нелинейные уравнения после логарифмирования сводятся к линейным:
• степенная функция y = после логарифмирования становится линейной: ln y = ;
• экспоненциальная функция после логарифмирования становится линейной: .
В экономике функции вида применяются при моделировании
кривых спроса, а вида - при моделировании временных рядов.
4.1. Нелинейные однофакторныерегрессионные модели. Линеаризация
Как было сказано выше, если факторный признак увеличивается в арифметической прогрессии, а результирующий значительно быстрее, то целесообразно использовать однофакторную параболическую модель второй степени - параболическую регрессию. В этом случае уравнение регрессии будет иметь вид:
Yx = (4.1)
В данном случае задача сводится к определению неизвестных параметров: .
Значения величин х и Y представлены двумя рядами данных:
Y1, Y2, Y, ..., Y
Если бы все значения, полученные по данным наблюдения, лежали строго на кривой, описываемой уравнением параболы, то для каждой из точек было бы справедливо равенство:
(4.2)
Однако на практике получается другое:
(4.3)
где - разность между данными наблюдения и данными, полученными по уравнению связи.
Эта разность появляется в силу наличия ошибок в результатах опыта, поэтому возникает проблема нахождения таких коэффициентов регрессии, при которых ошибка была бы минимальной. Можно минимизировать сумму абсолютных отклонений (ошибок):
(4.4)
или минимизировать сумму кубических ошибок, получив сумму наименьших кубов:
(4.5)
или, наконец, минимизировать наибольшую абсолютную ошибку:
min (4.6)
Однако наиболее оптимальным вариантом является оценка ошибки по методу наименьших квадратов:
(4.7)
Метод наименьших квадратов обладает тем замечательным свойством, что делает число нормальных уравнений равным числу неизвестных коэффициентов. Приведенное уравнение параболы второго порядка имеет три неизвестных коэффициента: а0, а1, а2.
Следовательно, применяя метод наименьших квадратов, мы получим уравнение:
(4.8)
Для нахождения значений неизвестных коэффициентов а0, a1, а2, при которых функция S (а0, а1, а2) была бы минимальной, необходимо приравнять частные производные по этим величинам к нулю:
(4.9)
Проведя соответствующие преобразования, получим систему нормальных уравнений:
(4.10)
Решив систему, найдем значения неизвестных коэффициентов:
где - определитель системы; - частные определители системы.
Получили уравнение регрессии. Вычислим по уравнению регрессии теоретические значения Yx и сравним с данными наблюдения, т. е. рассчитаем так называемую остаточную сумму квадратов, которая совпадает с минимальной возможной величиной по методу наименьших квадратов.
Пример 1. По семи территориям Волжского региона за 2002 г. известны значения двух признаков (табл. 2.2.4).
Таблица 2.2.4
Зависимость расходов от среднедневной заработной платы
Требуется:
1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной;
в) показательной;
г) равносторонней гиперболы.
2. Оценить каждую модель через среднюю ошибку аппроксимации и F- критерия Фишера.
Решение:
1а) для расчета параметров а0 и а1 линейной регрессии y = a0+а1 решаем систему нормальных уравнений относительно а0 и а1:
По исходным данным рассчитываем: (табл. 2.2.5).
Уравнение регрессии: = 76,88 - 0,35. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35%.
Рассчитаем линейный коэффициент парной корреляции:
Связь умеренная, обратная. Определим коэффициент детерминации:
Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения. Найдем величину средней ошибки аппроксимации А:
В среднем, расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критей
поскольку , следует рассмотреть
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б) для построения степенной модели y=a0x а1 нужно провести линеаризацию переменных. Линеаризация производится путем логарифмирования обеих частей уравнения:
,
Где .
Для расчетов будем использовать данные из таблицы 2.2.6.
Рассчитаем C и а1:
Получим линейное уравнение: = 2,278 - 0,298 . Выполним его потенцирование, получим:
Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата . По ним рассчитаем показатели тесноты связи (индекс корреляции рху ) и среднюю ошибку аппроксимации :
Характеристики степенной модели показывают, что она несколько лучше описывает взаимосвязь, чем линейная функция.
Задания 1в) и 1г) предлагается сделать самостоятельно, используя уравнение показательной функции у = а х Ьх и уравнение равносторонней гиперболы
Вопросы для самопроверки
1. Назовите основные причины наличия в регрессионной модели случайного отклонения.
2. Суть МНК состоит в:
а) минимизации суммы квадратов коэффициентов регрессии;
б) минимизации суммы квадратов значений зависимой переменной;
в) минимизации суммы квадратов отклонений точек наблюдений от уравнения регрессии;
г) минимизации суммы квадратов отклонений точек эмпирического уравнения регрессии от точек теоретического уравнения регрессии.
3. Как вы считаете, если по одной и той же выборке рассчитаны регрессии Y на X и X на Y, то совпадут ли в этом случае линии регрессии?
4. Какое из следующих утверждений истинно, ложно, неопределенно? Почему?
а) линейное уравнение регрессии является линейной функцией относительно входящих в него переменных;
б) коэффициент эмпирического парного линейного уравнения регрессии показывает процентное изменение зависимой переменной Y при однопроцентном изменении X;
в) включение в уравнение незначимой объясняющей переменной не увеличивает коэффициент детерминации R2.
Задачи для самостоятельной работы
№1. Получены функции:
1. у = а + bx3 +; 5. уа = b + cx2 + s;
2. у = а + b ln x + ; 6. у = 1 + а(1 - xb)+ ;
3. ln у = а + b ln x + ; 7. у = а + b + .
4. у = а + bxc + ;
Определите, какие из этих функций линейны по переменным; линейны по параметрам; нелинейные ни по переменным, ни по параметрам.
Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
№3. Имеется информация за 7 лет относительно среднего дохода и среднего потребления (млн. руб.) (табл. 2.2.8).
Таблица 2.2.8
Зависимость среднего потребления от среднего дохода
1. Оцените коэффициенты линейной регрессии по МНК.
2. Проинтерпретируйте найденные коэффициенты.
3. Проверьте статистическую значимость коэффициентов при уровне значимости а = 0,05.
4. Рассчитайте 95%-е доверительные интервалы для теоретических коэффициентов регрессии.
5. Спрогнозируйте потребление при доходе I = 25,00, постройте доверительный интервал для данного прогноза.
№4. По 10 наблюдениям за СВ Х и Y получены следующие данные:
Предполагая, что предпосылки МНК выполнены, рассчитайте:
1. Коэффициенты линейного уравнения регрессии.
2. Стандартные ошибки коэффициентов.
3. 90 и 99%-е доверительные интервалы.
4. Коэффициент детерминации.
5. Можно ли на основе построенных доверительных интервалов принять гипотезу ?
№5. Даны две регрессии, рассчитанные по 25-годовым наблюдениям:
а) ( - расходы на оплату жилья, xt - доход );
б) (- расходы на оплату жилья, t - время ).
Дайте экономическую интерпретацию построенных регрессий. Согласуются ли они друг с другом?
№6. По 15 регионам страны изучается зависимость уровня безработицы у (%) от индекса потребительских цен х (% к предыдущему году). Информация о логарифмах исходных показателей представлена в табл. 2.2.9.
Таблица 2.2.9
Известно также, что коэффициент корреляции между логарифмами исходных показателей составил
Требуется:
1. Построить уравнение регрессии зависимости уровня безработицы от индекса потребительских цен в степенной форме.
2. Дать интерпретацию коэффициента эластичности данной модели регрессии.
3. Определить значение коэффициента детерминации и пояснить его смысл.
РАЗДЕЛ III. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
Тема 5. Множественная регрессия
5.1. Уравнения множественной регрессии
Значения экономических переменных определяются влиянием не одного, а нескольких факторов. Например, рассматривая уровень фондоотдачи на различных предприятиях одной отрасли, мы можем установить, что величина его зависит от размеров предприятия, удельного веса активной части фондов, степени изношенности фондов, их обновления и ряда других факторов; урожайность зависит от количества внесенных удобрений, сроков уборки, количества осадков; вес человека - от его роста, объема груди и т.п.
Таким образом, модель множественной регрессии - это модель зависимости результирующей переменной более чем от одной независимой переменной.
Выше была рассмотрена зависимость между двумя признаками, т.е. речь шла о так называемой парной корреляции. На практике же чаще изменение рассматриваемого признака зависит от нескольких причин. В таких случаях изучение корреляционной связи не может ограничиться парными зависимостями, и в анализ необходимо включить другие признаки-факторы, существенно влияющие на изучаемую зависимую переменную. Построение моделей множественной регрессии включает несколько этапов:
1) выбор формы связи (уравнения регрессии);
2) отбор факторных признаков;
3) обеспечение достаточного объема совокупности для получения несмещенных оценок.
Выбор формы связи затрудняется тем, что при использовании математического аппарата теоретически зависимость между признаками может быть выражена большим числом различных функций.
Выбор типа уравнения осложнен тем, что для любой формы зависимости существует целый ряд уравнений, которые в определенной степени будут описывать эти связи. Некоторые предпосылки для выбора определенного уравнения регрессии появляются на базе анализа предшествующих аналогичных исследований или на базе подобных работ в смежных отраслях знаний. Поскольку уравнение регрессии строится, главным образом, для объяснения и количественного выражения взаимосвязей, оно должно хорошо отражать фактические связи, сложившиеся между исследуемыми факторами.
Наиболее приемлемым способом определения вида исходного уравнения регрессии является метод перебора различных уравнений.
Сущность данного метода заключается в том, что большое число уравнений (моделей) регрессии, отобранных для описания связей какого-либо социально- экономического явления или процесса, реализуется на ЭВМ с помощью специально разработанного алгоритма перебора с последующей статистической проверкой, главным образом, на основе t-критерия Стьюдента и F-критерия Фишера. Способ перебора является достаточно трудоемким и связан с большим объемом вычислительных работ.
Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей:
1) линейная:
2) степенная:
3) показательная:
4) параболическая:
5) гиперболическая:
Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. Нелинейные формы зависимости приводятся к линейным путем линеаризации.
Аналитическая форма выражения связи результативного признака и ряда факторных признаков называется многофакторной моделью регрессии, или моделью связи.
Уравнение линейной множественной модели имеет вид:
, (5.1)
где - теоретические значения результативного признака, полученные подстановкой соответствующих значений факторных признаков в уравнение регрессии;
xj ,x2...,xk- факторные признаки;
a, a2,... ak- параметры модели (коэффициенты регрессии).
Параметры уравнения могут быть определены методом наименьших квадратов, который минимизирует выражение:
(5.2)
Изучение связи между тремя и более связанными между собой признаками проводят методами множественной (многофакторной) регрессии. При исследовании зависимостей методами множественной регрессии задача формулируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение связи между результативным признаком Y и факторными признаками x1,x2,...,Xk, найти функцию:
(5.3)
Рассчитав параметры уравнения множественной зависимости, определим множественный коэффициент корреляции, являющийся характеристикой тесноты связи между результативным и несколькими факторными признаками, по формуле:
(5.4)
где - общая дисперсия фактических данных результативного признака (дисперсия Y);
- остаточная дисперсия, характеризующая вариацию Y за счет факторов, не включенных в уравнение регрессии.
Множественный коэффициент корреляции может принимать значения в пределах от 0 до 1 и по определению положителен, т.е.: 0R 1. Приближение R к единице свидетельствует о сильной зависимости между признаками. Если R 0,3, то можно утверждать, что не все важнейшие факторы взаимосвязи учтены или выбрана неподходящая форма уравнения.
Для решения поставленной задачи определяют так называемые коэффициенты частной корреляции, которые являются характеристиками тесноты связи между двумя признаками при фиксированном значении остальных факторных признаков. Для расчета частных коэффициентов корреляции могут быть использованы парные коэффициенты корреляции.
Для случая зависимости Y от двух признаков можно будет вычислить два коэффициента частной корреляции:
1) частный коэффициент корреляции г01,2 между результативным признаком Y и фактором x при исключении фактора х2 показывает, какую часть разброса Y, вызванного фактором x составляет в разбросе Y под действием всех факторов, кроме фактора х2:
(5.5)
частный коэффициент корреляции r02,1 характеризует зависимость результативного признака Y от фактора х2 при исключении влияния фактора x:
(5.6)
Для общего случая частные коэффициенты корреляции можно определить таким образом:
(5.7)
где R - коэффициент детерминации результативного признака Y с комплексом признаков x, x2, ..., x , xm;
R2m—1 - коэффициент детерминации результативного признака Y с комплексом признаков x, x2, ..., x;
- частный коэффициент корреляции Y с факторным признаком
хт при исключении влияния факторных признаков x, x2, ..., x.
Значения парного и частного коэффициентов отличаются друг от друга, так как парный коэффициент характеризует связь между двумя признаками без учета влияния других признаков, а частный - учитывает наличие и влияние других факторов.
Построение многофакторных регрессионных моделей позволяет дать количественное описание основных закономерностей изучаемых явлений, выделить существенные факторы, обусловливающие изменение экономических показателей и оценить их влияние.
Полученные модели, в основном, используются в двух направлениях: для сравнительного анализа и в прогнозировании. Например, для выявления внутриотраслевых резервов повышения эффективности производства рассчитывается уравнение множественной регрессии, рассматриваемое в качестве экономико- статистической модели анализируемого показателя эффективности и характеризующее основные закономерности в формировании этого показателя для совокупности предприятий отрасли. На основе такого уравнения можно проанализировать и сравнить влияние каждого фактора на повышение эффективности в среднем по отрасли.
Построенные регрессионные модели можно использовать не только для анализа экономических явлений и процессов, но и для прогнозирования основанных на экстраполяции заданных признаков. Однако следует помнить, что при практическом использовании уравнений регрессии экстраполяция допускается только тогда, когда существенно не изменяются условия формирования уровней признаков, которые лежали в основе определения параметров уравнения регрессии. В противном случае использование уравнений для составления прогнозов должно быть отвергнуто. Необходим новый эмпирический материал, который отразит взаимосвязь между признаками в новых условиях с определенными качественными сдвигами.
Выше было сказано, что для использования регрессионной модели с целью прогнозирования необходимы ее адекватность по F-критерию Фишера, значимость коэффициентов регрессии и отсутствие превышения относительной ошибки аппроксимации более чем на 12-15%.
Экстраполяция дает возможность получить точечное значение прогноза. Точное совпадение фактических данных и прогностических точечных оценок, полученных путем экстраполяции кривых, характеризующих тенденцию, имеет малую вероятность. Возникновение таких отклонений объясняется следующими причинами:
1. Выбранная для прогнозирования кривая не является единственно возможной для описания тенденции. Можно подобрать такую кривую, которая дает более точный результат.
2. Составление прогноза осуществляется на основании ограниченного числа исходных данных. Кроме того, каждый исходный уровень обладает еще случайной компонентой. Поэтому и кривая, по которой осуществляется экстраполяция, будет содержать случайную компоненту.
Любой статистический прогноз носит приближенный характер, поэтому целесообразно определение доверительных интервалов прогноза.
Алгоритм определения величины доверительного интервала рассмотрим на примере.
Проведем прогноз результирующего фактора по заданному линейному уравнению множественной регрессии:
где - дневная выработка рабочего;
x - квалификационный разряд рабочего;
x - продолжительность внутрисменных простоев.
Для этого определим дневную выработку рабочего, имеющего 6-й разряд, при увеличении внутрисменных простоев до 25 мин.:
= 81,03 - 0,41 25 + 3,37 6 = 81,03 -10,25 + 20,22 = 91,0 шт.
Величина доверительного интервала определяется соотношением:
91,0 ± 2,11 5,66 = 91,0 ± 11,94.
Здесь величины 2,11 и 5,66 определяют соответственно табличное значение t-критерия Стьюдента при 5%-ном уровне значимости и 17 степенях свободы и среднее квадратическое отклонение .
Таким образом, прогнозное значение будет находиться в интервале:
79,09 у 102,94.
5.2. Проверка общего качества уравнения регрессии
После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации R2, который в общем случае рассчитывается по формуле:
(5.8)
Как отмечалось, в общем случае 0 << 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R2.
Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение . Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в поведении Y.
Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы. Вводится так называемый скорректированный (исправленный) коэффициент детерминации:
(5.9)
Можно заметить, что у является несмещенной оценкой общей дисперсии - дисперсии отклонений значений переменной Y от . При
этом число ее степеней свободы равно (п - l). Одна степень свободы теряется при вычислении .
В свою очередь, является несмещенной оценкой остаточной дисперсии - дисперсии случайных отклонений (отклонений точек наблюдений от линии регрессии). Ее число степеней свободы равно . Потеря (т + 1) степени свободы связана с необходимостью решения системы (т + 1) линейного уравнения при определении коэффициентов эмпирического уравнения регрессии. Попутно заметим, что несмещенная оценка объясненной дисперсии (дисперсии отклонений точек на линии регрессии от имеет число степеней свободы, равное разности степеней свободы общей дисперсии и остаточной дисперсии (п - 1) - (n - т -1) = т.
Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.
Так, для уравнения y=a+b1 • x1 + b2x2 +...+bkxk + система нормальных уравнений составит:
Ее решение может быть осуществлено методом определителей:
где - определитель системы;
- частные определители. При этом
получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.
5.3. Мультиколлинеарность
Сложность и взаимное переплетение отдельных факторов, обусловливающих исследуемое экономическое явление (процесс), могут проявляться в так называемой мультиколлинеарности, под которой понимается тесная связь факторов между собой в экономических процессах, описываемых многофакторными зависимостями.
Мультиколлинеарность - явление, при котором нестрогая линейная зависимость между результирующей и объясняющими переменными в модели множественной регрессии может привести к получению недостаточно надежных оценок регрессии. Нестрогая линейная зависимость между переменными имеет место, если теоретический коэффициент корреляции близок к 1 или -1. Муль- тиколлинеарность в модели множественной регрессии проявляется в различной степени. Если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайной величины мала, то оценки регрессии могут быть надежными. Если две и более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелировать (зависеть), что приведет к мультиколлинеарности.
Наличие мультиколлинеарности между признаками приводит к:
а) слабой обусловленности системы нормальных уравнений;
б) искажению величины параметров модели, которые имеют тенденцию к завышению;
в) изменению смысла экономической интерпретации коэффициентов регрессии;
г) осложнению процессов определения наиболее существенных факторных признаков.
В решении проблемы мультиколлинеарности можно выделить несколько этапов:
а) установление наличия мультиколлинеарности;
б) определение причин возникновения мультиколлинеарности;
в) разработка мер по ее устранению.
Причинами возникновения мультиколлинеарности между признаками являются:
а) ситуации, когда изучаемые факторные признаки характеризуют одну и ту же сторону явления или процесса. Например, не рекомендуется включать одновременно в модель показатели объема производимой продукции и среднегодовой стоимости основных фондов, так как они оба характеризуют размер предприятия;
б) использование в качестве факторных признаков таких показателей, суммарное значение которых представляет собой почти постоянную величину;
в) факторные признаки, являющиеся составными элементами друг друга;
г) факторные признаки, по экономическому смыслу дублирующие друг друга.
5.4. Выбор уравнения множественной регрессии
При моделировании реального объекта мы не можем быть абсолютно уверены, что уравнение специфицировано, верно. Т.е. в уравнение регрессии могут быть включены переменные, которых там не должно быть (лишние переменные), и не включены другие переменные, которые в нем должны присутствовать. Выбор необходимых для регрессии переменных и отбрасывание лишних - это спецификация переменных. Одним из методов спецификации переменных является включение максимально возможных, с точки зрения здравого смысла, объясняющих переменных с последующим их исключением из уравнения регрессии, при помощи тестов Стьюдента или Фишера. Проверка адекватности моделей, построенных на основе уравнения регрессии, начинается с проверки значимости каждого коэффициента регрессии.
Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента:
(5.10)
где - дисперсия коэффициента регрессии.
Параметр модели признается статистически значимым, если
tp > tкр(; v = n - k -1), (5.11)
где а - уровень значимости критерия проверки гипотезы о равенстве нулю параметров, измеряющих связь. Статистическая существенность связи утверждается при исключении нулевой гипотезы об отсутствии связи;
v = n – k - l - число степеней свободы, которое характеризует число свободно варьирующих элементов совокупности;
k - число факторных признаков в уравнении; n - число наблюдений (объем выборки).
Наиболее сложным в этом выражении является определение дисперсии, которая может быть рассчитана двояким способом.
Наиболее простой способ, выработанный методикой экспериментирования, заключается в том, что величина дисперсии коэффициента регрессии может быть приближенно определена по выражению:
(5.12)
где - дисперсия результативного признака.
Более точную оценку величины дисперсии можно получить по формуле:
(5.13)
где - величина множественного коэффициента корреляции по фактору с остальными факторами.
Проверка адекватности всей модели осуществляется с помощью расчета F- критерия Фишера и величины средней ошибки аппроксимации.
Значение F-критерия определяется по следующей формуле:
(5.14)
Дисперсия регрессии: (5.15)
- характеристика отклонения расчетных значений результативного признака от его среднего значения;
Остаточная дисперсия: (5.16)
- характеристика отклонения фактических значений результативного показателя от расчетных, полученных с помощью уравнения регрессии;
- экспериментальные (фактические) значения признаков;
- среднее значение;
- теоретические значения признаков, полученных по уравнению регрессии.
Величина Fрасч должна быть больше Fтабл при степенях свободы v1 = (к -1) и v2 = (n - к). Величина Fтабл определяется по таблице Фишера-Снедекора (F-рас- пределение) на основании величины = 0,05 или = 0,01. При оценке значимости коэффициентов регрессии с помощью критерия используются завершения отбора существенных факторов в процессе многошагового регрессионного анализа. Он заключается в том, что после оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее значение критерия. Затем уравнение регрессии строится без исключенного фактора, и снова проводится оценка адекватности уравнения и значимости коэффициентов регрессии. Такой процесс длится до тех пор, пока все коэффициенты регрессии не окажутся значимыми, что свидетельствует о наличии в регрессионной модели только существенных факторов. В некоторых случаях расчетное значение tрасч находится вблизи tтабл, поэтому с точки зрения содержательности модели такой фактор можно оставить для последующей проверки его значимости в сочетании с другим набором факторов.
Последовательный отсев несущественных факторов рассмотренным выше приемом (или последовательным включением новых факторов) составляет основу многошагового регрессионного анализа.
Таким образом, при выборе лучшей регрессионной модели следует руководствоваться тремя принципами:
1) коэффициенты регрессии должны быть статистически значимы (удовлетворять t-критерию Стьюдента);
2) модель должна быть адекватна по F-критерию Фишера;
3) выбранная математическая функция должна иметь минимальную ошибку аппроксимации среди всех рассматриваемых уравнений регрессии.
При этом возможны следующие варианты:
1. Построенная модель на основе ее проверки по F-критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.
2. Модель по F-критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для составления прогнозов.
3. Модель по F-критерию Фишера адекватна, но все коэффициенты регрессии незначимы. Поэтому модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.
Спецификация переменных модели окажет влияние на свойства оценок коэффициентов регрессии, например:
• если в модели отсутствуют необходимые переменные, то оценки коэффициентов регрессии могут быть смещенными;
• если включены лишние переменные в уравнение регрессии, то оценки коэффициентов регрессии будут несмещенными, но при этом неэффективными.
Маловероятно, что оценка первоначальной спецификации уравнения регрессии даст хорошие по всем параметрам результаты. Если оцененная по ряду статистических характеристик (DW, t-статистики, F-статистики) модель множественной регрессии нереалистична, то необходимо провести уточнение состава объясняющих переменных и вновь оценить коэффициенты уравнения регрессии.
Тема 6. Модели множественной регрессии с переменной структурой
6.1. Фиктивные и нефиктивные переменные
Объясняющие переменные в регрессионных моделях отражают количественные характеристики (объем производства, спрос, цену, размер заработной платы и т.д.) и поэтому имеют непрерывные области значений.
Однако некоторые переменные отражают какую-либо качественную сторону исследуемых процессов (качество вспашки, цвет окраски автомобиля, уровень квалификации персонала и т. п.). Такие переменные могут принимать всего два значения или дискретное множество значений.
Например, проанализируем с использованием фиктивной переменной зависимость урожайности пшеницы Y от вида вспашки z и количества внесенного органического удобрения x. По виду вспашки поля характеризуются двумя категориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обуславливает различия в урожайности. В этом случае уравнение регрессии будет иметь вид:
y = а0 + a x + cz + , (6.1)
где z - фиктивная переменная, т. е. искусственно введенная переменная, величина которой отражает эффект вида вспашки, а именно z = 1 для зяблевой и z = 0 для весенней вспашки.
Если мы располагаем экспериментальными данными по величине урожайности для весенней и зяблевой вспашки, то используя регрессионный анализ, можем оценить численные значения коэффициентов регрессии а0, a, c. Коэффициент c - коэффициент при фиктивной переменной z, он дает численную величину эффекта вида вспашки. Следует отметить, что в модели множественной регрессии всегда желательно присутствие хоть одной нефиктивной переменной, т.к. дисперсия фиктивной переменной очень мала и это сказывается на достоверности оценок. В модели с фиктивными переменными коэффициент детерминации R часто бывает очень малым, а значения t-статистики незначительно отличаются от 0 для фиктивных переменных. Однако не следует выбрасывать фиктивные переменные из модели, т.к. они описывают небольшие, но важные поправки к нефиктивной (объясняющей) переменной.
Модель может включать не одну, а несколько фиктивных переменных:
(6.2)
6.2. Сезонные фиктивные переменные
Сезонные фиктивные переменные - совокупность фиктивных переменных, предназначенных для обозначения различных времен года, кварталов, месяцев и т.п. Эту переменную следует выделять, когда имеет место значительное воздействие на результирующую переменную Y сезонного фактора.
Сумма сезонных отклонений должна равняться нулю.
6.3. Зависимая фиктивная переменная
Иногда фиктивные переменные могут быть использованы для объяснения поведения зависимой переменной. Например, если исследовать зависимость наличия автомобиля от дохода, пола субъекта и т.п., то зависимая переменная имеет два возможных значения: 0, если машины нет, и 1, если машина есть. Однако если для моделей данного типа использовать обыкновенный МНК, то полученные оценки не обладают свойствами наилучших линейных несмещенных оценок. Поэтому в этом случае используются другие методы.
Линейная вероятностная модель.
Рассмотрим модели, в которых зависимая переменная выражается в виде фиктивной (двоичной) переменной. Объясняющие переменные могут быть как количественные, так и качественные.
Представим рассматриваемую модель в виде:
(6.3)
Например, пусть Y - результат сдачи с первой попытки экзамена в ГАИ;
Х1 - количество часов вождения в автошколе;
Х2 - средний процент выпускников данной школы, сдающих экзамен в ГАИ с первой попытки;
D3 - использование компьютерной методики обучения.
В этой ситуации:
Y=
Пусть 0 Х1 50, 0 Х2 100,
Тогда получим следующую модель:
Y = (6.4)
Модели вида (6.3), (6.4) называются линейными вероятностными моделями. Суть этого названия поясним на простейшем примере:
Y = (6.5)
При использовании модели (6.5) среднеожидаемое значение Y (условное математическое ожидание ) при Х = х с учетом того, что M( ) = 0, определяется соотношением M(Y) = 0 P(Y = 1/x) + 1 P(Y = 1/x) = P(Y = 1/x).
Следовательно, из (6.5) имеем:
Р (Y = 1/ x) = (6.6)
Применимость МНК к моделям такого типа имеет определенные ограничения:
1. Случайные отклонения в данных моделях не являются нормальными случайными величинами, а скорее всего имеют биноминальное распределение.
при
при
Однако с ростом объема выборки биноминальное распределение стремится к нормальному.
2. Случайные отклонения не обладают свойством постоянной дисперсии (гомоскедастичности), т.е. D () зависит от вероятностей соответствующих значений Y, которые, в свою очередь, зависят от выбранных значений X.
3. Использование формул (6.3)-(6.5) может привести к ситуации, когда некоторые yi будут меньше нуля либо больше единицы. Для устранения данной проблемы нужно рассматривать logit модель.
4. Применение линейной вероятностной модели проблематично с содержательной точки зрения. Действительно, увеличение в (6.5) значения переменной Х на одну единицу приводит к изменению значения Y на величину вне зависимости от конкретного значения Х, что противоречит теоретическим и практическим выкладкам.
Logit модель.
(6.7)
где - условная вероятность.
Для ее оценки можно использовать МНК. Однако для этого необходимо
знать значения зависимой переменной , которые обычно неизвестны.
Поэтому необходимо определить значения p. В случае, если имеется выборка
сгруппированных данных, в качестве p можно использовать ее оценку
Тема 7. Модели множественной регрессии с гетероскедастичными и автокоррелируемыми остатками
7.1. Экономические причины гетероскедастичности
Свойства оценок коэффициентов регрессии зависят от свойств остаточной случайной составляющей () в уравнении регрессии. В моделях с гетероскедастичными остатками ошибки в разных наблюдениях некоррелированные (независимые), но их дисперсии имеют разные значения (рис. 2.3.1)
Таким образом, гетероскедастичность - это нарушение второго условия теоремы Гаусса-Маркова, которое заключается в том, что дисперсия случайной остаточной величины зависит от номера наблюдения (непостоянство дисперсий отклонений). Гетероскедастичность приводит к увеличению дисперсии оценок параметров регрессии и получению неправильного представления о точности уравнения регрессии. Т.е. если имеет место гетероскедастичность, то оценки коэффициентов уравнения регрессии (например, в случае парной регрессии это а0 и а1), найденные с помощью классического метода наименьших квадратов неэффективны и для определения более точных их значений следует применять обобщенный метод наименьших квадратов. Стандартные ошибки, вычисленные при гетероскедастичности, занижены по сравнению с истинными значениями.
Гетероскедастичность имеет место в случаях, когда неоднородны либо анализируемые объекты, либо условия их функционирования, т.е. когда значения переменных, входящих в уравнение регрессии, значительно различаются в разных наблюдениях (в наблюдениях во времени либо в пространстве). Например, если исследуется зависимость производственных затрат предприятия от каких- либо факторов (объема выпускаемой продукции, размера основных фондов и др.), то естественно ожидать, что для крупных предприятий колебания объема затрат будут больше.
Причиной гетероскедастичности могут быть и ошибки в исходных данных. Случайные неточности в начальной информации, такие как ошибки в порядке чисел, могут существенно повлиять на результаты.
Гетероскедастичность может иметь место при анализе временных рядов: если значения переменных x и y увеличиваются во времени, дисперсия остаточной случайной составляющей тоже будет расти.
7.2. Обнаружение гетероскедастичности
Появление проблемы гетероскедастичности часто можно предвидеть заранее, основываясь на характерных особенностях данных. В этих случаях можно выполнить соответствующие действия по устранению этого эффекта на этапе спецификации модели регрессии. Для этого существует ряд статистических тестов на гетероскедастичность, например: тест Уайта, тест Голдфелда-Куандта, тест Бреуша-Пагана и др.
Графический анализ остатков
Использование графического представления отклонений позволяет определиться с наличием гетероскедастичности. В этом случае по оси абсцисс откладываются значения (xi) объясняющей переменной X (либо линейной комбинации объясняющих переменных Y = a0 + a1 X1 + ... + an Xn), а по оси ординат - либо отклонения et, либо их квадраты е2 i= 1, 2, ..., п. Примеры таких графиков приведены на рис. 2.3.2.
Рис. 2.3.2. Графический анализ остатков
На рис. 2.3.2 (а) все отклонения ei2 находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс. Это говорит о независимости дисперсий ei2 от значений переменной X и их постоянстве, т.е. в этом случае выполняются условия гомоскедастичности.
На рис. 2.3.2 (б)-(д) наблюдаются некоторые систематические изменения в соотношениях между значениями xj, переменной X и квадратами отклонений ei2. На рис. 2.3.2 (в) отражена линейная, 2.3.2 (г) - квадратичная, 2.3.2 (д) - гиперболическая зависимости между квадратами отклонений и значениями объясняющей переменной X. Другими словами, ситуации, представленные на рис. 2.3.2 (б)-(д), отражают большую вероятность наличия гетероскедастичности для рассматриваемых статистических данных.
Отметим, что графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии. При множественной регрессии графический анализ возможен для каждой из объясняющих переменных Xj , j = 1, 2, ..., т отдельно. Чаще же вместо объясняющих переменных Xj по оси абсцисс откладывают значения, получаемые из эмпирического уравнения регрессии. Поскольку по уравнению множественной линейной регрессии yt является линейной комбинацией xij, j = 1, 2, ... , т, i = 1, 2, ..., п, то график, отражающий зависимость ei2 от может указать на наличие гетероскедастичности аналогично ситуациям на рис. 2.3.2 (б)-(д). Такой анализ наиболее целесообразен при большом количестве объясняющих переменных.
Тест Голдфелда-Квандта
В данном случае также предполагается, что стандартное отклонение пропорционально значению xi переменной X в этом наблюдении, т.е.
Предполагается, что имеет нормальное распределение и отсутствует автокорреляция остатков.
Тест Голдфелда-Квандта состоит в следующем:
1. Все п наблюдений упорядочиваются по величине X.
2. Вся упорядоченная выборка после этого разбивается на три подвыбор- ки размерностей к, (п - 2к), к соответственно.
3. Оцениваются отдельные регрессии для первой подвыборки (к первых наблюдений) и для третьей подвыборки (к последних наблюдений). Если предположение о пропорциональности дисперсий отклонений значениям X верно, то дисперсия регрессии по первой подвыборке (сумма квадратов отклонений
) будет существенно меньше дисперсии регрессии по третьей подвы-
борке (суммы квадратов отклонений ).
4. Для сравнения соответствующих дисперсий строится следующая F-ста- тистика:
(7.1)
где (к - т - 1) - число степеней свободы соответствующих выборочных дисперсий (т - количество объясняющих переменных в уравнении регрессии).
При сделанных предположениях относительно случайных отклонений построенная F-статистика имеет распределение Фишера с числами степеней свободы v1 = v2 = к - т -1.
5. Если то гипотеза об отсутствии гетероскеда-
2 стичности отклоняется (здесь - выбранный уровень значимости).
Естественным является вопрос: какими должны быть размеры подвыбо- рок для принятия обоснованных решений? Для парной регрессии Голдфелд и Квандт предлагают следующие пропорции: п = 30, к = 11; п = 60, к = 22.
Для множественной регрессии данный тест обычно проводится для той объясняющей переменной, которая в наибольшей степени связана с . При этом к должно быть больше, чем (т + 1). Если нет уверенности относительно выбора переменной, то данный тест может осуществляться для каждой из объясняющих переменных.Этот же тест может быть использован при предположении об обратной пропорциональности между и значениями объясняющей переменной. При этом статистика Фишера примет вид: F = S1/S3.
7.3. Неэффективность МНК. Метод взвешенных наименьших квадратов
Метод наименьших квадратов основан на ряде предпосылок относительно природы данных и результатов построения модели. Основные из них - разделение исходных переменных на зависимые и независимые; некоррелированность факторов, входящих в уравнения регрессии; отсутствие автокорреляции остатков, равенства их математического ожидания нулю и постоянная дисперсия.
Если на практике имеет место гетероскедастичность, то оценки классического МНК будут неэффективны. Классический МНК не делает различия между качеством наблюдений, придавая одинаковые «веса» каждому из них независимо от их качества. Если придавать большие «веса» наблюдениям высокого качества и меньшие - наблюдениям низкого качества, то можно получить более точные оценки параметров уравнения регрессии. Например, при анализе временного тренда объемов выпускаемой продукции агропромышленного предприятия в заданный временной интервал включены года, в которые имели место стихийные бедствия (засуха, наводнение и т.п.), что не отражено в регрессионной модели. Для того чтобы исключить вклад этих нетипичных периодов в результаты расчетов, необходимо задать для них меньший «вес», чем для остальных временных периодов. Поэтому важным моментом при использовании обобщенного метода наименьших квадратов (ОМНК) является корректный выбор «весов».
Сначала оценивают регрессионную модель с помощью классического МНК, считая, что отклонения si независимы между собой. При этом ковариация отклонений (ошибок):
COV =0 при , где i, j - номера наблюдений;
COV = , где - дисперсия ошибки i-го наблюдения.
Если величины известны, то далее можно величины 1 / использовать в качестве «весов» соответствующих отклонений и найти минимум суммы квадратов:
(7.2)
Для простоты изложения опишем ВНК на примере парной регрессии:
(7.3)
Разделим обе части (7.3) на известное
Положив получим уравнение регрессии
без свободного члена, но с дополнительной объясняющей переменной Z и с «преобразованным» отклонением v:
(7.4)
При этом для выполняется условие гомоскедастичности. Действительно,
Так как по предпосылке МНК
то, тогда
Следовательно, для преобразованной модели (7.4) выполняются предпосылки МНК. В этом случае оценки, полученные по МНК, будут наилучшими линейными несмещенными оценками.
Таким образом, МВНК включает следующие этапы:
1. Значения каждой пары наблюдений делят на известную величину at. Тем самым наблюдениям с наименьшими дисперсиями придаются наибольшие «веса», а с максимальными дисперсиями - наименьшие «веса». Действительно, наблюдения с меньшими дисперсиями отклонений будут более значимыми при оценке коэффициентов регрессии, чем наблюдения с большими дисперсиями. Учет этого факта увеличивает вероятность получения более точных оценок.
2. По МНК для преобразованных значений строится уравнение
регрессии без свободного члена с гарантированными качествами оценок.
Дисперсии отклонений неизвестны.
Для применения МВНК необходимо знать фактические значения дисперсий отклонений. На практике такие значения известны крайне редко. Следовательно, чтобы применить МВНК, необходимо сделать реалистические предполо-
2
жения о значениях .
Например, может оказаться целесообразным предположить, что дисперсии отклонений пропорциональны значениям (рис. 2.3.3 (а)) или значениям (рис. 2.3.3 (б)).
Дисперсии пропорциональны хi (рис. 2.3.3 (а)):
= ( - коэффициент пропорциональности).
Тогда уравнение (7.3) преобразуется делением его левой и правой частей на
Несложно показать, что для случайных отклонений выполняется усло-
вие гомоскедастичности. Следовательно, для регрессии применим обычный МНК. Действительно, в силу выполнимости предпосылки имеем
Таким образом, оценив по МНК коэффициенты а0 и а1 затем возвращаются к исходному уравнению регрессии.
Если в уравнении регрессии присутствует несколько объясняющих переменных, можно поступить следующим образом. Вместо конкретной объясняющей переменной Xj используется переменная исходного уравнения множественной линейной регрессии = a0 + a1 • x1 + a2x2 +... + akxk +, т.е. фактически линейная комбинация объясняющих переменных. В этом случае получают следующую регрессию:
Иногда из всех объясняющих переменных выбирается наиболее подходящая, исходя из графического представления.
Дисперсии пропорциональны (рис. 2.3.3 (б)).
В случае, если зависимость от хi целесообразнее выразить не линейной функцией, а квадратичной, то соответствующим преобразованием будет деление уравнения регрессии (7.3) на хi:
(7.5)
где
По аналогии с вышеизложенным несложно показать, что для отклонений v, будет выполняться условие гомоскедастичности. После определения по МНК оценок коэффициентов а0 и а1 для уравнения (7.5) возвращаются к исходному уравнению (7.3).
Отметим, что для применения описанных выше преобразований весьма значимы знания об истинных значениях дисперсий отклонений либо предположения, какими эти дисперсии могут быть. Во многих случаях дисперсии отклонений зависят не от включенных в уравнение регрессии объясняющих переменных, а от тех, которые не включены в модель, но играют существенную роль в исследуемой зависимости. В этом случае они должны быть включены в модель. В ряде случаев для устранения гетероскедастичности необходимо изменить спецификацию модели (например, линейную на лог-линейную, мультипликативную на аддитивную и т. п.).
В заключение отметим, что наличие гетероскедастичности не позволяет получить эффективные оценки, что зачастую приводит к необоснованным выводам по их качеству. Обнаружение гетероскедастичности является достаточно трудоемкой проблемой и для ее решения разработано несколько методов (тестов). В случае установления наличия гетероскедастичности ее корректировка также становится достаточно серьезной проблемой. Одним из возможных решений является метод взвешенных наименьших квадратов (при этом необходимы определенная информация либо обоснованные предположения о величинах дисперсий отклонений).
На практике имеет смысл применить несколько методов определения гете- роскедастичности и способов ее корректировки (преобразований, стабилизирующих дисперсию).
7.4. Автокорреляция
Автокорреляция ошибки - это нарушение третьего условия Гаусса-Маркова, которое заключается в том, что остаточные случайные составляющие в уравнении регрессии являются зависимыми, т.е.
COV при,,
где i,j -номера наблюдений.
Автокорреляция ошибки приводит к тому, что коэффициенты регрессии, найденные с помощью классического метода наименьших квадратов, становятся неэффективными. Автокорреляция связана с тем, что случайная составляющая в уравнении регрессии подвержена воздействию тех переменных, влияющих на результирующую переменную y, которые при создании модели не были включены в уравнение регрессии y = f(xl ,x2 ,...,xn), т.е. в состав определяющих переменных (x1, x2, ..., xn). В общем, это является сигналом недостаточного качества созданной модели и требует формирования нового списка определяющих переменных xl ,x2 ,...,xm.
В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых не учтенных в модели факторов. Суть автокорреляции поясним следующим примером. Пусть исследуется спрос Y на прохладительные напитки в зависимости от дохода X по ежемесячным данным. Трендовая зависимость, отражающая увеличение спроса с ростом дохода, может быть представлена линейной функцией Y=a0 +a]*X, изображенной на рис. 2.3.4.
Однако фактические точки наблюдений обычно будут превышать трендо- вую линию в летние периоды и будут ниже ее - в зимние.
Среди основных причин, вызывающих появление автокорреляции, можно выделить: ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных.
7.5. Обнаружение автокорреляции
В силу неизвестности значений параметров уравнения регрессии неизвестными будут также и истинные значения отклонений . Поэтому выводы об их независимости осуществляются на основе оценок et, полученных из эмпирического уравнения регрессии. Рассмотрим возможные методы определения автокорреляции.
Метод рядов
Этот метод достаточно прост: последовательно определяются знаки отклонений et, t = 1, 2, ..., Т. Например,
( )( + + + + + + +)(- - -)(+ + + +)(-),
т.е. 5 «-», 7 «+», 3 «-», 4 «+», 1 «-» при 20 наблюдениях.
Ряд определяется как непрерывная последовательность одинаковых знаков. Количество знаков в ряду называется длиной ряда.
Визуальное распределение знаков свидетельствует о неслучайном характере связей между отклонениями. Если рядов слишком мало по сравнению с количеством наблюдений п, то вполне вероятна положительная автокорреляция. Если же рядов слишком много, то вероятна отрицательная автокорреляция. Для более детального анализа предлагается следующая процедура. Пусть:
п - объем выборки;
- общее количество знаков «+» при п наблюдениях (количество положительных отклонений - et);
- общее количество знаков «-» при n наблюдениях (количество отрицательных отклонений - et);
к - количество рядов.
При достаточно большом количестве наблюдений (n] > 10, п2 > 10) и отсутствии автокорреляции СВ к имеет асимптотически нормальное распределение:
Тогда, если M(k) - uaD(k) < k < M(k) + uaD(k), то гипотеза об отсутствии автокорреляции не отклоняется.
Для небольшого числа наблюдений (n] < 20, п2 < 20) Свед и Эйзенхарт разработали таблицы критических значений количества рядов при п наблюдениях (Приложение 4). Суть таблиц в следующем.
На пересечении строки п] и столбца п2 определяются нижнее k] и верхнее k2 значения при уровне значимости = 0,05.
Если k] < k < k2, то говорят об отсутствии автокорреляции.
Если k < k] ,то говорят о положительной автокорреляции остатков.
Если k > k2, говорят об отрицательной автокорреляции остатков.
В нашем примере п = 20, п] = 11, n2=9, k = 5. По таблицам (Приложение 4) определяем k] = 6, k2 = 16. Поскольку k = 5 < 6 = k] ,то принимается предположение о наличии положительной автокорреляции при уровне значимости = 0,05.
Критерий Дарбина- Уотсона
Наиболее известным критерием обнаружения автокорреляции первого порядка является критерий Дарбина-Уотсона. Статистика DW Дарбина-Уотсона приводится во всех специальных прикладных компьютерных программах как важнейшая характеристика качества регрессионной модели. На основе вычисленной статистики DW Дарбина-Уотсона делается вывод об автокорреляции:
(7.6)
Статистика Дарбина-Уотсона тесно связана с выборочным коэффициентом корреляции
Таким образом, 0 < DW < 4, и ее значения могут указать на наличие либо отсутствие автокорреляции. Действительно, если (автокорреляция отсутствует), то DW 2. Если (положительная автокорреляция), то DW 0. Если
(отрицательная автокорреляция), то DW 4.
Для более точного определения, какое значение DW свидетельствует об отсутствии автокорреляции, а какое - о ее наличии, была построена таблица критических точек распределения Дарбина-Уотсона. По ней для заданного уровня значимости а, числа наблюдений п и количества объясняющих переменных m определяются два значения: d1 - нижняя граница и du - верхняя граница.
Общая схема критерия Дарбина-Уотсона следующая:
1.По построенному эмпирическому уравнению регрессии =a0+a1xt1+... +amxtm определяются значения отклонений et = для каждого наблюдения t, t = 1, 2, ..., Т.
2.По формуле (7.6) рассчитывается статистика DW.
3.По таблице критических точек Дарбина-Уотсона определяются два числа d1 и du и осуществляются выводы по правилу:
0 DW ua, то нулевая гипотеза об отсутствии автокорреляции должна быть отклонена. В противном случае она не отклоняется.
Отметим, что обычно значение р рассчитывается по формуле: = 1- 0,5DW, a D(g) равна квадрату стандартной ошибки Sg оценки g коэффициента. Поэтому h легко вычисляется на основе данных оцененной регрессии.
Основная проблема при использовании этого теста заключается в невозможности вычисления h при nD(g) > 1.
Пример решения задачи к разделу III
Анализируется объем S сбережений домохозяйства за 10 лет. Предполагается, что его размер st в текущем году t зависит от величины yt-1 располагаемого дохода Y в предыдущем году и от величины zt реальной процентной ставки Z в текущем году. Статистические данные представлены в таблице 2.3.1:
Требуется:
1. По МНК оценить коэффициенты линейной регрессии
2. Оценить статистическую значимость найденных эмпирических коэффициентов регрессии b0, b1, b2.
3. Построить 95%-е доверительные интервалы для найденных коэффициентов.
4. Вычислить коэффициент детерминации R2 и оценить его статистическую значимость при а = 0,05.
5. Вычислить статистику Дарбина-Уотсона и оценить наличие автокорреляции.
6. Определить, увеличивается или уменьшается объем сбережений с ростом процентной ставки; будет ли ответ статистически обоснованным.
Решение:
Для наглядности изложения приведем таблицу промежуточных вычислений (табл. 2.3.2):
Расчет коэффициентов проводится по формулам:
b0 = 2,9619423; b1 = 0,124189; b2 = 3,553841.
Таким образом, эмпирическое уравнение регрессии имеет вид:
st = 2,9619423 + 0,124189 yt + 3,553841 zt
Найденное уравнение позволяет рассчитать модельные значения зависимой переменной S и вычислить отклонения реальных значений от модельных (табл. 2.3.3).
Проанализируем статистическую значимость коэффициентов регрессии, предварительно рассчитав их стандартные ошибки. Дисперсия вычисляется по формуле:
84
35
33,49369
1,50631
2,26896
0,20427
0,04173
85
38
37,04753
0,95247
0,90719
-0,55384
0,30674
86
40
39,53131
0,46869
0,21967
-0,48378
0,23404
87
38
38,46125
-0,46125
0,21275
-0,92994
0,86479
88
44
45,74076
-1,74076
3,03024
-1,27951
1,63714
89
50
51,77838
-1,77838
3,16263
-0,03762
0,00141
90
55
53,02027
1,97973
3,91933
3,75811
14,12332
Сумма
405
405
~0
24,24058
-
41,87375
Среднее
36,81818
36,81818
-
-
-
-
Тогда стандартная ошибка регрессии S = 1,7407.
Следовательно, дисперсии и стандартные ошибки коэффициентов таковы:
= 1,8929; = 0,0212; = 1,0146.
Рассчитаем соответствующие t-статистики:
= 1,565; = 5,858; = 3,503.
Два коэффициента имеют t-статистики, превышающие тройку, что является признаком их высокой статистической значимости.
Определяем 95%-е доверительные интервалы для коэффициентов:
2,9619423 - 2,306 х 1,8929 < < 2,969423 + 2306 х 1,8929; -1,4031 << 7,3270;
0,124189 - 2,306 х 0,0212 < < 0,124189 + 2306 х 0,0212; 0,0753 < < 0,1731;
3,553841 - 2,306 х 1,0146 < < 3,553841 + 2306 х 1,0146; 1,2141 < < 5,8935.
Коэффициент детерминации R2 рассчитывается по формуле:
R2 = 1 - 24,2408 / 1087,636 = 0,9777.
Анализ статистической значимости коэффициента детерминации осуществляется на основе F-статистики:
F = 0,9777 / (1 - 0,9777) х 8 / 2 = 175,3732.
Для определения статистической значимости F-статистики сравним ее с соответствующей критической точкой распределения Фишера:
= 4,46.
Так как = 175,3732 > Fкр = 4,46, то статистика F, а следовательно, и коэффициент детерминации R2 статистически значимы. Это означает, что совокупное влияние переменных Y и X на переменную S существенно. Этот же вывод можно было бы сделать без особых проверок только по уровню коэффициента детерминации. Он весьма близок к единице.
Статистику DW Дарбина-Уотсона вычислим по формуле:
DW = 41,87375 / 24,24058 =1,72742.
Для проверки статистической значимости DW воспользуемся таблицей критических точек Дарбина-Уотсона. При уровне значимости = 0,05 и числе наблюдений n = 11 имеем:
d1 = 0,658; du = 1,604.
Так как 1,604 < DW < 2,396 (du < DW < 4 - du ), то гипотеза об отсутствии автокорреляции не отклоняется, т. е. считаем, что автокорреляция остатков отсутствует. Это является одним из подтверждений высокого качества модели.В силу того, что коэффициент Ь2 является статистически значимым, можно утверждать, что с ростом процентной ставки увеличивается объем сбережений (коэффициент Ь2 имеет положительный знак). Ответ будет статистически обоснованным.
Вопросы для самопроверки
1. В чем суть МНК для построения множественного линейного уравнения регрессии?
2. В чем суть коэффициента детерминации ?
3. Как используется F-статистика в регрессионном анализе?
4. Что такое автокорреляция остатков, и каковы ее виды?
5. Близость к нулю коэффициента детерминации означает его статистическую незначимость?
6. При увеличении количества объясняющих переменных всегда увеличивается коэффициент детерминации?
7. Объясните явление мультиколлинеарности. Что такое совершенная мультиколлинеарность?
Задачи для самостоятельной работы
№1. Предполагается, что объем предложения Q некоторого блага для функционирующей в условиях конкуренции фирмы зависит линейно от цены P данного блага и заработной платы W сотрудников фирмы, производящих данное благо:
Q =
Статистические данные собраны за 16 месяцев (табл. 2.3.4):
Требуется:
1. Оценить по МНК коэффициенты уравнения регрессии.
2. Проверить гипотезы: при равных условиях рост цены товара увеличивает предложение; рост заработной платы снижает предложение.
3. Определить интервальные оценки коэффициентов при уровне значимости
= 0,1.
4. Проверить гипотезу об отсутствии автокорреляции остатков.
№2. По выборке объема n=50 для Х1, Х2, Х3 построена следующая корреляционная матрица:
1.Найдите и оцените статистическую значимость частных коэффициентов корреляции .
2.При рассмотрении какой регрессии будет иметь место мультиколлинеарность?
№3. Имеется выборка из 10 наблюдений за переменными Х1 Х2, Y (табл. 2.3.5):
1. Можно ли по этим данным по МНК оценить коэффициенты регрессии с двумя объясняющими переменными? Ответ поясните.
2. В случае отрицательного ответа предложите преобразования, которые позволят оценить коэффициенты регрессии.
№4. Пусть зависимость заработной платы (Y) от стажа работы (X) сотрудника выражена следующим уравнением регрессии:
Y =
где D - фиктивная переменная, отражающая пол сотрудника. Как можно проверить предположение о том, что пол сотрудника не влияет на дисперсию случайных отклонений
№5. Для предприятий некоторой отрасли анализируют заработную плату (Y) сотрудников в зависимости от масштаба (количества сотрудников предприятия (X)).
Наблюдения по 30 случайно отобранным предприятиям представлены в
таблице 2.3.6:
Таблица 2.3.6
Исходные статистические данные
1. Постройте уравнение регрессии Y на X.
2. Можно ли ожидать наличия гетероскедастичности в данном случае?
3. Проверьте наличие гетероскедастичности, применив тест Голдфелда- Квандта. Использовать разбиение, при котором k = 12.
№6. Пусть при 50 наблюдениях и 3 объясняющих переменных статистика Дарбина-Уотсона принимает следующие значения: а)0,92; б)1,38; в)2,35; г)3,02; д) 3,73.
Не обращаясь к таблице критических точек Дарбина-Уотсона, сделайте предположение о наличие автокорреляции. Проверьте выводы по таблице.
№7. По статистическим данным за 20 лет построено уравнение регрессии между ценой бензина и объемом продаж бензина: DW = 0,71.
1. Будет ли в этом случае иметь место автокорреляция остатков? Если да, то положительная или отрицательная?
2. Какой критерий использован?
№8. Предполагается, что ежемесячное потребление пива студентами определяется (линейно) доходом, возрастом, полом студентов, а также временем обучения «младшие курсы-старшие курсы».
2. Сколько количественных и качественных объясняющих переменных должна включать модель?
3. Как проверить предположение, что пол студента существенно влияет на количество потребляемого пива?
РАЗДЕЛ IV. ВРЕМЕННЫЕ РЯДЫ И ДИНАМИЧЕСКИЕ ПРОЦЕССЫ
Тема 8. Модели временных рядов
8.1. Одномерный временной ряд
Одномерный временной ряд - ряд наблюдений (исходных статистических данных) x(t1),x(t2),..., анализируемой случайной величины х, проведенных в последовательные моменты времени t1,t2, ... , tn. При этом данные образуют пространственно-временную выборку. Одномерный ряд отражает эволюцию значений только одного признака исследуемого объекта. В процессе моделирования удобно анализировать временные ряды с равноотстоящими моментами наблюдений (например: по месяцам, поквартально и т.п.), т.е. - временной шаг. Тогда временной ряд можно представить в виде: х(1), х(2),..., х(п).
Каждый временной ряд состоит из двух элементов: первый - момент, или период времени t, второй - статистический показатель х, который характеризует исследуемый объект в данный момент или период времени. Соответственно, различают моментные и интервальные ряды динамики. Временной ряд имеет отличия от случайной выборки
х1, х2 ,... , хп, полученной для большого количества однотипных данных: члены временного ряда статистически зависимы и имеют различные распределения вероятностей. Степень тесноты статистической связи между наблюдениями временного ряда, взятыми для смежных моментов времени, определяется величиной коэффициента корреляции. Факторы, которые формируют значения временного ряда, могут быть долговременными, сезонными, циклическими и случайными. Долговременные факторы формируют общую тенденцию в изменении анализируемого признака х(t). Как правило, эта тенденция описывается с помощью некоторой функции , которая называется функцией тренда.
Сезонные факторы формируют периодически повторяющиеся в определенное время года колебания анализируемого признака. Результат действия сезонных факторов выражается какой-либо периодической функцией .
Циклические признаки формируют изменения анализируемого признака х(t), обусловленные действием долговременных экономических, демографических, природных и др. циклов, что отражается функцией .
Случайные признаки обуславливают стохастическую природу анализируемого признака х(t). Результат воздействия случайных факторов учитывается с помощью случайной остаточной составляющей . Случайные факторы в формировании значения анализируемого признака х(t) присутствуют всегда, остальные факторы могут отсутствовать. Тогда члены временного ряда можно представить в виде разложения:
(8.1)
где = 1, если параметр принимает значения, соответствующие эффекту действия долговременных, сезонных и циклических факторов;
= 0, если параметр принимает значения, соответствующие эффекту отсутствия воздействия долговременных, сезонных и циклических факторов.
Разработку модели, адекватно отражающей поведение случайных остатков анализируемого временного ряда , проводят в рамках некоторого класса стационарных временных рядов. Свойства строго стационарного временного ряда не зависят от начала отсчета времени.
Поэтому среднее значение: М x (t) = a = const; (8.2)
дисперсия: Dx(t) = М (x(t) - a)2 = = const (8.3)
8.2. Характеристики временных рядов
Временные ряды позволяют проводить анализ скорости и интенсивности развития исследуемого явления или объекта. С этой целью используются следующие показатели: абсолютный прирост, темп роста и прироста, абсолютное значение одного процента прироста. При этом сравниваемый уровень называют отчетным, а уровень, с которым проводят сравнение, - базисным. Показатели динамики с постоянной базой характеризуют окончательный результат всех изменений в уровнях ряда от периода базисного уровня до данного периода. Показатели динамики с переменной базой (цепные показатели) характеризуют интенсивность изменения уровня от периода к периоду в пределах изучаемого промежутка времени.
Абсолютный базисный прирост - разность между двумя статистическими показателями ряда динамики:
(8.4)
где - уровень статистического показателя сравниваемого периода;
- уровень статистического показателя базисного периода.
При сравнении с переменной базой абсолютный прирост (цепной прирост) определяется следующим образом:
(8.5)
где - уровень статистического показателя предшествующего периода.
Коэффициент роста - отношение статистического показателя сравниваемого периода либо со статистическим показателем базисного периода:
(8.6)
либо с показателем предшествующего периода:
(8.7)
Темпы роста - коэффициенты роста, выраженные в процентах и характеризующие скорость изменения величины статистического показателя за единицу времени:
Тр = k 100 % (8.8)
Темпы прироста - показатель, содержащий информацию о том, на сколько процентов уровень данного периода отличается от базисного:
(8.9)
При анализе относительных показателей динамики (темпов роста и темпов прироста) необходимо рассматривать их в совокупности с абсолютными показателями (величиной статистического показателя и абсолютными приростами). Чтобы правильно оценить значение полученного темпа прироста, его рассматривают в сопоставлении с показателем абсолютного прироста, для этого используя показатель абсолютного значения одного процента прироста:
(8.10)
Коэффициенты опережения - показатели, представляющие собой отношения темпов роста или темпов прироста за одинаковые отрезки времени по двум динамическим рядам:
или , (8.11)
где верхние индексы / и // соответственно относятся к первому и второму динамическому ряду.
Таким образом, коэффициенты опережения используются при сопоставлении динамики развития двух явлений или объектов исследования. С помощью этих коэффициентов могут сравниваться ряды одинакового содержания, но относящиеся к разным предприятиям, территориям, или ряды разного содержания, характеризующие один и тот же объект исследования.
Для обобщающей характеристики динамического ряда используются различные средние показатели: средние значения ряда и средние показатели изменения значений ряда.
8.3. Нестационарные временные ряды. Модель Бокса-Дженкинса
Как правило, временные ряды , построенные в процессе исследования реальных процессов в экономике, финансах, торговле и маркетинге, являются нестационарными. Нестационарность этих рядов проявляется в присутствии долговременных факторов, формирующих общую тенденцию ряда, которая учитывается с помощью функции тренда f(t). Такой ряд называется нестационарный однородный временной ряд. Для описания таких рядов была предложена модель Бокса-Дженкинса. Сущность модели заключается в том, что анализируемый временной ряд включает составляющую f(t), имеющую вид алгебраического полинома степени k-1, где параметром является время t и при этом коэффициенты этого полинома могут иметь случайную природу.
Пример решения задачи к разделу IV
На основе ежемесячных данных о числе браков (тыс.) в регионе за последние три года была построена аддитивная модель временного ряда. Скорректированные значения сезонной компоненты за соответствующие месяцы имеют следующий вид (табл. 2.4.1):
Уравнение тренда выглядит следующим образом:
При расчете параметров тренда использовались фактические моменты времени (t = 1...36). Требуется:
1. Определить значение сезонной компоненты за декабрь.
2. На основе построенной модели дать прогноз общего числа браков, которые будут заключены в течение первого квартала следующего года.
Решение:
1. Сумма значений сезонной компоненты внутри одного цикла должна быть равна нулю (в соответствии с методикой построения аддитивной модели временного ряда). Следовательно, значение сезонной компоненты за декабрь составит:
= 0-(-1+2-0,5+0,3-2-1,1+3+1+2,5+1-3) = - 2,2.
2. Прогнозное значение временного ряда Ft в аддитивной модели есть сумма трендового значения и соответствующего значения сезонной компоненты St.
Число браков, которые будут заключены в первом квартале следующего года, есть сумма числа браков, заключенных в январе F37 , в феврале F38 и марте F39.
Для расчета трендовых значений воспользуемся уравнением тренда, заданным в начале:
Т37 = 2,5 + 0,03 x 37 = 3,61;
Т38 = 2,5 + 0,03 x 38 = 3,64;
Т39 = 2,5 + 0,03 x 39 = 3,67.
Соответствующие значения сезонных компонент составят:
S1 = - 1 - январь;
S2= 2 - февраль;
S3 = - 0,5 - март.
Таким образом,
F37= Т37 +S1= 3,61 - 1 = 2,61;
F38 =Т38+ S2 = 3,64 + 2 = 5,64;
F39 =Т39 +S3 = 3,67 - 0,5 = 3,17.
Количество браков, которые будут заключены в первом квартале следующего года, таково: 2,61 + 5,64 + 3,17 = 11,42 тыс., или 11420.
Вопросы для самопроверки
1. В чем суть временного ряда?
2. В чем различие между прогнозированием и предсказанием?
3. Перечислите основные показатели временных рядов.
Задачи для самостоятельной работы
№1. Имеются следующие данные о величине дохода на одного члена семьи и расхода на товар А.
1. Определить ежегодные абсолютные приросты доходов и расходов и сделать выводы о тенденции развития каждого ряда.
2. Перечислить основные пути устранения тенденции для построения модели спроса на товар А в зависимости от дохода.
3. Построить линейную модель спроса, используя первые разности уровней исходных динамических рядов.
4. Пояснить экономический смысл коэффициента регрессии.
5. Построить линейную модель спроса на товар А, включив в нее фактор времени. Интерпретировать полученные параметры.
№2. Имеются данные об урожайности зерновых в хозяйствах области:
Требуется:
1. Обосновать выбор типа уравнения тренда.
2. Рассчитать параметры уравнения тренда.
3. Дать прогноз урожайности на следующий год.
№3. Имеются данные об эффективности ценных бумаг Y(t):
Требуется:
1. Проверить наличие тренда для Y(t).
2. Построить линейную модель кривой роста.
3. Оценить качество построенной модели.
№4. Пусть имеется следующий временной ряд:
Известно также, что = 150 , = 8100 , = 7350.
Требуется:
1. Определить коэффициент автокорреляции уровней этого ряда первого порядка.
2. Установить, включает ли исследуемый временной ряд тенденцию.
РАЗДЕЛ У. СИСТЕМЫ РЕГРЕССИОННЫХ УРАВНЕНИЙ
Тема 9. Системы одновременных уравнений
При использовании отдельных уравнений для экономических расчетов часто предполагается, что аргументы можно изменять независимо друг от друга. Однако в экономике практически неправдоподобно, что изменение одних переменных может происходить при неизменности других. Следовательно, отдельно взятое уравнение множественной регрессии не может характеризовать истинное влияние отдельных признаков на изменение результирующей переменной. Поэтому при моделировании достаточно сложных экономических объектов исследуемую модель описывают системой уравнений.
Различают следующие типы уравнений:
• система независимых уравнений - когда каждая зависимая переменная , i = 1, 2, ... , п рассматривается как функция одного и того же набора факторов
, j = 1, 2,... т:
Каждое уравнение системы может рассматриваться самостоятельно. Для нахождения его параметров используют метод наименьших квадратов;
• система рекурсивных уравнений - когда зависимая переменная у одного уравнения выступает в виде фактора х в другом уравнении:
Здесь каждое уравнение системы также может рассматриваться самостоятельно и для нахождения его параметров также используют метод наименьших квадратов;
• система одновременных (совместных) уравнений - когда одни и те же зависимые переменные в одних уравнениях входят в левую часть, а в других - в правую:
Система совместных, одновременных, уравнений определяет структурную форму модели. В зависимости от содержательной стороны модели в ней выделяют эндогенные и экзогенные переменные.
Эндогенные переменные - это зависимые переменные, число которых равно числу уравнений модели.
Экзогенные переменные - это предопределенные переменные, влияющие на эндогенные переменные, но не зависящие от них.
Предопределенные переменные - экзогенные и лаговые эндогенные переменные.
Коэффициенты bi, a при переменных y, x называют структурными коэффициентами модели.
Предполагается, что в каждом уравнении экзогенные переменные, стоящие в левых частях уравнений, некоррелированы с ошибкой. Эндогенные переменные, стоящие в правых частях уравнений, как правило, имеют ненулевую корреляцию с ошибкой в соответствующем уравнении.
Если использовать метод наименьших квадратов для оценивания параметров уравнения, входящего в систему одновременных уравнений, то полученные оценки наверняка окажутся смещенными и несостоятельными, а статистические тесты - некорректными. Причиной может быть смещение, порождаемое системой одновременных уравнений.
Простейшая структурная форма модели имеет вид:
(9.1)
где у - эндогенные переменные;
х - экзогенные переменные.
Классификация переменных на эндогенные и экзогенные зависит от теоретической концепции принятой модели. Экономические переменные могут выступать в одних моделях как эндогенные переменные, а в других - как экзогенные. Внеэкономические переменные (например, климатические условия) входят в систему как экзогенные переменные. В качестве экзогенных переменных могут рассматриваться значения эндогенных переменных за предшествующий период времени (лаговые переменные). Так, потребление текущего года (у) может зависеть не только от ряда экономических факторов, но и от уровня потребления в предыдущем году (у).
Структурная форма модели позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной переменной. Целесообразно в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регулирования. Меняя их и управляя ими, можно заранее иметь целевые значения эндогенных переменных.
Структурная форма модели в правой части содержит при эндогенных и экзогенных переменных коэффициенты bi и а- (bi - коэффициент при эндогенной переменной, а- - коэффициент при экзогенной переменной), которые называются структурными коэффициентами модели. Все переменные в модели выражены в отклонениях от среднего уровня, т.е. под х подразумевается (x - ) а под у - соответственно (y - ). Поэтому свободный член в каждом уравнении системы
отсутствует.
Использование МНК для оценивания структурных коэффициентов модели дает, как принято считать в теории, смещенные и несостоятельные оценки. Поэтому обычно для определения структурных коэффициентов структурная форма модели преобразуется в приведенную форму модели.
Приведенная форма модели представляет собой систему линейных функций эндогенных переменных от экзогенных:
(9.2)
По своему виду приведенная форма модели ничем не отличается от системы независимых уравнений, параметры которой оцениваются традиционным МНК. Применяя МНК, можно оценить , а затем оценить значения эндогенных переменных через экзогенные.
Коэффициенты приведенной формы модели представляют собой нелинейные функции коэффициентов структурной формы модели. Рассмотрим это положение на примере простейшей структурной модели, выразив коэффициенты приведенной формы модели () через коэффициенты структурной модели (b и a) Для упрощения в модель не введены случайные переменные.
Для структурной модели вида:
приведенная форма такова:
в ней y2 из первого уравнения структурной модели можно выразить следующим образом:
Тогда система одновременных уравнений будет выглядеть как:
Отсюда имеем:
Таким образом, мы представили первое уравнение структурной формы модели в виде уравнения приведенной формы модели:
(9.3)
Из уравнения следует, что коэффициенты приведенной формы модели представляют собой нелинейные соотношения коэффициентов структурной формы модели, т.е.
и
Аналогично можно показать, что коэффициенты приведенной формы модели второго уравнения системы (21 и 22) также нелинейно связаны с коэффициентами структурной модели. Для этого выразим переменную y из второго структурного уравнения модели:
Отсюда получаем:
что соответствует уравнению приведенной формы:
и
Эконометрические модели обычно включают в систему не только уравнения, отражающие взаимосвязи между отдельными переменными, но и выражения тенденции развития явления, а также разного рода тождества. Так, в 1947 г., исследуя линейную зависимость потребления (с) от дохода (у), Т. Хавельмо предложил одновременно учитывать тождество дохода. В этом случае модель имеет вид:
(9.4)
где х - инвестиции в основной капитал и в запасы экспорта и импорта; а и b - параметры линейной зависимости с от у.
Их оценки должны учитывать тождество дохода в отличие от параметров обычной линейной регрессии.
В этой модели две эндогенные переменные (с и у) одна экзогенная переменная (х). Система приведенных уравнений такова:
(9.5)
9.1. Идентифицируемость уравнений
При исследовании эконометрической модели нас в конечном счете интересует, прежде всего, поведение эндогенных переменных Yt. Из приведенной формы модели видно, что эндогенные переменные Yt являются по своей природе случайными величинами, поведение которых определяется внутренней структурой модели, а именно коэффициентами при переменных и природой случайных остатков. Возникает вопрос: а возможно ли, следуя «в обратном направлении», восстановить структурную форму по приведенной. Именно этот вопрос и отражает сущность проблемы идентифицируемости эконометрической модели.
Ответ на этот вопрос в общем случае, очевидно, отрицательный: без дополнительных ограничений на внутреннюю структуру модели (т.е. без соблюдения некоторых условий идентифицируемости) такое восстановление невозможно.
В эконометрической теории приняты следующие определения.
Уравнение структурной формы эконометрической модели называется точно идентифицируемым, если все участвующие в нем неизвестные коэффициенты однозначно восстанавливаются по коэффициентам приведенной формы без каких-либо ограничений на значения последних.
Эконометрическая модель называется точно идентифицируемой, если все уравнения ее структурной формы являются точно идентифицируемыми.
Уравнение структурной формы эконометрической модели называется сверхидентифицируемым, если все участвующие в нем неизвестные коэффициенты восстанавливаются по коэффициентам приведенной формы, причем некоторые из его коэффициентов могут принимать одновременно несколько числовых значений, соответствующих одной и той же приведенной форме.
Уравнение структурной формы эконометрической модели называется не- идентифицируемым, если хотя бы один из участвующих в нем неизвестных коэффициентов не может быть восстановлен по коэффициентам приведенной формы.
Эконометрическая модель называется неидентифицируемой, если хотя бы одно из уравнений ее структурной формы является неидентифицируемым.
Проблема идентифицируемости эконометрической модели важна для выбора метода статистического оценивания параметров в моделях.
Если обозначить число эндогенных переменных в определенном уравнении системы через Н, а число предопределенных переменных, которые содержатся в системе, но не входят в данное уравнение, - через D, то необходимое условие идентифицируемости модели может быть записано в виде следующего счетного правила:
D + 1 = Н - уравнение идентифицируемо;
D + 1 < Н - уравнение неидентифицируемо;
D + I > Н - уравнение сверхидентифицируемо.
Достаточное условие идентификации: определитель матрицы, составленной из коэффициентов при переменных, отсутствующих в исследуемом уравнении, не равен нулю, и ранг этой матрицы не менее числа эндогенных переменных без единицы.
Для оценки параметров структурной модели система должна быть идентифицируема или сверхидентифицируема.
Для решения идентифицируемого уравнения применяют косвенный метод наименьших квадратов, для решения сверхидентифицируемого - двухшаговый метод наименьших квадратов.
Косвенный метод наименьших квадратов (КМНК)
Косвенный метод наименьших квадратов состоит в следующем:
1. Структурная модель преобразовывается в приведенную форму модели.
2. Для каждого уравнения приведенной формы модели обычным методом наименьших квадратов оцениваются приведенные коэффициенты.
3. Путем алгебраических преобразований переходим от приведенной формы к уравнениям структурной формы модели, получая тем самым численные оценки структурных параметров.
Двухшаговый метод наименьших квадратов (ДМНК)
Двухшаговый метод наименьших квадратов состоит в следующем:
1. Структурная модель преобразовывается в приведенную форму модели.
2. Для каждого уравнения приведенной формы модели обычным методом наименьших квадратов оцениваются приведенные коэффициенты.
3. Выявляют эндогенные переменные, находящиеся в правой части структурного уравнения, параметры которого определяют двухшаговым методом наименьших квадратов, и находят расчетные значения по соответствующим уравнениям приведенной формы модели.
4. Обычным методом наименьших квадратов определяют параметры структурного уравнения, используя в качестве исходных данных фактические значения предопределенных переменных и расчетные значения эндогенных переменных, стоящих в правой части данного структурного уравнения.
9.2. Модель спроса и предложения
При математическом моделировании экономических объектов часто возникает необходимость формирования таких систем уравнений, в которых одни и те же переменные могут одновременно являться и результирующими и объясняющими. В эти уравнения могут входить лаговые переменные, т.е. переменные, относящиеся к предыдущим моментам времени (t-1, t-2, ...). Такие системы уравнений называют одновременными. Примером системы одновременных уравнений может быть модель спроса и предложения:
(9.6)
(9.7)
(9.8)
где - спрос на товары или услуги;
- цена;
- предложение;
- ошибки модели..
Экономическая модель, сформированная в виде системы одновременных уравнений, может быть представлена в структурной или приведенной форме. В структурной форме уравнения имеют вид, отражающий непосредственные связи между переменными (система уравнений 9.6-9.8). Приведенная форма получается после решения системы относительно эндогенных (внутренних) переменных, то есть после выражения этих переменных через экзогенные переменные и параметры модели. Приведенная форма для модели спроса и предложения выражает зависимость эндогенных переменных (,,) от параметров модели (a, a, b, b);
(9.9)
(9.10)
(9.11)
где , , - преобразованные ошибки модели.
Также в качестве примера системы одновременных уравнений рассмотрим систему линейных уравнений с результирующими и предопределенными переменными;
(9.12)
(9.13)
(9.14)
где - потребление;
- инвестиции;
- национальный доход; - подоходный налог;
- норма процента как инструмент государственного регулирования;
- государственные закупки товаров и услуг.
В этой модели эндогенными являются переменные у , у , у , а предопределенными - X((), x(2), x(3), где у(- - национальный доход за предыдущий
временной период. После несложных преобразований переходим к приведенной форме;
Пример решения задачи к разделу V
Имеются данные за 2004-2008 гг. (табл. 2.5.1).
Требуется:
Построить модель вида:
рассчитав соответствующие структурные коэффициенты.
Решение:
Система одновременных уравнений с двумя эндогенными и двумя экзогенными переменными имеет вид:
В каждом уравнении две эндогенные и одна отсутствующая экзогенная переменная из имеющихся в системе. Каждое уравнение и система в целом идентифицированы.
Для определения параметров такой системы применяется косвенный метод наименьших квадратов.
С этой целью структурная форма модели преобразуется в приведенную форму:
в которой коэффициенты при х определяются методом наименьших квадратов.
Для нахождения значений , запишем систему нормальных уравнений:
При ее решении предполагается, что х и у выражены через отклонения от средних уровней, т.е. матрица исходных данных такова (табл. 2.5.2)Применительно к ней необходимые суммы оказываются следующими:
Система нормальных уравнений составит:
Решая ее, получим: 11 = 0,00609; 12= - 0,26481. Итак, имеем у1 = 0,00609 х1 - 0,26481 х2.
Аналогично строим систему нормальных уравнений для определения коэффициентов 21, 22 самостоятельно.
у2 = 0,00029 х1 I 0,11207 х2.
Приведенная форма модели имеет вид:
Из приведенной формы модели определяем коэффициенты структурной модели:
Итак, структурная форма модели имеет вид:
Вопросы для самопроверки
1. Каковы основные причины использования систем одновременных уравнений?
2. Почему обычный МНК практически не используется для оценки систем одновременных уравнений?
3. Объясните суть ДМНК.
Задачи для самостоятельной работы
№1. Оценить следующую структурную модель на идентификацию:
Исходя из приведенной формы модели уравнений, найти структурные коэффициенты модели:
№2. Ниже приводятся результаты расчета параметров некоторой экономет- рической модели.
Структурная форма модели:
Приведенная форма модели:
1. Какими методами получены параметры структурной и приведенной форм модели? Возможно ли применить косвенный МНК для расчета структурных параметров модели?
2. Восстановите пропущенные характеристики.
№3. Строится модель вида:
Определить структурные коэффициенты, учитывая, что
А также
№4. Имеется следующая гипотетическая структурная модель:
Приведенная форма исходной модели имеет вид:
1. Проверить структурную форму модели на идентификацию.
2. Определить структурные коэффициенты модели.
3. КОНТРОЛЬ ЗНАНИЙ
3.1. Контрольные вопросы
1. Эконометрика: основные понятия и определения.
2. Этапы эконометрического моделирования, проблемы калибровки и спецификации модели.
3. Идентификация и верификация эконометрической модели.
4. Регрессионный анализ, результирующая переменная.
5. Функция регрессии, уравнения регрессионной связи.
6. Основные задачи прикладного регрессионного анализа.
7. Классическая линейная модель множественной регрессии.
8. Метод наименьших квадратов.
9. Метод максимального правдоподобия.
10. Статические свойства оценок параметров классической линейной модели множественной регрессии.
11. Оптимальность оценок методом наименьших квадратов.
12. Линейная модель регрессии с гетероскедастичными регрессионными остатками.
13. Обобщенный метод наименьших квадратов.
14. Сравнение оценок обобщенного метода наименьших квадратов и метода наименьших квадратов в моделях регрессии.
15. Основные характеристики модели регрессии с гетероскедастичными остатками.
16. Обобщенная линейная модель множественной регрессии с гетероскедастич- ными остатками.
17. Обобщенный метод наименьших квадратов.
18. Обобщенная линейная модель множественной регрессии с автокоррелированными остатками.
19. Виды нелинейных зависимостей, поддающихся линеаризации. Подбор линеаризующего преобразования.
20. Временной ряд. Основные задачи анализа временных рядов.
21. Точечный и интегральный прогноз на моделях линейной регрессии.
22. Основные характеристики стационарных временных рядов. Автокорреляционная функция.
23. Основные задачи анализа временных рядов.
24. Основные причины использования систем одновременных уравнений.
25. Суть временного ряда.
26. Различие между прогнозированием и предсказанием.
27. Суть МНК для построения множественного линейного уравнения регрессии.
28. Суть коэффициента детерминации R2.
29. Использование F-статистики в регрессионном анализе.
30. Автокорреляция остатков, ее виды.
31. Объясните явление мультиколлинеарности. Что такое совершенная мульти- коллинеарность?
32. Частная автокорреляционная функция.
33. Косвенный метод наименьших квадратов.
34. Двухшаговый метод наименьших квадратов оценивания структурных параметров отдельного уравнения.
35. Трехшаговый метод наименьших квадратов одновременной оценки всех параметров системы.
4. ГЛОССАРИЙ
Автокорреляция - корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные данные).
Временной ряд - совокупность значений какого-либо показателя за несколько последовательных моментов времени.
Гетероскедастичность - непостоянство дисперсии отклонений.
Гипотеза - предположительное утверждение.
Гомоскедастичность - постоянство дисперсии отклонений.
Дисперсия - математическое ожидание квадрата отклонения от математического ожидания.
Доверительный интервал - интервал (Q1,Q2), внутри которого с наперед заданной вероятностью находится точное значение оцениваемого параметра Q.
Корреляция - функциональная зависимость между объясняющими переменными и условным математическим ожиданием (средним значением) зависимой переменной, которая строится с целью предсказания (прогнозирования) этого среднего значения при фиксированных значениях первых. Зависимость выражается соотношением М(У|х)=f(х).
Коэффициент детерминации - суммарная мера общего качества уравнения регрессии (соответствие уравнения регрессии статистическим данным).
Коэффициент корреляции - степень зависимости между переменными Х и Y.
Коэффициент регрессии - оценки неизвестных параметров а0, а1 в уравнении регрессии.
Лаг - сдвиг во времени, который позволяет установить наличие связи между показателями.
Лаговая переменная - переменные, влияние которых характеризуется определенным запаздыванием.
Математическое ожидание - сумма произведений возможных значений на соответствующие вероятности.
Мультиколлинеарность - линейная зависимость двух или нескольких объясняющих переменных.
Несмещенная оценка - если при любом объеме выборки результат ее осреднения по всем возможным выборкам данного объема приводит к точному истинному значению оцениваемого параметра.
Предопределенные переменные - лаговые эндогенные переменные, значения которых определены до рассмотрения соотношения. Или переменные, выступающие в роли факторов-аргументов.
Регрессия - статистическая зависимость между переменными.
Система независимых уравнений - когда каждая зависимая переменная y рассматривается как функция одного и того же набора факторов x.
Система одновременных уравнений - когда одни и те же зависимые переменные в одних уравнениях входят в левую часть, а в других - в правую.
Система рекурсивных уравнений - когда зависимая переменная y одного уравнения выступает в виде фактора x в другом уравнении.
Состоятельная оценка если по мере роста числа наблюдений она стремится по вероятности к оцениваемому параметру.
Среднее квадратическое отклонение - квадратный корень из дисперсии.
Тренд - общее направление развития модели или основная тенденция ряда.
Фиктивные переменные - переменные, которые количественным образом описывают качественный признак.
Экзогенные переменные - внешние переменные по отношению к модели. Они определяются вне модели, поэтому считаются фиксированными. Влияют на эндогенные переменные, но не зависят от них.
Эконометрика - самостоятельная научная дисциплина, объединяющая совокупность теоретических результатов, приемов, методов и моделей, предназначенных для того, чтобы на базе экономической теории, экономической статистики и математического аппарата придавать конкретное количественное выражение общим закономерностям, обусловленным экономической теорией.
Эндогенные переменные - зависимые переменные, которые определяются внутри исследуемой модели, их число равно числу уравнений модели.
Эффективная оценка - оценка, которая среди прочих оценок того же самого параметра обладает наименьшей мерой случайного разброса относительно оцениваемого параметра.