Справочник от Автор24
Поделись лекцией за скидку на Автор24

Эконометрика как наука. Проблемы эконометрического моделирования

  • 👀 403 просмотра
  • 📌 371 загрузка
Выбери формат для чтения
Статья: Эконометрика как наука. Проблемы эконометрического моделирования
Найди решение своей задачи среди 1 000 000 ответов
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Эконометрика как наука. Проблемы эконометрического моделирования» doc
КОНСПЕКТ ЛЕКЦИЙ РАЗДЕЛ I. ЭКОНОМЕТРИКА КАК НАУКА Тема 1. Проблемы эконометрического моделирования 1.1. Понятие эконометрики и ее место в экономических исследованиях Эконометрика - математическое моделирование реальных экономических объектов (бюджета семьи, отдельного предприятия, отрасли промышленности, региона, экономики страны, мировой экономики). Эконометрика изучает коли­чественные закономерности и взаимозависимости между анализируемыми эко­номическими показателями при помощи методов математической статистики. В основе этих методов лежит корреляционно-регрессионный анализ. Впер­вые современные методы математической статистики стали использоваться в биологии. В конце XIX века английский биолог К. Пирсон положил начало со­временной математической статистике изучением кривых распределения число­вых характеристик организма. Затем он и его школа перешли к изучению корре­ляций в биологии и построению линейных функций регрессии. Первые работы по эконометрике появились в конце XIX-начале XX века. В 1897 г. была опубликована работа одного из основателей математической школы в экономической теории В. Парето, посвященная статистическому изучению до­ходов населения в разных странах. Была предложена кривая Парето: y = A(x-a)a, где x - величина дохода, A и a - параметры зависимости, полученные статисти­ческими методами. В самом начале XX века вышло несколько работ английского статистика Гукера, в которых он применил корреляционно-регрессионные методы, разрабо­танные Пирсоном и его школой для изучения взаимосвязей экономических по­казателей, в частности, влияния числа банкротств на товарной бирже на цену зерна. В работах Гукера содержалась идея временного лага между экономиче­скими переменными, а также идея корреляционного анализа не самих величин, а их приращений. В дальнейшем появилось большое число работ как по развитию теории математической статистики и ее прикладных элементов, так и по практи­ческому приложению этих методов в экономическом анализе. К первой группе могут быть, например, отнесены работы Р. Фишера по дисперсионному анализу, ко второй - работы по оценке и исследованию производных функций, в частно­сти, классическая работа Кобба и Дугласа 1982 г. Экономические модели и эконометрические методы сейчас - это не только мощный инструмент для получения новых знаний в экономике, но и широко применяемый аппарат для принятия практических решений в прогнозировании, банковском деле, бизнесе. Эконометрические модели позволяют определять особенности поведения экономического объекта и на основе этого предсказывать его функционирование при изменении каких-либо параметров. Т.е. эконометрическое исследование предполагает получение конкретного, количественного результата для иссле­дуемого экономического объекта. Такое исследование должно базироваться на объединении теории (различных экономических моделей) и практики (данных статистических исследований). Как свидетельствует экономическая теория, в экономике действуют устойчивые количественные закономерности, поэтому возможно их строго формализованное математическое описание (описание зна­ковыми математическими средствами), построение математических моделей. Использование математического моделирования в экономике позволяет: 1) формально описать наиболее важные связи экономических переменных и объектов; 2) использовать методы дедукции для адекватных выводов из четко сфор­мулированных исходных данных; 3) использовать методы математики и статистики для получения новых зна­ний об объекте; 4) излагать точно и компактно на языке математики положения экономиче­ской теории. Математические модели использовались с иллюстративными и исследова­тельскими целями еще Ф. Кенэ, А. Смитом, Д. Рикардо. В XIX веке большой вклад в моделирование рыночной экономики внесла математическая школа (Л. Вальрас, О. Курно, В. Парето, Ф. Эджворт и т.д.). В XX веке математические методы моделирования применялись очень широко, с их использованием связаны многие работы, удостоенные Нобелевской премии по экономике (Д. Хикс, Р. Солоу, В. Леонтьев, П. Самуэльсон и др.). В России в начале XX века большой вклад в математическое моделирова­ние внесли В. Дмитриев и Е. Слуцкий. В 60-80-е годы после почти тридцатилет­него перерыва экономико-математическое направление возродилось (В. Немчи­нов, В. Новожилов, Л. Канторович, ЦЭМИ РАН), но это были попытки фор­мально описать «систему оптимального функционирования социалистической экономики». Строились многоуровневые системы моделей народнохозяйствен­ного планирования, оптимизационные модели отраслей и предприятий. Сейчас важной задачей является моделирование процессов рыночной экономики. Тео­ретические модели используются для описания и объяснения наблюдаемых про­цессов, эмпирическое построение и обоснование модели происходит на базе ста­тистических данных. Разрабатывая модели, экономисты выявляют существенные факторы, опре­деляющие изучаемое явление, и отбрасывают детали, не существенные для решения поставленной проблемы. Формализация основных особенностей функ­ционирования экономических объектов позволяет оценить возможные последст­вия воздействий на них и использовать эти оценки в управлении. Построение экономико-математической модели происходит в несколько этапов: 1) формулировка предмета и цели исследования; 2) выявление структурных и функциональных элементов, их качественных характеристик; 3) словесное описание взаимосвязей между элементами модели; 4) формализация описательной модели; 5) расчеты по математической модели и анализ полученного решения. Экономические модели позволяют выявить особенности функционирования экономического объекта и на основе этого предсказать будущее поведение объ­екта при изменении каких-либо параметров. Примерами экономических моделей являются: модели потребительского выбора, модели фирмы, модели экономического роста, модели равновесия на финансовых, факторных и товарных рынках, модели макроэкономической ди­намики и другие. Однако любая экономическая модель абстрактна по определе­нию и, следовательно, неполна, т.к. учитывает лишь существенные факторы, оп­ределяющие закономерности функционирования анализируемого объекта. При­вязка экономической модели к конкретному экономическому объекту (напри­мер, к какому-либо предприятию, работающему в конкретных условиях) потре­бует от исследователя учитывать реакцию экономических показателей этого объекта на изменения каких-либо условий, а это возможно только при условии обработки реальных статистических данных, которые необходимы для эмпири­ческого построения и обоснования моделей. Примером эконометрической модели, имитирующей мировую экономику, может служить математическая модель «Мир-1», разработанная профессором прикладной математики и кибернетики Массачусетского университета США Д. Форрестором в 1970-х годах. Она состояла из 40 нелинейных уравнений, кото­рые описывали взаимосвязь пяти параметров: численность населения, капитало­вложения в экономику, объем использования невозобновляемых энергоресурсов, объем загрязнения окружающей среды и объем производства продовольствия. Это была попытка глобального моделирования, но результаты расчетов имели невысокую достоверность из-за сложности объекта и примитивности модели. В 1972 году Денис Медоуз сделал прогнозы состояния мировой экономики на 2047 год, используя более совершенную модель «Мир-3». По его расчетам к этому времени невозобновляемые сырьевые ресурсы будут исчерпаны, а нехватка про­довольствия окажется катастрофической. Однако эти прогнозы можно оцени­вать лишь как качественные тенденции, имеющие место в мировой экономике. 1.2. Типы эконометрическихмоделей Существует три основных типа моделей, результаты расчетов по которым можно использовать для имитации функционирования исследуемого объекта или прогнозирования его развития: регрессионные модели с одним уравнением, модели временных рядов и системы одновременных уравнений. Регрессионная модель с одним уравнением основана на уравнении регрес­сии, которое устанавливает функциональную взаимосвязь между зависимой пе­ременной y и независимыми переменными : (1.1) где - параметры уравнения. В зависимости от вида функции уравнения рег­рессии делятся на линейные и нелинейные. Такие модели имеют широкую об­ласть применения: исследование зависимости спроса на какой-либо товар от времени, урожайности - от количества внесенных удобрений, вида вспашки, и т.д. В теории регрессионного анализа решаются проблемы оценивания, верифи­кации и отбора значимых параметров регрессионной модели. К моделям временных рядов относятся модели: тренда, сезонности и модель тренда и сезонности. Их объединяет то, что они рассчитывают значения времен­ного ряда, исходя из предыдущих его значений. Областью применения моделей временных рядов являются, например: изучение и прогнозирование объема про­даж, объема производства, спроса и т.д. При эконометрическом моделировании экономических объектов возможно построение таких систем уравнений, в которых одни и те же переменные в раз­личных регрессионных уравнениях могут одновременно выступать и в качестве результирующих и в роли объясняющих переменных (например, модель спроса и предложения на какой-либо товар). Эти системы уравнений называют систе­мами одновременных уравнений. Эконометрическая модель, содержащая систе­му одновременных уравнений, может быть представлена в структурной или приведенной форме. Для описания основных видов элементов экономической модели целесообраз­но рассмотреть конкретную ситуацию и построить соответствующую ей модель. Пусть существует фирма, выпускающая несколько видов продукции. В процессе производства используются три вида ресурсов: оборудование, рабочая сила и сырье. Эти ресурсы однородны, количество их известно и в данном про­изводственном цикле увеличено быть не может. Задан расход каждого из ресур­сов на производство единицы продукции каждого вида. Заданы цены продуктов. Нужно определить объем производства с целью максимизации стоимости про­изведенной продукции (или если предположить, что вся она найдет сбыт на рынке - общей выручки от реализации). Для решения поставленной задачи нужно построить математическую мо­дель, наполнить ее информацией, а затем провести по ней необходимые расчеты. Вначале при построении модели нужно определить индексы, экзогенные и эндо­генные переменные и параметры. В нашей задаче свой индекс должен иметь ка­ждый вид продукции (пусть это индекс i, меняющийся от 1 до n), а также вид ре­сурсов (если мы обозначим их одной переменной; пусть в нашей задаче ресурсы обозначены разными переменными). Далее опишем экзогенные переменные. Часто экзогенные переменные и параметры в моделях не разделяют. В рассмат­риваемой задаче заданы экзогенные переменные - это имеющиеся количества оборудования K, рабочей силы L и сырья R; заданные параметры - коэффициен­ты их расхода на единицу i-й продукции ki, li, и ri соответственно. Цены продук­тов pi также известны. Далее вводятся обозначения для эндогенных переменных - тех, которые определяются в ходе расчетов по модели и не задаются в ней извне. В нашем случае это неизвестные объемы производства продукции каждого i-го вида; обо­значим их через x. Закончив описание переменных и параметров, переходят к формализации условий задачи, к описанию ее допустимого множества и целевой функции (если таковая имеется). В нашей задаче допустимое множество - это совокупность всех вариантов производства, обеспеченных имеющимися ресурсами. Оно опи­сывается с помощью системы неравенств: k1 x1 +k2 x2 + .... + kn xn ≤ K, l1 x1 +l2 x2 + .... + ln xn ≤ L, или (1.2) r1 x1 +r2 x2 + .... + rn xn ≤ R, К этим ограничениям по ресурсам добавляются требования неотрицатель­ности переменных x > 0; если бы какой-то ресурс нужно было израсходовать полностью (например, полностью занять всю рабочую силу), соответствующее неравенство превратилось бы в уравнение. Если модель является оптимизационной (а данная модель такова), то наряду с ограничениями должна быть определена целевая функция, т.е. максимизируе­мая или минимизируемая величина, отражающая интересы принимающего ре­шение субъекта. Для данной задачи максимизируется величина: или (1.3) Следует отметить, прежде всего, большой класс оптимизационных моделей. Такие задачи возникают при попытке оптимизировать планирование и управле­ние сложными системами, в первую очередь, экономическими. Оптимизацион­ную задачу можно сформулировать в общем виде: найти переменные х1, х2,...,хп, удовлетворяющие системе неравенств (уравнений) i=1,2,…,m (1.4) и обращающие в максимум (или минимум) целевую функцию, т.е. Z = (1.5) (Условия неотрицательности переменных, если они есть, входят в ограни­чения (1.4)). Как известно, упорядоченная совокупность значений n переменных представляется точкой n-мерного пространства. В дальнейшем эту точку будем обозначать Х = , а само оптимальное решение Х = . Рассмотрим еще одну задачу - классическую задачу потребления, имею­щую важное значение в экономическом анализе. Пусть имеется n видов товаров и услуг, количество их (в натуральных единицах) , цены, соответственно, за единицу. Суммарная стоимость этих товаров и услуг составляет: (1.6) Уровень потребления определяется функцией Z =, называе­мой функцией полезности. Необходимо найти такой набор товаров и услуг при данной величине доходов I, чтобы обеспечить максимальный уровень полезности, т. е. Z = (1.7) При условии (i=1,2,…,n) (1.8) Решения этой задачи, зависящие от цен и величины дохода I, называется функциями спроса: X=X (1.9)Задачи оптимального программирования в наиболее общем виде классифи­цируются по следующим признакам: 1. По характеру взаимосвязей между переменными: а) линейные; б) нелинейные. В случае (а) все функциональные связи в системе ограничений и функция цели - линейные функции; наличие нелинейности хотя бы в одном из упомяну­тых элементов приводит к случаю (б). 2. По характеру изменения переменных: а) непрерывные; б) дискретные. В случае (а) значения каждой из управляющих переменных могут заполнять полностью некоторую область действительных чисел; в случае (б) все или хотя бы одна переменная могут принимать только целочисленные значения. 3. По учету фактора времени: а) статические; б) динамические. В задачах (а) моделирование и принятие решений осуществляются в усло­виях независимости от времени элементов модели в течение периода времени, на который принимается планово-управленческое решение. В случае (б) необхо­димо учитывать фактор времени. 4. По наличию информации о переменных: а) задачи в условиях полной определенности (детерминированные); б) задачи в условиях неполной информации; в) задачи в условиях неопределенности. В задачах (б) отдельные элементы являются вероятностными величинами, однако известны или дополнительными статистическими исследованиями могут быть установлены законы их распределения. В случае (в) можно сделать пред­положение о возможных исходах случайных элементов, но нет возможности сделать вывод о вероятностях исходов. 5. По числу критериев оценки альтернатив: а) простые, однокритериальные задачи; б) сложные, многокритериальные задачи. В задачах (а) экономически приемлемо использование одного критерия оп­тимальности или удается специальными процедурами (например, «взвешивани­ем приоритетов») свести многокритериальный поиск к однокритериальному. Сочетание признаков 1-5 позволяет группировать (классифицировать) в са­мом общем виде задачи и методы оптимального программирования. Если критерий эффективности Z = f(x1,x2,..., , ,...) представляет линей­ную функцию, а функции (x1,x2,…,xn) в системе ограничений (1.4) также линейны, то такая задача является задачей линейного программирования. Если, исходя из содержательного смысла, ее решения должны быть целыми числами, то эта задача целочисленного линейного программирования. Если критерий эф­фективности и (или) система ограничений задаются не линейными функциями, то имеем задачу нелинейного программирования. В частности, если указанные функции обладают свойствами выпуклости, то полученная задача является зада­чей выпуклого программирования. Заметим, что задача нелинейного программирования после соответствую­щих преобразований может быть сведена к задаче линейного программирования. 1.3. Переменные эконометрических моделей В эконометрических моделях в зависимости от конечных прикладных целей их использования можно выделить три основных типа переменных: экзогенные (определяющие), эндогенные (результирующие) и предопределенные. Экзогенные переменные - переменные, которые заранее известны и задают­ся пользователем модели в начале расчетов. Другими словами, это объясняющие переменные регрессии (регрессоры) x,x,...,xm . Эндогенные переменные - переменные, значения которых определяются в ходе расчетов по модели и не задаются в начале расчета. Это зависимые (по эко­номическим соображениям) переменные регрессии y, y, ...,yn . Предопределенные переменные - совокупность экзогенных переменных и лаговых переменных (эндогенных переменных, взятых за предыдущие моменты наблюдений). Эконометрическая модель устанавливает определенную взаимосвязь между эконометрическими переменными. Например, формирующийся на рынке спрос на некоторый товар рассматривается как функция его цены; затраты производ­ства зависят от объема производства; потребительские расходы функция от до­ходов и т.д. Здесь спрос, производственные расходы и потребительские расходы играют роль результирующих переменных, а цена, объем производства и уро­вень доходов - объясняющие переменные. Для определения влияния на значение результирующей переменной всех неучтенных факторов в данной эконометрической модели в уравнение регрессии добавляют в виде слагаемого остаточную случайную составляющую . Модель парной регрессии будет иметь вид: y = а + а x + (1.10) Остаточная случайная составляющая отражает вероятностный характер значений результирующих переменных эконометрической модели, т.е. обуслав­ливает стохастический характер зависимостей. РАЗДЕЛ II. МОДЕЛИ ПАРНОЙ РЕГРЕССИИ Тема 2. Основы регрессионного анализа 2.1. Основные этапы регрессионного анализа В статистике принято различать следующие варианты зависимостей: 1) парную корреляцию - связь между двумя признаками (результативным и факторным); 2) частную корреляцию - зависимость между результативным и одним фак­торным признаками при фиксированном значении других факторных признаков; 3) множественную корреляцию - зависимость результативного и двух или более факторных признаков, включенных в исследование. В процессе этих статистических исследований вскрываются причинно- следственные отношения между явлениями, которые записываются в виде тех или иных функциональных зависимостей. Целью регрессионного анализа является оценка функциональной зависимо­сти условного среднего значения результативного признака (Y) от факторных (х, х,…, х), выражаемая в виде уравнения регрессии: Y =f(x, x,…,х) (2.1) Регрессионный анализ включает следующие этапы: 1) предварительный анализ свойств моделируемой совокупности единиц; 2) определение типа функции; 3) определение и проверку коэффициентов регрессии; 4) расчет значений функции для отдельных значений аргумента; 5) исследование рассеивания по отклонениям расчетных значений от эмпи­рических данных. На стадии предварительного анализа свойств моделируемой совокупности единиц выявляют наличие или отсутствие корреляционной связи между призна­ками. Это делается с помощью анализа корреляционной и групповой таблицы, поля корреляции и эмпирической линии связи. Для количественной оценки тесноты связи широко используется линейный коэффициент корреляции, который был впервые введен в начале 90-х годов прошлого столетия английским математиком К. Пирсоном. Прежде чем вывести формулу коэффициентов корреляции необходимо дать определения дисперсии (D) и среднего квадратического отклонения (). Дисперсия (D) - характеристика значений показателя, отражающая степень разброса отдельных значений показателя от среднего. Дисперсия рассчитывает­ся по следующим формулам. Для несгруппированных данных: D= (2.2) Для сгруппированных данных (вариационного ряда): D = (2.3) Формулу для расчета дисперсии после некоторых преобразований можно привести к следующему виду: (2.4) При пользовании этой формулой исключается дополнительная процедура по расчету отклонений индивидуальных значений признака от , а также ошиб­ка в расчете, связанная с округлением отклонений . Среднее квадратическое отклонение представляет собой корень квадрат­ный из дисперсии. Для несгруппированных данных: (2.5) для вариационного ряда: (2.6) Единица измерения среднего квадратического отклонения та же, что и ин­дивидуального значения признака. В теории разработаны и на практике приме­няются различные модификации формул расчета коэффициента корреляции: (2.7) Используя математические свойства средней, получаем следующую форму­лу для коэффициента парной корреляции - показателя тесноты связи для линей­ных однофакторных зависимостей: (2.8) Преобразование данной формулы позволяет получить следующую формулу линейного коэффициента корреляции: (2.9) Вычисление коэффициента корреляции по формуле является доста­точно трудоемкой операцией. Выполнив несложные преобразования, можно по­лучить следующую формулу для расчета линейного коэффициента корреляции: (2.10) Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выражаемая формулой: (2.11) где ai - коэффициент регрессии в уравнении связи; , - средние квадратические отклонения соответствующих признаков (факторного и результативного). Линейный коэффициент корреляции имеет большое значение при исследо­вании социально-экономических явлений и процессов, распределение которых близко к нормальному. Легко доказывается, что условие r = 0 является необхо­димым для того, чтобы величины х и у были независимы. Если же r = 1, то это означает, что все точки с координатами (х, Y) находятся на прямой и зависи­мость между Y и х является функциональной. Линейный коэффициент корреляции изменяется в пределах от -1 до +1; т.е. -1 < r < 1. Знаки коэффициентов регрессии и корреляции совпадают. Пример 1. Пусть имеются данные зависимости количества туристов от за­трат на рекламу, представленные в таблице 2.2.1: Таблица 2.2.1 Используя данные зависимости количества туристов от затрат на рекламу, рассчитаем по формуле (2.10) коэффициент корреляции: Полученная величина линейного коэффициента корреляции свидетельству­ет о возможном наличии сильной прямой связи между рассматриваемыми при­знаками, т.к. его величина близка к 1,0. Для проверки наличия корреляции при парной связи может быть использо­ван также такой показатель, как коэффициент ковариации. Коэффициент кова- риации - характеристика тесноты связи показателей У и х, значения которых Yi, xi (i = l,...,n) содержат случайные составляющие, вычисляется по формуле: (2.12) Между коэффициентами корреляции и ковариации существует следующая взаимосвязь: (2.13) Следует отметить недостаток коэффициента ковариации, связанный с тем, что его значение зависит от единицы измерения. Важным этапом регрессионного анализа является определение типа функ­ции, которая характеризует зависимость между результирующими (Y) и объясняющими переменными (х, х2, ... , х) и правильно отражает сущность связи между явлениями. Определяющим основанием для выбора вида уравнения служит анализ экономической природы изучаемого объекта. Однако на основе теоретического анализа могут быть сделаны общие, т.е. неточные выводы относительно направления искомой зависимости. Поэтому эти предположения должны быть дополнены корреляционным анализом конкретных фактических данных. Чтобы можно было правильно определить тип функции, нужно на основе эмпирических данных определить: 1) направление связи; 2) изменяется ли направление связи для представленной совокупности эм­пирических данных, т.е. является ли зависимость монотонной; 3) имеет связь линейный или нелинейный характер. Необходимые для определения типа функции сведения получают из эмпи­рического материала. Представление о направлении и форме связи (аналитиче­ском выражении) получают путем параллельного сравнения рядов из графика. Пары величин Y и х располагают по мере возрастания или убывания величины х. По направлению связи различают: а) прямую регрессию, возникающую при условии: с увеличением или уменьшением независимой величины х значение зависимой величины Y также соответственно увеличивается или уменьшается; б) обратную регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины х зависимая величина Y соответствен­но уменьшается или увеличивается. Для определения формы связи рекомендуется сравнить разность между сле­дующими друг за другом величинами признаков. Если признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная. Если тенденция изменения Y в зависимо­сти от изменения х отсутствует, то это свидетельствует о сильной вариации Y или невозможности установить наличие действительной связи. Для характеристики связей экономических явлений применяют, прежде всего, следующие типы функций: • линейную: Y = a0 + a1x; • гиперболическую: Y = a0 +; • показательную: Y = a0 a; • параболическую: Y = a0 + • степенную: Y = • логарифмическую: Y = a0 + a lg x. Линейная функция используется в том случае, когда результативный и фак­торный признаки возрастают одинаково (примерно в арифметической прогрес­сии), гиперболическая - когда связь между Y и х обратная. Параболическая или степенная функция применяются, если факторный признак увеличивается в арифметической прогрессии, а результативный - значительно быстрее. Таким образом, задачи корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками и оценке факторов, наиболее влияющих на результативный признак. Регрессионный анализ решает задачи выбора типа модели, установление степени влияния определяющей переменной на результирующую переменную и определение расчетных значений результирующей переменной, т. е. цель регрес­сионного анализа состоит в объяснении поведения зависимой переменной Y. Следующий этап корреляционного анализа - параметризация, т.е. определение коэффициентов выбранного уравнения регрессии. Для нахождения параметров а0 и а1 уравнения регрессии используют метод наименьших квадратов. В зависимости от количества переменных различают модели парной рег­рессии и модели множественной регрессии. Приведенные выше рассуждения относятся к парной регрессии, характеризующей связь между двум признаками: результативным (Y) и факторным (х). 2.2. Метод наименьших квадратов Пусть Y = a0 + ax - уравнение связи результативного показателя и фактора в виде линейного уравнения, где Y - результативный признак; х - факторный признак. Для нахождения параметров а0 и а уравнения регрессии обычно используют метод наименьших квадратов - метод определения зависимости результатив­ного признака от факторного путем минимизации суммы квадратов отклонений фактических значений результирующего показателя от значений, определяемых уравнением регрессии. Сущность метода наименьших квадратов заключается в нахождении пара­метров модели а0 и а1, при которых минимизируется сумма квадратов отклоне­ний эмпирических (фактических) значений результативного признака от теоре­тических, полученных по выбранному уравнению регрессии: S = (2.14) Для линейной однофакторной модели: S = (2.15) Функция двух переменных S () может достигнуть экстремума в том случае, когда первые частные производные этой функции равняются нулю, т.е. когда и (2.16) Вычисляя эти частные производные, получим: (2.17) После несложных преобразований получаем систему нормальных уравне­ний для определения величины параметров а0 и а1 уравнения линейной однофак- торной модели: (2.18) где п - объем исследуемой совокупности (число единиц наблюдений). В уравнении регрессии свободный член регрессии коэффициент а0 показы­вает совокупное влияние на результативный признак неучтенных (не выделен­ных для исследования) факторов; его вклад в значение результирующего показа­теля не зависит от изменения факторов; параметр а1 - коэффициент регрессии - показывает, на сколько изменяется в среднем значение результативного призна­ка при увеличении факторного на единицу собственного измерения. Пример 2. Допустим, что мы имеем 7 наблюдений величин x и y , т.е. семь пар чисел. Например, это результат наблюдений зависимости производственных затрат y (млн. руб.) от объема выпускаемой продукции x (тыс.шт.) для пяти раз­личных предприятий, выпускающих один и тот же вид продукции. Если коэффициент корреляции переменных x и y отличен от нуля, то эти величины статистически зависимы, однако он не дает представления о том, ка­ким образом они связаны. Если абсолютное значение коэффициента корреляции близко к 1.0, то определить значения коэффициентов а0 и a в линейном уравне­нии регрессии можно следующим образом: y = Необходимо понять, что мы никогда не сможем рассчитать истинные зна­чения а0 и a при попытке построить прямую и определить положение линии регрессии. Можно получить только оценки коэффициентов а0 и а1, а они могут быть «хорошими» или «плохими». Рассмотрим алгебраический способ, позво­ляющий достаточно точно оценить значения коэффициентов а0 и a. Для этого необходимо определить остатки для каждого наблюдения i: где yi - истинное значение переменной y в i-ом наблюдении; - значение переменной у в i-ом наблюдении, рассчитанное по ис­комому уравнению регрессии. Метод наименьших квадратов (МНК) для рассматриваемой модели парной регрессии заключается в выборе таких коэффициентов а0 и а1, которые обеспе­чивают наименьшее значение суммы квадратов остатков: S= (2.19) Полученное выражение для S является квадратичной функцией от а0 и а1 и ее коэффициенты определяются выборочными значениями x и y . При этом зна­чения x и y не могут быть изменены, т.к. они характеризуют реальную выборку по анализируемым торговым точкам (для нашего примера). Принцип минимизации суммы квадратов остатков эквивалентен минимиза­ции дисперсии остатков. Т.е. МНК дает максимально возможное для данной вы­борки значение коэффициента детерминации R2. Чем ближе коэффициент де­терминации R2 к 1, тем ближе точки корреляционного поля (выборка (x, y)) к ли­нии регрессии По данным таблицы, полагая, что зависимость между х и Y линейная, опре­делим значения коэффициентов и : для определения величин и необхо­димо вычислить следующие значения: Расчеты рекомендуется проводить по образцу табл. 2.2.2. Система нормальных уравнений для данного примера имеет вид: Умножим первое уравнение на -11 и прибавим его ко второму для того, чтобы исключить переменную . Получим: Подставим полученное значение ai в первое уравнение: 7а0 +771,284 = 105; 7а0 + 98,87 = 105; а0 = 0,876. Следовательно, Yx = 0,876 +1,284x. Коэффициент а1 показывает, что при увеличении x на единицу Yx увеличи­вается на 1,284. Коэффициент а0 = 0,876 показывает влияние неучтенных факто­ров. Связь между x и Y по направлению прямая, по форме - линейная. Линейную однофакторную модель очень удобно представлять графически. Она изображается прямой Y = Параметр а1 называют коэффициентом регрессии, выражающим величину изменения результативного признака при изменении фактора на единицу собст­венного измерения. При наличии прямой связи а1 имеет положительное значе­ние, в случае обратной связи коэффициент регрессии отрицательный. Коэффи­циенты регрессии применяют для определения коэффициента эластичности, который показывает, на сколько процентов изменится величина результативного признака Y при изменении факторного признака х на один процент. 2.3. Свойства коэффициентов регрессии Свойства коэффициентов регрессии существенно зависят от свойств оста­точной случайной составляющей . Для того чтобы регрессионный анализ, ис­пользующий классический метод наименьших квадратов, давал наилучшие ре­зультаты, остаточная случайная составляющая для модели парной регрессии должна удовлетворять следующим условиям: • остаточная случайная составляющая в каждом наблюдении имеет нуле­вое математическое ожидание: M= 0 для любого i-го наблюдения; • дисперсия остаточной случайной составляющей не зависит от номера на­блюдения: =const. Это свойство называется гомоскедастичностью; • остаточные случайные составляющие уравнения регрессии в разных на­блюдениях не зависят друг от друга: = 0, при условии ; • остаточная случайная составляющая и объясняющая переменная для ка­ждого наблюдения не зависят друг от друга: = 0. Фактически это условия Гаусса-Маркова для модели парной регрессии. Случайная остаточная составляющая определяется несколькими факторами, которые не учитываются объясняющими переменными в уравнении регрессии. Известно, что если случайная величина является общим результатом взаимодей­ствия большого числа других случайных величин, ни одна из которых не преоб­ладает, то она имеет приблизительно нормальное распределение (центральная предельная теорема). Поэтому предполагается нормальность распределения оста­точной случайной составляющей, что приводит к нормальному распределению коэффициентов регрессии. Коэффициент а0 есть мера наклона линии регрессии. Тема 3. Статистическая проверка гипотез 3.1. Точечные оценки и их свойства Пусть оценивается некоторый параметр Q наблюдаемой СВ X генеральной совокупности. Пусть из генеральной совокупности извлечена выборка объе­ма п: xn ,x2 ,... ,xn, по которой может быть найдена оценка Q* параметра Q. Точечной оценкой Q* параметра Q называется числовое значение этого па­раметра, полученное по выборке объема п. Приведем свойства, выполнимость которых желательна для того, что­бы оценка была признана удовлетворительной. В силу случайности точечной оценки Q* она может рассматриваться как СВ со своими числовыми характеристиками - математическим ожиданием М^*) и дисперсией D(Q*). Чем ближе М(Q*) к истинному значению Q и чем меньше D(Q*), тем лучше будет оценка (при прочих равных условиях). Таким образом, качество оценок характеризуется следующими основными свойствами: несме­щенностью, эффективностью и состоятельностью. Оценка Q* называется несмещенной оценкой параметра Q, если ее мате­матическое ожидание равно оцениваемому параметру: М(Q*) = Q. Разность (М(Q*) - Q) называется смещением или систематической ошиб­кой оценивания. Для несмещенных оценок систематическая ошибка равна нулю. Оценка Q* называется эффективной оценкой параметра Q, если ее диспер­сия D(Q*) меньше дисперсии любой другой альтернативной оценки при фикси­рованном объеме выборки п, т.е. D(Q*)= Dmin. Оценка Q* называется состоятельной оценкой параметра Q, если Q* сходится по вероятности к Q при п, т.е. для любого > 0 при п P(|Q*N - Q|<). Другими словами, состоятельной называется такая оценка, которая дает истинное значение при достаточно большом объеме выборки вне зависимо­сти от значений входящих в нее конкретных наблюдений. 3.2. Основные понятия Большинство эконометрических моделей требуют многократного улучшения и уточнения. Для этого необходимо проведение соответствующих расчетов, свя­занных с установлением выполнимости или невыполнимости тек или иных пред­посылок, анализом качества найденных оценок, достоверностью полученных вы­водов. Обычно эти расчеты проводятся по схеме статистической проверки гипо­тез. Поэтому знание основных принципов проверки гипотез является обязатель­ным для эконометриста. Гипотеза Н0, подлежащая проверке, называется нулевой (основной). Наря­ду с нулевой рассматривают гипотезу H, которая будет приниматься, если от­клоняется H0. Такая гипотеза называется альтернативной (конкурирующей). Например, если проверяется гипотеза о равенстве параметра Q некоторому зна­чению Q0, т.е. H0:Q = Q0, то в качестве альтернативных могут рассматриваться следующие гипотезы: Н(1): Q Q; H (2): Q > Q; H (3): Q < Q; H: Q = Q;(Q Q) Выбор альтернативной гипотезы определяется конкретной формулировкой задачи, а нулевая гипотеза часто специально подбирается так, чтобы отвергнуть ее и принять тем самым альтернативную гипотезу. Для того чтобы принять ги­потезу о наличии корреляции между двумя экономическими показателями (на­пример, между инфляцией и безработицей), можно опровергнуть гипотезу об отсутствии такой корреляции, взяв ее в качестве нулевой гипотезы. Гипотезу называют простой, если она содержит одно конкретное предпо­ложение (Н : Q = Q; Н: Q = Q). Гипотезу называют сложной, если она со­стоит из конечного или бесконечного числа простых гипотез: (Н (1) : Q Q; Н (2) : Q > Q;: Q < Q) При проверке гипотезы выборочные данные могут противоречить гипотезе Н0. Тогда она отклоняется. Если же статистические данные согласуются с вы­двинутой гипотезой, она не отклоняется. В последнем случае часто говорят, что нулевая гипотеза принимается (такая формулировка не совсем точна, однако она широко распространена). Статистическая проверка гипотез на основании выбо­рочных данных неизбежно связана с риском принятия ложного решения. При этом возможны ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная нуле­вая гипотеза. Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, в то время как в действительности верна альтернативная гипотеза. Возможные результаты статистических выводов представлены в табл. 2.2.3. Последствия указанных ошибок неравнозначны. Первая приводит к более осторожному, консервативному решению, вторая - к неоправданному риску. Что лучше или хуже - зависит от конкретной постановки задачи и содержания нулевой гипотезы. Например, если Н0 состоит в признании продукции предпри­ятия качественной и допущена ошибка первого рода, то будет забракована год­ная продукция. Допустив ошибку второго рода, мы отправим потребителю брак. Очевидно, последствия второй ошибки более серьезны с точки зрения имиджа фирмы и ее долгосрочных перспектив. Исключить ошибки первого и второго рода невозможно в силу ограниченно­сти выборки. Поэтому стремятся минимизировать потери от этих ошибок. Отме­тим, что одновременное уменьшение вероятностей данных ошибок невозможно, так как задачи их уменьшения являются конкурирующими, и снижение вероятно­сти допустить одну из них влечет за собой увеличение вероятности допустить дру­гую. В большинстве случаев единственный способ уменьшения вероятности оши­бок состоит в увеличении объема выборки. Вероятность совершить ошибку первого рода принято обозначать буквой а, и ее называют уровнем значимости. Вероятность совершить ошибку второго ро­да обозначают . Вероятность не совершить ошибку второго рода (1- ) называ­ется мощностью критерия. Обычно значения а задают заранее «круглыми» числами (например, 0,1; 0,05; 0,01 и т.п.), а затем стремятся построить критерий наибольшей мощности. Таким образом, если = 0,05, то это означает, что исследователь не хочет со­вершить ошибку первого рода более чем в 5 случаях из 100. 3.3. Проверка линейности модели Простейшим уравнением регрессии является парная линейная регрессия: y = а0 + а1 х (3.1) Поэтому начальный этап эконометрического анализа зависимости резуль­тирующей переменной y от определяющей переменной х начинается с предпо­ложения линейности этой зависимости. Предварительно необходимо рассчитать коэффициент корреляции: (3.2) При наличии же криволинейной зависимости линейный коэффициент кор­реляции недооценивает степень тесноты связи и даже может быть равен 0, а по­тому в таких случаях рекомендуется использовать в качестве показателя степени тесноты корреляционное отношение - характеристику тесноты связи результа­тивного и факторного признаков при их криволинейной зависимости. Различают эмпирическое и теоретическое корреляционное отношение. Кор­реляционное отношение рассчитывают по данным группировки. Расчет корреля­ционного отношения основан на использовании известной теоремы сложения дисперсий. Общая дисперсия результативного признака может быть разложе­на на две составляющие. Первая составляющая - межгрупповая дисперсия , ха­рактеризующая ту часть разброса результативного признака, которая складывается под влиянием изменения признака-фактора, положенного в основу группировки. Вычисляя квадратный корень из этого отношения, мы получаем эмпириче­ское корреляционное отношение: (3.3) Теоретическое корреляционное отношение определяется по формуле: (3.4) где - дисперсия выравненных значений результативного признака, т.е. рас­считанных по уравнению регрессии; - дисперсия эмпирических (фактических) значений результативного при­знака. Важный момент - сопоставление величины линейного коэффициента корре­ляции и корреляционного отношения. Сравнив полученную величину корреля­ционного отношения для рассматриваемого примера 1 = 0,819 с величиной ли­нейного коэффициента корреляции r = 0,8105, полученного при расчете по не- сгруппированным данным, можно увидеть, что незначительно больше r. Когда связь между переменными уклоняется от линейной формы, то и r несколько отличаются по величине, причем всегда больше r по абсолютной величине. Сопоставление линейного коэффициента корреляции и эмпирического кор­реляционного отношения имеет смысл только в случае, если эти показатели вы­числены для одинаковым образом сгруппированных данных, т.е. при сравнении и коэффициент корреляции, и корреляционное отношение должны быть вычис­лены либо по данным корреляционной таблицы, либо по первичным данным и групповой таблице. При проверке возможности использования линейной функции в качестве формы уравнения определяют разность квадратов (2 - r2), и если эта разность менее 0.1, то считается возможным применять линейное уравнение корреляци­онной зависимости. В нашем примере разность квадратов корреляционного от­ношения и линейного коэффициента корреляции равна: (2 - r2) = 0,8192 - 0,81052 = 0,6708 - 0,6569 = 0,0139, что меньше 0,1. Следовательно, для уравнения регрессии можно использовать линейную форму. 3.4. Т-тест выборочного коэффициента корреляции Рассмотрим проблему необходимости оценки линейного коэффициента корреляции. Сама по себе величина коэффициента корреляции не служит дока­зательством наличия причинно-следственной связи между исследуемыми при­знаками, а является скорее оценкой степени взаимной согласованности в изме­нениях признаков. Установлению причинно-следственной зависимости предше­ствует анализ качественной природы явлений. Есть еще одно обстоятельство, объясняющее формулировку выводов о возможном наличии связи по величине коэффициентов корреляции. Дело в том, что оценка степени тесноты связи с по­мощью коэффициента корреляции производится, как правило, на основе более или менее ограниченной информации об излагаемом явлении. Возникает вопрос: насколько правомерно наше заключение по выборочным данным в отношении действительного наличия корреляционной связи в той генеральной совокупно­сти, из которой была произведена выборка? Принципиально возможны случаи, когда отклонение от нуля полученной величины выборочного коэффициента корреляции оказывается целиком обу­словленным неизбежными случайными колебаниями тех выборочных данных, на основании которых он вычислен. Особенно осторожно следует подходить к истолкованию полученных коэффициентов корреляции при незначительных объемах выборочной совокупности. В этой связи и возникает необходимость оценки важности линейного коэф­фициента корреляции, дающая возможность распространить выводы по резуль­татам выборки на генеральную совокупность. В зависимости от объема выбо­рочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции. В отношении приводимых ниже критери­ев существенности можно сделать общее замечание, касающееся свойств исход­ной совокупности. Этим свойством является нормальное распределение значе­ний признака в генеральной совокупности. Значимость линейного коэффициента корреляции проверяется на основе t- критерия Стьюдента. При этом выдвигается и проверяется гипотеза (Ho) о ра­венстве коэффициента корреляции нулю [Н0: г = 0]. При проверке этой гипотезы используется t-статистика: (3.5) При выполнении Н0 t-статистика имеет распределение Стьюдента с вход­ными параметрами: {, v = n - 2}, где - уровень значимости. Если расчетное значение tp > tKp (табличное), то гипотеза Н0 отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а сле­довательно, и о статистической существенности корреляции х и Y. Данный критерий оценки значимости применяется для совокупности n < 50. При большом числе наблюдений (n > 100) используется следующая форму­ла t-статистики: (3.6) Применим указанный метод к примеру 1 для оценки существенности кор­реляции между уровнем затрат туристических фирм на рекламу и числом тури­стов, воспользовавшихся услугами фирм. При объеме выборки, равном 20, и при условии, что величина коэффициента корреляции равна 0,8105 (см. пример ана­лиза зависимости количества туристов от затрат на рекламу): В таблице распределения Стьюдента (t-статистика) для числа степеней сво­боды v = n - 2 = 18 и уровня значимости 1% находим, что t = 2,878. Таким обра­зом, лишь с вероятностью меньше 1% можно утверждать, что величина t = 5,871 могла появиться в силу случайной выборки. Такое событие является маловеро­ятным, а поэтому можно считать с вероятностью 99%, что в генеральной сово­купности действительно существует прямая зависимость между изучаемыми признаками, т.е. отличие выборочного коэффициента корреляции от нуля явля­ется существенным. 3.5. F-тест Фишера на состоятельность регрессии F-тест Фишера основан на сравнении расчетного критерия F с табличным значением FKp. Таблицы критических значений составлены на основе двухпара- метрического распределения неотрицательной случайной величины (F-распреде- ления Фишера) в зависимости от численных значений степеней свободы v1 = m и v2 = n - m -1, при различных уровнях значимости (в приложении дана таблица F- распределения Фишера для трех различных значений уровня значимости 5%, 1%, 0,1%). В случае парной регрессии F-статистика равна квадрату t-статистики. По­этому особую ценность F-тест Фишера приобретает для случая множественной регрессии. При формировании линейной множественной регрессии F-тест по­зволяет оценить обоснованность исключения отдельных переменных (xi) из числа объясняющих переменных, или наоборот, их добавления в это число. Например, первоначально была предложена линейная множественная регрес­сия: Y = a0 + a1x1 + a2x2 +...+amxm, составленная по выборке объемом n. Она име­ет m объясняющих переменных и коэффициент детерминации R i. На следую­щем этапе формирования модели добавили еще к новых объясняющих перемен­ных, и уравнение регрессии приобрело вид: Y = Для проверки целесообразности такого шага рассчитывается F-статистика: F = которая имеет распределение F (k, n - m - k - 1). i - r2 k По таблице находим критическое значение FKp. Если F > FKp, то добавление новых объясняющих переменных обоснованно и выявляет существенную часть необъясненной ранее дисперсии зависимой ве­личины Y. 3.6. Анализ точности определения оценок коэффициентов регрессии В силу случайного отбора элементов в выборку случайными являются так­же оценки а0 и а1 коэффициентов а0 и а1 теоретического уравнения регрессии. Их математические ожидания при выполнении предпосылок об отклонениях равны соответственно М(а0) = а0, М(а1) = а1. При этом оценки тем надежнее, чем меньше их разброс вокруг а0 и а1э, т.е. чем меньше дисперсии D(a0) и D(a1) оце­нок. Надежность получаемых оценок, очевидно, тесно связана с дисперсией слу­чайных отклонений . Фактически D() является дисперсией D(Y | X = x) пере­менной Y относительно линии регрессии (дисперсией Y, очищенной от влияния X). Полагая, что измерения равноточные, можно считать, что все эти дисперсии равны между собой D()= Приведем формулы связи дисперсий коэффициентов D(a0) и D(a1) с диспер­сией случайных отклонений . Для этого представим формулы определения коэффициентов а0 и а1 в виде линейных функций относительно значений Y: так как Введя обозначение имеем : Аналогично: Обозначив имеем Так как предполагается, что дисперсия Y постоянна и не зависит от значений X, то и можно рассматривать как некоторые постоянные. Следовательно: (3.7) (3.8) • Дисперсии а0 и а1 прямо пропорциональны дисперсии случайного откло­нения . Следовательно, чем больше фактор случайности, тем менее точными будут оценки. • Чем больше число п наблюдений, тем меньше дисперсии оценок. Это вполне логично, так как чем большим числом данных мы располагаем, тем веро­ятнее получение более точных оценок. • Чем больше дисперсия (разброс значений ) объясняющей пе­ременной, тем меньше дисперсия оценок коэффициентов. Другими словами, чем шире область изменений объясняющей переменной, тем точнее будут оценки (тем меньше доля случайности в их определении). Наглядное обсуждение этих выводов проведем чуть позже на основе сле­дующих рассуждений. В силу того что случайные отклонения si по выборке определены быть не могут, при анализе надежности оценок коэффициентов регрессии они заменяют­ся отклонениями значений , переменной Y от оцененной линии регрессии. Дисперсия случайных отклонений заменяется ее несмещен­ной оценкой. Необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии): (3.9) Тогдa где - стандартная ошибка оценки (стандартная ошибка регрессии);S= и = - стандартные отклонения случайных величин а и а, называемые стандартными ошибками регрессии. Объяснение данных соотношений имеет весьма наглядную графическую интерпретацию. Коэффициент а определяет наклон прямой регрессии. Чем больше разброс значений Y вокруг линии регрессии, тем больше (в среднем) ошибка определе­ния наклона прямой регрессии. Действительно, если такой разброс совсем от­сутствует (= 0), то прямая определяется однозначно и ошибки при определе­нии а и а не будет вовсе (). Например, на рис.2.2.1 (а) все наблюдаемые точки лежат на одной прямой (). Тогда через любой набор точек проводится одна и та же прямая. На рис. 2.2.1 (б) точки не лежат на одной прямой, но для трех точек прямая регрессии будет такой же (хо­тя отклонения от линии регрессии существенны), как и на рис. 2.2.1 (а). Однако при исключении из рассмотрения любой из указанных трех точек прямые рег­рессии будут существенно отличаться друг от друга ((1, 2), (1, 3), (2, 3)). Следо­вательно, значительно различаются их углы наклона, а значит, стандартная ошибка коэффициента регрессии а будет существенной. В знаменателе дроби, определяющей значение S, стоит сумма квадратов отклонений от среднего значения х. Эта сумма велика (а следовательно, вся дробь мала, и дисперсия S оценки меньше), если регрессия определяется на широком диапазоне значений переменной X. Например, на рис. 2.2.2 через пары точек (1, 3) и (2, 3) проведена одна и та же прямая. Однако диапазон (1, 3) шире диапазона (2, 3). Если вместо точки 3 рас­смотреть либо точку 3а, либо 3б (т.е. при случайном изменении выборки), то на­клон прямой для пары (1, 3) изменится значительно меньше, чем для пары (2, 3). Дисперсия свободного члена уравнения регрессии про- порциональна дисперсии S . Действительно, чем сильнее меняется наклон пря- мой, проведенной через данную точку (), тем больше разброс значений свободного члена, характеризующего точку пересечения этой прямой с осью ОУ. Рис. 2.2.2. Изменение наклона регрессионной прямой Кроме того, разброс значений свободного члена тем больше, чем больше средняя величина. Это связано с тем, что при больших по модулю значениях X даже небольшое изменение наклона регрессионной прямой может вызвать большое изменение оценки свободного члена, поскольку в этом случае в сред­нем велико расстояние от точек наблюдений до оси OY. 3.7. Проверка выполнимости предпосылок МНК. Статистика Дарбин-Уотсона Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R не гарантирует высокое качество уравнения регрессии. Поэтому следующим этапом проверки качества уравнения регрессии является определение выполнимости предпосылок МНК. Для этого рассмотрим статистику Дарбина-Уотсона. Оценивая линейное уравнение регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна, а отклонения от регрессионной прямой явля­ются случайными, независимыми друг от друга величинами с нулевым матема­тическим ожиданием и постоянной дисперсией. Если эти предположения не вы­полняются, то оценки несмещенности, эффективности, состоятельности и анализ их значимости будут неточными. На практике для анализа коррелированности отклонений вместо коэффици­ента корреляции используют тесно с ним связанную статистику Дарбина-Уотсо- на DW, рассчитываемую по формуле: (3.10) Здесь сделано допущение, что при больших n выполняется соотношение: (3.11) Тогда (3.12) Нетрудно заметить, что если = , то = 1 и DW=0. Если = -, то = -1 и DW=4. Во всех других случаях 0 4 - d1, то это свидетельствует об отрицательной автокорреляции остатков. При du < DW < 4 - du гипотеза об отсутствии автокорреляции остатков при­нимается. Если d1 < DW < du или 4 - du < DW < 4 - d1, то гипотеза об отсутствии авто­корреляции не может быть ни принята, ни отклонена. Тема 4. Модели парной нелинейной регрессии Различают два класса нелинейных регрессий: • регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам; • регрессии, нелинейные по оцениваемым параметрам. Примером нелинейной регрессии по включаемым в нее объясняющим пе­ременным могут служить следующие функции: • полиномы разных степеней: y = a + bx + cx + , y = a + b х + cx+ d х + ; • равносторонняя гипербола: у = К нелинейным регрессиям по оцениваемым параметрам относятся функции: • степенная: у = а ; • показательная: у = а bx; • экспоненциальная: у = е . Нелинейность по переменным устраняется путем замены переменной. На­пример, нелинейное уравнение y = после замены переменной z = становится линейным: y = . Нелинейность по параметру часто устраняется путем логарифмического пре­образования уравнения. Например, следующие нелинейные уравнения после ло­гарифмирования сводятся к линейным: • степенная функция y = после логарифмирования становится ли­нейной: ln y = ; • экспоненциальная функция после логарифмирования становится линейной: . В экономике функции вида применяются при моделировании кривых спроса, а вида - при моделировании временных рядов. 4.1. Нелинейные однофакторныерегрессионные модели. Линеаризация Как было сказано выше, если факторный признак увеличивается в арифме­тической прогрессии, а результирующий значительно быстрее, то целесообразно использовать однофакторную параболическую модель второй степени - парабо­лическую регрессию. В этом случае уравнение регрессии будет иметь вид: Yx = (4.1) В данном случае задача сводится к определению неизвестных параметров: . Значения величин х и Y представлены двумя рядами данных: Y1, Y2, Y, ..., Y Если бы все значения, полученные по данным наблюдения, лежали строго на кривой, описываемой уравнением параболы, то для каждой из точек было бы справедливо равенство: (4.2) Однако на практике получается другое: (4.3) где - разность между данными наблюдения и данными, полученными по уравнению связи. Эта разность появляется в силу наличия ошибок в результатах опыта, по­этому возникает проблема нахождения таких коэффициентов регрессии, при ко­торых ошибка была бы минимальной. Можно минимизировать сумму абсолют­ных отклонений (ошибок): (4.4) или минимизировать сумму кубических ошибок, получив сумму наимень­ших кубов: (4.5) или, наконец, минимизировать наибольшую абсолютную ошибку: min (4.6) Однако наиболее оптимальным вариантом является оценка ошибки по ме­тоду наименьших квадратов: (4.7) Метод наименьших квадратов обладает тем замечательным свойством, что делает число нормальных уравнений равным числу неизвестных коэффициен­тов. Приведенное уравнение параболы второго порядка имеет три неизвестных коэффициента: а0, а1, а2. Следовательно, применяя метод наименьших квадратов, мы получим урав­нение: (4.8) Для нахождения значений неизвестных коэффициентов а0, a1, а2, при кото­рых функция S (а0, а1, а2) была бы минимальной, необходимо приравнять част­ные производные по этим величинам к нулю: (4.9) Проведя соответствующие преобразования, получим систему нормальных уравнений: (4.10) Решив систему, найдем значения неизвестных коэффициентов: где - определитель системы; - частные определители системы. Получили уравнение регрессии. Вычислим по уравнению регрессии теоре­тические значения Yx и сравним с данными наблюдения, т. е. рассчитаем так на­зываемую остаточную сумму квадратов, которая совпадает с минимальной воз­можной величиной по методу наименьших квадратов. Пример 1. По семи территориям Волжского региона за 2002 г. известны значения двух признаков (табл. 2.2.4). Таблица 2.2.4 Зависимость расходов от среднедневной заработной платы Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следую­щих функций: а) линейной; б) степенной; в) показательной; г) равносторонней гиперболы. 2. Оценить каждую модель через среднюю ошибку аппроксимации и F- критерия Фишера. Решение: 1а) для расчета параметров а0 и а1 линейной регрессии y = a0+а1 решаем систему нормальных уравнений относительно а0 и а1: По исходным данным рассчитываем: (табл. 2.2.5). Уравнение регрессии: = 76,88 - 0,35. С увеличением среднедневной зара­ботной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35%. Рассчитаем линейный коэффициент парной корреляции: Связь умеренная, обратная. Определим коэффициент детерминации: Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим тео­ретические (расчетные) значения. Найдем величину средней ошибки аппрок­симации А: В среднем, расчетные значения отклоняются от фактических на 8,1%. Рассчитаем F-критей поскольку , следует рассмотреть Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи. 1б) для построения степенной модели y=a0x а1 нужно провести линеариза­цию переменных. Линеаризация производится путем логарифмирования обеих частей уравнения: , Где . Для расчетов будем использовать данные из таблицы 2.2.6. Рассчитаем C и а1: Получим линейное уравнение: = 2,278 - 0,298 . Выполним его потенцирование, получим: Подставляя в данное уравнение фактические значения х, получаем теорети­ческие значения результата . По ним рассчитаем показатели тесноты связи (индекс корреляции рху ) и среднюю ошибку аппроксимации : Характеристики степенной модели показывают, что она несколько лучше описывает взаимосвязь, чем линейная функция. Задания 1в) и 1г) предлагается сделать самостоятельно, используя уравне­ние показательной функции у = а х Ьх и уравнение равносторонней гиперболы Вопросы для самопроверки 1. Назовите основные причины наличия в регрессионной модели случайного отклонения. 2. Суть МНК состоит в: а) минимизации суммы квадратов коэффициентов регрессии; б) минимизации суммы квадратов значений зависимой переменной; в) минимизации суммы квадратов отклонений точек наблюдений от урав­нения регрессии; г) минимизации суммы квадратов отклонений точек эмпирического уравне­ния регрессии от точек теоретического уравнения регрессии. 3. Как вы считаете, если по одной и той же выборке рассчитаны регрессии Y на X и X на Y, то совпадут ли в этом случае линии регрессии? 4. Какое из следующих утверждений истинно, ложно, неопределенно? Почему? а) линейное уравнение регрессии является линейной функцией относитель­но входящих в него переменных; б) коэффициент эмпирического парного линейного уравнения регрессии показывает процентное изменение зависимой переменной Y при однопроцент­ном изменении X; в) включение в уравнение незначимой объясняющей переменной не увели­чивает коэффициент детерминации R2. Задачи для самостоятельной работы №1. Получены функции: 1. у = а + bx3 +; 5. уа = b + cx2 + s; 2. у = а + b ln x + ; 6. у = 1 + а(1 - xb)+ ; 3. ln у = а + b ln x + ; 7. у = а + b + . 4. у = а + bxc + ; Определите, какие из этих функций линейны по переменным; линейны по параметрам; нелинейные ни по переменным, ни по параметрам. Требуется: 1. Построить линейное уравнение парной регрессии у от х. 2. Рассчитать линейный коэффициент парной корреляции и среднюю ошиб­ку аппроксимации. 3. Оценить статистическую значимость параметров регрессии и корреляции. 4. Выполнить прогноз заработной платы у при прогнозном значении средне­душевого прожиточного минимума х, составляющем 107% от среднего уровня. 5. Оценить точность прогноза, рассчитав ошибку прогноза и его довери­тельный интервал. №3. Имеется информация за 7 лет относительно среднего дохода и среднего потребления (млн. руб.) (табл. 2.2.8). Таблица 2.2.8 Зависимость среднего потребления от среднего дохода 1. Оцените коэффициенты линейной регрессии по МНК. 2. Проинтерпретируйте найденные коэффициенты. 3. Проверьте статистическую значимость коэффициентов при уровне зна­чимости а = 0,05. 4. Рассчитайте 95%-е доверительные интервалы для теоретических коэффициентов регрессии. 5. Спрогнозируйте потребление при доходе I = 25,00, постройте довери­тельный интервал для данного прогноза. №4. По 10 наблюдениям за СВ Х и Y получены следующие данные: Предполагая, что предпосылки МНК выполнены, рассчитайте: 1. Коэффициенты линейного уравнения регрессии. 2. Стандартные ошибки коэффициентов. 3. 90 и 99%-е доверительные интервалы. 4. Коэффициент детерминации. 5. Можно ли на основе построенных доверительных интервалов принять гипотезу ? №5. Даны две регрессии, рассчитанные по 25-годовым наблюдениям: а) ( - расходы на оплату жилья, xt - доход ); б) (- расходы на оплату жилья, t - время ). Дайте экономическую интерпретацию построенных регрессий. Согласуют­ся ли они друг с другом? №6. По 15 регионам страны изучается зависимость уровня безработицы у (%) от индекса потребительских цен х (% к предыдущему году). Информация о логарифмах исходных показателей представлена в табл. 2.2.9. Таблица 2.2.9 Известно также, что коэффициент корреляции между логарифмами исход­ных показателей составил Требуется: 1. Построить уравнение регрессии зависимости уровня безработицы от ин­декса потребительских цен в степенной форме. 2. Дать интерпретацию коэффициента эластичности данной модели регрессии. 3. Определить значение коэффициента детерминации и пояснить его смысл. РАЗДЕЛ III. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Тема 5. Множественная регрессия 5.1. Уравнения множественной регрессии Значения экономических переменных определяются влиянием не одного, а нескольких факторов. Например, рассматривая уровень фондоотдачи на различ­ных предприятиях одной отрасли, мы можем установить, что величина его зави­сит от размеров предприятия, удельного веса активной части фондов, степени изношенности фондов, их обновления и ряда других факторов; урожайность за­висит от количества внесенных удобрений, сроков уборки, количества осадков; вес человека - от его роста, объема груди и т.п. Таким образом, модель множественной регрессии - это модель зависимости результирующей переменной более чем от одной независимой переменной. Выше была рассмотрена зависимость между двумя признаками, т.е. речь шла о так называемой парной корреляции. На практике же чаще изменение рас­сматриваемого признака зависит от нескольких причин. В таких случаях изуче­ние корреляционной связи не может ограничиться парными зависимостями, и в анализ необходимо включить другие признаки-факторы, существенно влияющие на изучаемую зависимую переменную. Построение моделей множественной регрессии включает несколько этапов: 1) выбор формы связи (уравнения регрессии); 2) отбор факторных признаков; 3) обеспечение достаточного объема совокупности для получения несме­щенных оценок. Выбор формы связи затрудняется тем, что при использовании математиче­ского аппарата теоретически зависимость между признаками может быть выра­жена большим числом различных функций. Выбор типа уравнения осложнен тем, что для любой формы зависимости существует целый ряд уравнений, которые в определенной степени будут опи­сывать эти связи. Некоторые предпосылки для выбора определенного уравнения регрессии появляются на базе анализа предшествующих аналогичных исследо­ваний или на базе подобных работ в смежных отраслях знаний. Поскольку урав­нение регрессии строится, главным образом, для объяснения и количественного выражения взаимосвязей, оно должно хорошо отражать фактические связи, сло­жившиеся между исследуемыми факторами. Наиболее приемлемым способом определения вида исходного уравнения регрессии является метод перебора различных уравнений. Сущность данного метода заключается в том, что большое число уравнений (моделей) регрессии, отобранных для описания связей какого-либо социально- экономического явления или процесса, реализуется на ЭВМ с помощью специ­ально разработанного алгоритма перебора с последующей статистической про­веркой, главным образом, на основе t-критерия Стьюдента и F-критерия Фише­ра. Способ перебора является достаточно трудоемким и связан с большим объе­мом вычислительных работ. Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей: 1) линейная: 2) степенная: 3) показательная: 4) параболическая: 5) гиперболическая: Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. Нелинейные формы зависимости приводятся к линейным путем линеаризации. Аналитическая форма выражения связи результативного признака и ряда факторных признаков называется многофакторной моделью регрессии, или мо­делью связи. Уравнение линейной множественной модели имеет вид: , (5.1) где - теоретические значения результативного признака, полученные под­становкой соответствующих значений факторных признаков в уравнение ре­грессии; xj ,x2...,xk- факторные признаки; a, a2,... ak- параметры модели (коэффициенты регрессии). Параметры уравнения могут быть определены методом наименьших квад­ратов, который минимизирует выражение: (5.2) Изучение связи между тремя и более связанными между собой признаками проводят методами множественной (многофакторной) регрессии. При исследо­вании зависимостей методами множественной регрессии задача формулируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение связи между результативным признаком Y и фактор­ными признаками x1,x2,...,Xk, найти функцию: (5.3) Рассчитав параметры уравнения множественной зависимости, определим множественный коэффициент корреляции, являющийся характеристикой тесноты связи между результативным и несколькими факторными признаками, по формуле: (5.4) где - общая дисперсия фактических данных результативного признака (дис­персия Y); - остаточная дисперсия, характеризующая вариацию Y за счет факто­ров, не включенных в уравнение регрессии. Множественный коэффициент корреляции может принимать значения в пределах от 0 до 1 и по определению положителен, т.е.: 0R 1. Приближение R к единице свидетельствует о сильной зависимости между признаками. Если R 0,3, то можно утверждать, что не все важнейшие факторы взаимосвязи учте­ны или выбрана неподходящая форма уравнения. Для решения поставленной задачи определяют так называемые коэффици­енты частной корреляции, которые являются характеристиками тесноты связи между двумя признаками при фиксированном значении остальных факторных признаков. Для расчета частных коэффициентов корреляции могут быть исполь­зованы парные коэффициенты корреляции. Для случая зависимости Y от двух признаков можно будет вычислить два коэффициента частной корреляции: 1) частный коэффициент корреляции г01,2 между результативным признаком Y и фактором x при исключении фактора х2 показывает, какую часть разброса Y, вызванного фактором x составляет в разбросе Y под действием всех факторов, кроме фактора х2: (5.5) частный коэффициент корреляции r02,1 характеризует зависимость ре­зультативного признака Y от фактора х2 при исключении влияния фактора x: (5.6) Для общего случая частные коэффициенты корреляции можно определить таким образом: (5.7) где R - коэффициент детерминации результативного признака Y с комплексом признаков x, x2, ..., x , xm; R2m—1 - коэффициент детерминации результативного признака Y с комплек­сом признаков x, x2, ..., x; - частный коэффициент корреляции Y с факторным признаком хт при исключении влияния факторных признаков x, x2, ..., x. Значения парного и частного коэффициентов отличаются друг от друга, так как парный коэффициент характеризует связь между двумя признаками без уче­та влияния других признаков, а частный - учитывает наличие и влияние других факторов. Построение многофакторных регрессионных моделей позволяет дать коли­чественное описание основных закономерностей изучаемых явлений, выделить существенные факторы, обусловливающие изменение экономических показате­лей и оценить их влияние. Полученные модели, в основном, используются в двух направлениях: для сравнительного анализа и в прогнозировании. Например, для выявления внутри­отраслевых резервов повышения эффективности производства рассчитывается уравнение множественной регрессии, рассматриваемое в качестве экономико- статистической модели анализируемого показателя эффективности и характери­зующее основные закономерности в формировании этого показателя для сово­купности предприятий отрасли. На основе такого уравнения можно проанализи­ровать и сравнить влияние каждого фактора на повышение эффективности в среднем по отрасли. Построенные регрессионные модели можно использовать не только для анализа экономических явлений и процессов, но и для прогнозирования осно­ванных на экстраполяции заданных признаков. Однако следует помнить, что при практическом использовании уравнений регрессии экстраполяция допускается только тогда, когда существенно не изменяются условия формирования уровней признаков, которые лежали в основе определения параметров уравнения регрес­сии. В противном случае использование уравнений для составления прогнозов должно быть отвергнуто. Необходим новый эмпирический материал, который отразит взаимосвязь между признаками в новых условиях с определенными ка­чественными сдвигами. Выше было сказано, что для использования регрессионной модели с целью прогнозирования необходимы ее адекватность по F-критерию Фишера, значимость коэффициентов регрессии и отсутствие превышения относительной ошибки ап­проксимации более чем на 12-15%. Экстраполяция дает возможность получить точечное значение прогноза. Точное совпадение фактических данных и прогностических точечных оценок, полученных путем экстраполяции кривых, характеризующих тенденцию, имеет малую вероятность. Возникновение таких отклонений объясняется следующими причинами: 1. Выбранная для прогнозирования кривая не является единственно воз­можной для описания тенденции. Можно подобрать такую кривую, которая дает более точный результат. 2. Составление прогноза осуществляется на основании ограниченного числа исходных данных. Кроме того, каждый исходный уровень обладает еще случай­ной компонентой. Поэтому и кривая, по которой осуществляется экстраполяция, будет содержать случайную компоненту. Любой статистический прогноз носит приближенный характер, поэтому це­лесообразно определение доверительных интервалов прогноза. Алгоритм определения величины доверительного интервала рассмотрим на примере. Проведем прогноз результирующего фактора по заданному линейному урав­нению множественной регрессии: где - дневная выработка рабочего; x - квалификационный разряд рабочего; x - продолжительность внутрисменных простоев. Для этого определим дневную выработку рабочего, имеющего 6-й разряд, при увеличении внутрисменных простоев до 25 мин.: = 81,03 - 0,41 25 + 3,37 6 = 81,03 -10,25 + 20,22 = 91,0 шт. Величина доверительного интервала определяется соотношением: 91,0 ± 2,11 5,66 = 91,0 ± 11,94. Здесь величины 2,11 и 5,66 определяют соответственно табличное значение t-критерия Стьюдента при 5%-ном уровне значимости и 17 степенях свободы и среднее квадратическое отклонение . Таким образом, прогнозное значение будет находиться в интервале: 79,09 у 102,94. 5.2. Проверка общего качества уравнения регрессии После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в слу­чае парной регрессии, используется коэффициент детерминации R2, который в общем случае рассчитывается по формуле: (5.8) Как отмечалось, в общем случае 0 << 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R2. Для множественной регрессии коэффициент детерминации является неубы­вающей функцией числа объясняющих переменных. Добавление новой объяс­няющей переменной никогда не уменьшает значение . Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не со­кратить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в пове­дении Y. Иногда при расчете коэффициента детерминации для получения несме­щенных оценок в числителе и знаменателе вычитаемой из единицы дроби де­лается поправка на число степеней свободы. Вводится так называемый скор­ректированный (исправленный) коэффициент детерминации: (5.9) Можно заметить, что у является несмещенной оценкой об­щей дисперсии - дисперсии отклонений значений переменной Y от . При этом число ее степеней свободы равно (п - l). Одна степень свободы теряется при вычислении . В свою очередь, является несмещенной оценкой остаточной дисперсии - дисперсии случайных отклонений (отклонений точек наблюдений от линии регрессии). Ее число степеней свободы равно . Потеря (т + 1) степе­ни свободы связана с необходимостью решения системы (т + 1) линейного уравнения при определении коэффициентов эмпирического уравнения регрес­сии. Попутно заметим, что несмещенная оценка объясненной дисперсии (диспер­сии отклонений точек на линии регрессии от имеет число степеней свободы, равное разности степеней свободы общей дисперсии и остаточной дисперсии (п - 1) - (n - т -1) = т. Параметры уравнения множественной регрессии оцениваются, как и в пар­ной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет полу­чить оценки параметров регрессии. Так, для уравнения y=a+b1 • x1 + b2x2 +...+bkxk + система нормальных урав­нений составит: Ее решение может быть осуществлено методом определителей: где - определитель системы; - частные определители. При этом получаются путем замены соответствующего столбца матрицы оп­ределителя системы данными левой части системы. 5.3. Мультиколлинеарность Сложность и взаимное переплетение отдельных факторов, обусловливаю­щих исследуемое экономическое явление (процесс), могут проявляться в так на­зываемой мультиколлинеарности, под которой понимается тесная связь факто­ров между собой в экономических процессах, описываемых многофакторными зависимостями. Мультиколлинеарность - явление, при котором нестрогая линейная зави­симость между результирующей и объясняющими переменными в модели мно­жественной регрессии может привести к получению недостаточно надежных оценок регрессии. Нестрогая линейная зависимость между переменными имеет место, если теоретический коэффициент корреляции близок к 1 или -1. Муль- тиколлинеарность в модели множественной регрессии проявляется в различной степени. Если число наблюдений и выборочные дисперсии объясняющих пере­менных велики, а дисперсия случайной величины мала, то оценки регрессии мо­гут быть надежными. Если две и более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелировать (зависеть), что приведет к мультиколлинеарности. Наличие мультиколлинеарности между признаками приводит к: а) слабой обусловленности системы нормальных уравнений; б) искажению величины параметров модели, которые имеют тенденцию к завышению; в) изменению смысла экономической интерпретации коэффициентов рег­рессии; г) осложнению процессов определения наиболее существенных факторных признаков. В решении проблемы мультиколлинеарности можно выделить несколько этапов: а) установление наличия мультиколлинеарности; б) определение причин возникновения мультиколлинеарности; в) разработка мер по ее устранению. Причинами возникновения мультиколлинеарности между признаками яв­ляются: а) ситуации, когда изучаемые факторные признаки характеризуют одну и ту же сторону явления или процесса. Например, не рекомендуется включать одно­временно в модель показатели объема производимой продукции и среднегодовой стоимости основных фондов, так как они оба характеризуют размер предприятия; б) использование в качестве факторных признаков таких показателей, сум­марное значение которых представляет собой почти постоянную величину; в) факторные признаки, являющиеся составными элементами друг друга; г) факторные признаки, по экономическому смыслу дублирующие друг друга. 5.4. Выбор уравнения множественной регрессии При моделировании реального объекта мы не можем быть абсолютно уве­рены, что уравнение специфицировано, верно. Т.е. в уравнение регрессии могут быть включены переменные, которых там не должно быть (лишние перемен­ные), и не включены другие переменные, которые в нем должны присутство­вать. Выбор необходимых для регрессии переменных и отбрасывание лишних - это спецификация переменных. Одним из методов спецификации переменных является включение максимально возможных, с точки зрения здравого смысла, объясняющих переменных с последующим их исключением из уравнения рег­рессии, при помощи тестов Стьюдента или Фишера. Проверка адекватности мо­делей, построенных на основе уравнения регрессии, начинается с проверки зна­чимости каждого коэффициента регрессии. Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента: (5.10) где - дисперсия коэффициента регрессии. Параметр модели признается статистически значимым, если tp > tкр(; v = n - k -1), (5.11) где а - уровень значимости критерия проверки гипотезы о равенстве нулю па­раметров, измеряющих связь. Статистическая существенность связи утвержда­ется при исключении нулевой гипотезы об отсутствии связи; v = n – k - l - число степеней свободы, которое характеризует число свободно варьирующих элементов совокупности; k - число факторных признаков в уравнении; n - число наблюдений (объем выборки). Наиболее сложным в этом выражении является определение дисперсии, ко­торая может быть рассчитана двояким способом. Наиболее простой способ, выработанный методикой экспериментирования, заключается в том, что величина дисперсии коэффициента регрессии может быть приближенно определена по выражению: (5.12) где - дисперсия результативного признака. Более точную оценку величины дисперсии можно получить по формуле: (5.13) где - величина множественного коэффициента корреляции по фактору с ос­тальными факторами. Проверка адекватности всей модели осуществляется с помощью расчета F- критерия Фишера и величины средней ошибки аппроксимации. Значение F-критерия определяется по следующей формуле: (5.14) Дисперсия регрессии: (5.15) - характеристика отклонения расчетных значений результативного призна­ка от его среднего значения; Остаточная дисперсия: (5.16) - характеристика отклонения фактических значений результативного пока­зателя от расчетных, полученных с помощью уравнения регрессии; - экспериментальные (фактические) значения признаков; - среднее значение; - теоретические значения признаков, полученных по уравнению регрессии. Величина Fрасч должна быть больше Fтабл при степенях свободы v1 = (к -1) и v2 = (n - к). Величина Fтабл определяется по таблице Фишера-Снедекора (F-рас- пределение) на основании величины = 0,05 или = 0,01. При оценке значимо­сти коэффициентов регрессии с помощью критерия используются завершения отбора существенных факторов в процессе многошагового регрессионного ана­лиза. Он заключается в том, что после оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незна­чим и имеет наименьшее значение критерия. Затем уравнение регрессии строит­ся без исключенного фактора, и снова проводится оценка адекватности уравне­ния и значимости коэффициентов регрессии. Такой процесс длится до тех пор, пока все коэффициенты регрессии не окажутся значимыми, что свидетельствует о наличии в регрессионной модели только существенных факторов. В некоторых случаях расчетное значение tрасч находится вблизи tтабл, поэтому с точки зрения содержательности модели такой фактор можно оставить для последующей про­верки его значимости в сочетании с другим набором факторов. Последовательный отсев несущественных факторов рассмотренным выше приемом (или последовательным включением новых факторов) составляет ос­нову многошагового регрессионного анализа. Таким образом, при выборе лучшей регрессионной модели следует руково­дствоваться тремя принципами: 1) коэффициенты регрессии должны быть статистически значимы (удовлетво­рять t-критерию Стьюдента); 2) модель должна быть адекватна по F-критерию Фишера; 3) выбранная математическая функция должна иметь минимальную ошибку аппроксимации среди всех рассматриваемых уравнений регрессии. При этом возможны следующие варианты: 1. Построенная модель на основе ее проверки по F-критерию Фишера в це­лом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов. 2. Модель по F-критерию Фишера адекватна, но часть коэффициентов рег­рессии незначима. В этом случае модель пригодна для принятия некоторых ре­шений, но не для составления прогнозов. 3. Модель по F-критерию Фишера адекватна, но все коэффициенты регрес­сии незначимы. Поэтому модель полностью считается неадекватной. На ее осно­ве не принимаются решения и не осуществляются прогнозы. Спецификация переменных модели окажет влияние на свойства оценок коэффициентов регрессии, например: • если в модели отсутствуют необходимые переменные, то оценки коэф­фициентов регрессии могут быть смещенными; • если включены лишние переменные в уравнение регрессии, то оценки коэффициентов регрессии будут несмещенными, но при этом неэффективными. Маловероятно, что оценка первоначальной спецификации уравнения рег­рессии даст хорошие по всем параметрам результаты. Если оцененная по ряду статистических характеристик (DW, t-статистики, F-статистики) модель множе­ственной регрессии нереалистична, то необходимо провести уточнение состава объясняющих переменных и вновь оценить коэффициенты уравнения регрессии. Тема 6. Модели множественной регрессии с переменной структурой 6.1. Фиктивные и нефиктивные переменные Объясняющие переменные в регрессионных моделях отражают количествен­ные характеристики (объем производства, спрос, цену, размер заработной платы и т.д.) и поэтому имеют непрерывные области значений. Однако некоторые переменные отражают какую-либо качественную сторо­ну исследуемых процессов (качество вспашки, цвет окраски автомобиля, уро­вень квалификации персонала и т. п.). Такие переменные могут принимать всего два значения или дискретное множество значений. Например, проанализируем с использованием фиктивной переменной зави­симость урожайности пшеницы Y от вида вспашки z и количества внесенного органического удобрения x. По виду вспашки поля характеризуются двумя кате­гориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обуславливает различия в урожайности. В этом случае уравнение регрессии будет иметь вид: y = а0 + a x + cz + , (6.1) где z - фиктивная переменная, т. е. искусственно введенная переменная, величи­на которой отражает эффект вида вспашки, а именно z = 1 для зяблевой и z = 0 для весенней вспашки. Если мы располагаем экспериментальными данными по величине урожай­ности для весенней и зяблевой вспашки, то используя регрессионный анализ, можем оценить численные значения коэффициентов регрессии а0, a, c. Коэффи­циент c - коэффициент при фиктивной переменной z, он дает численную вели­чину эффекта вида вспашки. Следует отметить, что в модели множественной регрессии всегда желательно присутствие хоть одной нефиктивной переменной, т.к. дисперсия фиктивной переменной очень мала и это сказывается на досто­верности оценок. В модели с фиктивными переменными коэффициент детерми­нации R часто бывает очень малым, а значения t-статистики незначительно от­личаются от 0 для фиктивных переменных. Однако не следует выбрасывать фиктивные переменные из модели, т.к. они описывают небольшие, но важные поправки к нефиктивной (объясняющей) переменной. Модель может включать не одну, а несколько фиктивных переменных: (6.2) 6.2. Сезонные фиктивные переменные Сезонные фиктивные переменные - совокупность фиктивных переменных, предназначенных для обозначения различных времен года, кварталов, месяцев и т.п. Эту переменную следует выделять, когда имеет место значительное воздей­ствие на результирующую переменную Y сезонного фактора. Сумма сезонных отклонений должна равняться нулю. 6.3. Зависимая фиктивная переменная Иногда фиктивные переменные могут быть использованы для объяснения поведения зависимой переменной. Например, если исследовать зависимость на­личия автомобиля от дохода, пола субъекта и т.п., то зависимая переменная име­ет два возможных значения: 0, если машины нет, и 1, если машина есть. Однако если для моделей данного типа использовать обыкновенный МНК, то получен­ные оценки не обладают свойствами наилучших линейных несмещенных оце­нок. Поэтому в этом случае используются другие методы. Линейная вероятностная модель. Рассмотрим модели, в которых зависимая переменная выражается в виде фиктивной (двоичной) переменной. Объясняющие переменные могут быть как количественные, так и качественные. Представим рассматриваемую модель в виде: (6.3) Например, пусть Y - результат сдачи с первой попытки экзамена в ГАИ; Х1 - количество часов вождения в автошколе; Х2 - средний процент выпускников данной школы, сдающих экзамен в ГАИ с первой попытки; D3 - использование компьютерной методики обучения. В этой ситуации: Y= Пусть 0 Х1 50, 0 Х2 100, Тогда получим следующую модель: Y = (6.4) Модели вида (6.3), (6.4) называются линейными вероятностными моделями. Суть этого названия поясним на простейшем примере: Y = (6.5) При использовании модели (6.5) среднеожидаемое значение Y (условное ма­тематическое ожидание ) при Х = х с учетом того, что M( ) = 0, определяется соотношением M(Y) = 0 P(Y = 1/x) + 1 P(Y = 1/x) = P(Y = 1/x). Следовательно, из (6.5) имеем: Р (Y = 1/ x) = (6.6) Применимость МНК к моделям такого типа имеет определенные ограничения: 1. Случайные отклонения в данных моделях не являются нормальными случайными величинами, а скорее всего имеют биноминальное распределение. при при Однако с ростом объема выборки биноминальное распределение стремится к нормальному. 2. Случайные отклонения не обладают свойством постоянной дисперсии (гомоскедастичности), т.е. D () зависит от вероятностей соответствующих зна­чений Y, которые, в свою очередь, зависят от выбранных значений X. 3. Использование формул (6.3)-(6.5) может привести к ситуации, когда не­которые yi будут меньше нуля либо больше единицы. Для устранения данной проблемы нужно рассматривать logit модель. 4. Применение линейной вероятностной модели проблематично с содер­жательной точки зрения. Действительно, увеличение в (6.5) значения перемен­ной Х на одну единицу приводит к изменению значения Y на величину вне зависимости от конкретного значения Х, что противоречит теоретическим и практическим выкладкам. Logit модель. (6.7) где - условная вероятность. Для ее оценки можно использовать МНК. Однако для этого необходимо знать значения зависимой переменной , которые обычно неизвестны. Поэтому необходимо определить значения p. В случае, если имеется выборка сгруппированных данных, в качестве p можно использовать ее оценку Тема 7. Модели множественной регрессии с гетероскедастичными и автокоррелируемыми остатками 7.1. Экономические причины гетероскедастичности Свойства оценок коэффициентов регрессии зависят от свойств остаточной случайной составляющей () в уравнении регрессии. В моделях с гетероскеда­стичными остатками ошибки в разных наблюдениях некоррелированные (неза­висимые), но их дисперсии имеют разные значения (рис. 2.3.1) Таким образом, гетероскедастичность - это нарушение второго условия теоремы Гаусса-Маркова, которое заключается в том, что дисперсия случайной остаточной величины зависит от номера наблюдения (непостоянство дисперсий отклонений). Гетероскедастичность приводит к увеличению дисперсии оценок параметров регрессии и получению неправильного представления о точности уравнения регрессии. Т.е. если имеет место гетероскедастичность, то оценки ко­эффициентов уравнения регрессии (например, в случае парной регрессии это а0 и а1), найденные с помощью классического метода наименьших квадратов не­эффективны и для определения более точных их значений следует применять обобщенный метод наименьших квадратов. Стандартные ошибки, вычисленные при гетероскедастичности, занижены по сравнению с истинными значениями. Гетероскедастичность имеет место в случаях, когда неоднородны либо ана­лизируемые объекты, либо условия их функционирования, т.е. когда значения переменных, входящих в уравнение регрессии, значительно различаются в раз­ных наблюдениях (в наблюдениях во времени либо в пространстве). Например, если исследуется зависимость производственных затрат предприятия от каких- либо факторов (объема выпускаемой продукции, размера основных фондов и др.), то естественно ожидать, что для крупных предприятий колебания объема затрат будут больше. Причиной гетероскедастичности могут быть и ошибки в исходных данных. Случайные неточности в начальной информации, такие как ошибки в порядке чисел, могут существенно повлиять на результаты. Гетероскедастичность может иметь место при анализе временных рядов: если значения переменных x и y увеличиваются во времени, дисперсия остаточ­ной случайной составляющей тоже будет расти. 7.2. Обнаружение гетероскедастичности Появление проблемы гетероскедастичности часто можно предвидеть зара­нее, основываясь на характерных особенностях данных. В этих случаях можно выполнить соответствующие действия по устранению этого эффекта на этапе спецификации модели регрессии. Для этого существует ряд статистических тес­тов на гетероскедастичность, например: тест Уайта, тест Голдфелда-Куандта, тест Бреуша-Пагана и др. Графический анализ остатков Использование графического представления отклонений позволяет опреде­литься с наличием гетероскедастичности. В этом случае по оси абсцисс отклады­ваются значения (xi) объясняющей переменной X (либо линейной комбинации объясняющих переменных Y = a0 + a1 X1 + ... + an Xn), а по оси ординат - либо от­клонения et, либо их квадраты е2 i= 1, 2, ..., п. Примеры таких графиков приведе­ны на рис. 2.3.2. Рис. 2.3.2. Графический анализ остатков На рис. 2.3.2 (а) все отклонения ei2 находятся внутри полуполосы постоян­ной ширины, параллельной оси абсцисс. Это говорит о независимости диспер­сий ei2 от значений переменной X и их постоянстве, т.е. в этом случае выполня­ются условия гомоскедастичности. На рис. 2.3.2 (б)-(д) наблюдаются некоторые систематические изменения в соотношениях между значениями xj, переменной X и квадратами отклонений ei2. На рис. 2.3.2 (в) отражена линейная, 2.3.2 (г) - квадратичная, 2.3.2 (д) - гипербо­лическая зависимости между квадратами отклонений и значениями объясняющей переменной X. Другими словами, ситуации, представленные на рис. 2.3.2 (б)-(д), отражают большую вероятность наличия гетероскедастичности для рассматри­ваемых статистических данных. Отметим, что графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии. При множественной рег­рессии графический анализ возможен для каждой из объясняющих перемен­ных Xj , j = 1, 2, ..., т отдельно. Чаще же вместо объясняющих переменных Xj по оси абсцисс откладывают значения, получаемые из эмпириче­ского уравнения регрессии. Поскольку по уравнению множественной линейной регрессии yt является линейной комбинацией xij, j = 1, 2, ... , т, i = 1, 2, ..., п, то график, отражающий зависимость ei2 от может указать на наличие гетероскедастичности аналогично ситуациям на рис. 2.3.2 (б)-(д). Такой анализ наиболее целесообразен при большом количестве объясняющих переменных. Тест Голдфелда-Квандта В данном случае также предполагается, что стандартное отклонение пропорционально значению xi переменной X в этом наблюдении, т.е. Предполагается, что имеет нормальное распреде­ление и отсутствует автокорреляция остатков. Тест Голдфелда-Квандта состоит в следующем: 1. Все п наблюдений упорядочиваются по величине X. 2. Вся упорядоченная выборка после этого разбивается на три подвыбор- ки размерностей к, (п - 2к), к соответственно. 3. Оцениваются отдельные регрессии для первой подвыборки (к первых на­блюдений) и для третьей подвыборки (к последних наблюдений). Если предпо­ложение о пропорциональности дисперсий отклонений значениям X верно, то дисперсия регрессии по первой подвыборке (сумма квадратов отклонений ) будет существенно меньше дисперсии регрессии по третьей подвы- борке (суммы квадратов отклонений ). 4. Для сравнения соответствующих дисперсий строится следующая F-ста- тистика: (7.1) где (к - т - 1) - число степеней свободы соответствующих выборочных диспер­сий (т - количество объясняющих переменных в уравнении регрессии). При сделанных предположениях относительно случайных отклонений построенная F-статистика имеет распределение Фишера с числами степеней свободы v1 = v2 = к - т -1. 5. Если то гипотеза об отсутствии гетероскеда- 2 стичности отклоняется (здесь - выбранный уровень значимости). Естественным является вопрос: какими должны быть размеры подвыбо- рок для принятия обоснованных решений? Для парной регрессии Голдфелд и Квандт предлагают следующие пропорции: п = 30, к = 11; п = 60, к = 22. Для множественной регрессии данный тест обычно проводится для той объясняющей переменной, которая в наибольшей степени связана с . При этом к должно быть больше, чем (т + 1). Если нет уверенности относительно выбора переменной, то данный тест может осуществляться для каждой из объясняющих переменных.Этот же тест может быть использован при предположении об обратной пропорциональности между и значениями объясняющей переменной. При этом статистика Фишера примет вид: F = S1/S3. 7.3. Неэффективность МНК. Метод взвешенных наименьших квадратов Метод наименьших квадратов основан на ряде предпосылок относительно природы данных и результатов построения модели. Основные из них - разделе­ние исходных переменных на зависимые и независимые; некоррелированность факторов, входящих в уравнения регрессии; отсутствие автокорреляции остат­ков, равенства их математического ожидания нулю и постоянная дисперсия. Если на практике имеет место гетероскедастичность, то оценки классиче­ского МНК будут неэффективны. Классический МНК не делает различия между качеством наблюдений, придавая одинаковые «веса» каждому из них независи­мо от их качества. Если придавать большие «веса» наблюдениям высокого каче­ства и меньшие - наблюдениям низкого качества, то можно получить более точ­ные оценки параметров уравнения регрессии. Например, при анализе временно­го тренда объемов выпускаемой продукции агропромышленного предприятия в заданный временной интервал включены года, в которые имели место стихий­ные бедствия (засуха, наводнение и т.п.), что не отражено в регрессионной мо­дели. Для того чтобы исключить вклад этих нетипичных периодов в результаты расчетов, необходимо задать для них меньший «вес», чем для остальных вре­менных периодов. Поэтому важным моментом при использовании обобщенного метода наименьших квадратов (ОМНК) является корректный выбор «весов». Сначала оценивают регрессионную модель с помощью классического МНК, считая, что отклонения si независимы между собой. При этом ковариация откло­нений (ошибок): COV =0 при , где i, j - номера наблюдений; COV = , где - дисперсия ошибки i-го наблюдения. Если величины известны, то далее можно величины 1 / использовать в качестве «весов» соответствующих отклонений и найти минимум суммы квадратов: (7.2) Для простоты изложения опишем ВНК на примере парной регрессии: (7.3) Разделим обе части (7.3) на известное Положив получим уравнение регрессии без свободного члена, но с дополнительной объясняющей переменной Z и с «преобразованным» отклонением v: (7.4) При этом для выполняется условие гомоскедастичности. Действительно, Так как по предпосылке МНК то, тогда Следовательно, для преобразованной модели (7.4) выполняются предпо­сылки МНК. В этом случае оценки, полученные по МНК, будут наилучшими линейными несмещенными оценками. Таким образом, МВНК включает следующие этапы: 1. Значения каждой пары наблюдений делят на известную величину at. Тем самым наблюдениям с наименьшими дисперсиями придаются наи­большие «веса», а с максимальными дисперсиями - наименьшие «веса». Дей­ствительно, наблюдения с меньшими дисперсиями отклонений будут более значимыми при оценке коэффициентов регрессии, чем наблюдения с боль­шими дисперсиями. Учет этого факта увеличивает вероятность получения более точных оценок. 2. По МНК для преобразованных значений строится уравнение регрессии без свободного члена с гарантированными качествами оценок. Дисперсии отклонений неизвестны. Для применения МВНК необходимо знать фактические значения дисперсий отклонений. На практике такие значения известны крайне редко. Следова­тельно, чтобы применить МВНК, необходимо сделать реалистические предполо- 2 жения о значениях . Например, может оказаться целесообразным предположить, что диспер­сии отклонений пропорциональны значениям (рис. 2.3.3 (а)) или значе­ниям (рис. 2.3.3 (б)). Дисперсии пропорциональны хi (рис. 2.3.3 (а)): = ( - коэффициент пропорциональности). Тогда уравнение (7.3) преобразуется делением его левой и правой частей на Несложно показать, что для случайных отклонений выполняется усло- вие гомоскедастичности. Следовательно, для регрессии применим обычный МНК. Действительно, в силу выполнимости предпосылки имеем Таким образом, оценив по МНК коэффициенты а0 и а1 затем возвращают­ся к исходному уравнению регрессии. Если в уравнении регрессии присутствует несколько объясняющих пере­менных, можно поступить следующим образом. Вместо конкретной объяс­няющей переменной Xj используется переменная исходного уравнения мно­жественной линейной регрессии = a0 + a1 • x1 + a2x2 +... + akxk +, т.е. фактически линейная комбинация объясняющих переменных. В этом случае получают сле­дующую регрессию: Иногда из всех объясняющих переменных выбирается наиболее подходя­щая, исходя из графического представления. Дисперсии пропорциональны (рис. 2.3.3 (б)). В случае, если зависимость от хi целесообразнее выразить не линейной функцией, а квадратичной, то соответствующим преобразованием будет деление уравнения регрессии (7.3) на хi: (7.5) где По аналогии с вышеизложенным несложно показать, что для отклонений v, будет выполняться условие гомоскедастичности. После определения по МНК оценок коэффициентов а0 и а1 для уравнения (7.5) возвращаются к исходному уравнению (7.3). Отметим, что для применения описанных выше преобразований весьма зна­чимы знания об истинных значениях дисперсий отклонений либо предполо­жения, какими эти дисперсии могут быть. Во многих случаях дисперсии откло­нений зависят не от включенных в уравнение регрессии объясняющих пере­менных, а от тех, которые не включены в модель, но играют существенную роль в исследуемой зависимости. В этом случае они должны быть включены в мо­дель. В ряде случаев для устранения гетероскедастичности необходимо изме­нить спецификацию модели (например, линейную на лог-линейную, мультипли­кативную на аддитивную и т. п.). В заключение отметим, что наличие гетероскедастичности не позволяет по­лучить эффективные оценки, что зачастую приводит к необоснованным выводам по их качеству. Обнаружение гетероскедастичности является достаточно трудо­емкой проблемой и для ее решения разработано несколько методов (тестов). В случае установления наличия гетероскедастичности ее корректировка также становится достаточно серьезной проблемой. Одним из возможных решений яв­ляется метод взвешенных наименьших квадратов (при этом необходимы опреде­ленная информация либо обоснованные предположения о величинах дисперсий отклонений). На практике имеет смысл применить несколько методов определения гете- роскедастичности и способов ее корректировки (преобразований, стабилизи­рующих дисперсию). 7.4. Автокорреляция Автокорреляция ошибки - это нарушение третьего условия Гаусса-Марко­ва, которое заключается в том, что остаточные случайные составляющие в уравнении регрессии являются зависимыми, т.е. COV при,, где i,j -номера наблюдений. Автокорреляция ошибки приводит к тому, что коэффициенты регрессии, найденные с помощью классического метода наименьших квадратов, становятся неэффективными. Автокорреляция связана с тем, что случайная составляющая в уравнении регрессии подвержена воздействию тех переменных, влияющих на результирующую переменную y, которые при создании модели не были включе­ны в уравнение регрессии y = f(xl ,x2 ,...,xn), т.е. в состав определяющих пере­менных (x1, x2, ..., xn). В общем, это является сигналом недостаточного каче­ства созданной модели и требует формирования нового списка определяю­щих переменных xl ,x2 ,...,xm. В большинстве случаев положительная автокорреляция вызывается на­правленным постоянным воздействием некоторых не учтенных в модели фак­торов. Суть автокорреляции поясним следующим примером. Пусть исследу­ется спрос Y на прохладительные напитки в зависимости от дохода X по ежемесячным данным. Трендовая зависимость, отражающая увеличение спроса с ростом дохода, может быть представлена линейной функцией Y=a0 +a]*X, изображенной на рис. 2.3.4. Однако фактические точки наблюдений обычно будут превышать трендо- вую линию в летние периоды и будут ниже ее - в зимние. Среди основных причин, вызывающих появление автокорреляции, можно выделить: ошибки спецификации, инерцию в изменении экономических показа­телей, эффект паутины, сглаживание данных. 7.5. Обнаружение автокорреляции В силу неизвестности значений параметров уравнения регрессии неизвест­ными будут также и истинные значения отклонений . Поэтому выводы об их независимости осуществляются на основе оценок et, полученных из эмпириче­ского уравнения регрессии. Рассмотрим возможные методы определения авто­корреляции. Метод рядов Этот метод достаточно прост: последовательно определяются знаки откло­нений et, t = 1, 2, ..., Т. Например, ( )( + + + + + + +)(- - -)(+ + + +)(-), т.е. 5 «-», 7 «+», 3 «-», 4 «+», 1 «-» при 20 наблюдениях. Ряд определяется как непрерывная последовательность одинаковых зна­ков. Количество знаков в ряду называется длиной ряда. Визуальное распределение знаков свидетельствует о неслучайном характе­ре связей между отклонениями. Если рядов слишком мало по сравнению с количеством наблюдений п, то вполне вероятна положительная автокорре­ляция. Если же рядов слишком много, то вероятна отрицательная автокорреля­ция. Для более детального анализа предлагается следующая процедура. Пусть: п - объем выборки; - общее количество знаков «+» при п наблюдениях (количество положи­тельных отклонений - et); - общее количество знаков «-» при n наблюдениях (количество отрица­тельных отклонений - et); к - количество рядов. При достаточно большом количестве наблюдений (n] > 10, п2 > 10) и отсут­ствии автокорреляции СВ к имеет асимптотически нормальное распределение: Тогда, если M(k) - uaD(k) < k < M(k) + uaD(k), то гипотеза об отсутствии автокорреляции не отклоняется. Для небольшого числа наблюдений (n] < 20, п2 < 20) Свед и Эйзенхарт раз­работали таблицы критических значений количества рядов при п наблюдениях (Приложение 4). Суть таблиц в следующем. На пересечении строки п] и столбца п2 определяются нижнее k] и верхнее k2 значения при уровне значимости = 0,05. Если k] < k < k2, то говорят об отсутствии автокорреляции. Если k < k] ,то говорят о положительной автокорреляции остатков. Если k > k2, говорят об отрицательной автокорреляции остатков. В нашем примере п = 20, п] = 11, n2=9, k = 5. По таблицам (Приложение 4) определяем k] = 6, k2 = 16. Поскольку k = 5 < 6 = k] ,то принимается предположе­ние о наличии положительной автокорреляции при уровне значимости = 0,05. Критерий Дарбина- Уотсона Наиболее известным критерием обнаружения автокорреляции первого по­рядка является критерий Дарбина-Уотсона. Статистика DW Дарбина-Уотсона приводится во всех специальных прикладных компьютерных программах как важнейшая характеристика качества регрессионной модели. На основе вычислен­ной статистики DW Дарбина-Уотсона делается вывод об автокорреляции: (7.6) Статистика Дарбина-Уотсона тесно связана с выборочным коэффициентом корреляции Таким образом, 0 < DW < 4, и ее значения могут указать на наличие либо от­сутствие автокорреляции. Действительно, если (автокорреляция отсутст­вует), то DW 2. Если (положительная автокорреляция), то DW 0. Если (отрицательная автокорреляция), то DW 4. Для более точного определения, какое значение DW свидетельствует об от­сутствии автокорреляции, а какое - о ее наличии, была построена таблица кри­тических точек распределения Дарбина-Уотсона. По ней для заданного уровня значимости а, числа наблюдений п и количества объясняющих переменных m определяются два значения: d1 - нижняя граница и du - верхняя граница. Общая схема критерия Дарбина-Уотсона следующая: 1.По построенному эмпирическому уравнению регрессии =a0+a1xt1+... +amxtm определяются значения отклонений et = для каждого наблюдения t, t = 1, 2, ..., Т. 2.По формуле (7.6) рассчитывается статистика DW. 3.По таблице критических точек Дарбина-Уотсона определяются два числа d1 и du и осуществляются выводы по правилу: 0 DW ua, то нулевая гипотеза об отсутствии автокорреляции должна быть отклонена. В противном случае она не отклоняется. Отметим, что обычно значение р рассчитывается по формуле: = 1- 0,5DW, a D(g) равна квадрату стандартной ошибки Sg оценки g коэффициента. Поэтому h легко вычисляется на основе данных оцененной регрессии. Основная проблема при использовании этого теста заключается в невоз­можности вычисления h при nD(g) > 1. Пример решения задачи к разделу III Анализируется объем S сбережений домохозяйства за 10 лет. Предполагает­ся, что его размер st в текущем году t зависит от величины yt-1 располагаемого дохода Y в предыдущем году и от величины zt реальной процентной ставки Z в текущем году. Статистические данные представлены в таблице 2.3.1: Требуется: 1. По МНК оценить коэффициенты линейной регрессии 2. Оценить статистическую значимость найденных эмпирических коэффи­циентов регрессии b0, b1, b2. 3. Построить 95%-е доверительные интервалы для найденных коэффициентов. 4. Вычислить коэффициент детерминации R2 и оценить его статистическую значимость при а = 0,05. 5. Вычислить статистику Дарбина-Уотсона и оценить наличие автокорреляции. 6. Определить, увеличивается или уменьшается объем сбережений с ростом процентной ставки; будет ли ответ статистически обоснованным. Решение: Для наглядности изложения приведем таблицу промежуточных вычислений (табл. 2.3.2): Расчет коэффициентов проводится по формулам: b0 = 2,9619423; b1 = 0,124189; b2 = 3,553841. Таким образом, эмпирическое уравнение регрессии имеет вид: st = 2,9619423 + 0,124189 yt + 3,553841 zt Найденное уравнение позволяет рассчитать модельные значения зависи­мой переменной S и вычислить отклонения реальных значений от модельных (табл. 2.3.3). Проанализируем статистическую значимость коэффициентов регрессии, предварительно рассчитав их стандартные ошибки. Дисперсия вычисляется по формуле: 84 35 33,49369 1,50631 2,26896 0,20427 0,04173 85 38 37,04753 0,95247 0,90719 -0,55384 0,30674 86 40 39,53131 0,46869 0,21967 -0,48378 0,23404 87 38 38,46125 -0,46125 0,21275 -0,92994 0,86479 88 44 45,74076 -1,74076 3,03024 -1,27951 1,63714 89 50 51,77838 -1,77838 3,16263 -0,03762 0,00141 90 55 53,02027 1,97973 3,91933 3,75811 14,12332 Сумма 405 405 ~0 24,24058 - 41,87375 Среднее 36,81818 36,81818 - - - - Тогда стандартная ошибка регрессии S = 1,7407. Следовательно, дисперсии и стандартные ошибки коэффициентов таковы: = 1,8929; = 0,0212; = 1,0146. Рассчитаем соответствующие t-статистики: = 1,565; = 5,858; = 3,503. Два коэффициента имеют t-статистики, превышающие тройку, что является признаком их высокой статистической значимости. Определяем 95%-е доверительные интервалы для коэффициентов: 2,9619423 - 2,306 х 1,8929 < < 2,969423 + 2306 х 1,8929; -1,4031 << 7,3270; 0,124189 - 2,306 х 0,0212 < < 0,124189 + 2306 х 0,0212; 0,0753 < < 0,1731; 3,553841 - 2,306 х 1,0146 < < 3,553841 + 2306 х 1,0146; 1,2141 < < 5,8935. Коэффициент детерминации R2 рассчитывается по формуле: R2 = 1 - 24,2408 / 1087,636 = 0,9777. Анализ статистической значимости коэффициента детерминации осуще­ствляется на основе F-статистики: F = 0,9777 / (1 - 0,9777) х 8 / 2 = 175,3732. Для определения статистической значимости F-статистики сравним ее с со­ответствующей критической точкой распределения Фишера: = 4,46. Так как = 175,3732 > Fкр = 4,46, то статистика F, а следовательно, и ко­эффициент детерминации R2 статистически значимы. Это означает, что сово­купное влияние переменных Y и X на переменную S существенно. Этот же вы­вод можно было бы сделать без особых проверок только по уровню коэффици­ента детерминации. Он весьма близок к единице. Статистику DW Дарбина-Уотсона вычислим по формуле: DW = 41,87375 / 24,24058 =1,72742. Для проверки статистической значимости DW воспользуемся таблицей кри­тических точек Дарбина-Уотсона. При уровне значимости = 0,05 и числе на­блюдений n = 11 имеем: d1 = 0,658; du = 1,604. Так как 1,604 < DW < 2,396 (du < DW < 4 - du ), то гипотеза об отсутствии автокорреляции не отклоняется, т. е. считаем, что автокорреляция остатков от­сутствует. Это является одним из подтверждений высокого качества модели.В силу того, что коэффициент Ь2 является статистически значимым, можно утверждать, что с ростом процентной ставки увеличивается объем сбережений (коэффициент Ь2 имеет положительный знак). Ответ будет статистически обос­нованным. Вопросы для самопроверки 1. В чем суть МНК для построения множественного линейного уравнения регрессии? 2. В чем суть коэффициента детерминации ? 3. Как используется F-статистика в регрессионном анализе? 4. Что такое автокорреляция остатков, и каковы ее виды? 5. Близость к нулю коэффициента детерминации означает его статисти­ческую незначимость? 6. При увеличении количества объясняющих переменных всегда увеличи­вается коэффициент детерминации? 7. Объясните явление мультиколлинеарности. Что такое совершенная мультиколлинеарность? Задачи для самостоятельной работы №1. Предполагается, что объем предложения Q некоторого блага для функ­ционирующей в условиях конкуренции фирмы зависит линейно от цены P данного блага и заработной платы W сотрудников фирмы, производящих данное благо: Q = Статистические данные собраны за 16 месяцев (табл. 2.3.4): Требуется: 1. Оценить по МНК коэффициенты уравнения регрессии. 2. Проверить гипотезы: при равных условиях рост цены товара увеличивает предложение; рост заработной платы снижает предложение. 3. Определить интервальные оценки коэффициентов при уровне значимости = 0,1. 4. Проверить гипотезу об отсутствии автокорреляции остатков. №2. По выборке объема n=50 для Х1, Х2, Х3 построена следующая корре­ляционная матрица: 1.Найдите и оцените статистическую значимость частных коэффициентов корреляции . 2.При рассмотрении какой регрессии будет иметь место мультиколлинеар­ность? №3. Имеется выборка из 10 наблюдений за переменными Х1 Х2, Y (табл. 2.3.5): 1. Можно ли по этим данным по МНК оценить коэффициенты регрессии с двумя объясняющими переменными? Ответ поясните. 2. В случае отрицательного ответа предложите преобразования, которые позволят оценить коэффициенты регрессии. №4. Пусть зависимость заработной платы (Y) от стажа работы (X) сотруд­ника выражена следующим уравнением регрессии: Y = где D - фиктивная переменная, отражающая пол сотрудника. Как можно прове­рить предположение о том, что пол сотрудника не влияет на дисперсию случай­ных отклонений №5. Для предприятий некоторой отрасли анализируют заработную плату (Y) сотрудников в зависимости от масштаба (количества сотрудников предпри­ятия (X)). Наблюдения по 30 случайно отобранным предприятиям представлены в таблице 2.3.6: Таблица 2.3.6 Исходные статистические данные 1. Постройте уравнение регрессии Y на X. 2. Можно ли ожидать наличия гетероскедастичности в данном случае? 3. Проверьте наличие гетероскедастичности, применив тест Голдфелда- Квандта. Использовать разбиение, при котором k = 12. №6. Пусть при 50 наблюдениях и 3 объясняющих переменных статистика Дарбина-Уотсона принимает следующие значения: а)0,92; б)1,38; в)2,35; г)3,02; д) 3,73. Не обращаясь к таблице критических точек Дарбина-Уотсона, сделайте пред­положение о наличие автокорреляции. Проверьте выводы по таблице. №7. По статистическим данным за 20 лет построено уравнение регрессии между ценой бензина и объемом продаж бензина: DW = 0,71. 1. Будет ли в этом случае иметь место автокорреляция остатков? Если да, то положительная или отрицательная? 2. Какой критерий использован? №8. Предполагается, что ежемесячное потребление пива студентами опре­деляется (линейно) доходом, возрастом, полом студентов, а также временем обу­чения «младшие курсы-старшие курсы». 2. Сколько количественных и качественных объясняющих переменных должна включать модель? 3. Как проверить предположение, что пол студента существенно влияет на количество потребляемого пива? РАЗДЕЛ IV. ВРЕМЕННЫЕ РЯДЫ И ДИНАМИЧЕСКИЕ ПРОЦЕССЫ Тема 8. Модели временных рядов 8.1. Одномерный временной ряд Одномерный временной ряд - ряд наблюдений (исходных статистических данных) x(t1),x(t2),..., анализируемой случайной величины х, проведенных в последовательные моменты времени t1,t2, ... , tn. При этом данные образуют про­странственно-временную выборку. Одномерный ряд отражает эволюцию значений только одного признака исследуемого объекта. В процессе моделирования удобно анализировать временные ряды с равноотстоящими моментами наблюдений (на­пример: по месяцам, поквартально и т.п.), т.е. - вре­менной шаг. Тогда временной ряд можно представить в виде: х(1), х(2),..., х(п). Каждый временной ряд состоит из двух элементов: первый - момент, или период времени t, второй - статистический показатель х, который характеризует исследуемый объект в данный момент или период времени. Соответственно, раз­личают моментные и интервальные ряды динамики. Временной ряд имеет отли­чия от случайной выборки х1, х2 ,... , хп, полученной для большого количества од­нотипных данных: члены временного ряда статистически зависимы и имеют раз­личные распределения вероятностей. Степень тесноты статистической связи ме­жду наблюдениями временного ряда, взятыми для смежных моментов времени, определяется величиной коэффициента корреляции. Факторы, которые формиру­ют значения временного ряда, могут быть долговременными, сезонными, цикли­ческими и случайными. Долговременные факторы формируют общую тенденцию в изменении анализируемого признака х(t). Как правило, эта тенденция описыва­ется с помощью некоторой функции , которая называется функцией тренда. Сезонные факторы формируют периодически повторяющиеся в определен­ное время года колебания анализируемого признака. Результат действия сезон­ных факторов выражается какой-либо периодической функцией . Циклические признаки формируют изменения анализируемого признака х(t), обусловленные действием долговременных экономических, демографиче­ских, природных и др. циклов, что отражается функцией . Случайные признаки обуславливают стохастическую природу анализируе­мого признака х(t). Результат воздействия случайных факторов учитывается с помощью случайной остаточной составляющей . Случайные факторы в фор­мировании значения анализируемого признака х(t) присутствуют всегда, осталь­ные факторы могут отсутствовать. Тогда члены временного ряда можно пред­ставить в виде разложения: (8.1) где = 1, если параметр принимает значения, соответствующие эффекту действия долговременных, сезонных и циклических факторов; = 0, если параметр принимает значения, соответствующие эффекту отсутствия воздействия долговременных, сезонных и циклических факторов. Разработку модели, адекватно отражающей поведение случайных остатков анализируемого временного ряда , проводят в рамках некоторого класса стационарных временных рядов. Свойства строго стационарного временного ря­да не зависят от начала отсчета времени. Поэтому среднее значение: М x (t) = a = const; (8.2) дисперсия: Dx(t) = М (x(t) - a)2 = = const (8.3) 8.2. Характеристики временных рядов Временные ряды позволяют проводить анализ скорости и интенсивности развития исследуемого явления или объекта. С этой целью используются сле­дующие показатели: абсолютный прирост, темп роста и прироста, абсолютное значение одного процента прироста. При этом сравниваемый уровень называют отчетным, а уровень, с которым проводят сравнение, - базисным. Показатели динамики с постоянной базой характеризуют окончательный результат всех из­менений в уровнях ряда от периода базисного уровня до данного периода. Пока­затели динамики с переменной базой (цепные показатели) характеризуют интен­сивность изменения уровня от периода к периоду в пределах изучаемого проме­жутка времени. Абсолютный базисный прирост - разность между двумя статистическими показателями ряда динамики: (8.4) где - уровень статистического показателя сравниваемого периода; - уровень статистического показателя базисного периода. При сравнении с переменной базой абсолютный прирост (цепной прирост) определяется следующим образом: (8.5) где - уровень статистического показателя предшествующего периода. Коэффициент роста - отношение статистического показателя сравниваемо­го периода либо со статистическим показателем базисного периода: (8.6) либо с показателем предшествующего периода: (8.7) Темпы роста - коэффициенты роста, выраженные в процентах и характери­зующие скорость изменения величины статистического показателя за единицу времени: Тр = k 100 % (8.8) Темпы прироста - показатель, содержащий информацию о том, на сколько процентов уровень данного периода отличается от базисного: (8.9) При анализе относительных показателей динамики (темпов роста и темпов прироста) необходимо рассматривать их в совокупности с абсолютными показа­телями (величиной статистического показателя и абсолютными приростами). Чтобы правильно оценить значение полученного темпа прироста, его рассматри­вают в сопоставлении с показателем абсолютного прироста, для этого используя показатель абсолютного значения одного процента прироста: (8.10) Коэффициенты опережения - показатели, представляющие собой отноше­ния темпов роста или темпов прироста за одинаковые отрезки времени по двум динамическим рядам: или , (8.11) где верхние индексы / и // соответственно относятся к первому и второму дина­мическому ряду. Таким образом, коэффициенты опережения используются при сопоставле­нии динамики развития двух явлений или объектов исследования. С помощью этих коэффициентов могут сравниваться ряды одинакового содержания, но от­носящиеся к разным предприятиям, территориям, или ряды разного содержания, характеризующие один и тот же объект исследования. Для обобщающей характеристики динамического ряда используются раз­личные средние показатели: средние значения ряда и средние показатели изме­нения значений ряда. 8.3. Нестационарные временные ряды. Модель Бокса-Дженкинса Как правило, временные ряды , построенные в процессе исследования реальных процессов в экономике, финансах, торговле и маркетинге, являются нестационарными. Нестационарность этих рядов проявляется в присутствии долговременных факторов, формирующих общую тенденцию ряда, которая учи­тывается с помощью функции тренда f(t). Такой ряд называется нестационар­ный однородный временной ряд. Для описания таких рядов была предложена модель Бокса-Дженкинса. Сущность модели заключается в том, что анализируе­мый временной ряд включает составляющую f(t), имеющую вид алгебраическо­го полинома степени k-1, где параметром является время t и при этом коэффици­енты этого полинома могут иметь случайную природу. Пример решения задачи к разделу IV На основе ежемесячных данных о числе браков (тыс.) в регионе за послед­ние три года была построена аддитивная модель временного ряда. Скорректиро­ванные значения сезонной компоненты за соответствующие месяцы имеют сле­дующий вид (табл. 2.4.1): Уравнение тренда выглядит следующим образом: При расчете параметров тренда использовались фактические моменты вре­мени (t = 1...36). Требуется: 1. Определить значение сезонной компоненты за декабрь. 2. На основе построенной модели дать прогноз общего числа браков, кото­рые будут заключены в течение первого квартала следующего года. Решение: 1. Сумма значений сезонной компоненты внутри одного цикла должна быть равна нулю (в соответствии с методикой построения аддитивной модели временно­го ряда). Следовательно, значение сезонной компоненты за декабрь составит: = 0-(-1+2-0,5+0,3-2-1,1+3+1+2,5+1-3) = - 2,2. 2. Прогнозное значение временного ряда Ft в аддитивной модели есть сумма трендового значения и соответствующего значения сезонной компоненты St. Число браков, которые будут заключены в первом квартале следующего года, есть сумма числа браков, заключенных в январе F37 , в феврале F38 и марте F39. Для расчета трендовых значений воспользуемся уравнением тренда, задан­ным в начале: Т37 = 2,5 + 0,03 x 37 = 3,61; Т38 = 2,5 + 0,03 x 38 = 3,64; Т39 = 2,5 + 0,03 x 39 = 3,67. Соответствующие значения сезонных компонент составят: S1 = - 1 - январь; S2= 2 - февраль; S3 = - 0,5 - март. Таким образом, F37= Т37 +S1= 3,61 - 1 = 2,61; F38 =Т38+ S2 = 3,64 + 2 = 5,64; F39 =Т39 +S3 = 3,67 - 0,5 = 3,17. Количество браков, которые будут заключены в первом квартале следую­щего года, таково: 2,61 + 5,64 + 3,17 = 11,42 тыс., или 11420. Вопросы для самопроверки 1. В чем суть временного ряда? 2. В чем различие между прогнозированием и предсказанием? 3. Перечислите основные показатели временных рядов. Задачи для самостоятельной работы №1. Имеются следующие данные о величине дохода на одного члена семьи и расхода на товар А. 1. Определить ежегодные абсолютные приросты доходов и расходов и сде­лать выводы о тенденции развития каждого ряда. 2. Перечислить основные пути устранения тенденции для построения моде­ли спроса на товар А в зависимости от дохода. 3. Построить линейную модель спроса, используя первые разности уровней исходных динамических рядов. 4. Пояснить экономический смысл коэффициента регрессии. 5. Построить линейную модель спроса на товар А, включив в нее фактор времени. Интерпретировать полученные параметры. №2. Имеются данные об урожайности зерновых в хозяйствах области: Требуется: 1. Обосновать выбор типа уравнения тренда. 2. Рассчитать параметры уравнения тренда. 3. Дать прогноз урожайности на следующий год. №3. Имеются данные об эффективности ценных бумаг Y(t): Требуется: 1. Проверить наличие тренда для Y(t). 2. Построить линейную модель кривой роста. 3. Оценить качество построенной модели. №4. Пусть имеется следующий временной ряд: Известно также, что = 150 , = 8100 , = 7350. Требуется: 1. Определить коэффициент автокорреляции уровней этого ряда первого порядка. 2. Установить, включает ли исследуемый временной ряд тенденцию. РАЗДЕЛ У. СИСТЕМЫ РЕГРЕССИОННЫХ УРАВНЕНИЙ Тема 9. Системы одновременных уравнений При использовании отдельных уравнений для экономических расчетов час­то предполагается, что аргументы можно изменять независимо друг от друга. Однако в экономике практически неправдоподобно, что изменение одних пере­менных может происходить при неизменности других. Следовательно, отдельно взятое уравнение множественной регрессии не может характеризовать истинное влияние отдельных признаков на изменение результирующей переменной. По­этому при моделировании достаточно сложных экономических объектов иссле­дуемую модель описывают системой уравнений. Различают следующие типы уравнений: • система независимых уравнений - когда каждая зависимая переменная , i = 1, 2, ... , п рассматривается как функция одного и того же набора факторов , j = 1, 2,... т: Каждое уравнение системы может рассматриваться самостоятельно. Для на­хождения его параметров используют метод наименьших квадратов; • система рекурсивных уравнений - когда зависимая переменная у одного уравнения выступает в виде фактора х в другом уравнении: Здесь каждое уравнение системы также может рассматриваться самосто­ятельно и для нахождения его параметров также используют метод наименьших квадратов; • система одновременных (совместных) уравнений - когда одни и те же за­висимые переменные в одних уравнениях входят в левую часть, а в других - в правую: Система совместных, одновременных, уравнений определяет структурную форму модели. В зависимости от содержательной стороны модели в ней выде­ляют эндогенные и экзогенные переменные. Эндогенные переменные - это зависимые переменные, число которых равно числу уравнений модели. Экзогенные переменные - это предопределенные переменные, влияющие на эндогенные переменные, но не зависящие от них. Предопределенные переменные - экзогенные и лаговые эндогенные пере­менные. Коэффициенты bi, a при переменных y, x называют структурными коэф­фициентами модели. Предполагается, что в каждом уравнении экзогенные переменные, стоящие в левых частях уравнений, некоррелированы с ошибкой. Эндогенные переменные, стоящие в правых частях уравнений, как правило, имеют ненулевую корреляцию с ошибкой в соответствующем уравнении. Если использовать метод наименьших квадратов для оценивания парамет­ров уравнения, входящего в систему одновременных уравнений, то полученные оценки наверняка окажутся смещенными и несостоятельными, а статистические тесты - некорректными. Причиной может быть смещение, порождаемое систе­мой одновременных уравнений. Простейшая структурная форма модели имеет вид: (9.1) где у - эндогенные переменные; х - экзогенные переменные. Классификация переменных на эндогенные и экзогенные зависит от теоре­тической концепции принятой модели. Экономические переменные могут вы­ступать в одних моделях как эндогенные переменные, а в других - как экзоген­ные. Внеэкономические переменные (например, климатические условия) входят в систему как экзогенные переменные. В качестве экзогенных переменных могут рассматриваться значения эндогенных переменных за предшествующий период времени (лаговые переменные). Так, потребление текущего года (у) может за­висеть не только от ряда экономических факторов, но и от уровня потребления в предыдущем году (у). Структурная форма модели позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной переменной. Целесообразно в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регулирования. Меняя их и управляя ими, можно заранее иметь целевые значения эндогенных переменных. Структурная форма модели в правой части содержит при эндогенных и эк­зогенных переменных коэффициенты bi и а- (bi - коэффициент при эндогенной переменной, а- - коэффициент при экзогенной переменной), которые называют­ся структурными коэффициентами модели. Все переменные в модели выражены в отклонениях от среднего уровня, т.е. под х подразумевается (x - ) а под у - соответственно (y - ). Поэтому свободный член в каждом уравнении системы отсутствует. Использование МНК для оценивания структурных коэффициентов модели дает, как принято считать в теории, смещенные и несостоятельные оценки. По­этому обычно для определения структурных коэффициентов структурная форма модели преобразуется в приведенную форму модели. Приведенная форма модели представляет собой систему линейных функций эндогенных переменных от экзогенных: (9.2) По своему виду приведенная форма модели ничем не отличается от систе­мы независимых уравнений, параметры которой оцениваются традиционным МНК. Применяя МНК, можно оценить , а затем оценить значения эндогенных переменных через экзогенные. Коэффициенты приведенной формы модели представляют собой нелиней­ные функции коэффициентов структурной формы модели. Рассмотрим это по­ложение на примере простейшей структурной модели, выразив коэффициенты приведенной формы модели () через коэффициенты структурной модели (b и a) Для упрощения в модель не введены случайные переменные. Для структурной модели вида: приведенная форма такова: в ней y2 из первого уравнения структурной модели можно выразить сле­дующим образом: Тогда система одновременных уравнений будет выглядеть как: Отсюда имеем: Таким образом, мы представили первое уравнение структурной формы мо­дели в виде уравнения приведенной формы модели: (9.3) Из уравнения следует, что коэффициенты приведенной формы модели пред­ставляют собой нелинейные соотношения коэффициентов структурной формы модели, т.е. и Аналогично можно показать, что коэффициенты приведенной формы моде­ли второго уравнения системы (21 и 22) также нелинейно связаны с коэффици­ентами структурной модели. Для этого выразим переменную y из второго структурного уравнения модели: Отсюда получаем: что соответствует уравнению приведенной формы: и Эконометрические модели обычно включают в систему не только уравнения, отражающие взаимосвязи между отдельными переменными, но и выражения тен­денции развития явления, а также разного рода тождества. Так, в 1947 г., исследуя линейную зависимость потребления (с) от дохода (у), Т. Хавельмо предложил одновременно учитывать тождество дохода. В этом случае модель имеет вид: (9.4) где х - инвестиции в основной капитал и в запасы экспорта и импорта; а и b - параметры линейной зависимости с от у. Их оценки должны учитывать тождество дохода в отличие от параметров обычной линейной регрессии. В этой модели две эндогенные переменные (с и у) одна экзогенная пере­менная (х). Система приведенных уравнений такова: (9.5) 9.1. Идентифицируемость уравнений При исследовании эконометрической модели нас в конечном счете интере­сует, прежде всего, поведение эндогенных переменных Yt. Из приведенной фор­мы модели видно, что эндогенные переменные Yt являются по своей природе случайными величинами, поведение которых определяется внутренней структу­рой модели, а именно коэффициентами при переменных и природой случайных остатков. Возникает вопрос: а возможно ли, следуя «в обратном направлении», восстановить структурную форму по приведенной. Именно этот вопрос и отра­жает сущность проблемы идентифицируемости эконометрической модели. Ответ на этот вопрос в общем случае, очевидно, отрицательный: без допол­нительных ограничений на внутреннюю структуру модели (т.е. без соблюдения некоторых условий идентифицируемости) такое восстановление невозможно. В эконометрической теории приняты следующие определения. Уравнение структурной формы эконометрической модели называется точ­но идентифицируемым, если все участвующие в нем неизвестные коэффициен­ты однозначно восстанавливаются по коэффициентам приведенной формы без каких-либо ограничений на значения последних. Эконометрическая модель называется точно идентифицируемой, если все уравнения ее структурной формы являются точно идентифицируемыми. Уравнение структурной формы эконометрической модели называется сверхидентифицируемым, если все участвующие в нем неизвестные коэффици­енты восстанавливаются по коэффициентам приведенной формы, причем неко­торые из его коэффициентов могут принимать одновременно несколько число­вых значений, соответствующих одной и той же приведенной форме. Уравнение структурной формы эконометрической модели называется не- идентифицируемым, если хотя бы один из участвующих в нем неизвестных ко­эффициентов не может быть восстановлен по коэффициентам приведенной формы. Эконометрическая модель называется неидентифицируемой, если хотя бы одно из уравнений ее структурной формы является неидентифицируемым. Проблема идентифицируемости эконометрической модели важна для выбо­ра метода статистического оценивания параметров в моделях. Если обозначить число эндогенных переменных в определенном уравнении системы через Н, а число предопределенных переменных, которые содержатся в системе, но не входят в данное уравнение, - через D, то необходимое условие идентифицируемости модели может быть записано в виде следующего счетного правила: D + 1 = Н - уравнение идентифицируемо; D + 1 < Н - уравнение неидентифицируемо; D + I > Н - уравнение сверхидентифицируемо. Достаточное условие идентификации: определитель матрицы, составленной из коэффициентов при переменных, отсутствующих в исследуемом уравнении, не равен нулю, и ранг этой матрицы не менее числа эндогенных переменных без единицы. Для оценки параметров структурной модели система должна быть иденти­фицируема или сверхидентифицируема. Для решения идентифицируемого уравнения применяют косвенный метод наименьших квадратов, для решения сверхидентифицируемого - двухшаговый метод наименьших квадратов. Косвенный метод наименьших квадратов (КМНК) Косвенный метод наименьших квадратов состоит в следующем: 1. Структурная модель преобразовывается в приведенную форму модели. 2. Для каждого уравнения приведенной формы модели обычным методом наименьших квадратов оцениваются приведенные коэффициенты. 3. Путем алгебраических преобразований переходим от приведенной фор­мы к уравнениям структурной формы модели, получая тем самым численные оценки структурных параметров. Двухшаговый метод наименьших квадратов (ДМНК) Двухшаговый метод наименьших квадратов состоит в следующем: 1. Структурная модель преобразовывается в приведенную форму модели. 2. Для каждого уравнения приведенной формы модели обычным методом наименьших квадратов оцениваются приведенные коэффициенты. 3. Выявляют эндогенные переменные, находящиеся в правой части струк­турного уравнения, параметры которого определяют двухшаговым методом наи­меньших квадратов, и находят расчетные значения по соответствующим урав­нениям приведенной формы модели. 4. Обычным методом наименьших квадратов определяют параметры струк­турного уравнения, используя в качестве исходных данных фактические значе­ния предопределенных переменных и расчетные значения эндогенных перемен­ных, стоящих в правой части данного структурного уравнения. 9.2. Модель спроса и предложения При математическом моделировании экономических объектов часто возни­кает необходимость формирования таких систем уравнений, в которых одни и те же переменные могут одновременно являться и результирующими и объясняю­щими. В эти уравнения могут входить лаговые переменные, т.е. переменные, от­носящиеся к предыдущим моментам времени (t-1, t-2, ...). Такие системы урав­нений называют одновременными. Примером системы одновременных уравне­ний может быть модель спроса и предложения: (9.6) (9.7) (9.8) где - спрос на товары или услуги; - цена; - предложение; - ошибки модели.. Экономическая модель, сформированная в виде системы одновременных уравнений, может быть представлена в структурной или приведенной форме. В структурной форме уравнения имеют вид, отражающий непосредственные связи между переменными (система уравнений 9.6-9.8). Приведенная форма получается после решения системы относительно эндогенных (внутренних) переменных, то есть после выражения этих переменных через экзогенные переменные и параметры модели. Приведенная форма для модели спроса и предложения выражает зависи­мость эндогенных переменных (,,) от параметров модели (a, a, b, b); (9.9) (9.10) (9.11) где , , - преобразованные ошибки модели. Также в качестве примера системы одновременных уравнений рассмотрим систему линейных уравнений с результирующими и предопределенными пере­менными; (9.12) (9.13) (9.14) где - потребление; - инвестиции; - национальный доход; - подоходный налог; - норма процента как инструмент государственного регулирования; - государственные закупки товаров и услуг. В этой модели эндогенными являются переменные у , у , у , а предо­пределенными - X((), x(2), x(3), где у(- - национальный доход за предыдущий временной период. После несложных преобразований переходим к приведенной форме; Пример решения задачи к разделу V Имеются данные за 2004-2008 гг. (табл. 2.5.1). Требуется: Построить модель вида: рассчитав соответствующие структурные коэффициенты. Решение: Система одновременных уравнений с двумя эндогенными и двумя экзоген­ными переменными имеет вид: В каждом уравнении две эндогенные и одна отсутствующая экзогенная пе­ременная из имеющихся в системе. Каждое уравнение и система в целом иден­тифицированы. Для определения параметров такой системы применяется косвенный метод наименьших квадратов. С этой целью структурная форма модели преобразуется в приведенную форму: в которой коэффициенты при х определяются методом наименьших квад­ратов. Для нахождения значений , запишем систему нормальных уравнений: При ее решении предполагается, что х и у выражены через отклонения от средних уровней, т.е. матрица исходных данных такова (табл. 2.5.2)Применительно к ней необходимые суммы оказываются следующими: Система нормальных уравнений составит: Решая ее, получим: 11 = 0,00609; 12= - 0,26481. Итак, имеем у1 = 0,00609 х1 - 0,26481 х2. Аналогично строим систему нормальных уравнений для определения коэф­фициентов 21, 22 самостоятельно. у2 = 0,00029 х1 I 0,11207 х2. Приведенная форма модели имеет вид: Из приведенной формы модели определяем коэффициенты структурной модели: Итак, структурная форма модели имеет вид: Вопросы для самопроверки 1. Каковы основные причины использования систем одновременных урав­нений? 2. Почему обычный МНК практически не используется для оценки систем одновременных уравнений? 3. Объясните суть ДМНК. Задачи для самостоятельной работы №1. Оценить следующую структурную модель на идентификацию: Исходя из приведенной формы модели уравнений, найти структурные ко­эффициенты модели: №2. Ниже приводятся результаты расчета параметров некоторой экономет- рической модели. Структурная форма модели: Приведенная форма модели: 1. Какими методами получены параметры структурной и приведенной форм модели? Возможно ли применить косвенный МНК для расчета структурных параметров модели? 2. Восстановите пропущенные характеристики. №3. Строится модель вида: Определить структурные коэффициенты, учитывая, что А также №4. Имеется следующая гипотетическая структурная модель: Приведенная форма исходной модели имеет вид: 1. Проверить структурную форму модели на идентификацию. 2. Определить структурные коэффициенты модели. 3. КОНТРОЛЬ ЗНАНИЙ 3.1. Контрольные вопросы 1. Эконометрика: основные понятия и определения. 2. Этапы эконометрического моделирования, проблемы калибровки и специ­фикации модели. 3. Идентификация и верификация эконометрической модели. 4. Регрессионный анализ, результирующая переменная. 5. Функция регрессии, уравнения регрессионной связи. 6. Основные задачи прикладного регрессионного анализа. 7. Классическая линейная модель множественной регрессии. 8. Метод наименьших квадратов. 9. Метод максимального правдоподобия. 10. Статические свойства оценок параметров классической линейной модели множественной регрессии. 11. Оптимальность оценок методом наименьших квадратов. 12. Линейная модель регрессии с гетероскедастичными регрессионными остатками. 13. Обобщенный метод наименьших квадратов. 14. Сравнение оценок обобщенного метода наименьших квадратов и метода наи­меньших квадратов в моделях регрессии. 15. Основные характеристики модели регрессии с гетероскедастичными остатками. 16. Обобщенная линейная модель множественной регрессии с гетероскедастич- ными остатками. 17. Обобщенный метод наименьших квадратов. 18. Обобщенная линейная модель множественной регрессии с автокоррелиро­ванными остатками. 19. Виды нелинейных зависимостей, поддающихся линеаризации. Подбор ли­неаризующего преобразования. 20. Временной ряд. Основные задачи анализа временных рядов. 21. Точечный и интегральный прогноз на моделях линейной регрессии. 22. Основные характеристики стационарных временных рядов. Автокорреляци­онная функция. 23. Основные задачи анализа временных рядов. 24. Основные причины использования систем одновременных уравнений. 25. Суть временного ряда. 26. Различие между прогнозированием и предсказанием. 27. Суть МНК для построения множественного линейного уравнения регрессии. 28. Суть коэффициента детерминации R2. 29. Использование F-статистики в регрессионном анализе. 30. Автокорреляция остатков, ее виды. 31. Объясните явление мультиколлинеарности. Что такое совершенная мульти- коллинеарность? 32. Частная автокорреляционная функция. 33. Косвенный метод наименьших квадратов. 34. Двухшаговый метод наименьших квадратов оценивания структурных пара­метров отдельного уравнения. 35. Трехшаговый метод наименьших квадратов одновременной оценки всех па­раметров системы. 4. ГЛОССАРИЙ Автокорреляция - корреляция между наблюдаемыми показателями, упо­рядоченными во времени (временные ряды) или в пространстве (перекрестные данные). Временной ряд - совокупность значений какого-либо показателя за не­сколько последовательных моментов времени. Гетероскедастичность - непостоянство дисперсии отклонений. Гипотеза - предположительное утверждение. Гомоскедастичность - постоянство дисперсии отклонений. Дисперсия - математическое ожидание квадрата отклонения от математи­ческого ожидания. Доверительный интервал - интервал (Q1,Q2), внутри которого с наперед заданной вероятностью находится точное значение оцениваемого параметра Q. Корреляция - функциональная зависимость между объясняющими пере­менными и условным математическим ожиданием (средним значением) зависи­мой переменной, которая строится с целью предсказания (прогнозирования) это­го среднего значения при фиксированных значениях первых. Зависимость выра­жается соотношением М(У|х)=f(х). Коэффициент детерминации - суммарная мера общего качества уравне­ния регрессии (соответствие уравнения регрессии статистическим данным). Коэффициент корреляции - степень зависимости между переменными Х и Y. Коэффициент регрессии - оценки неизвестных параметров а0, а1 в уравне­нии регрессии. Лаг - сдвиг во времени, который позволяет установить наличие связи меж­ду показателями. Лаговая переменная - переменные, влияние которых характеризуется оп­ределенным запаздыванием. Математическое ожидание - сумма произведений возможных значений на соответствующие вероятности. Мультиколлинеарность - линейная зависимость двух или нескольких объ­ясняющих переменных. Несмещенная оценка - если при любом объеме выборки результат ее ос­реднения по всем возможным выборкам данного объема приводит к точному ис­тинному значению оцениваемого параметра. Предопределенные переменные - лаговые эндогенные переменные, зна­чения которых определены до рассмотрения соотношения. Или переменные, вы­ступающие в роли факторов-аргументов. Регрессия - статистическая зависимость между переменными. Система независимых уравнений - когда каждая зависимая переменная y рассматривается как функция одного и того же набора факторов x. Система одновременных уравнений - когда одни и те же зависимые пе­ременные в одних уравнениях входят в левую часть, а в других - в правую. Система рекурсивных уравнений - когда зависимая переменная y одного уравнения выступает в виде фактора x в другом уравнении. Состоятельная оценка если по мере роста числа наблюдений она стре­мится по вероятности к оцениваемому параметру. Среднее квадратическое отклонение - квадратный корень из дисперсии. Тренд - общее направление развития модели или основная тенденция ряда. Фиктивные переменные - переменные, которые количественным образом описывают качественный признак. Экзогенные переменные - внешние переменные по отношению к модели. Они определяются вне модели, поэтому считаются фиксированными. Влияют на эндогенные переменные, но не зависят от них. Эконометрика - самостоятельная научная дисциплина, объединяющая со­вокупность теоретических результатов, приемов, методов и моделей, предназна­ченных для того, чтобы на базе экономической теории, экономической стати­стики и математического аппарата придавать конкретное количественное выра­жение общим закономерностям, обусловленным экономической теорией. Эндогенные переменные - зависимые переменные, которые определяются внутри исследуемой модели, их число равно числу уравнений модели. Эффективная оценка - оценка, которая среди прочих оценок того же са­мого параметра обладает наименьшей мерой случайного разброса относительно оцениваемого параметра.
«Эконометрика как наука. Проблемы эконометрического моделирования» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

Тебе могут подойти лекции

Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot