Предмет и методы эконометрики

⌛ 2018 год
👀 655 просмотров
📌 599 загрузок
🏢️ Федеральное государственное бюджетное образовательное учреждение высшего образования «Керченский государственный морской технологический университет»

Выбери формат для чтения

Конспект лекции по дисциплине «Предмет и методы эконометрики», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Предмет и методы эконометрики», Word формат

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «КЕРЧЕНСКИЙ ГОСУДАРСТВЕННЫЙ МОРСКОЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ» Кафедра математики, физики и информатики Подольская О.Г. ЭКОНОМЕТРИКА Курс лекций для студентов направления подготовки – 38.03.01 «Экономика» очной и заочной форм обучения Керчь, 2018 г. 2 Оглавление Введение ........................................................................................................................................ 4 1 Предмет и методы эконометрики ........................................................................................ 6 1.1 Предмет и методы эконометрики ..................................................................................... 6 1.2 Эконометрическая модель ................................................................................................ 6 1.3 Этапы эконометрического исследования ........................................................................ 7 1.4 Характеристика взаимосвязей ......................................................................................... 8 1.5 Основные этапы построения эконометрической модели ............................................. 9 1.6 Оценка параметров моделей ........................................................................................... 12 1.7 Метод наименьших квадратов ........................................................................................ 13 1.8 Свойства коэффициентов регрессии .............................................................................. 17 1.9 Дисперсионный анализ эконометрической модели ..................................................... 19 1.10 Статистические критерии и гипотезы .......................................................................... 21 2. Модель простой регрессии .................................................................................................... 24 2.1 Проблема оценивания линейной связи экономических переменных .......................... 24 2.2 Парная линейная регрессия ............................................................................................. 26 2.3 Прогнозирование с помощью модели простой регрессии ............................................ 28 2.4 Гетероскедастичность ...................................................................................................... 30 2.5 Автокорреляция ошибок .................................................................................................. 33 2.6 Пример моделирования .................................................................................................... 34 3 Модель множественной регрессии ........................................................................................ 39 3.1 Использование многофакторного анализа ..................................................................... 39 3.2 Построение многофакторной модели ............................................................................. 41 3.3 Мультиколинеарность ...................................................................................................... 43 3.4 Уточнение и анализ модели ............................................................................................. 46 3.5 Пример построения модели ............................................................................................. 48 4 Модель нелинейной регрессии ............................................................................................... 55 4.1 Сущность нелинейной регрессии .................................................................................... 55 4.2 Функции, нелинейные по оцениваемым параметрам .................................................... 57 4.3 Коэффициент эластичности ............................................................................................. 59 4.4 Соответствие линейной модели ...................................................................................... 61 4.5 Примеры моделирования ................................................................................................. 64 5 Производственная функция .................................................................................................... 71 5.1 Производственная функция Кобба-Дугласа................................................................... 71 5.2 Использование производственных функций в экономическом анализе ..................... 73 5.3 Производственная функция CES ..................................................................................... 75 5.4 Пример построения производственной функции .......................................................... 78 Список литературы ..................................................................................................................... 81 Приложение 1. Таблица F-распределения (=0,05) ................................................................ 82 Приложение 2. Таблица t-распределения ................................................................................. 83 Приложение 3. DW-статистика Дарбина-Уотсона ................................................................. 84 3 Введение Развитие экономики, усложнение экономических процессов и повышение требований к принимаемым управленческим решениям в области макро и микроэкономики потребовало более тщательного и объективного анализа реально протекающих процессов на основе привлечения современных математических и статистических методов. С другой стороны, проблема нарушения предпосылок классических статистических методов при решении реальных экономических задач привели к необходимости развития и совершенствования классических методов математической статистики и уточнения постановок соответствующих задач. В результате этих процессов осуществилось выделение и формирование новой отрасли знания под названием Эконометрика, связанной с разработкой и применением методов количественной оценки экономических явлений и процессов и их взаимосвязей. Основным методом исследования в эконометрике является экономикоматематическое моделирование. Правильно построенная модель должна давать ответ на вопрос о количественной оценке величины изменения изучаемого явления или процесса в зависимости от изменений внешней среды. Например, как скажется увеличение или уменьшение уровня инвестиций на совокупном валовом продукте, какие дополнительные ресурсы понадобятся для запланированного увеличения выпуска продукции и т. п. Практическая значимость эконометрики определяется тем, что применение ее методов позволяет выявить реально существующие связи между явлениями, дать обоснованный прогноз развития явления в заданных условиях, проверить и численно оценить экономические последствия принимаемых управленческих решений. Построение эконометрических моделей приходится осуществлять в условиях, когда нарушаются предпосылки классических статистических методов, и учитывать наличие таких явлений, как: – мультиколлинеарность объясняющих переменных; – закрытость механизма связи между переменными в изолированной регрессии; – эффект гетероскедастичности, т. е. отсутствия нормального распределения остатков для регрессионной функции; – автокорреляция остатков; – ложная корреляция. Разработка методов, преодолевающих эти трудности, составляет теоретическую основу эконометрики. Эконометрика – наука, изучающая количественные и качественные экономические взаимосвязи с помощью математических и статистических методов и моделей. Сам термин «эконометрика» был введен в 1926 году норвежским ученым Р. Фришем и в дословном переводе означает 4 «экономические измерения». Наряду с таким широким пониманием эконометрики, порождаемым переводом самого термина, встречается и весьма узкая трактовка эконометрики как набора математико-статистических методов, используемых в математических приложениях к экономике. Наряду с логически правильным формальным применением имеющегося математического и статистического инструментария важными составляющими успеха эконометрического исследования являются экономически адекватная постановка задачи и последующая экономическая интерпретация полученных результатов. Основная задача эконометрики – наполнить эмпирическим содержанием априорные экономические рассуждения. Эконометрика способна придавать количественные выражения качественным зависимостям. В то время как математическая экономика выражает экономические законы в виде математических соотношений, – эконометрика осуществляет опытную проверку этих законов. Эконометрия – это наука, которая исследует количественные закономерности и взаимосвязи экономических объектов и процессов. Ее основой выступают статистические методы анализа, ведущее место среди которых занимает корреляционно-регрессионный анализ. Создавая эконометрическую модель, экономист преследует две цели: математически обосновать априорные выводы и дать достоверный прогноз рассматриваемых показателей. В данном курсе лекций используются электронные таблицы Excelс использованием встроенных инструментов расчета и анализа. В расчетах задействованы основные модули надстройки «Пакет анализа». Все вышеперечисленное позволяет наглядно и кратко подтвердить теоретические выводы и положения, излагаемые в курсе лекций. Огромный толчок развитию эконометрических методов и их широкому внедрению в практику дало развитие средств вычислительной техники и особенно появление персональных и портативных компьютеров. Разработка программных пакетов, реализующих методы построения и исследования эконометрических моделей привело к тому, что выполнение эконометрических процедур становится доступным самому широкому кругу аналитиков, экономистов и менеджеров. В настоящее время основные усилия прикладного исследователя сводятся к подготовке качественных исходных данных, к правильной постановке проблемы и экономически обоснованной интерпретации результатов исследования. Вместе с тем, от исследователя требуется четкое понимание областей применимости используемых методов и сложности и неочевидности процесса перенесения полученных теоретических результатов на реальную действительность. 5 1 Предмет и методы эконометрики 1.1 Предмет и методы эконометрики Эконометрика как наука возникла в первой половине 20-го века в результате активного использования для решения задач экономической теории математических и статистических методов. Термин эконометрика введен в научную литературу в 1930 году норвежским статистиком Рагнаром Фришем. Он первым определил эконометрику, как научную дисциплину, базирующуюся на синтезе экономической теории, статистики и математики. В дословном переводе слово эконометрика означает «экономические измерения». Это очень широкое толкование данного понятия. Как правило, термин эконометрика применяется в более узком смысле. В Большой Советской Энциклопедии дается определение эконометрики, как раздела науки, изучающей конкретные количественные и качественные взаимосвязи экономических объектов и процессов с помощью математических и статистических методов и моделей. Можно сказать, что главной задачей эконометрики является количественная оценка имеющихся взаимосвязей между экономическими явлениями и процессами. Экономические явления взаимосвязаны и взаимообусловлены. Следствием этого является то, что значения соответствующих экономических показателей изменяются во времени с учетом этих взаимосвязей. Так, например, известно, что совокупный спрос зависит от уровня цен, потребление – от располагаемого дохода, инвестиции – от процентной ставки и так далее. Перед исследователем стоит задача выявления таких связей, количественная их оценка и изучение возможности использования выявленных связей в экономическом анализе и прогнозировании. Эконометрика занимается разработкой соответствующего инструментария и его применением для решения конкретных практических экономических задач. 1.2 Эконометрическая модель В основе любого эконометрического исследования лежит построение эконометрической модели, адекватной изучаемым реальным экономическим явлениям и процессам. Процесс построения эконометрических моделей начинается с качественного исследования проблемы методами экономической теории, формулируются цели исследования, выделяются факторы, влияющие на изучаемый показатель, и формулируются предположения о характере предполагаемой зависимости. На этой основе изучаемые зависимости выражаются в виде математических формул и соотношений. Следует отметить, что ввиду невозможности одновременно учесть большое количество факторов, влияющих на изучаемый показатель, предполагаемые зависимости между переменными будут выполняться не 6 точно, а с определенной погрешностью. Кроме того, экономическим явлениям присуща внутренняя неопределенность, связанная с целенаправленной деятельностью субъектов экономики. Вышесказанное обуславливает применение статистических методов, с помощью которых осуществляется отбор значимых факторов, определяется наличие и степень тесноты связи между изучаемыми показателями, дается количественная оценка параметров предполагаемых зависимостей и исследуется степень их соответствия реальной действительности. Основным инструментом математической статистики, используемым для построения эконометрических моделей, являются методы корреляционного и регрессионного анализа. Корреляционный анализ ставит своей целью проверку наличия и значимости линейной зависимости между переменными без разделения переменных на зависимые и объясняющие. Ответ на эти вопросы дается с помощью вычисления коэффициентов корреляции. Регрессионный анализ направлен на выражение изучаемой зависимости в виде аналитической формулы с предварительным выделением зависимых и объясняющих переменных. Результатом проведения регрессионного анализа является построение уравнения регрессии. После построения уравнения регрессии осуществляется проверка его статистического качества, включающая: – проверку статистической значимости коэффициентов уравнения регрессии; – проверку общего качества уравнения регрессии; – проверку наличия свойств данных, предполагавшихся при оценивании уравнения регрессии. 1.3 Этапы эконометрического исследования Рассматривая эконометрическое исследование в целом, в нем можно выделить следующие этапы: 1. Постановка проблемы, т. е. определение цели и задач исследования, выделение зависимых  yi  и независимых  x k  экономических переменных на основе качественного анализа изучаемых взаимосвязей методами экономической теории. 2. Сбор необходимых исходных данных. 3. Построение эконометрической модели и оценка ее адекватности и степени соответствия исходным данным. 4. Использование модели для целей анализа и прогнозирования параметров исследуемого явления. 5. Качественная и количественная интерпретация полученных на основе модели результатов. 6. Практическое использование результатов. В процессе экономической интерпретации результатов необходимо ответить на следующие вопросы: – являются ли статистически значимыми объясняющие факторы, важные с теоретической точки зрения? 7 – соответствуют ли оценки параметров модели качественным представлениям? Примером эконометрической модели может служить аналитическое выражение взаимосвязи показателей инфляции и безработицы, записанное с учетом инфляционных ожиданий [6]:    e   u  u *  , где π – фактический и πе – ожидаемый темпы инфляции (в процентах), u – фактический и u* – естественный уровни безработицы (в процентах), β – постоянный параметр. При проведении исследования определяется, какая из этих зависимостей лучше соответствует реальной взаимосвязи между уровнями инфляции и безработицы, а также оценивается значение величины естественного уровня безработицы. 1.4 Характеристика взаимосвязей Основная задача эконометрики заключается в исследовании и количественной оценке объективно существующих взаимосвязей и зависимостей между экономическими явлениями. Наибольший интерес для исследователя представляют причинно-следственные отношения между явлениями, что позволяет выявлять факторы, оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинноследственное отношение – это такая связь между явлениями, при которой изменение одного из них, называемого причиной, ведет к изменению другого, называемого следствием. Следовательно, причина всегда предшествует следствию. Причинно-следственные связи в социальноэкономических явлениях обладают следующими особенностями. Во-первых, причина Х и следствие Y взаимодействуют не непосредственно, а через промежуточные факторы, которые, как правило, при анализе опускаются. Во-вторых, социально-экономические явления развиваются и формируются в результате одновременного воздействия большого числа факторов. Поэтому одной из главных проблем при изучении этих явлений становится задача выявления главных, существенных причин и абстрагирование от второстепенных. Признаки по их роли в изучаемой взаимосвязи делятся на два класса: факторные и результативные. Факторными признаками (факторами) называются признаки, обусловливающие изменения других, связанных с ними признаков. Факторные признаки называются также независимыми, объясняющими или входными переменными. Результативными называются признаки, изменяющиеся под действием факторных признаков. Результативные признаки называются также зависимыми, объясняемыми или выходными переменными. По направлению изменения связи подразделяются на прямые (когда изменение результативного и факторного признаков происходит в одном 8 направлении) и обратные (когда изменение результативного и факторного признаков происходит в противоположных направлениях). По характеру проявления различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Такие связи изучаются в основном в естественных науках. В эконометрике в основном изучаются причинные зависимости, которые проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений. То есть одним и тем же значениям факторных признаков, как правило, соответствуют различные значения результативного признака. Но, тем не менее, рассматривая всю совокупность наблюдений можно отметить наличие определенной зависимости между значениями признаков. Такие причинные зависимости называются стохастическими. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков. По аналитическому выражению выделяют связи линейные и нелинейные. Линейной называется связь, в которой изменение результативного признака прямо пропорционально изменению факторных признаков. В противном случае связь называется нелинейной. Аналитически линейная стохастистическая связь между явлениями может быть представлена уравнением прямой линии на плоскости, либо уравнением гиперплоскости в n-мерном пространстве (при наличии n факторных переменных 1.5 Основные этапы построения эконометрической модели Построение эконометрической модели является основой эконометрического исследования. Оно основывается на предположении о реально существующей зависимости между признаками. От того, насколько хорошо полученная модель описывает изучаемые закономерности между экономическими процессами, зависит степень достоверности результатов анализа и их применимости. Построение эконометрической модели начинается со спецификации модели, заключающейся в получении ответа на два вопроса: 1) какие экономические показатели (признаки) должны быть включены в модель; 2) какой вид имеет аналитическая зависимость между отобранными признаками. В обобщенной форме эконометрическая модель, описывающая взаимосвязи между явлениями или закономерности их развития, представляется с помощью соотношения: y = f(α, x) + ε, (1.1) 9 где f(α, x) – функционал, выражающий вид и структуру взаимосвязей. Здесь величина y выражает уровень исследуемого явления и называется зависимой (объясняемой) переменной или результативным признаком; величина x = (x1, x2,…, x n) представляет собой вектор значений независимых (объясняющих) переменных xi или факторных признаков (факторов); через α = (α0, α1, α2,…, αn) обозначен вектор некоторых произвольных констант, называемых параметрами модели; ε – ошибка модели. Ошибка модели ε характеризует отличие наблюдаемого (реализованного) значения переменной у от вычисленных согласно соотношения (1.3) в конкретных условиях (при конкретных значениях переменных факторов xi) и рассматривается как случайная величина. Зависимую переменную у часто называют эндогенной (внутренней) переменной модели, отражая тот факт, что значения зависимой переменной у определяются только значениями независимых переменных xi. Независимые переменные (факторы) x1, x2,…, xn называют экзогенными (внешними) переменными. Термин «внешний» говорит о том, что значения переменных xi определяются вне рассматриваемой модели, для которой они являются заданными. В эконометрике переменная у согласно (1.1) всегда рассматривается как случайная величина. Различают уравнения (модели) парной и множественной регрессии. В случае линейной модели: уравнение парной регрессии имеет вид: Y  a0  a1  X , (1.2) а уравнение множественной регрессии: Y  a 0  a1  X 1  a2  X 2...  am  X m . (1.3) В общем случае процедуру построения эконометрической модели можно представить в виде следующих этапов: 1. Спецификация модели, т. е. выбор класса моделей, наиболее подходящих для описания изучаемых явлений и процессов. Этот этап предполагает решение двух задач: а) отбор существенных факторов для их последующего включения в модель; б) выбор типа модели, т. е. выбор вида аналитической зависимости, связывающей включенные в модель переменные. 2. Оценка параметров модели, т. е. получение численных значений констант модели. При этом используется предварительно полученный массив исходных данных. 3. Проверка качества построенной модели и обоснование возможности ее дальнейшего использования. Наиболее сложным и трудоемким в эконометрическом исследовании является этап оценки параметров модели, где применяются методы теории вероятностей и математической статистики. 10 Укажем основные требования, предъявляемые к включаемым в эконометрическую модель факторам:  каждый из факторов должен быть обоснован теоретически; в перечень целесообразно включать только важнейшие факторы, оказывающие существенное воздействие на изучаемые показатели. При этом рекомендуется, чтобы количество включаемых в модель факторов не превышало одной трети от числа наблюдений в выборке (длины временного ряда);  факторы не должны быть линейно зависимы, поскольку эта зависимость означает, что они характеризуют аналогичные свойства изучаемого явления. Включение в модель линейно взаимозависимых факторов приводит к возникновению явления мультиколлинеарности, которое отрицательно сказывается на качестве модели.  влияющие на экономический процесс факторы могут быть количественные и качественные; в модель рекомендуется включать только такие факторы, которые могут быть численно измерены;  одну модель нельзя включать совокупный фактор и образующие его частные факторы. Одновременное включение таких факторов приводит к неоправданно увеличенному их влиянию на зависимый показатель, к искажению реальной действительности. При определении «оптимального» набора факторов могут использоваться два метода:  метод включения;  метод исключения. Согласно методу включения, сначала строится уравнение регрессии с одним наиболее влияющим фактором. Затем в него последовательно вводятся следующие факторы и определяется пара наиболее влияющих факторов. На следующем к первым двум добавляется еще по одному фактору и определяется наилучшая тройка факторов и т. д. На каждом шаге строится модель регрессии и проверяется значимость факторов. В модель включают только значимые факторы. Для проверки значимости фактора могут использоваться либо критерий Стьюдента, либо частный критерий Фишера. Процесс заканчивается, когда не остается факторов, которые следует включить в модель. Согласно методу исключения сначала строится уравнение регрессии с полным набором факторов, из числа которых затем последовательно исключаются незначимые (наименее значимые) факторы. На каждом шаге исключается только один фактор, так как после исключения какого-либо фактора другой фактор, бывший до этого незначимым, может стать значимым. Процесс заканчивается, когда не остается факторов, которые следует исключить из модели. Методы включения и исключения не гарантируют определение оптимального набора факторов, но в большинстве случаев дают результаты либо оптимальные, либо близкие к ним. 11 Не рекомендуется включать в модель очень большое число факторов, так как это может затруднить выявление качественных закономерностей и возрастает опасность включения в модель несущественных случайных факторов. Кроме того, для получения достаточно надежных оценок параметров желательно, чтобы количество наблюдений превышало количество определяемых параметров не менее чем в 6-7 раз. 1.6 Оценка параметров моделей После отбора факторов и выбора вида аналитической зависимости осуществляется определение численных значений параметров αi модели (1.1). Данная процедура носит название оценка параметров модели. Следует сказать, что сами полученные численные значения параметров αi также называются оценка параметров. При оценке параметров модели в качестве исходных данных используется заранее подготовленный массив наблюдений {(y t , x1t, x 2t ,…, x nt ), t = 1, 2, …. n} . Так как исходные данные содержат проявления случайных величин, то и полученные оценки являются случайными величинами, зависящими от исходных данных и метода оценивания. Отсюда возникает задача отбора методов оценивания параметров, дающих оценки более высокого качества. Согласно теории статистического оценивания качество оценок определяется наличием у них таких свойств как несмещенность, состоятельность и эффективность. Оценка параметра называется несмещенной, если ее математическое ожидание равно оцениваемому параметру. Оценка параметра называется состоятельной, если она сходится по вероятности к оцениваемому параметру при возрастании количества наблюдений. Оценка параметра называется эффективной, если она имеет наименьшую дисперсию среди возможных несмещенных оценок параметра, вычисленных по выборкам одного и того же объема n. Наиболее часто для оценки параметров применяются методы максимального правдоподобия и метод наименьших параметров. При выполнении определенных условий (относительно погрешностей модели εt) оценки параметров, полученные с помощью этих методов, обладают свойствами несмещенности, состоятельности и эффективности. Поэтому после получения оценок параметров необходимо проверить выполнение упомянутых условий, чтобы убедиться в качестве полученных оценок. Если эти условия не выполняются, то следует скорректировать модель соответствующим образом. Причины нарушения условий, налагаемых на погрешности модели εt, могут быть следующими: – в модели не учтены существенные факторы; – неправильно выбран вид модели. 12 1.7 Метод наименьших квадратов В эконометрии метод наименьших квадратов (МНК) используется для вычисления параметров линейных регрессионных моделей вида (1.2) и (1.3). Регрессия в теории вероятностей и математической статистике – зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. В отличие от чисто функциональной зависимости у = f(х), когда каждому значению независимой переменной х соответствует одно определенное значение величины у, при регрессионной связи одному и тому же значению х могут соответствовать в зависимости от случая различные значения величины у. Если при значении х = хi наблюдается ni значений y1i , y 2i , ..., y n i  , то зависимость средних y , y , ..., yn i арифметических yi  1i 2 i от хi является регрессией. ni Изучение регрессии основано на том, что случайные величины Х и Y, имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х = х величина Y является случайной величиной с определѐнным (зависящим от значения х) условным распределением вероятностей. Регрессия величины Y по величине Х определяется условным математическим ожиданием Y, вычисленным при условии, что Х = х: M Y   f  x  . (1.5) Уравнение (1.5), в котором х играет роль «независимой» переменной, называется уравнением регрессии, а соответствующий график – линией регрессии величины Y по X. Иными словами, регрессия представляет собой осреднение величины Y при любом значении Х. Сущность метода наименьших квадратов как раз и заключается в осреднении величин. Когда искомая величина может быть измерена непосредственно, как, например, длина отрезка или угол, то, для увеличения точности, измерение производится много раз, и за окончательный результат берут арифметическое среднее из всех отдельных измерений. Это правило арифметической середины основывается на соображениях теории вероятностей; легко показать, что сумма квадратов отклонений отдельных измерений от арифметической середины будет меньше, чем сумма квадратов отклонений отдельных измерений от какой бы то ни было другой величины. Само правило арифметической середины представляет, следовательно, простейший случай метода наименьших квадратов. В более сложных случаях требуется осреднение относительно одной или нескольких независимых переменных. Например, уравнение парной регрессии имеет вид: (1.6) Y  a  X  b, 13 где: Х и Y – экономические показатели (переменные), которые заданы статистическими рядами, a, b – параметры регрессии, которые необходимо определить. Допустим, что мы располагаем четырьмя наблюдениями за Х и Y, которые представлены на рисунке 1.1. Необходимо определить значения а и b в уравнении (1.6). В качестве грубой аппроксимации можно сделать это, расположив четыре точки Рi на плоскости Х0Y и построив прямую («на глаз»), в наибольшей степени соответствующую этим точкам. Отрезок, отсекаемый прямой на оси Y представляет собой оценку1 b (Рисунок 1.1), а угловой коэффициент представляет собой оценку параметра а. Возникает вопрос: существует ли способ достаточно точной оценки а и b алгебраическим путем? Первым шагом является определение остатка для каждого наблюдения. За исключением случаев чистого совпадения, построенная нами линия регрессии не пройдет точно ни через одну точку наблюдения. Например, при Х = х1 (Рисунок 1.1) соответствующей ему точкой на линии регрессии будет R1 со значением Y, которое мы обозначим ŷ1 , вместо фактически наблюдаемого значения у1. Величина ŷ1 описывается как расчетное значение у, соответствующее х1. Разность между фактическим и расчетным значением  y1  ŷ1  , определяемая отрезком Р1R1, описывается как остаток в первом наблюдении. Обозначим его е1. Соответственно, для других наблюдений остатки будут обозначены как е2, е3 и е4. Очевидно, что нужно построить линию регрессии таким образом, чтобы эти остатки были минимальными. Один из способов решения поставленной проблемы лежит в минимизации остатков S. Для рисунка 1.1 верно такое соотношение: 4 S   ei . i 1 Величина S будет зависеть от выбора a и b, так как они определяют положение линии регрессии. Логично проводить линии регрессии таким образом, чтобы сумма 2 квадратов отклонений (ошибок) S   ei была минимальной. В этом состоит i критерий метода наименьших квадратов. Неизвестные параметры модели a и b определяются таким образом, чтобы минимизировать ∑ei2. 2  ei  min i 1 Каким способом не были бы определены параметры регрессии, они никогда не будут совпадать с истинным экономическим положением, это будут оценки (некоторые результаты массового эксперимента); можно только говорить об их эффективности и точности. 14 Y P4 Y=ax+b е4 P2 R3 е2 е3 R4 R1 е1 R2 P3 P1 X Рисунок 1.1 - Построенная линия регрессии, показывающая остатки  y  a  x i i  b   min 2 (1.7) i Определим параметры a и b, которые минимизируют выражение (1.7). Минимум функции достигается при условии, когда частные производные по неизвестным параметрам равны нулю.   2     ei    2    i i  yi  axi  b   0  b     e2  i     i   2  x y  ax  b  0  i  i i   a (1.8) Отсюда получаем систему линейных уравнений, реализующую МНК для парной регрессии b  n  a   xi   yi  i i  2 b   xi  a   xi   xi yi i i  i (1.9) Выражение (1.9) – это главная формула МНК для парной регрессии. n y x  y  x a   i2 i  i  i , b  y  a  x (1.10) n   x i   xi   xi где n – число статистических точек данных на корреляционном поле; – среднее значение переменной у; – среднее значение переменной х. Выражение (1.10) относительно параметра a можно переписать следующим образом: n   y i xi   y i   x i a , n   x 2 i   xi   xi 15    1 1   xi yi  x  y   xi  x yi  y cov  x, y  n i n i . a a  2 2 1 1 var x 2     xi  x   xi  x n i n i (1.11)   Так как ковариация Y на X – это мера зависимости двух случайных величин, которая в пересчете на вероятностное влияние представляет собой коэффициент корреляции: r  x, y   cov  x, y  , var  y   var  x  (1.12) то в результате преобразования можно прийти к соотношению между коэффициентом корреляции r(x,y) и углом наклона регрессионной прямой а: a r  x, y  , D  x (1.13) где D(x) – дисперсия значений фактора Х. В действительности, как уже было отмечено выше, МНК дает не истинное значение параметров регрессии, а всего лишь их оценку. С точки зрения математической статистики это следует понимать, как средние значения параметров. То есть параметры модели, являясь величиной вероятностной, могут «колебаться» в некоторых пределах, но это уже другой вопрос. Он касается эффективности параметров регрессии и связан с МНК косвенным образом. Перейдем к использованию МНК в многофакторных эконометрических моделях. Естественно, что принцип осреднения показателя Y остается без изменений. Изменилось лишь число факторов, которые присутствуют в модели. Соответственно будет модифицирован порядок расчета параметров. Возьмем за основу линейную двух факторную регрессионную модель вида: Y  a0  a1  X 1  a2  X 2 (1.14) Неизвестные параметры A  a0 , a1 , a2  определяются таким образом, чтобы минимизировать сумму квадратов ошибок (отклонений)  ei2 , то есть: e 2 i i    yi  a1 x1i  a2 x2i  a0   min. i 2 i (1.15) Система уравнений в частных производных будет иметь вид: a  n  a  x  a  x  y i i 1  1i 2  2i  0 i i  2 (1.16) a0   x1i  a1   x1i  a2   x1i x2i   x1i yi , i i i i  a0   x2i  a1   x1i x2i  a2   x22i   x2i yi  i i i i которую можно сокращенно записать в матричной форме следующим образом  X T X  A   X T Y . (1.17) 16 Решением системы (1.17) относительно неизвестных параметров А является выражение 1 (1.18) A  X T X   X T Y  При этом полная матрица факторов Х обязана включать единичный нулевой столбец, который обеспечивает расчет свободных членов регрессионного уравнения а0. Уравнение (1.18) является фундаментальным результатом для определения неизвестных параметров в матричном виде. Вектор неизвестных параметров может быть получен из выражения (1.18) или из выражения (1.15) путем дифференцирования по каждому из параметров (а0, а1, …, аm) и приравниванием частных производных нулю. 1.8 Свойства коэффициентов регрессии С помощью МНК мы можем получить оценки параметров, однако они являются лишь оценками. Поэтому возникает вопрос о том, насколько они надежны. Дадим сначала общий ответ, изучив условия несмещенности и факторы, определяющие дисперсию оценок. Основываясь на этом, мы будем совершенствовать способы проверки совместимости регрессионной оценки с конкретной априорной гипотезой об истинном значении оцениваемого параметра. Коэффициент регрессии, вычисленный методом наименьших квадратов, – это особая форма случайной величины, свойства которой зависят от свойств остаточного члена в уравнении. yi  a  xi  b  ei (1.19) Во-первых, заметим, что величина уi состоит из двух составляющих. Она включает неслучайную составляющую a  xi  b ,которая не имеет ничего общего с законами вероятности (а и b) могут быть неизвестными, но, тем не менее, это постоянные величины), и случайную составляющую еi. Отсюда следует, что, когда мы вычисляем а по обычной формуле (1.11), то а также содержит случайную составляющую. Cov (х, у) зависит от значений уi, а уi зависит от значений е i. Если случайная составляющая принимает разные значения в п наблюдениях, то мы получаем различные значения у и, следовательно, разные величины Cov (х, у) и а. Свойства коэффициентов регрессии существенным образом зависят от свойств случайной составляющей. Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, случайный член должен удовлетворять четырем условиям, известным как условия Гаусса-Маркова2. Первое условие Гаусса3-Маркова: М(еi) = 0 для всех наблюдений. Первое условие состоит в том, что математическое ожидание случайного члена в любом наблюдении должно быть равно нулю. Иногда 2 Марков Андрей Андреевич (1856–1922г.г.) – выдающийся русский математик; внес большой вклад в теорию вероятностей, математический анализ и теорию чисел. 3 Иоганн Карл Фридрих Гаусс (1777–1855г.г.) – немецкий математик, астроном и физик. В 1794 году впервые применил МНК для вывода результатов в простейшем случае многократных измерений. 17 случайный член будет положительным, иногда отрицательным, но он не должен иметь систематического смещения ни в одном из двух возможных направлений. Фактически если уравнение регрессии включает постоянный член, то обычно бывает разумно предположить, что это условие выполняется автоматически, так как роль константы состоит в определении любой систематической тенденции Y, которую не учитывают объясняющие переменные, включенные в уравнение регрессии. Второе условие Гаусса-Маркова: D(еi) - дисперсия случайного члена постоянна для всех наблюдений. Иногда случайный член будет больше, иногда меньше, однако не должно быть априорной причины для того, чтобы он порождал большую ошибку в одних наблюдениях, чем в других. Величина D(еi) - неизвестна. Одна из задач регрессионного анализа состоит в оценке стандартного отклонения случайного члена. Если рассматриваемое условие не выполняется, то коэффициенты регрессии, найденные по обычному методу наименьших квадратов, будут неэффективны, и можно получить более надежные результаты путем применения модифицированного метода регрессии. Третье условие Гаусса-Маркова: Cov (еi,еj) = 0 (i ≠ j). Это условие предполагает отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях. Например, если случайный член велик и положителен в одном наблюдении, это не должно обусловливать систематическую тенденцию к тому, что он будет большим и положительным в следующем наблюдении (или большим и отрицательным, или малым и положительным, или малым и отрицательным). Случайные члены должны быть абсолютно независимы друг от друга. Четвертое условие Гаусса-Маркова: случайный член должен быть распределен независимо от объясняющих переменных. Значение любой независимой переменной в каждом наблюдении должно считаться экзогенным, полностью определяемым внешними причинами, не учитываемыми в уравнении регрессии. Если это условие выполнено, то теоретическая ковариация между независимой переменной и случайным членом равна нулю. Наряду с условиями Гаусса-Маркова обычно также предполагается нормальность распределения случайного члена. Дело в том, что если случайный член нормально распределен, то так же будут распределены и коэффициенты регрессии. Предположение о нормальности основывается на центральной предельной теореме, которая утверждает, что если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не является доминирующей, то она будет иметь приблизительно нормальное распределение, даже если отдельные составляющие не имеют нормального распределения. Случайный член е определяется несколькими факторами, которые не входят в явной форме в уравнение регрессии. Поэтому если ничего не 18 известно о распределении этих факторов, м предположить, что они нормально распределены. 1.9 Дисперсионный анализ эконометрической модели Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным; и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Проверка значимости уравнения регрессии производится с помощью ANOVA или дисперсионного анализа 4 . В математической статистике дисперсионный анализ рассмотрен как самостоятельный инструмент (метод) статистического анализа. Здесь же он применяется как вспомогательное средство для изучения качества регрессионной модели. Дисперсия указывает на степень отклонения показателя от его среднего значения. 2 i yi  y D y   (1.20) n 1 При этом часть разброса объясняется за счет влияния факторов Х. Необъяснимая часть относится к ошибкам регрессии (случайный член еi).   уi у –у расч у расч i у расч –у ср у ср х ср хi Рисунок 1.2 - Поведение показателя Y Х В линейной модели теоретическое поведение показателя Y представляет собой прямую линию (прямую экономического роста или падения). Любая точка на этой прямой является эмпирическим (расчетным) значением показателя (Рисунок 1.2). Возьмем для примера однофакторную модель вида Y = a⋅X + b. Разделим значения, которые принимает показатель Y на составляющие, где y i – наблюдаемое значение показателя, ŷ i – эмпирическое значение. ANOVA (Analysis Of Variance) – совокупность методов дисперсионного анализа в статистике. 4 19 Перепишем формулу результирующего показателя Y: D( y )  Здесь получаем: y i  yˆ i  (1.20)   y i с учетом   yˆ i   yˆ i  y составляющих для  2 i (1.21) n 1 - это отклонение еi от линии регрессии. То есть D y    e i   yˆ i  y  2 i (1.22) n 1 Составляющие числителя в формуле дисперсии в международной экономической практике получили вполне определенные наименования: −TSS – общая сумма квадратов отклонений показателя от своего 2 среднего:  yi  y ;   i −RSS – регрессионная сумма квадратов отклонений, то есть отклонений точек, расположенных на регрессионной прямой, от своего среднего 2 значения:  yˆ i  y ;   i −ESS – сумма квадратов случайных отклонений (ошибок регрессии):  ei2 . i В своей совокупности они образуют первое дисперсионное тождество TSS = RSS + ESS. (1.23) Продолжением дисперсионного анализа является распространение принципа разложения на составляющие знаменателя в формуле дисперсии. Это осуществляется через статистические степени свободы:  для TSS – это величина, равная (n – 1);  для RSS – это число (k – 1), где k – число параметров в построенной модели;  для ESS – это разность (n – k). То есть вторая часть дисперсионного тождества по знаменателю представляет собой (1.24) n  1  (k  1)  (n  k ) Из соотношения первого и второго тождества можно выделить следующие дисперсии: -средний квадрат регрессии: RSS MSR  (1.25) k 1 -средний квадрат отклонений (ошибок): ESS MSE  . (1.26) nk 20 На основании дисперсионного анализа разработаны статистические критерии оценки параметров модели. Использование критериев связано с теорией гипотез. 1.10 Статистические критерии и гипотезы Статистическая гипотеза (Н0) – это предположение о распределении вероятностей, которое необходимо проверить по имеющимся данным. Для любой гипотезы всегда присутствует альтернатива (НА). Для проверки естественнонаучных гипотез часто применяется такой принцип: гипотезу отвергают, если происходит то, что при ее справедливости происходить не должно. Проверка статистических гипотез происходит так же, но с оговоркой: место невозможных событий занимают события практически невозможные. Причина этого проста: пригодных для проверки невозможных событий может не существовать. При проверке статистических гипотез возможны ошибочные заключению двух типов: − отвержение гипотезы в случае, когда она на самом деле верна; − не отвержение (принятие) гипотезы, если она на самом деле не верна. Эти возможности называются соответственно ошибками первого рода и ошибками второго рода. Из-за различного подхода к гипотезе и альтернативе, наше отношение к ошибкам первого и второго рода также неодинаково. При построении статистических критериев мы фиксируем максимальную допустимую вероятность ошибки первого рода (то есть уровень значимости критерия), и стремимся выбрать критическое множество таким образом, чтобы минимизировать вероятность ошибки второго рода (или хотя бы сделать так, чтобы эта вероятность была как можно меньше по мере увеличения истинного распределения от гипотетического). Обозначим через β вероятность ошибки второго рода статистического критерия. Если альтернативная гипотеза является сложной, то эта вероятность, естественно, зависит от выбора конкретного альтернативного распределения. Величину (1 – β) обычно называют мощностью критерия. Ясно, что мощность критерия может принимать любые значения от 0 до 1. Чем ближе мощность критерия к единице, тем более эффективен (более «мощен») критерий. Многие известные статистические критерии получены путем нахождения более мощного критерия при заданных предположениях о гипотезе и альтернативе. Проверка статистической гипотезы заключается в оценке вероятности (α) появления события А, которое позволит принять гипотезу Н0. Например, выдвигаем гипотезу о том, что угол наклона регрессионной прямой (параметр а) равен нулю → Н0: а = 0 (альтернатива – параметр а не равен нулю, т.е. фактор Х оказывает воздействие на результирующий показатель Y). Вычисляем вероятность «альфа» (α) появления события при котором а =0. Если такая вероятность существует и имеет достаточный вес, то угол наклона регрессионной прямой действительно равен нулю. 21 Вероятность, по которой можно судить о появлении события А, называют порогом значимости для гипотезы (значение (α) – это расчетный уровень значимости гипотезы). Если рассчитанная вероятность больше этого порога, то событие обязательно произойдет. Самым распространенным в экономике считается порог значимости равный α = 5%. Для проверки статистических гипотез используются специальные критерии. В регрессионных моделях наиболее часто используются критерии Фишера5 и Стьюдента6. Критерий Фишера (критерий дисперсионного анализа), как правило, оценивает адекватность найденного уравнения статистическим данным. Выдвигается гипотеза о несоответствии регрессионного уравнения фактическим статистическим данным (как вариант: все коэффициенты уравнения одновременно равны нулю Н0: а0 = а1 = ai = …= 0). Проверка гипотезы осуществляется путем сравнения дисперсии результирующего показателя Y, которую можно объяснить с помощью факторов Х, с дисперсией случайных отклонений Y (независимые от факторов Х отклонения или ошибки регрессии): MSR F (1.27) MSE Сравнение среднего квадрата регрессии со средним квадратом ошибок дает число, по которому в дальнейшем можно восстановить интегральную сумму вероятности по известной плотности распределения случайной величины F. Функция плотности вероятности для тех значений, который может принимать критерий Фишера (0; +∞), близка к «кси-квадрат» (χ2) распределению. Соответственно можно вычислить интеграл по плотности вероятности χ2 на интервале от расчетного значения критерия (FРАСЧ) до +∞. Это и будет уровень значимости α для нашей гипотезы. Если он (уровень значимости α) оказался меньше 5%, то можно отвергнуть гипотезу (Н0) о равенстве нулю всех параметров регрессии одновременно (событие А маловероятно) и принять альтернативу: НА: уравнение адекватно статистическим данным. Если уровень значимости α больше 5%, то ожидается появление события А, согласно которому параметры модели могут одновременно оказаться равными нулю. Такая регрессионная модель не должна рассматриваться как закономерность в поведении результирующего показателя Y, уравнение отвергается в целом, как несоответствующее реальной экономике. Определение численного значения определенного интеграла по функции плотности вероятности представляет собой некоторую сложность Рональд Эйлмер Фишер (1890–1962г.г.) – английский статистик, биолог-эволюционист и генетик. 6 Уильям Силли Госсет (1876–1937г.г.) – английский ученый-статистик; более известен под псевдонимом Стьюдент. 5 22 при «ручном» счете. Поэтому в Excel существует функция, выполняющая интегральный подсчет для распределения Фишера: она называется FРАСП. Критерий Стьюдента обычно используют для оценки отдельно взятого параметра на предмет равенства его нулю. То есть выдвигают следующую гипотезу: Н0: ai = 0. Критерий Стьюдента представляет собой числовую соотношение между значением параметра и его среднеквадратическим отклонением (СКО). Описание порядка и способов определения СКО для параметров регрессии будет рассмотрено несколько позже. Формула критерия Стьюдента имеет следующий вид: a (1.28) t  (a) Функция плотности вероятности для тех значений, которые принимает критерий Стьюдента (–∞; +∞), близка к нормальному закону распределения. Поиск уровня значимости α для расчетного значения критерия состоит в вычислении определенного интеграла в следующих пределах: (–∞; tРАСЧ] ∪ [tРАСЧ; +∞). Если уровень значимости α оказался меньше 5%, то можно отвергнуть гипотезу о равенстве нулю рассматриваемого параметра. Если уровень значимости α больше 5%, то рассматриваемый параметр равен нулю. Для вычисления интеграла, взятого от функции распределения плотности вероятности по Стьюденту, в Excel используется функция СТЬЮДРАСП. На основании критерия Стьюдента возможна и другая постановка задачи, которая связана с заранее предполагаемыми порогами значимости для выдвигаемой гипотезы. Если по tРАСЧ можно определить вероятность α, то для некоторого порога α можно определить значение t-критерия. Это значение будет характеризовать предельный уровень разброса значений параметра а, т.е. диапазон, в котором параметр принимает свои значения с вероятностью (α – 1). Вероятность, которая определяет интервал разброса случайной величины, называется доверительной вероятностью. Таким образом, можно перейти к вычислению интервала разброса случайной величины коэффициента а с помощью формулы ai  t 5%, n  k    (a) , (1.29) где t(5%, n – k) – критерий Стьюдента для α = 5% и степени свободы n – k. Для его расчета в Excel используется функция СТЬЮДРАСПОБР. Вопросы для самоконтроля 1. Раскройте сущность метода наименьших квадратов. 2. Чем отличаются переменная и параметр в регрессионном уравнении? 3. Какие способы (методы) расчета параметров линейного уравнения Вам известны? 4. Покажите вывод системы уравнений, подлежащих решению по МНК. 23 5. Покажите вывод векторно-матричного уравнения, решаемого по МНК. 6. На основе известной системы уравнений сделайте вывод аналитических формул для определения параметров регрессионного уравнения. 7. Дайте определение статистической гипотезы. 8. Что такое нулевая и альтернативная гипотеза. 9. Охарактеризуйте уровень значимости гипотезы. 10. Как оценить адекватность уравнения статистическим данным? 11. Как оценить значимость параметра регрессии? 12. На каком принципе основана интервальная оценка параметров регрессии? Список рекомендуемой литературы: [1, 3, 6, 10]. 2. Модель простой регрессии 2.1 Проблема оценивания линейной связи экономических переменных Проблема изучения взаимосвязей экономических показателей является одной из важнейших проблем экономического анализа. Любая экономическая политика заключается в регулировании экономических переменных, и она должна основываться на знании того, как эти переменные влияют на другие переменные, являющиеся ключевыми для принимающего решение политика. Так, в рыночной экономике нельзя непосредственно регулировать темп инфляции, но на него можно воздействовать средствами бюджетно-налоговой и кредитно-денежной политики. Поэтому в частности должна быть изучена зависимость между предложением денег и уровнем цен. Невозможно строить, проверять или улучшать экономические модели без статистического анализа их переменных с использованием реальных статистических данных. Вся сфера экономических исследований может быть в определенном смысле охарактеризована как изучение взаимосвязей экономических переменных, и инструментарием их базового анализа являются регрессионные модели. Изучение зависимостей экономических переменных лучше всего начинать со случая двух переменных, которые обычно обозначаются через х и у и называют простой регрессией: y =α⋅x +β. (2.1) Предположим, что имеются ряды значений переменных, соответствующие им точки нанесены на график и соединены линией (см. Рисунок 2.1). Если это реальные статистические данные, то мы никогда не получим простую линию – линейную, квадратичную, экспоненциальную и т.д. Всегда будут присутствовать отклонения зависимой переменной, вызванные ошибками измерения, влиянием неучтенных величин или 24 случайных факторов. Но если мы не получили точную прямую линию, это еще не значит, что в основе рассматриваемой зависимости лежит нелинейная функция. Возможно, зависимость переменных линейна, но лишь случайные факторы приводят к некоторым отклонениям от нее. То же самое можно сказать и про любой другой вид функции. Связь переменных, на которую накладываются воздействия случайных факторов, называется статистической связью. Наличие такой связи заключается в том, что изменение одной переменной приводит к изменению математического ожидания другой переменной. Y b у = а⋅ х +b у СР tg α = а Цена х СР Х Спрос Рисунок 2.1 - График простой регрессии Можно указать два типа взаимосвязей между переменными х и у. В одном случае может быть неизвестно, какая из двух переменных является независимой, и какая – зависимой. В этом случае переменные равноправны, и имеет смысл говорить о статистической взаимосвязи корреляционного типа. Другая ситуация возникает, если две исследуемые переменные не равноправны, но одна из них рассматривается как объясняющая (или независимая), а другая как объясняемая (или зависящая от первой). Если это так, то изменение одной из переменных служит причиной для изменения другой. Например, рост дохода ведет к увеличению потребления; снижение процентной ставки увеличивает инвестиции; увеличение валютного курса сокращает чистый экспорт. Это – тот случай, когда должно быть оценено уравнение регрессии у = f(x). При этом выбор формулы связи переменных называется спецификацией уравнения регрессии. На рисунке 2.2 изображены три ситуации: • на графике (а) взаимосвязь х и у близка к линейной. Прямая линия (1) здесь близка к точкам наблюдений, и последние отклоняются от нее лишь в результате сравнительно небольших воздействий; • на графике (б) реальная взаимосвязь между величинами х и у описывается нелинейной функцией (2), и какую бы мы не проводили прямую линию (например 1), отклонения точек наблюдений от нее будут существенными и неслучайными; 25 на графике (в) явная взаимосвязь между переменными х и у отсутствует. Какую бы мы не выбрали формулу связи, результаты ее параметризации будут неудачными. В частности прямые линии (1) и (2), проведенные через «центр облака» точек наблюдений и имеющие противоположный наклон, одинаково плохи для того, чтобы делать выводы об ожидаемых значениях переменной у по значениям переменной х. • Рисунок 2.2 - Варианты зависимости y от x. 2.2 Парная линейная регрессия Начальным пунктом регрессионного анализа обычно является оценка линейной зависимости переменных. Если имеется некоторое «облако» точек наблюдений, через него всегда можно попытаться провести такую прямую линию, которая является наилучшей в определенном смысле среди всех прямых линий, то есть ближайшей к точкам наблюдений по их совокупности. Рассмотрим задачу оценки коэффициентов простой регрессии более формально. Предположим, что связь между х и у линейна (2.1). Здесь имеется ввиду, что связь между всеми возможными значениями величин х и у, то есть связь определяемая для генеральной совокупности. Наличие случайных отклонений, вызванных воздействием на переменную у множества других, неучтенных в нашем уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин xi и yi приобретает вид yi =α⋅ xi +β+εi , (2.2) где εi – случайные ошибки (отклонения, возмущения). Задача состоит в следующем: по имеющимся результатам наблюдений {xi} и {yi} оценить значение параметров α и β, обеспечивающие минимум величины Q . Если бы были известны точные значения отклонений εi , то можно (в случае правильности предполагаемой линейной формы) рассчитать значения параметров α и β. Однако значения случайных отклонений в выборке неизвестны, и по наблюдениям х и у можно получить 26 только оценки параметров α и β, которые сами являются случайными величинами, поскольку соответствуют случайной выборке. Пусть а – оценка параметра α, b – оценка параметра β. Тогда оцениваемое уравнение простой регрессии будет иметь вид: yi = a ⋅ xi + b + ei , (2.3) где еi – наблюдаемые значения ошибок. Для оценки параметров α и β, как правило, используют МНК, который минимизирует сумму квадратов отклонений фактических значений yi от расчетных. Минимум ищется по переменным а и b. При использовании МНК к ошибкам εi предъявляются следующие требования, называемые условиями Гаусса-Маркова: величина εi является случайной переменной; математическое ожидание εi равно нулю: M(εi ) = 0 ; дисперсия εi постоянна; значения εi независимы между собой; значения εi статистически независимы со значениями xi. Если условия 1) – 5) выполняются, то оценки, сделанные с помощью МНК, обладают следующими свойствами: 1. Оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению: M(a) =α; M(b) = β. Это вытекает из того, что M(εi ) = 0 , и говорит об отсутствии систематической ошибки в определении положения линии регрессии. 2. Оценки состоятельны, т.к. дисперсия оценок параметров при возрастании числа наблюдений стремиться к нулю. Иначе говоря, если n достаточно велико, то практически наверняка а близко к α, а b близко к β. Надежность выборки при увеличении выборки растет. 3. Оценки эффективны. Они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра, линейными относительно величин yi. Если предположения 3) и 4) нарушены, т.е. дисперсия возмущений не постоянна и/или значения εi связаны друг с другом, то свойства несмещенности и состоятельности сохраняются, но свойство эффективности – нет. При невыполнении предположения 5) может быть нарушено и свойство несмещенности оценок, являющееся наиболее важным в экономическом анализе. Значительная часть современной экономической теории посвящена анализу выполнения данного свойства (в совокупности с остальными) в различных конкретных ситуациях, а также выявлению и корректировке последствий его невыполнения. Величины yi, соответствующие данным xi при некоторых теоретических значениях α и β, являются случайными. Следовательно, случайными являются и рассчитанные по ним значения коэффициентов а и b. Отсюда 1) 2) 3) 4) 5) 27 вытекает необходимость «внешнего» оценивания регрессионного уравнения вида (2.3) на предмет: − адекватности уравнению в целом статистическим данным по х и у. Для этого используется критерий Фишера (формула 1.27), по которому определяется уровень значимости; − отличие от нуля параметров а и b. Для этого используется критерий Стьюдента (1.28) с последующим определением уровня значимости, который показывает вероятность равенства нулю каждого рассматриваемого параметра. 2.3 Прогнозирование с помощью модели простой регрессии Критерием, который показывает прогностическую силу модели, можно считать коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции. Для случая парной (простой) регрессии – это квадрат коэффициента корреляции переменных х и у. R 2= r 2xy (2.4) С другой стороны, коэффициент детерминации характеризует долю вариации (разброса) зависимой переменной, объясненной с помощью регрессионного уравнения, например вида (2.3). В качестве меры разброса зависимой переменной обычно используется ее дисперсия, а остаточная вариация может быть измерена как дисперсия отклонений вокруг линии регрессии. (2.5) Если числитель и знаменатель вычитаемой из единицы дроби разделить на число наблюдений n, то получим, соответственно, выборочные оценки остаточной дисперсии и дисперсии зависимой переменной у. Отношение остаточной и общей дисперсии представляет собой долю необъясненной дисперсии. Если же эту долю вычесть из единицы, то получим долю дисперсии зависимой переменной, объясненной с помощью регрессии. Таким образом, коэффициент детерминации R2 является мерой, позволяющей определить, в какой степени найденная регрессионная прямая дает лучший результат для объяснения поведения зависимой переменной y, чем просто горизонтальная прямая ̅. Смысл коэффициента детерминации может быть пояснен иначе. По формуле (1.23) мера общего разброса TSS представляет собой сумму разброса вариации переменной yi (мера разброса, поясняемая с помощью регрессии) RSS и мера остаточного разброса (разброса точек вокруг линии регрессии) ESS. Если разделить формулу (1.23) на ее левую часть и перегруппировать члены, то 28 (2.6) То есть коэффициент детерминации R2 есть доля объясняемой части разброса зависимой переменной или доля объясненной дисперсии. Как упоминалось выше, коэффициенты а и b представляют собой случайные величины и представляют математическое ожидание истинных параметров регрессии: M(a)a =α; M(b) = β. Соответственно коэффициенты а и b обладают некоторым разбросом, который зависит от среднеквадратического отклонения σ(а) и σ(b) и закона распределения случайной величины, который обычно определяют, как закон распределения Стьюдента. Отсюда вытекает формула подсчета разброса параметров регрессии (1.29). Если существует разброс параметров регрессионной модели, то и любое эмпирическое значение объясняемого экономического показателя yi будет иметь разброс адекватный разбросу параметров, которые лежат в основе получения расчетного значения экономического показателя. Соответственно принято различать точечный и интервальный прогнозы показателя yi. Точечный прогноз основывается на значении математического ожидания параметров регрессионной модели (то есть на основании коэффициентов а и b) для соответствующего значения объясняющей переменной (фактора) xi+n: ̂ Таким образом, (2.7) прогнозное значение ̂ i+n является оценкой соответствующего значения yi+n и носит точечный характер. Перейдем к рассмотрению интервального прогноза. Покажем формулы для определения среднеквадратического отклонения параметров модели: ( ) √∑ ( ( ) √ (2.8) ̅) ∑ ̅) ∑( (2.9) Ковариация между параметрами модели а и b составляет cov(a, b) = ̅ ∑( ̅) Ошибка прогноза, исходя из формул (2.2) и (2.3), может быть так: 29 (2.10) ( ̂ (b −β). ) (2.11) Возведем обе части выражения (2.11) в квадрат и перейдем к математическим ожиданиям в данном выражении. Получим следующее значение дисперсии отклонений (ошибок): D (2.12) Подставим в формулу (2.12) выражения из формул (2.8) – (2.10) и получим: ( ) ( ) 0 ( ̅) ∑( ̅) 1 (2.13) Разброс прогнозного значения yi+n есть произведение функции распределения Стьюдента на среднеквадратическое отклонение ошибки регрессии: Δyn+1 = t(5%, n−k) ⋅σ(en+1 ) = t(5%, n−k) ⋅ ⎡ 2 ⎤ x n +1 − x ) ⎥ 1 ⎢ ( MSE ⋅ 1 + + 2 ⎢ n xi − x ) ⎥ ( ⎢ ⎥ i ⎣ ⎦ ∑ (2.14) Таким образом, формула (2.14) дает доверительный интервал для истинного значения объясняемой переменной yi. Очевидно, что минимальное значение интервала разброса оказывается вблизи среднего значения объясняющей переменной x . По мере удаления от среднего значения интервал разброса плавно увеличивается. Линии интервалов прогнозных значений yi получили название «прогнозной трубки». 2.4 Гетероскедастичность Одно из основных требований (3) модели парной линейной регрессии состоит в постоянстве дисперсии случайной ошибки εi (гомоскедастичность). Если данное требование не выполняется, то имеет место гетероскедастичность. Сущность гомоскедастичности состоит в том, что вариация каждой εi относительно ее математического ожидания не зависит от значения х. То есть дисперсия случайной ошибки D(εi ) не является функцией от значений объясняющей переменной xi. Графически случай гомоскедастичности представлен на рисунке 2.3 (а). Напротив, гетероскедастичность представляет собой явную функциональную зависимость дисперсии случайных ошибок от значений х (Рисунок 2.3 (б)). В прикладных исследованиях, как правило, используют 30 допущение, что гетероскедастичность имеет форму D(εi) = k константа, которую необходимо оценить. 2 ⋅ xi2, k – Рисунок 2.3 - Зависимость дисперсии ошибок εi от фактора х Во многих экономических исследованиях можно проследить, что требование постоянства дисперсии случайной ошибки не соблюдается. Это легко понять, если значения фактора х соответствуют значениям ошибок (Рисунок 2.3(б)). Как правило, на начальном этапе регрессионного моделирования от этого явления пытаются избавиться с помощью совершенствования методики сбора данных и корректировкой самой статистической выборки. Также явление гетероскедастичности может быть обнаружено уже для готовой выборки. Для этого существуют различные тесты и критерии. Достаточно большое распространение на практике получил тест Голдфельда и Квандта. Суть теста заключается в том, что готовую выборку рассматривают по частям, например разделив ее пополам (для большей точности среднюю часть выборки, а это примерно треть всех наблюдений, – удаляют из состава выборки). Если дисперсии ошибок для начальной части и конечной части наблюдений существенно отличаются друг от друга (для этого, например, используется критерий Фишера F), то дают заключение о наличии гетероскедастичности. Другим вариантом изучения модели парной регрессии является тест Глейзера. Он основывается на поиске функциональной зависимости между значениями случайной ошибки εi и объясняющей переменной xi. Для этого на первом этапе строиться простая линейная регрессионная модель на основании всей выборки х и у; в итоге подсчиваются значения ошибок εi . Затем, взяв ошибки по абсолютной величине делают ряд попыток определить наличие эффективных коэффициентов связи между εi и xi, применяя различные спецификации модели (линейную, показательную, степенную и другие). Если одна из таких моделей даст эффективные, состоятельные и несмещенные оценки параметров, то гетероскедастичность доказана. Если требование гомоскедастичности случайных ошибок не выполняется (т.е. тестированием выявлено наличие гетероскедастичности), 31 то проводить оценку параметров модели (2.3) по МНК нельзя, т.к. оценки окажутся смещенными от математического ожидания истинных параметров модели α и β. Смещенность результата неизбежно приведет к проблемам в экономике. Когда на базе какого-либо теста установлена гетероскедастичность, то для ее устранения изменяют модель таким образом, чтобы случайные ошибки εi имели постоянную дисперсию. Затем неизвестные параметры трансформированной модели могут быть оценены с помощью МНК. Предположим, что тестом Глейзера определена следующая форма гетероскедастичности D( )= .е. дисперсия случайных ошибок возрастает пропорционально квадрату объясняющего фактора. Выражая коэффициент пропорциональности k 2 = D(εi) / x2 . Это означает, что трансформация модели состоит в делении исходной модели на величину хi. Трансформированная таким образом модель (2.2) имеет вид: (2.15) Следует обратить внимание на место параметров новой модели. В моделях (2.15) и (2.2) коэффициент при переменной и свободный член уравнения поменялись местами. Это приводит к тому, что величина становится гомоскедастичной, так как ( ) ( ) ( ) Рассмотренная форма гетероскедастичности не является единственно возможной. На практике целесообразно рассматривать общую форму зависимости D(εi ) = k 2 ⋅ f (xi ) (2.16) В этом случае трансформация модели осуществляется путем деления начальой формы модели на f  xi  . Поясним, почему такая трансформация необходима. В целом представленная ранее трансформация эквивалентна использованию метода взвешенных наименьших квадратов (ВНК), который является частным случаем метода обобщенных наименьших квадратов (ОНК). Опишем метод взвешенных наименьших квадратов (ВНК), который обеспечивает обоснование вышеприведенной трансформации. В методе простых наименьших квадратов мы минимизируем сумму квадратов отклонений , для которого каждое отклонение имеет одинаковый «вес» (весовая сумма = 1). То есть сумма ∑ei2 выступает невзвешенной суммой квадратов отклонений, в которой допускается, что εi оценивается только через еi. Напротив, если дисперсия εi не постоянная (например, возрастает с ростом значений х, как показано на Рисунке 2.3(б)), становится очевидным, что чем больше значение дисперсии случайных ошибок, тем менее точно проходит регрессионная прямая через статистическое «облако». Поэтому 32 предполагается дать меньший «вес» этим наблюдениям в подборе линии регрессии (по отношению к другим статистическим данным). Например осуществить это через весовые коэффициенты значений случайных ошибок εi , разделив их на частную дисперсию σ2 (εi) i-го наблюдения. Если случайная величина большая, то и ее частная дисперсия также велика, а «вес» 1/σ2 (εi) будет маленьким. Таким образом большие ошибки получают малый «вес». Вместо минимизации простой суммы наименьших квадратов мы имеем взвешенную сумму ∑ ( ) ∑ ( ) ( ) (2.17) Такой метод и называется методом взвешенных наименьших квадратов (ВНК). Однако применение метода ВНК на практике осложняется тем, что не всегда можно рассчитать частные дисперсии ошибок. На практике эти дисперсии обычно не известны, однако они часто пропорциональны значениям независимых переменных, и это пропорциональность может быть использована для вычисления подходящих весов наблюдений. 2.5 Автокорреляция ошибок Одним из требований модели парной регрессии является независимость случайных величин (4). Если это требование нарушено, то имеет место автокорреляция. Важно понять, к чему приводит автокорреляция, каковы ее практические и теоретические последствия, изменяться ли методы нахождения неизвестных параметров модели в условиях автокорреляции, существуют ли эффективные методы ее тестирования. Следует различать понятия автокорреляции и серийной корреляции. Автокорреляцией называется зависимость между значениями одной выборки со значениями в один лаг. Например, если между значениями одной выборки ε1, ε2, …, εр и ε2, ε3, …, εр+1 существует зависимость, то имеем дело с автокорреляцией. Если существует зависимость между значениями двух разных выборок ε1, ε2, …, εр и ω1, ω2, …, ωр, то это свидетельствует о наличии серийной корреляции. Автокорреляция может быть позитивной (Рисунок 2.4 (а)) и негативной (Рисунок 2.4 (б)). Автокорреляция может возникать в связи с инерционностью или цикличностью многих экономических процессов. Провоцировать автокорреляцию может и неправильно специфицированная функциональная зависимость в регрессионных моделях, а также лаговые запаздывания в экономических процессах. 33 +εi +εi (а ) –εj (б) +εj –εj +εj –εi –εi Рисунок 2.4 - Связь между случайными величинами Наиболее известным тестом проверки модели на наличие автокорреляции между случайными отклонениями является тест Дарбина – Уотсона. На первом этапе рассчитываются значения d-статистики по формуле: ∑ ( ) (2.18) ∑ Известно, что значения d-статистики находятся в пределах от 0 до 4. На втором этапе для заданного уровня значимости α (например, α=5%) и числа наблюдений n находят верхнюю (dU) и нижнюю границы (dL) зон автокорреляции. При этом зоны позитивной и негативной автокорреляции располагаются симметрично относительно d = 2 (Рисунок 2.5). Позитивная Автокорреляции НЕТ Негативная dL dU 2 4–dU 4–dL Рисунок 2.5 - Закон автокорреляционной связи 4 Если наличие автокорреляции в модели подтверждено тестами, то МНК даст неэффективные оценки параметров (нельзя будет оценить качество модели с помощью критериев Фишера и Стьюдента). Поэтому для оценки неизвестных параметров при наличии автокорреляции используют метод обобщенных наименьших квадратов (ОМК). 2.6 Пример моделирования Для группы предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек y = a⋅ x + b + e. Информация, необходимая для расчета оценок параметров а и b, представлена в таблице 2.1. Необходимо спрогнозировать затраты на производство для предприятия, на котором выпуск продукции составляет ХПР = 3,2 тыс. ед. 34 Таблица 2.1 Данные по предприятиям Выпуск Затраты на продукции, производство, № тыс. ед. млн. руб предприятия Х Y 1 1,4 30 2 2,2 70 3 4,6 150 4 2,7 100 5 4,8 170 6 2,5 100 7 3,9 150 Начнем с определения параметров регрессии, решив систему уравнений (1.9). Для этого в отдельных ячейках электронной таблицы Excel определяем: − суммарные значения ∑xi и ∑ yi с помощью функции СУММ; − средние значения ̅ и ̅ с помощью функции СРЗНАЧ. Переходим к непосредственному расчету параметров по формуле (1.10). Получаем следующее уравнение простой регрессии: y = 37,686⋅ x −8,981. (2.19) Проверим найденный результат с помощью коэффициента корреляции (1.13). Для этого предварительно определяем значения СКО рядов Х и Y (функция СТАНДОТКЛОН). Значение параметра а в обоих случаях совпадает (Рисунок 2.6). Рисунок 2.6 - Оценка параметров простой регрессии 35 Переходим к дисперсионному анализу. Построим ряды расчетных значений показателя Y и отклонений от линии регрессии еi. Рассчитываем: RSS и TSS по функции КВАДРОТКЛ, как суммы квадратов отклонений расчетного и статистического рядов основного показателя Y; сумму квадратов отклонений (ESS) определяем с помощью функции СУММКВ для отклонений еi. По формулам (1.25) и (1.26) находим средние квадраты отклонений, затем по формуле (1.27) определяем расчетное значение критерия Фишера. Для вычисления интеграла плотности вероятности распределения Фишера по значению FРАСЧ используем функцию FРАСП. Вывод: найденное уравнение адекватно статистическим данным (α = 0,025%), что существенно меньше порогового значения 5%. Переходим к оценке параметров модели: − по формулам (2.8) и (2.9) находим среднеквадратические отклонения параметров модели; − по формуле (1.28) находим расчетные значения t-критерия для параметров а и b; − с помощью функции СТЬЮДРАСПОБР вычисляем интеграл плотности вероятности распределения Стьюдента для уровня значимости α = 5% − вычисляем разброс значений параметров Δа и Δb по формуле (1.29). Заметим, что вычисление уровня значимости α по каждому из параметров в модели простой регрессии не требуется, так как для параметра a значение уровня значимости α будет совпадать с тем уровнем значимости, который был найден по критерию Фишера. Что касается свободного члена уравнения b, то определение его значимости для рассматриваемой модели не имеет смысла (известно, что при отсутствии выпуска изделий х = 0 соответственно не должно быть и затрат на выпуск: у = 0, т.е. параметр b изначально предполагается равным нулю). Вывод: параметр а значимо отличается от нуля. Так как необходимо спрогнозировать значение затрат на выпуск продукции у очередного предприятия, то следует рассчитать коэффициент детерминации по формуле (2.6). Вывод: модель обладает высокой прогностической силой R2 = 0,945. Прежде, чем давать прогноз следует оценить модель гетероскедастичность и автокорреляцию ошибок (Рисунок 2.7). 36 на Рисунок 2.7 - Оценка модели на гетероскедастичность и автокорреляцию ошибок Для выполнения теста Голдфельда и Квандта на гетероскедастичность необходимо: − предварительно упорядочить исходные данные в порядке возрастания числовых значений выпуска продукции (сортировка по Х); − разделить выборку на две части: в каждой из них можно оставить по три наблюдения из начальной и конечной частей исходной выборки (среднюю часть выборки рекомендуется удалять, так как в тесте существенную роль играют только те исходные данные, которые ближе всего расположены к началу и концу исходной выборки); − методом наименьших квадратов определяем параметры регрессии по каждой выборке: для первой части y = 60,825⋅ x −57,01; для второй части y =16,418⋅ x +83,881; − подсчитываем эмпирические (расчетные) значения для основного показателя Y и соответствующие ряды отклонений от линий регрессии; − находим суммы квадратов ошибок ∑ei2 для обеих исследуемых частей; − сравниваем найденные суммы квадратов 2 2  ei  146,269  1,971; F 1 74,227  ei2 − определяем уровень гомоскедастичности: α = 33,7% . значимости 37 гипотезы о наличии Вывод: модель гомоскедастична (по тесту Голдфельда и Квандта α = 33,7%). Переходим к проверке модели на автокорреляцию ошибок: − находим ряд значений еi–1 (ряд представлен в расчетах на рисунке 2.6); − сумма квадратов ошибок ESS также известна (Рисунок 2.6); − определяем расчетное значение статистики Дарбина-Уотсона по формуле (2.18); − сравниваем найденной значение с табличными данными (статистическая таблица взята из источника [4]). Вывод: автокорреляция ошибок отсутствует. Значение статистики Дарбина-Уотсона находится в зоне неопределенности (dL < DW < dU). Так найденная модель y = 37,686⋅x−8,981 имеет хорошие прогностические свойства (по коэффициенту детерминации) и обладает несмещенными и состоятельными оценками (отсутствие негативного влияния гетероскедастичности и автокорреляции ошибок), то можно выполнить прогнозирование (Рисунок 2.8). Рисунок 2.8 - Точечный и интервальный прогноз Точечное значение прогноза определяем из уравнению регрессии y = 37,7⋅3,2 −9 =111,62. Для вычисления интервала прогноза находим его разброс по формуле (2.14). Выводы: 1. Затраты на производство Y можно определить через выпуск продукции Х, используя следующую функциональную зависимость y = 37,686⋅ x −8,981 2. Для предприятия с объемом выпуска ХПР = 3,2 тыс. ед. следует ожидать затрат в размере 111,62 млн. руб в диапазоне от 72,21 млн. руб до 147,02 млн. руб. 1. 2. 3. 4. 5. Вопросы для самоконтроля Дайте характеристику парной линейной регрессии. Опишите требования Гаусса-Маркова к модели парной линейной регрессии. Покажите известные варианты зависимости между х и у. Какими свойствами должны обладать оценки параметров модели? Запишите формулы для оценки параметров модели по математическому ожиданию и среднеквадратическому отклонению. 38 6. Причины возникновения и последствия гетероскедастичности. 7. Опишете сущность тестов Голдфельда – Квондта и Глейзера. 8. Охарактеризуйте метод взвешенных наименьших квадратов. 9. В чем сущность автокорреляции? 10. Опишите тест Дарбина – Уотсона для выявления наличия автокорреляции. 11. Причины возникновения и последствия автокорреляции. Список рекомендуемой литературы: [1, 3, 5, 6, 9, 11] 3 Модель множественной регрессии 3.1 Использование многофакторного анализа На практике экономические процессы видоизменяются под воздействием многих факторов. Например, было бы не верно считать, что объемы продаж зависят только от затрат на рекламу. На самом деле объемы продаж в первую очередь зависят от особенностей рынка, в том числе средний доход на душу населения, наличие взаимозаменяемых товаров и качественный состав товаров. Начнем с рассмотрения примера, в котором величина расходов на питание у зависит от располагаемого дохода х1 и цен на питание x2 y  a0  a 1 x1  a2 x2 . Это является упрощением как с точки зрения состава переменных, включенных в зависимость, так и сточки зрения математической формулы связи. Кроме того мы неявно предполагаем лишь наличие прямой связи за счет допущения о том, что расходы на питание не влияют на доход и цену. Это могло быть лишь в том случае, если бы цены определялись на мировом рынке, но в большинстве ситуаций было бы реально допустить, что расходы на продукты и их цены определяются совместно в результате воздействия предложения и спроса. C использованием многофакторной модели можно анализировать многие социальные проблемы. Например, исследовать как влияют многие социальные факторы на развитие преступности в стране. Для анализа и построения многофакторной регрессионной модели можно взять такие факторы, как численность населения страны, обеспеченность населения жильем, продажа алкогольных напитков в расчете на душу населения, количество людей, которые имеют высшее образование в расчете на тысячу жителей, реальную среднюю заработную плату рабочих и служащих, уровень безработицы и т.п. Подытоживая рассмотренные выше примеры, можно констатировать, что многофакторный регрессионный анализ помогает найти явный вид зависимости исследуемого показателя от многих факторов, которые влияют на его изменения, а также количественно оценить степень этого влияния. 39 Множественный регрессионный анализ является развитием парного регрессионного анализа применительно к случаям, когда зависимая переменная гипотетически связана с более чем одной независимой переменной. Большая часть анализа будет расширением парной регрессионной модели, но здесь можно столкнуться с новыми проблемами. Во-первых, при оценке влияния одной независимой переменной придется учитывать влияние на нее других независимых переменных. Таким образом, значения экономических переменных определяются обычно влиянием не одного, а нескольких объясняющих факторов. Задача оценки статистической взаимосвязи переменных у и x   x1 , x2 , ..., xm  формулируется аналогично случаю парной регрессии. Записывается функция y  f a, x    , для данной генеральной совокупности. Как и в случае парной регрессии предполагается, что ошибки εi являются случайными величинами с нулевым математическим ожиданием и постоянной дисперсией. Речь пойдет о линейной зависимости у от х, то есть о множественной линейной регрессии. Теоретически такое уравнение регрессии имеет вид: (3.1) y a a1 x1  a2 x2  ...  am xm   Выражение (3.1) содержит вектор неизвестных параметров α размерности (m + 1) . Пусть имеется n наблюдений вектора х и зависимой переменной у. Для того, чтобы формально можно было решить задачу, то есть найти некоторый наилучший вектор параметров, необходимо чтобы n  m  1 . Если это условие не выполняется, то можно найти бесконечно много разных векторов коэффициентов, при которых линейная формула связывает между собой х и у для имеющихся наблюдений абсолютно точно. Если, в частном случае n  m  1 (например, при двух объясняющих переменных в уравнении y  a0  a 1 x1  a2 x2 и трех наблюдениях), то оценки коэффициентов α рассчитываются единственным образом – путем решения системы линейных уравнений. Через три точки наблюдения в трехмерном пространстве можно провести единственную плоскость определяемую параметрами (α0, α1, α2). Если же число наблюдений больше минимально необходимого n  m  1 , то уже нельзя подобрать линейную формулу, в точности удовлетворяющую всем наблюдениям. Возникает необходимость оптимизации, то есть выбора наилучшей формулы-приближения для имеющихся наблюдений. Положительная разность n  m  1 в этом случае будет представлять собой число статистических степеней свободы для множественной регрессионной модели. Обычно при оценке множественной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений по крайней мере в 3 раза превосходило число оцениваемых параметров. 40 3.2 Построение многофакторной модели Построение многофакторной линейной модели несколько отличается от построения модели простой регрессии. Если простая регрессия основывается на единственном влияющем факторе Х, то во множественной регрессии в первую очередь требуется определить те факторы, которые оказывают существенное влияние на состояние экономического показателя Y и при этом не перекрывают друг друга. Под перекрытием, как правило, понимают скрытые механизмы взаимовлияния факторов, когда один или несколько факторов определяют значительную долю в состоянии другого фактора. Такой фактор становиться малозначимым, а повлиявшие на его состояние другие факторы могут и вовсе утратить влияние на состояние экономического показателя Y. В процессе построения модели множественной линейной регрессии рассматриваются следующие основные этапы: 1. предварительный выбор факторов, которые по экономическим соображениям могут влиять на состояние показателя Y; 2. сбор статистического материала по вышеуказанным факторам Х и показателю Y; 3. первичное определение вектора неизвестных параметров α модели (3.1) по МНК; 4. оценка степени влияния каждого из факторов на состояние показателя Y; 5. оценка взаимного влияния факторов друг на друга; 6. выбор факторов, которые оказывают наибольшее влияние на экономический показатель, но не перекрывают друг друга; 7. переход к уточненной модели и определение вектора неизвестных параметров α по МНК; 8. дисперсионный анализ уточненной модели по степени адекватности статистическим данным и значимости параметров модели. Выбор факторов, которые могут быть включены в состав модели множественной регрессии, осуществляется на основании микро и макроэкономической теории, а сбор статистического материала осуществляется экономистом с помощью инструментов математической статистики. Задача определения неизвестных параметров модели (3.1) выполняется по МНК решением системы (1.17) по формуле (1.18), которая обеспечивает нахождение оценок А, как математического ожидания параметров α. Данный расчет не представляет никакой вычислительной сложности особенно в условиях применения вычислительной техники. Например, в электронных таблицах Excel имеется встроенная функция (в категории Статистические) – ЛИНЕЙН. Рассмотрим ее несколько подробнее. Функция ЛИНЕЙН электронных таблиц Excel предназначена для расчета параметров линейной регрессионной модели с неограниченным числом факторов и определения основных статистических критериев оценки как самих параметров, так и статистических критериев для оценивания модели. 41 В качестве аргументов функция ЛИНЕЙН использует:  вектор значений показателя Y;  матрицу значений, которые принимают факторы Х;  логическую единицу, позволяющую определить свободный член уравнения (3.1) – а0;  логическую единицу, указывающую на определение статистических критериев оценки. Функция ЛИНЕЙН реализует простые расчетные алгоритмы, состоящие из следующих модулей:  модуль МНК для определения параметров модели А по формуле (1.18);  модуль математической статистики для расчета среднеквадратического отклонения параметров модели σ(аj);  модуль дисперсионного анализа, обеспечивающий вывод следующих статистических критериев и показателей: R2 (формула 2.6), ESS, RSS и статистическая степень свободы (df) –прямым расчетом через определение векторов эмпирических значений показателя y и ошибок е, критерий Фишера F (формула 1.27) В результате на рабочем листе Excel появляется таблица результатов Таблица 3.1 Значения, возвращаемые функцией ЛИНЕЙН а2 а1 а0 аm … σ( аm) … R2 σ( е) F расч df RSS ESS σ( а2) σ( а1) σ( а0) Для оценки степени влияния каждого из факторов на состояние показателя Y используются стандартизованные значения математического ожидания параметров регрессии (аj*). Стандартизованные параметры регрессии показывают, на сколько стандартных отклонений изменится в среднем результат, если соответствующий фактор изменится на одно стандартное отклонение при неизменном среднем уровне других факторов. То есть стандартизованный параметр характеризует некоторую силу влияния фактора в отрыве от других факторов. Стандартизованная оценка параметра находится путем умножения расчетного значения параметра на отношение стандартного отклонения фактора к стандартному отклонению исследуемого экономического показателя. 42 a j  a j   x j   y (3.2) Большие значения стандартизованного параметра указывают на то, что фактор имеет высокую степень влияния на показатель Y. Например, для значения аj*=0,8 изменение фактора дает 80% прироста (снижение) показателя; соответственно 20% приходится на оставшиеся факторы. Однако стандартизованные параметры не дают в сумме 100%, так как рассматривают модель обособленно при отсутствии изменчивости любых других факторов. То есть факторы с наивысшими стандартизованными оценками параметров просто имеют большое влияние на показатель. Другим важным моментом в построении модели множественной регрессии выступают требования Гаусса-Маркова: 1) величина εi является случайной переменной; 2) математическое ожидание εi равно нулю: M  i   0 ; 3) отсутствует ковариация между факторами cov (xj, xk) = 0; 4) дисперсия εi постоянна; 5) значения εi независимы между собой; 6) значения εi статистически независимы со значениями xi. 3.3 Мультиколинеарность Если между факторами существует высокая корреляция (ковариация), то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми. Мультиколлинеарность (multicollinearity) –положение, при котором две или более независимых переменных , входящих в уравнение регрессии, являются сильно коррелированными. При этом коэффициенты регрессии становятся неустойчивыми к малым изменениям в данных. Понятие мультиколлинеарности используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах. При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица XТX особенная, так как содержит линейно зависимые векторы-столбцы, и еѐ определитель равен нулю, т.е. нарушается предпосылка регрессионного анализа, это приводит к невозможности решения соответствующей системы нормальных уравнений (1.16) и получения оценок параметров регрессионной модели по формуле (1.18). Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя 43 объясняющими переменными существует тесная корреляционная связь. Матрица XТX в этом случае является неособенной, но еѐ определитель очень мал. В то же время вектор оценок параметров А и его ковариционная матрица пропорциональны обратной матрице (XТX)–1, а значит, их элементы обратно пропорциональны величине определителя |XТX|. В результате получаются значительные среднеквадратические отклонения (стандартные ошибки) коэффициентов регрессии а0, а1,…, аm и оценка их значимости по tкритерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию. Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объѐма выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения. Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Тем не менее, имеются некоторые эвристические подходы по еѐ выявлению. Один из таких подходов заключается в анализе корреляционной матрицы между объясняющими переменными – факторами X1, X2, …, Xm и выявлении пар переменных, имеющих высокие парные корреляции (как правило, больше 0,8). Если такие переменные существуют, говорят о мультиколлинеарности между ними. Полезно также находить множественные коэффициенты детерминации между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента детерминации (обычно больше 0,6) также свидетельствует о мультиколлинеарности. Другой подход состоит в исследовании матрицы XТX. Если определитель матрицы XТX либо еѐ минимальное собственное значение λmin близки к нулю (например, одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности. О том же может свидетельствовать и значительное отклонение максимального собственного значения λmax матрицы XТX от еѐ минимального собственного значения λmin. Для устранения или уменьшения мультиколлинеарности используется ряд методов. Самый простой из них (но далеко не всегда возможный) состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной. Другой метод устранения или уменьшения мультиколлинеарности заключается в переходе от несмещѐнных оценок, определѐнных по методу 44 наименьших квадратов, к смещѐнным оценкам, обладающим, однако, меньшим рассеянием относительно оцениваемого параметра, т.е. меньшим математическим ожиданием квадрата отклонения оценки аj от параметра αj. Остановимся более подробно на оценке корреляционной матрицы между факторами Х. Следует отметить, что в условиях множественной регрессии следует учитывать связи не только между факторами, но и взаимосвязь факторов и показателя Y. Поэтому полная корреляционная матрица будет базироваться на полном наборе статистических данных (Рисунок 3.1). Корреляционная матрица Обратная корреляционная матрица j j Х1 Хj Хm Y Х1 Хj Хm Y i i Х1 1 ri j Х1 Rii Ri j … 1 … Rii Хi 1 Хi Rii Хm ri j 1 Хm Ri j Rii 1 Rii Y Y Рисунок 3.1 - Прямая и обратная корреляционные матрицы При изучении связи между несколькими случайными величинами X1, ..., Xn и показателем Y пользуются множественными и частными корреляционными отношениями и коэффициентам корреляции (последними в случае линейной связи). Основной характеристикой зависимости являются коэффициенты rij – простые коэффициенты корреляции (между Xi и Xj), в совокупности образующие корреляционную матрицу (rij) Мерой линейной корреляции в математической статистике между X1 и совокупностью всех остальных величин X1, ..., Xn, Y служит множественный коэффициент корреляции, который в двухфакторной модели (Х1, Х2 и Y, т.е. при n = 3) определяется формулой r 2  r 2  2  r12  r13  r23 (3.3) r12,3  12 13 1  r232 Если предполагается, что изменение величин X1 и X2 определяется в какой-то мере изменением остальных величин X3, ..., Xn, Y, то показателем линейной связи между X1 и X2 при исключении влияния X3, ..., Xn, Y является частный коэффициент корреляции. В условиях двухфакторной модели он может быть рассчитан по следующей формуле r12  r13  r23 r1, 23,n   (3.4) 1  r132   1  r232  45 При большом количестве факторов (n> 3) пользуются другой методикой расчета частных коэффициентов корреляции. Она заключается в следующем: − строят полную корреляционную матрицу (Рисунок 3.1); − находят обратную к ней (матрица R) любым доступным способом обращения матриц. Например, в электронных таблицах Excel можно использовать встроенную функцию МОБР; − из обратной корреляционной матрицы через диагональные элементы (Rii) рассчитывают частные коэффициенты корреляции по формуле  Ri j (3.5) ri , j 1,n   Rii  R jj Оценку частного коэффициента корреляции ri,j[1,n] , как правило, осуществляют с использованием критерия Стьюдента по формуле r  n2 (3.6) t  i , j 1,n  2 1  ri , j 1,n  Затем находят уровень значимости α для гипотезы Н0: отсутствие взаимосвязи между факторами Хi и Хj . Если уровень значимости α больше 5%, то ноль-гипотезу отклоняют и полагают, что между этими факторами существует взаимосвязь, то есть имеет место мультиколинеарность. 3.4 Уточнение и анализ модели Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям: − должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости); − не должны быть интеркоррелированы и, тем более, находиться в точной функциональной связи. С помощью стандартизованной оценки параметров модели можно выделить те факторы, которые оказывают наибольшее влияние на поведение показателя Y. Корреляционный анализ (через частные коэффициенты корреляции) указывает на скрытые взаимосвязи между факторами (перекрытие факторов). Экономическая целесообразность диктует условия выбора факторов, которые в итоге попадают в состав модели множественной регрессии. Отобрав только целесообразные и значимые (по степени влияния) факторы и отбросив малозначимые факторы из числа мультиколинеарных, 46 можно сформировать модель вида (3.1). Расчет параметров уточненной модели будет осуществляться по МНК. Оценка найденной модели выполняется с использованием инструментов дисперсионного анализа (критерии Фишера и Стьюдента). Однако встает вопрос: будет ли новая модель лучше начальной; будет ли она обладать достаточной прогностической силой? Вопрос о прогностической силе модели тесно связан с коэффициентом детерминации R2, который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, неучтенных в модели факторов, оценивается соответствующей остаточной дисперсией. Чем больше в составе модели факторов, тем выше коэффициент детерминации и меньше сумма квадрата остатков (ESS). Однако это не имеет ничего общего с прогностической силой модели. Поэтому переходят к нормированному коэффициенту детерминации, который скорректирован относительно числа факторов, принявших участи в модели n 1 R 2  1  1  R 2   nk 2 где R -коэффициент детерминации ,рассчитанный по формуле (2.6) Скорректированный коэффициент детерминации R 2 уже не имеет полной зависимости от критерия Фишера. Заметим, что существует формула пересчета коэффициента детерминации R 2 в критерий Фишера и наоборот. Напротив, скорректированный коэффициент R 2 является независимым показателем от остаточной дисперсии. То есть R 2 указывает на истинное значение прогностической силы модели. После дисперсионного анализа модели переходят к прогнозированию. Как известно, прогноз показателя Y может быть точечным и интервальным. Точечный прогноз для модели множественной регрессии ничем не отличается от аналогичного прогноза для простой регрессии (описан в теме 2). Что касается интервального прогноза, то он также основан на разбросе значений параметров регрессии около их математического ожидания аj. Однако, для того чтобы получить интервальный прогноз математического ожидания экономического показателя Y, следует перейти к дисперсии показателя:  1 T DY   MSE  x ПР   X T X   x ПР (3.8) где хПР – вектор прогнозных значений факторов, участвующих в модели. Используя критерий Стьюдента, можно выделить доверительный интервал разброса значений показателя Y, который будет не хуже некоторого заранее заданного уровня значимости α. Таким образом, формула по расчету разброса прогнозных значений показателя Y принимает вид: 1  Т y  t a  MSE  x ПР   X T X   x ПР 47 Следует дать некоторые пояснения по расчету дисперсии. Порядок расчета следующий: − вычисляют произведение матриц ХТХ и находят обратную матрицу к данной (ХТХ)–1 (ее размерность равна числу факторов, участвующих в модели плюс единица); − обратную матрицу факторов умножают на вектор-столбец 1 Т прогнозных значений  X T X   x ПР (получаем вектор-столбец, включающий элементы по числу факторов); − умножаем строку прогнозных значений факторов ( xПР ) на ранее найденный вектор-столбец (в итоге получаем скалярный результат); − умножаем этот скалярный результат на дисперсию ошибок  регрессии и получаем DY  . 3.5 Пример построения модели Возьмем исходные данные примера, представленные в источнике [6]. Здесь исследуется зависимость урожайности зерновых культур Y (ц/га) от ряда переменных, характеризующих различные факторы сельскохозяйственного производства, а именно: − Х1–число тракторов (приведенной мощности) на100га; − Х2–число зерноуборочных комбайнов на100га; − Х3–число орудий поверхностной обработки почвы на100га; − Х4–количество удобрений, расходуемых на гектар (т/га); − Х5–количество химических средств защиты растений, расходуемых на гектар(ц/га). Исходные данные для 20 сельскохозяйственных районов приведены в таблице 3.2. Таким образом, в данном примере мы располагаем пространственной выборкой объема n=20; число объясняющих переменных т=5. Предполагается линейная регрессия вида Y  a 0  a1  X 1  a 2  X 2  a 3  X 3  a 4  X 4  a 5  X 5   . (3.10) № Таблица 3.2 Исходные данные трактор комбайн орудия удобрения химикаты урожайность района X1 X2 X3 X4 X5 1 1,59 0,26 2,05 0,32 0,14 9,70 2 0,34 0,28 0,46 0,59 0,66 8,40 3 2,53 0,31 2,46 0,30 0,31 9,00 4 4,63 0,40 6,44 0,43 0,59 9,90 5 2,16 0,26 2,16 0,39 0,16 9,60 48 Y 6 2,16 0,30 2,69 0,32 0,17 8,60 7 0,68 0,29 0,73 0,42 0,23 12,50 8 0,35 0,26 0,42 0,21 0,08 7,60 9 0,52 0,24 0,49 0,20 0,08 6,90 10 3,42 0,31 3,02 1,37 0,73 13,50 11 1,78 0,30 3,19 0,73 0,17 9,70 12 2,40 0,32 3,30 0,25 0,14 10,70 13 9,36 0,40 11,51 0,39 0,38 12,10 14 1,72 0,28 2,26 0,82 0,17 9,70 15 0,59 0,29 0,60 0,13 0,35 7,00 16 0,28 0,26 0,30 0,09 0,15 7,20 17 1,64 0,29 1,44 0,20 0,08 8,20 18 0,09 0,22 0,05 0,43 0,20 8,40 19 0,08 0,25 0,03 0,73 0,20 13,10 20 1,36 0,26 0,17 0,99 0,42 8,70 Расчет параметров модели (3.10), выполненный в электронных таблицах Excel с помощью функции ЛИНЕЙН, дал следующие результаты (табл.3.3): Таблица 3.3 Результаты оценки исходной модели -2,933 4,475 0,110 15,542 -0,006 3,515 3,088 1,543 0,833 21,503 0,932 5,419 0,517 1,599 3,001 14 38,362 35,796 49  уравнение множественной регрессии Y  3,515  0,006  X 1  15.542  X 2  0.11  X 3  4.475  X 4  2,933  X 5  коэффициент детерминации R2 = 0,517;  расчетное значение критерия Фишера F = 3,001;  регрессионная сумма квадратов RSS = 38,362;  сумма квадратов ошибок регрессии ESS = 35,796. Дадим оценку адекватности модели статистическим данным. Находим с помощью встроенной функции электронных таблиц (FРАСП) интегральную оценку уровня значимости нулевой гипотезы: αРАСЧ = 0,048. Это меньше 5% порога, т.е. найденное уравнение адекватно статистическим данным. Проверим уровень значимости каждого из параметров регрессии по критерию Стьюдента, выдвинув гипотезу равенстве их нулю. Интегральная оценка уровня значимости гипотезы рассчитывается с помощью функции СТЬЮДРАСП (табл.3.4). Таблица 3.4 Оценка параметров модели t(а0) t (а1) t (а2) t (а3) t (а4) t (а5) 0,649 -0,007 0,723 0,132 2,899 -0,950 α0 α1 α2 0,527 0,995 0,482 α3 α4 α5 0,897 0,012 0,358 Оценка уровня значимости параметров уравнения регрессии показывает, что гипотеза о равенстве параметра нулю подтверждается практически для всех параметров, кроме а4. Иными словами, на этой стадии построения модели только Х4 – количество удобрений, расходуемых на гектар земли, – подтвердила свое право для включения в модель. В то же время найденное значение коэффициента детерминации между урожайностью зерновых культур Y и совокупностью пяти факторов сельскохозяйственного производства (R2 = 0,517) говорит за то, что можно продолжить изучение модели множественной регрессии. Выполним расчет стандартизованных значений математического ожидания параметров модели множественной линейной регрессии (табл.3.5). 50 Таблица 3.5 Стандартизованные значения параметров σ (у) σ (х1) σ (х2) σ (х3) σ (х4) σ (х5) 1,976 2,126 0,046 2,708 0,322 0,194 α1* α2* α3* α4* α5* -0,007 0,360 0,151 0,729 -0,289 Подсчитаем также стандартизованное значение коэффициента детерминации R 2  0,345 . Оно пригодится при сравнении исходной модели с другими моделями, в которых будет содержаться меньшее число факторов. Попытаемся понять причины невыразительности проявления влияния на показатель Y факторов Х1, …, Х5 и более внимательно проанализировать с этой целью как их содержательный смысл, так и возможное наличие мультиколинеарности. Действительно, налицо все признаки возможного наличия мультиколинеарности: с одной стороны – уравнение по критерию Фишера адекватно статистическим данным, с другой стороны – почти все параметры модели с высокой степенью вероятности могут оказаться равными нулю. Переходим к корреляционному анализу. Построим полную корреляционную матрицу (табл.3.6) и рассчитаем обратную к ней (табл.3.7). Таблица 3.6 Полная корреляционная матрица X1 X2 X3 X4 X5 Y X1 1 0,854 0,978 0,110 0,341 0,430 X2 0,854 1 0,882 0,027 0,460 0,374 X3 0,978 0,882 1 0,030 0,278 0,403 X4 0,110 0,027 0,030 1 0,571 0,577 X5 0,341 0,460 0,278 0,571 1 0,332 Y 0,430 0,374 0,403 0,577 0,332 1 51 Таблица 3.7 Обратная корреляционная матрица X1-X2 X1-X3 X1-X4 X1-X5 X2-X3 X2-X4 X2-X5 X3-X4 -0,222 0,926 0,118 0,251 0,520 -0,379 0,625 -0,049 -0,968 10,383 0,506 1,098 2,585 -1,739 3,397 -0,208 0,346 4,9⋅10–9 0,619 0,286 0,019 0,099 0,003 0,838 Анализ частных коэффициентов корреляции показал устойчивую взаимосвязь (наличие мультиколинеарности) между следующими переменными: − Х1и Х3,которые представляют сочетание факторов: трактора–орудия обработки (α< 5%); − Х2 и Х3,которые представляют сочетание факторов: комбайн–орудия обработки(α< 5%); − Х2 и Х5, которые представляют сочетание факторов: комбайн– химические вещества (α< 5%); − Х4 и Х5,которые представляют сочетание факторов: удобрения– химические вещества (α< 5%) Для устранения мультиколинеарности можно сократить число факторов. Из пары Х1 и Х3 можно удалить Х1 (трактора), т.к. его стандартизованный коэффициент регрессии крайне низок (а1*= –0,007), а орудия поверхностной обработки почвы всегда имеют больший приоритет перед использующим автотракторным средством. Пару Х2 и Х3 следует рассмотреть несколько позже, так как у обоих факторов достаточно высокий стандартизованный коэффициент (0,36 и 0,15 соответственно). В парах Х2 – Х5 и Х4 – Х5 следует удалить Х5 (химические средства защиты растений) по причине отрицательного значения параметра а5, что не соответствует главной концепции модели, согласно которой применение химических средств должно увеличивать урожайность, а не снижать ее. То же самое можно было бы сказать и про трактора (Х1), но для этой переменной коэффициент настолько мал, что его знак теряет смысл. После удаления переменных, которые могли отягощать задачу мультиколинеарностью, в ее составе остались факторы: − Х2–число зерноуборочных комбайнов на 100га; − Х3–число орудий поверхностной обработки почвы на 100га; − Х4–количество удобрений, расходуемых на гектар (т/га). Построение уточненной модели, в которую должны войти только весомые факторы без эффекта перекрытия (мультиколинеарности), будем осуществлять пошаговым наращиванием переменных. На первом шаге рассмотрим модель по единственной объясняющей переменной. Поскольку при k=1 коэффициент детерминации R2Х-Y совпадает с квадратом корреляции 52 обычного парного коэффициента корреляции (в нашем случае для 4-го фактора r(x4-y) = 0,577 по табл.3.6 или R2Х-Y = 0,333), то наиболее информативным фактором в классе однофакторных (парных) регрессионных моделей оказывается переменная Х4 – количество удобрений, расходуемых на гектар (т/га). Дополнительно подсчитываем нормированный коэффициент детерминации (3.7) R 2  0.29 . На втором шаге следует дополнить модель одной из переменных Х2 или Х3. Напомним, что между этими факторами существует мультиколинеарность, поэтому в состав модели может войти только одна переменная. В качестве критерия возьмем коэффициент детерминации, который определяется через коэффициент множественной корреляции по формуле (3.3): − для Х4 и Х2 получаем rY-X2,X4 = 0,68; R2Y-X2,X4 = 0,462; R 2  0.398 − для Х4 и Х3 получаем rY-X2,X4 = 0,694; R2Y-X2,X4 = 0,482 R 2  0,421 Отметим, что в обоих случаях модели окажутся лучше первоначальной модели, которая основывалась на пяти факторов, но скорректированный коэффициент детерминации составлял всего лишь. Здесь большей информативностью обладает сочетание Х4 и Х3. Добавляем в модель Х3, на этом пошаговый процесс построения модели заканчивается. Приступаем к построению скорректированной модели и оценке ее параметров. Таблица 3.9 Результаты оценки скорректированной модели      3,475 0,282 7,291 1,072 0,127 0,657 0,482 1,503 7,921 17 уравнение множественной регрессии Y  7,291  0,282  X 3  3,475  X 4 коэффициент детерминации R2 = 0,4827; расчетное значение критерия Фишера F = 7,921; регрессионная сумма квадратов RSS = 35,771; сумма квадратов ошибок регрессии ESS = 38,386. Дадим оценку адекватности модели статистическим данным. Находим с помощью встроенной функции электронных таблиц (FРАСП) интегральную оценку уровня значимости нулевой гипотезы: αРАСЧ = 0,0037. Это меньше 5% порога, т.е. найденное уравнение адекватно статистическим данным. 53 Проверим уровень значимости каждого из параметров регрессии по критерию Стьюдента, выдвинув гипотезу равенстве их нулю. Интегральная оценка уровня значимости гипотезы рассчитывается с помощью функции СТЬЮДРАСП (табл.3.10). Таблица 3.10 Оценка параметров модели а0 7,291 σ (а0) 0,657 t (а0) 11,101 α (а0) 3,3⋅10–9 (а0) 1,386 5,905 8,676 а3 0,282 σ (а3) 0,127 t (а3) 2,213 α (а3) 0,041 (а3) 0,269 0,013 0,551 а4 3,475 σ (а4) 1,072 t (а4) 3,241 α (а4) 0,005 (а4) 2,262 1,213 5,737 min max Все параметры значимо отличаются от нуля. На основании найденной модели дадим точечный и интервальный прогноз для следующих прогнозных значений переменных Х1, …, Х5: {2,9; 0,4; 3,6; 0,7; 0,3}. Подставив прогнозные значения в скорректированную модель, получаем точечный прогноз: Y  7,291  0,282  3,6  3,475  0,7  10,74 Интервальная оценка прогноза представлена на рисунке 3.2 (реализована формула 3.9). Рисунок 3.2 - Интервальная оценка прогноза Математическое ожидание урожайности зерновых культур Y (ц/га) при прогнозных значениях: числа орудий для поверхностной обработки почве на 100 га Х3 = 3,6 и количества удобрений, расходуемых на гектар (т/га), Х4 = 0,7, – составляет 10,74 ц/га. Интервал разброса прогнозных значений составляет: от 9,8 до 11,7 ц/га. Вопросы для самоконтроля Сформулируйте требования, предъявляемые к факторам для включения их в модель множественной регрессии. 54 К каким трудностям приводит мультиколинеарность факторов, включенных в модель; и как они могут быть разрешены? Назовите методы устранения мультиколинеарности факторов. Какие коэффициенты используются для оценки сравнительной силы воздействия факторов на результат? От чего зависит величина скорректированного коэффициента детерминации? Каково назначение частной корреляции при построении модели множественной регрессии? Сформулируйте основные требования к МНК при построении регрессионной модели. Составьте матрицу частных коэффициентов разного порядка для регрессионной модели с четырьмя факторами. Список рекомендуемой литературы: [3, 6, 9, 10]. 4 Модель нелинейной регрессии 4.1 Сущность нелинейной регрессии Многие экономические процессы наилучшим образом описываются нелинейными соотношениями, например нелинейными функциями спроса и производственными функциями. Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы b y a (4.1) x параболы второй степени y  a  b  x  c  x2 (4.2) и других. Различают два класса нелинейных регрессий:  регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;  регрессии, нелинейные по оцениваемым параметрам. Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции:  полиномы разных степеней (например, выражаемые формулой 4.2)  равносторонняя гипербола (4.1). К нелинейным регрессиям по оцениваемым параметрам относятся функции:  степенная y  a  x 2 ;  показательная y  a  b x ;  экспоненциальная y  exp(a  b  x) . Встает естественный вопрос о возможности использования МНК при расчете параметров нелинейной регрессии. Нелинейная по объясняющим 55 переменным регрессия может быть легко преобразована к линейному виду, что позволит без ущерба точности применить МНК. В параболе второй степени (4.2) заменим переменные: x  x1 , x 2  x2 и получим двухфакторное уравнение множественной регрессии y  a0  a1 x1  a2 x2 (4.3) Определив параметры по МНК (показано в теме 1), присвоим их соответствующим параметрам нелинейной модели: a0  a, a1  b, a2  c . Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез. Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка. Ограничения с использованием полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и соответственно менее однородна совокупность по результативному признаку. Парабола второй степени (4.2) целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, а форма связи часто заменяется другими формами нелинейной модели. Среди класса нелинейных функций, параметры которых без особых затруднений оцениваются МНК, следует назвать хорошо известную в эконометрике равностороннюю гиперболу (4.1). Классическим ее примером является кривая Филлипса 7 , характеризующая нелинейное соотношение между нормой безработицы Х и процентом прироста заработной платы Y. Английский экономист О.У. Филлипс1, анализируя данные более чем за 100-летний период, в 1958 году установил обратную зависимость процента прироста заработной платы от уровня безработицы. Для поиска параметров кривой Филлипса можно воспользоваться ⁄ МНК, так как обычная замена приводит к простой регрессии y  a  b  t . Анализ простой регрессии описан в теме 2. При b > 0 имеем обратную зависимость, которая при х → ∞ характеризуется нижней асимптотой, то есть минимальным предельным значением Y, оценкой которого служит параметр а. Если параметр а может оказаться равным нулю (на определенном уровне значимости α), то по нему 7 Олбан Уильям Филлипс (1914–1975г.г.) – экономист, родился в Новой Зеландии. 56 соответственно можно определить тот уровень безработицы, при котором заработная плата оказывается стабильной и темп ее прироста равен нулю. При b < 0 имеем медленно повышающуюся функцию с верхней асимптотой а. Примером может служить взаимосвязь доли расходов на товары длительного пользования и общих сумм расходов (или доходов). Математическое описание подобного рода взаимосвязи получило название кривых Энгеля. В 1857 году Э. Энгель на основе исследования семейных расходов сформулировал закономерность – с ростом дохода доля денежных средств, расходуемых на продовольствие уменьшается. С другой стороны с увеличением дохода доля средств, расходуемых на непродовольственные товары будет возрастать. Однако это увеличение не беспредельно, т.к. сумма всех долей расхода не может превышать 100%, а на отдельные непродовольственные товары этот предел может характеризоваться величиной параметра а для уравнения вида (4.1). Вместе с тем равносторонняя гипербола (4.1) не является единственно возможной функцией для описания кривой Эйнгеля. В 1943 г. Уоркинг и 1964 г. Лизер для этих целей использовали полулогарифмическую кривую (4.4) y  a  b  ln x Заменив ln x на t, опять получим линейное уравнение y  a  b  t . Данная функция, как и предыдущая линейна по параметрам и нелинейная по объясняющей переменной х. Оценка параметров а и b может быть найдена по МНК. Возможны и иные, схожие по своей нелинейности, модели. Например, y a b x. (4.5) Уравнения с квадратными корнями нашли свое применение в исследовании урожайности и трудоемкости сельскохозяйственного производства. 4.2 Функции, нелинейные по оцениваемым параметрам Иначе обстоит дело с регрессией, нелинейной по оцениваемым параметрам. Данный класс моделей подразделяется на два типа:  нелинейные модели, которые внутренне линейны;  нелинейные модели, которые внутренне также нелинейные. Если нелинейная модель внутренне линейна, то она с помощью соответствующих преобразований может быть приведена к линейному виду. Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции. Рассмотрим примеры нелинейных функций первого типа.  степенная функция y  a  xb (4.6) нелинейная относительно оцениваемых параметров, т.к. включает параметры а и b неаддитивно. Однако ее можно считать внутренне линейной: логарифмирование данного уравнения по основанию е приводит ее к линейному виду 57 ln y  ln a  b  ln x .  (4.7) показательная функция (4.8) y  a  bx также может быть подвергнута натуральному логарифмированию: (4.9) ln y  ln a  ln b  x  экспоненциальная функция (4.10) y  exp(a  b  x) в результате, логарифмирование дает следующий результат (4.11) ln y  a  b  x Во всех вышеуказанных случаях для линеаризации использовалось логарифмирование по основанию е. Однако найденная линейная форма может оказаться нелинейной по переменной, хотя она линейна по параметрам. Например, модель (4.7) содержит логарифмы Y и Х. Следует выполнить замену: ln y = z, ln x = t; а также представить ln а = с. Получим уже полностью линейную форму: z=c+b⋅t. К такой форме для оценки ее параметров можно применить МНК. Теперь перейдем к внутренне нелинейным моделям. Например, это модели вида: 1   y  a  b  x c или y  a  1  (4.12) b   1 x  Если модель внутренне нелинейная по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнений и особенностей применяемого итеративного подхода. Естественная сложность выполняемых расчетов может быть преодолена за счет использования готовых программ, которые, как правило, включаются в состав статистических прикладных пакетов. В этих прикладных пакетах для нахождения оптимальных параметров нелинейных регрессионных моделей используются метод сопряжѐнных градиентов, метод Ньютона-Гаусса или алгоритм ЛевенбергаМарквардта. Метод сопряжѐнных градиентов – итерационный метод для безусловной оптимизации в многомерном пространстве. Основным достоинством метода является то, что он решает квадратичную задачу оптимизации за конечное число шагов. Метод Ньютона-Гаусса – это итерационный численный метод нахождения решения задачи наименьших квадратов. Является разновидностью метода Ньютона. В общих чертах, этот метод использует матрицу Якобиана J производных первого порядка функции F для нахождения вектора значений параметра, который минимизирует остаточные 58 суммы квадратов (сумму квадратных отклонений предсказанных значений от наблюдаемых). Усовершенствованная и полезная версия метода – это так называемый метод Левенберга-Марквардта. Заметим, что метод сопряженных градиентов присутствует в электронных таблицах Excel, как математический инструмент «Поиска решений». Следовательно, использование «Поиска решений» для оценки параметров нелинейной регрессии может дать эффективный результат в целом ряде случаев. 4.3 Коэффициент эластичности Коэффициент эластичности характеризует относительное изменение одного признака при единичном относительном изменении другого. Среди нелинейных функций, которые могут быть приведены к линейному виду, в эконометрических исследованиях очень широко используется степенная функция (4.6). Связано это с тем, что параметр b в ней имеет четкое экономическое истолкование. Он является коэффициентом эластичности. Это значит, что величина коэффициента b показывает, на сколько процентов изменится в среднем результат, если фактор измениться на 1%. Рассмотрим формулу расчета коэффициента эластичности dy x Кэ   , (4.13) dx y которая представляет собой связь производной исследуемой функции со значением, которое может принимать фактор Х, деленное на эмпирическое значение исследуемой функции. Расчетная формула коэффициента эластичности, как правило, преобразуется путем аналитических преобразований, связанных с уменьшением числа ее составляющих. Для степенной функции y  a  x b первая производная представляет b собой y x'  a  x b  . Соответственно коэффициент эластичности окажется x равным: x a  b  xb b b Кэ  a  x     b. (4.14) x a  xb a  xb Коэффициент эластичности, естественно, можно определить и при наличии других форм связи, но только для степенной функции он представляет собой величину, равную параметру b. В других функциях коэффициент эластичности зависит от значений фактора х. Так для линейной функции y  a  b  x первая производная и эластичность следующие: x . (4.15) y x'  b Кэ  b  a b x 59 В силу того, что коэффициент эластичности для линейной функции не является величиной постоянной, а зависит от соответствующего значения х, то обычно рассчитывается средний показатель эластичности по формуле x Кэ  b  . (4.16) y Поскольку коэффициенты эластичности представляют собой экономический интерес, а виды моделей не ограничиваются только степенной функцией, приведем формулы расчета коэффициентов эластичности для наиболее распространенных типов уравнений регрессии (табл.4.1). Таблица 4.1 Коэффициенты эластичности для ряда математических функций Коэффициент Первая производная, y x' Вид функции, Y эластичности bx Линейная Кэ  . b y  a b x a bx Парабола ( x  2  c  x)  x Кэ  x+2·c·x 2 y  a b x c x a  b  x  c  x2 Гипербола b b Кэ   2 b y a axb x x Показательная y  a bx Степенная y  a x b a  xb  b x Полулогарифмическая b x Логистическая a  b  c  exp(c  x) 1  b  exp(c  x)2 y  a  b  ln x y a 1  b  exp( c  x) Обратная 1 y a bx Кэ  x  ln b ln b  a  b x b a  b  x 2 Кэ = b Кэ  Кэ  b a  b  ln x cx 1  exp(c  x)  1 b Кэ  b x a b x Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах. Например, на сколько процентов изменится урожайность пшеницы, если качество почвы, измеряемое в баллах, изменится на 1%. В такой ситуации степенная функция, даже если она оказывается наилучшей по формальным соображениям (исходя из наименьшего значения 60 остаточной вариации), не может быть экономически интерпретирована. Например, изучая соотношение ставок межбанковского кредита Y (в процентах годовых) и срока его представления Х (в днях), было получено уравнение регрессии вида y  11,68  x 0, 35 с очень высоким коэффициентом детерминации (0,98). Коэффициент эластичности Кэ = 35% лишен смысла, т.к. срок предоставления кредита не измеряется в процентах. Значительно больший интерес для этой зависимости может представлять линейная регрессия вида y  21,1  0,403  x , имеющая более низкий коэффициент детерминации (0,85). Коэффициент регрессии 0,403 показывает в процентных пунктах изменение ставок кредита с увеличением срока их предоставления на 1 день. 4.4 Соответствие линейной модели В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Если в линейной модели и моделях, нелинейных попеременным, 2 при оценке параметров исходят из критерия   y  yˆ   min, то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к оцениваемым параметрам, и не к исходным данным показателя Y (результативного признака), а к их преобразованным величинам (например, в степенной функции – ln x или в обратной функции - 1 y ). Так, в степенной функции y  a  x b (4.6) МНК применяется к преобразованному уравнению (4.7). Или для ln y  ln a  b  ln x экспоненциальной функции y  exp(a  b  x) преобразования приводят к виду ln y  a  b  x . Это значит, что оценка параметров основывается на минимизации суммы квадратов отклонений в логарифмах  ln y  ln yˆ  2  min (4.17) Вследствие этого оценка параметров для линеаризуемых функций по МНК оказывается несколько смещенной. Возьмем, например, показательную x кривую y  a  b . Прологарифмировав, имеем ln y  ln a  ln b  x . Применяя МНК, минимизируем  ln y  ln yˆ   min . При среднем значении x  0 параметр а представляет собой среднюю геометрическую из значений переменной Y. Между тем в линейной зависимости при x  0 параметр а равен средней арифметической. Поскольку средняя геометрическая всегда меньше средней арифметической, то и оценки параметров, полученные из 2 минимизации  ln y  ln yˆ  , будут несколько смещены (занижены). Практическое применение экспоненты возможно, если результативный признак не имеет отрицательных значений. Поэтому, если исследуется, например, финансовый результат деятельности предприятий, то данная функция не может быть использована. 2 61 С точки зрения математического моделирования качество нелинейной зависимости, как и любой другой, оценивается с помощью коэффициента детерминации. В условиях линеаризации, когда преобразованию подвергается только фактор Х, имеет место точное совпадение коэффициента детерминации нелинейной зависимости с квадратом корреляции аналогичной линейной зависимости. Обратимся для примера к равносторонней гиперболе (4.1). Заменив 1 на z, имеем линейное уравнение y  a  b  z , для которого может быть x определен линейный коэффициент корреляции ryz  b  выражение а квадрат, y  y   z . Возводя данное y  z2 z  z 2  2 r  b  2 , где  z  и n y получим 2 yz 2 2 2 y n . Преобразовывая далее, придем к следующему выражению: b 2   z  z  r  . 2 y  y 2 2 yz (4.18) Как было показано ранее b 2    z  z     yˆ  y  и соответственно: 2   yˆ  y   y  y 2 2 2 yz r (4.19) 2 то есть приходим к формуле коэффициента детерминации (2.6). Аналогичное положение имеем и при полулогарифмической кривой y  a  b  ln x , так как в ней, как и в предыдущем случае, преобразования в линейный вид (z=lnx) не затрагивает зависимую переменную, и требование 2 МНК   y  yˆ   min выполнимо. Таким образом, не смотря на то, что коэффициент корреляции определяется не для у и х, а для у и ln х, его величина позволяет определить факторную и остаточную сумму квадратов для признака у. Соответственно квадрат линейного коэффициента корреляции и коэффициент детерминации совпадают. Иначе обстоит дело, когда преобразования уравнения в линейную форму связаны с зависимой переменной. В этом случае линейный коэффициент корреляции по преобразованным значениям признаков дает лишь приближенную оценку тесноты связи и численно не совпадает с детерминацией. Так, для степенной функции (4.6) после парохода к логарифмически линейному уравнению (4.7) может быть найден линейный коэффициент корреляции не для фактических значений переменных х и у, а для их логарифмов. Соответственно квадрат его значения будет характеризовать отношение факторной суммы квадратов отклонений к общей, но не для у, а для его логарифмов: 62  2 ln y ln x r (ln y  ln y )   (ln y  ln y) 2 2 (4.20) Между тем при расчете коэффициента детерминации используются суммы квадратов отклонений признака у, а не их логарифмов. С этой целью определяются теоретические значения результативного признака. Детерминация определяется по формуле:  ( y  anti log(ln y)) 2  2 (4.21) R yx   ( y  y) 2 2 В знаменателе расчета R xy учувствует общая сумма квадратов отклонений фактических значений у от их средней величины, а в расчете rln2 y ln x учувствует  (ln y  ln y) 2 Соответственно различаются и числители рассматриваемых показателей. Вследствие близости результатов и простоты расчета для характеристики тесноты связи по нелинейным функциям широко используется линейный коэффициент корреляции. Несмотря на близость значений R yx2 и rln2 y ln x в нелинейных функциях с преобразованием значения признака у, следует помнить, что если при линейной зависимости признаков один и тот же коэффициент корреляции характеризует регрессию как   y x  a  b  x , так и x y  A  B  y , так как ryx  rxy , то при криволинейной зависимости Ryx для функции y = f (x) не равен Rxy для регрессии x = f (y) . Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то R2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R2 для нелинейных связей называют индексом детерминации. Индекс детерминации R yx2 можно сравнивать с коэффициентом 2 детерминации ryx для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина 2 коэффициента детерминации ryx меньше индекса детерминации R yx2 . Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. 2 2 Практически если величина ( R yx  ryx ) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае 2 проводится оценка существенности различия R yx , вычисленным по одним и тем же исходным данным, через t-критерий Стьюдента: Ryx2  ryx2 t m R r 63 (4.22) где m R r - ошибка разности между R yx2 и ryx2 , определяемая по формуле: ( R 2  r 2 )  ( R 2  r 2 ) 2  (2  ( R 2  r 2 )) (4.23) n2 Если уровень значимости по критерию Стьюдента α < 5%, то различия между рассматриваемыми показателями корреляции существенны и замена нелинейной регрессии линейной функцией невозможна. m R r  2  4.5 Примеры моделирования Рассмотрим ряд примеров моделирования нелинейной регрессии. Пример 1. Рассмотрим модель Энгеля о потреблении товаров. Собраны статистические данные за 10 семей по ежегодному потреблению бананов Y (кг) и доходах на одного члена семьи Х (тыс. руб.). Данные представлены в таблице 4.2. Таблица 4.2 Статистические данные о доходах и потреблении № семьи 1 2 3 4 5 6 7 8 9 10 Доход на 1 чел. (тыс. руб.) X 7,9 9,4 11,2 12,2 13,2 18,7 19,7 21,4 23,4 27,6 Потребление бананов (кг) Y 1,93 7,13 8,78 7,33 10,09 10,42 11,89 11,89 10,79 12,08 Для описания кривой Энгеля может использоваться равносторонняя гипербола b ya . x Такая регрессия нелинейная относительно включенных в анализ объясняющих переменных, но линейная по оцениваемым параметрам. При 1 линеаризации следует выполнить замену  z . Переходим к линейной x зависимости y  a  b  z После расчета столбца со значениями z в электронных таблицах Excel используем функцию ЛИНЕЙН (аргументы: у и z ). Результат представлен на рисунке 4.1. 96,8 3 3 y  16,107  Уравнение кривой имеет вид . Оно имеет x достаточно высокое качество R2 = 0,863, а его параметры значимо отличаются от нуля, т.к. уровень значимости гораздо меньше 5%. Коэффициент b <0, что свидетельствует о повышении уровня потребления с ростом доходов. Предельный уровень потребления при этом составляет а =16,1 кг. Так же подтверждается вывод о снижении доли дохода, задействованного в потреблении (снижение с 4,1% до 2,2%). Расчет эластичности потребительского спроса смысла не имеет. 64 Рисунок 4.1 - Расчет кривой Энгеля Пример 2. Рассмотрим рынок недвижимости, а именно жилья в крупном городе. Все жилье условно разделено на 12 категорий с точки зрения района, этажности, года постройки и так далее. Каждой категории соответствует своя средняя цена квадратного метра (тыс. долларов США) и количество предложений по общей площади всех квартир (тыс. кв.м). Данные представлены в таблице 4.3. Таблица 4.3 Статистические данные по цене товара и предложению Цена за2 1 м X 0,60 0,65 0,70 0,85 0,90 1,00 1,05 1,20 1,50 1,60 1,65 1,80 (тыс. $) Площ адь (тыс. Y 69,0 58,0 62,8 70,0 68,8 94,0 76,5 95,2 218,0 185,0 215,0 270,0 кв. м) Одним из наиболее приемлемых вариантов представления «кривой предложения» является показательная функция вида y  a  b x . Данная модель является нелинейной не только по параметрам, но и по 65 переменным. Проводим линеаризацию методом логарифмирования и получаем функцию ln y  ln a  ln b  x , которая внутренне может быть преобразована в линейную модель. Для этого выполним замены: ln y = z , ln a = c и ln b = d . Получили линейную модель вида: z  c  d  x . В Excel с помощью функции ЛИНЕЙН определяем параметры линейной модели. Получаем следующий результат (Рисунок 4.2) z  2,787  2,47  x . Проводим обратные преобразования: a = exp(c)=exp(2,787) = 16,227; b= exp(2,47) =11,817 . Соответственно получили кривую на рынке недвижимости: y  16,227 11,817 x (4.24) Оценим данное уравнение связи с помощью индекса детерминации R  0,973 , обозначенного в функции ЛИНЕЙН. Достаточно высокое значение индекса детерминации свидетельствует о том, что кривая предложений проходит очень близко от статистических точек. Однако прямая роста числа предложений также может проходить вблизи исходных данных. Следует оценить возможность замены кривой предложений ее прямолинейным аналогом, выдвинув гипотезу об их равенстве. Можно подсчитать, что коэффициент парной линейной корреляции составляет rxy  0,91 , тогда квадрат корреляции или линейный коэффициент 2 yx детерминации ryx2  0,828 . Сравним индекс детерминации с квадратом корреляции путем подсчета ошибки разности (формула 4.23) - m R r  0,062 . По формуле 4.22 определяем t-критерий Стьюдента t  2,311 . Отсюда уровень значимости для гипотезы о полном соответствии кривой предложения ее прямолинейному аналогу составляет α=3,9%. Отвергаем гипотезу о линейной зависимости (т.к. α <5%) и делаем вывод о полном соответствии кривой потребительского спроса, представленную нелинейным выражением (4.2), набору статистических данных. 66 Р Рисунок 4.2 - Расчет кривой предложения Доказав значимость кривой, переходим к расчету коэффициента эластичности (формула показана в табл.4.1). Среднее значение коэффициента эластичности составляет Кэ = 2,85, что свидетельствует о долгосрочности обязательств поставщиков на рынке недвижимости (жилья). Пример 3. Рассмотрим пример, связанный с законом убывающей эффективности эволюционного совершенствования систем. Закон отражает развитие систем по так называемым S-образным кривым, акцентируя внимание на логистическом участке кривой. Когда технологические и эволюционные изменения проникают повсюду, дальнейшее их движение принимает эволюционный характер, а отдача от них все больше приближается к своему пределу. Со временем каждое последующее поколение основных средств, каждая последующая модель начинают приносить все меньший прирост производительности, а затраты на их внедрение если не возрастают, то и не уменьшаются. В этом заключается некий технологический предел, а именно: всякое принципиально новое направление техники не беспредельно, не может дать больше того, что в нем заключено (генетический подход). 67 Затраты на модернизацию производства окупаются за счет увеличения дохода (прибыли) предприятия. При этом логистическая кривая описывается по следующему закону: a y , (4.25) 1  b  exp(c  x) где а – предел возможного прироста; b – запаздывание отдачи от капиталовложений (b > 0); с – относительная скорость прироста (так как предел относительной величины составляет 100%, то exp(c  x)  1  c  0 ). Функция (4.3) внутренне нелинейная по параметрам и переменным, следовательно, ее линеаризация весьма затруднена. Для оценки параметров, как правило, используются итеративные процедуры, например метод Левенберга-Марквардта. Именно этот метод использует большинство прикладных статистических программ. В электронных таблицах Excel нет данного метода. Однако есть другой метод – квази-Ньютоновский, который положен в основу работы подпрограммы «Поиск решения». Это более простой метод, но вполне пригодный для функций вида (4.25). Попробуем воспользоваться такой возможностью и рассчитать параметры логистической кривой для следующих данных (табл.4.4) Таблица 4.4 Затраты на внедрение, млн. руб. Х 0,1 Увеличение доходов, Y 1,7 % Статистические данные примера 3. 0,5 0,7 1,0 1,3 1,5 1,7 2,0 2,5 2,7 3,2 6,3 12,1 12,1 14,8 17,4 17,5 18,3 19,2 Вносим исходные данные на рабочий лист электронных таблиц (Рисунок 4.3). В отдельных ячейках листа запишем начальные (предполагаемые) значения параметров:  параметр а = 30%. Предполагается, что ожидаемый предельный прирост доходности производства окажется не хуже 30% (оптимистическая оценка);  параметр b = 0. Запаздывание отсутствует; денежные средства, поступающие на модернизацию производства, начинают работать практически мгновенно;  параметр с = –5. Высокая скорость роста по увеличению доходности. По вышеуказанным параметрам строим ряд эмпирических значений y и ошибок регрессии   y  y . Также подсчитываем сумму квадратов ошибок регрессии   i2 , как основной критерий оптимизации. 68 Рисунок 4.3 - Исходные данные примера 3 Рисунок 4.4 - Заполненное окно «Поиска решения» В диалоговом окне «Поиска решения» (Рисунок 4.4) указываем следующие данные:  целевая ячейка –   i2 сумма квадратов ошибок;  направление экстремума – минимум;  изменяемые ячейки – параметры логистической модели а, b и с;  ограничения: • сумма ошибок равна нулю ∑ε = 0 ; • параметры а и b – положительные числа;  параметры – метод Ньютона;  оценки – линейные. Результат работы «Поиска решения» показан на рисунке 4.5. Получена регрессионная модель вида: 69 18,767 . 1  13,523  exp(2,739  x) Предельное повышение доходов возможно в пределах 18,77%. Максимальный темп прироста, соответствующий центральной части логистической кривой, составляет exp(−2,739) = 6,5%. Пределом затрат на модернизацию оборудования можно считать сумму в 2,0 млн. руб. y Рисунок 4.5 - Расчет логистической кривой Следует отметить достаточно высокое качество решения логистической регрессии в электронных таблицах Excel. Например, эта же модель, решенная с помощью прикладного программного пакета SPSS, имеет вид 18,802 y . 1  13,386  exp(2,732  x) Если принять это решение за истинное, то относительная погрешность в Excel составляет 0,05%. Вопросы для самоконтроля 1. Запишите все виды моделей, нелинейных относительно включаемых переменных. 70 2. Запишите все модели, нелинейные относительно оцениваемых параметров. 3. Какой нелинейной функцией может быть заменена парабола второй степени, если не наблюдается смена направленности связи признаков? 4. В чем отличие применения МНК к моделям, нелинейным относительно включаемых переменных и оцениваемых параметров? 5. Как определяются коэффициенты эластичности для разных типов регрессионных уравнений? 6. Назовите показатели корреляции, используемые при нелинейных соотношениях рассматриваемых признаков. 7. Опишите порядок и последовательность возможной линеаризации. 8. Дайте оценку эффективности использования электронных таблиц Excel для расчета нелинейной регрессии. Список рекомендуемой литературы: [1, 2, 5, 8, 11] 5 Производственная функция 5.1 Производственная функция Кобба-Дугласа Макроэкономическая производственная функция – это статистически значимая связь между совокупным выпуском (доходом) и объемами используемых ресурсов. Под ресурсами обычно понимается капитал К (фактически использованный объем капитала) и труд L (численность занятых людей на производстве или отработанное ими время). В качестве меры выпуска Y рассматривается валовой внутренний продукт (ВВП) или национальный доход. Необходимо оценить зависимость Y = f (K, L). Также может подлежать оценке зависимость между темпами прироста величин Y = f( K, L). Это выражение называется производственной функцией в темповой записи. В качестве переменных в производственной функции могут быть рассмотрены три типа величин:  абсолютные (объемные) показатели: выпуск Y, капитал K и труд L;  абсолютные приросты:   t  t 1 ;    t   t 1 ; L  Lt  Lt 1  темпы прироста: yt   t t L ; kt  ; Lt  t . t 1 Lt 1 K t 1 Производственная функция может также включать описание технологического процесса, как функцию времени А(t). Технологический процесс влияет либо на эффективность отдельного ресурса (в этом случае выпуск растет при фиксированном физическом объеме данного фактора), либо на совокупный выпуск. Обычно предполагается наличие следующих свойств производственной функции: − выпуск растет при росте затрат каждого фактора; 71 − предельная производительность каждого фактора убывает; − если один из факторов отсутствует, то выпуск равен нулю. Одной из самых распространенных зависимостей между выпуском продукции, трудом и капиталом считается функция Кобба-Дугласа. Впервые была предложена Кнутом Уикселлом8. Позже в 1928 году функция проверена на статистических данных Чарльзом Коббом9 и Полом Ду-гласом10 в работе «Теория производства». В этой статье была предпринята попытка эмпирическим путем определить влияние затрачиваемого капитала и труда на объем выпускаемой продукции в обрабатывающей промышленности США. Общий вид функции: (5.1)        L . Данная функция удовлетворяет всем ранее перечисленным условиям, если 0 α  1, 0  β 1, A  0 . Функция Кобба-Дугласа может быть оценена с помощью линейной или нелинейной регрессии. Для ее оценки с помощью модели множественной линейной регрессии необходимо прологарифмировать ее левую и правую части: (5.2) ln   ln     ln K    ln L По рядам данных Y, K, L рассчитываются ряды их логарифмов, и для них оценивается уравнение линейной регрессии. При этом обычно предполагается, что ошибки в первоначальной формуле (5.1) обладают такими свойствами, что в преобразованном виде (5.2) они сохраняют свойства, необходимые для оценивания линейной регрессионной модели. Функция Кобба-Дугласа однородна со степенью однородности α  β . Это означает, что при росте затрат каждого из факторов в λ раз выпуск возрастает в λα β раз. Рассмотрим совокупное представление параметров: − если α  β   1, то функция имеет возрастающую отдачу от масштаба; − если α  β   1, то функция имеет убывающую отдачу от масштаба; − если α  β   1, то функция является линейно однородной и демонстрирует постоянную отдачу при изменении масштабов производства. Кнут Уиксел (1851–1926г.г.) – основатель шведской экономической школы Чарльз Кобб – математик в Амхерст Колледж (США, штат Массачусетс). 10 Пол Дуглас – экономист Чикагского университета. 8 9 72 макроэкономическом анализе очень важны эластичности выпуска по труду и капиталу. Такая эластичность показывает процентное изменение выпуска, вызванное изменением затрат соответствующего фактора на 1%. Эластичности для функции Кобба-Дугласа постоянны и равны параметрам регрессии α и β. 5.2 Использование производственных функций в экономическом анализе Производственные функции могут использоваться для анализа вклада факторов производства в общий рост выпуска. Продемонстрируем метод оценки такого вклада: как увеличение затрат капитала (К) и труда ( L), а также уровня технологий (А), – влияют на изменение выпуска Y. Пусть линейно-однородная производственная функция имеет вид (5.1). Предположим постоянную отдачу от масштаба (α + β )= 1, поскольку иначе трудно разделить эффект технического прогресса и экономию от масштабов производства. При этом предположении экономия от масштабов производства принимает одну из форм технического прогресса. В соответствии с формулой полного дифференциала, изменение выпуска может быть приближенно записано следующим образом: β (5.3) ΔΥ  Κ α  L  ΔΑ  MPK  ΔΚ  MPL  ΔL dΥ – предельная производительность капитала, dΚ dΥ MPL  – предельная производительность труда. dL где MPK  Разделив обе части уравнения (5.3) на Y = A ⋅ K α ⋅ Lβ , получаем:   MPK MPL (5.4)       L.     Выражение (5.4) может быть преобразовано путем умножения и деления второго слагаемого в павой части на К, а третьего - на L:    MPK    MPL  L     L            L (5.5) Выражения в скобках являются эластичностями выпуска по труду и капиталу. Пусть ω – ставка реальной заработной платы, а r – реальная стоимость аренды единицы капитала. В рыночной экономике предельная отдача каждого фактора должна равняться доходу на единицу этого фактора. 73 Это означает, что MPL ⋅ p  ω и MPK ⋅ p  r , где р – цена единицы выпуска. . Следовательно, после умножения обеих частей этих двух равенств на Y/K или Y/L следовательно получаем : L rK  MPL   MPL  (5.6) ; . L  p      p          L r  или eL p  ; eK  p  .     L r  Здесь выражения в правой части и являются долями труда и   капитала в совокупном доходе. Для линейно-однородных функций верна теорема Эйлера11, указывающая, что имеет место следующее равенство: MPK ⋅ K  MPL ⋅ L  Y . Следовательно, деля обе части на Y , получаем e  e L  1.  L r  Сумма долей факторов в доходе также равна единице + =1.   Отсюда р = 1, т.е. доли факторов в доходе равны эластичности выпуска по факторам Обозначив долю капитала в доходе как θ и долю труда в доходе как 1 − θ , получаем    L (5.7)     1     .    L В левой части уравнения (5.7) стоит темп прироста выпуска. Слагаемые правой части показывают соответственно вклад технического прогресса и прироста капитала и труда в этот темп. Вклады приращений труда и капитала равняются произведению темпов их прироста и их долей в совокупном  доходе. Слагаемое является темпом технологического процесса, или  темпом прироста совокупной производительности факторов. В линейно-однородной производственной функции Кобба-Дугласа параметры α и (1 – α) являются эластичностями выпуска по капиталу и труду. Следовательно, если для рыночной экономики оценена статистически значимая производственная функция Кобба-Дугласа, то можно считать, что θ = α, то есть использовать α и (1 – α) для оценки долей капитала и труда в совокупном доходе. Наоборот, если известны доли θ и 1 − θ , то они могут 11 Леонард Эйлер (1707–1783г.г.) – немецкий математик, внесший значительный вклад в развитие математики, а также механики, физики и астрономии. Долгое время работал в России 74 быть использованы как приближенные значения параметров α и (1 – α) в функции Кобба-Дугласа. Если значения α и (1 – α) известны, то с помощью модели линейной регрессии можно оценить единственный оставшийся параметр – темп технического прогресса Функция Кобба-Дугласа может быть оценена и для централизованно планируемой экономики, однако в этом случае эластичности α и (1 – α) могут отклоняться от долей капитала и труде в доходе. Такое отклонение указывает на неэффективность распределения ресурсов и необходимость их перераспределения. Первая оценка производственной функции, сделанная Коббом и Дугласом для американской промышленности за 1899 – 1922 г.г., дала для функции вида (5.1) следующий результат: а = 0,25 (стандартная ошибка 0,05), b = 0,73 (стандартная ошибка 0,12), где а – оценка параметра α, b – оценка параметра β. Если условие α  β   1 включено заранее, то оценка а = 0,27. Средняя доля капитала в совокупном доходе за 1909 – 1918 г.г. оценена как 0,26. Это соответствие результатов друг другу подтверждает теорию предельной производительности и применимость ее в случае производственной функции Кобба-Дугласа. Доли капитала и труда весьма стабильны для экономики США; в 2003 году они оказались примерно на том же уровне: доля капитала составила 26,5% от внутреннего дохода. В менее развитых странах доля капитала обычно выше: например, для стран Латинской Америки ее оценки составляют 0,40 – 0,55. Использование производственной функции КоббаДугласа является одним из возможных способов оценки и анализа этих долей. Оценки параметров функции Кобба-Дугласа не очень стабильны; для некоторых периодов и по некоторым данным значимых оценок не получается вообще. Иногда оцененные эластичности выпуска отклоняются от долей капитала и труда в доходе по причине неполного соответствия реального взаимодействия капитала и труда предпосылкам производственной модели. 5.3 Производственная функция CES Как было отмечено в предыдущем вопросе, производственная функция Кобба-Дугласа в некоторых случаях не соответствует реальным макроэкономическим данным, то есть необходима функция более общего типа. Наиболее известным ее обобщением является функция с постоянной эластичностью замещения (Constant Elasticity of Substitution или CES). 75 Эластичность замещения σ является мерой кривизны линий уровня (изоквант) производственной функции (точнее, такой мерой является 1/σ). Эластичность замещения труда капиталом  LK   L d ln K (5.8)  dY  dL  d ln   dY   dK  Показывает процентное изменение капиталовооруженности труда K L, вызванное изменением на1% предельной нормы замены труда капиталом. dY dK dL . MSRKL    (5.9) dY dL dK Если построить график некоторой изокванты (линии фиксированного уровня выпуска) производственной функции на плоскости (Рисунок 5.1) и пометить ее цифрой 1, то предельная норма замены в точке равна , где – угол наклона данной изокванты. При движении из точки к точке угол наклона меняется, меняется также и капиталовооруженность труда ( ⁄ ). Эта величина постоянна на любой прямой линии, пересекающей точку начала координат (например, на линии 2 или 3). Величина ⁄ показывает относительное изменение тангенса угла наклона изокванты при единичном относительном изменении капиталовооруженности. Очевидно, что изменение наклона изокванты, вызванное движением от точки к точке (от линии 2 к линии 3), тем больше, чем больше кривизна изокванты. Рисунок 5.1 - График эластичности замещения факторов 76 Линейная производственная функция имеет нулевую кривизну и бесконечную эластичность замещения. Эластичность замещения в функции Кобба-Дугласа равна единице. У производственной функции Леонтьева 12 нулевая эластичность замещения – факторы производства в ней должны быть использованы в фиксированной пропорции и не могут замещать друг друга. Степень взаимозаменяемости факторов в экономике может быть различной; следовательно, разной может быть и эластичность замещения (а не только равной нулю, единице или бесконечности). Это является причиной рассмотрения производственной функции с постоянной, но произвольной величиной эластичности замещения . Такая функция (функция ) выражается формулой: , ( ) - ⁄ (5.10) Здесь – степень однородности; ; ; . Для функции (5.10) эластичность замещения − если , то получаем функцию с линейными изоквантами (в частности, линейную функцию); − если , то предел функции есть производственная функция Кобба-Дугласа с ; − если , то получаем функцию Леонтьева. Степень однородности считается обычно равной 1. Множитель, характеризующий технический прогресс может быть добавлен к функции так же, как и к функции Кобба-Дугласа или любой другой производственной функции. Функция нелинейная, и ее нельзя свести к линейной столь же просто, как функцию Кобба-Дугласа. Обычно ее оценивают с помощью модели нелинейной регрессии. Линейно-однородную функцию удобнее всего оценить после логарифмирования обеих ее частей и некоторых простых преобразований: . / . / . / ( )1 (5.11) В качестве примера оценки производственной функции приведем некоторые ее оценки для экономики бывшего СССР. Такие оценки делались для разных периодов диапазона 1950 – 1987 г.г. М. Вейтцманом, Н. Баркаловым, А. Гранбергом, У. Истерли, С. Фишером и другими. Например, А. Гранберг приводит следующую оценку для 1960-1985 г.г.: , ( ) - ⁄ (5.12) (функция CES с постоянной отдачей от масштаба и с техническим прогрессом). 12 Производственная функция Леонтьева – это функция с фиксированными пропорциями, * + определяемая как 77 С точки зрения полученных значений коэффициента детерминации и статистики , данная зависимость статистически значимая. Эластичность замещения здесь . Оценки эластичности замещения, полученные другими исследователями, также меньше единицы: 0,4 (М. Вейтцман), для различных периодов (Н. Баркалов), для различных рядов данных (У. Истерли и С. Фишер). В целом можно сказать, что эластичность замещения для экономики СССР составляла примерно 0,4. Это говорит о низкой взаимозаменяемости труда и капитала. Эта взаимозаменяемость была намного ниже, чем в производственной функции Кобба-Дугласа, где σ заранее предполагается равной единице. Итак, ошибочность первоначальной гипотезы относительно степени взаимозаменяемости факторов может служить причиной статистической незначимости оценок производственной функции Кобба-Дугласа. Низкая заменяемость труда капиталом является одной из причин стагнации экономики. При низкой эластичности замещения избыточное накопление капитала не обеспечивает ожидаемого роста выпуска. 5.4 Пример построения производственной функции Рассмотрим промышленность Мексики за 1955 – 1974 г.г. Валовой внутренний продукт выражен в млн. песо, основной капитал – млн. песо, численность рабочих – тыс. чел. Таблица 5.1 Показатели промышленности Мексики Год ВВП Капитал Рабочая сила 1955 114043 182113 8310 1956 120410 193749 8529 1957 129187 205192 8738 1958 134705 215130 8952 1959 139960 225021 9171 1960 150511 237026 9569 1961 157897 248897 9527 1962 165286 260661 9662 1963 178491 275466 10334 1964 199457 295378 10981 1965 212323 315715 11746 1966 226977 337642 11521 1967 241194 363599 11540 1968 260881 391847 12066 1969 277498 422382 12297 1970 296530 455049 12955 1971 306712 484677 13338 1972 329030 520553 13738 1973 354057 561531 15924 1974 374977 609825 14154 78 Построим производственную функцию Кобба-Дугласа вида (5.1) и оценим параметры линейной модели (5.2). Вычисления будем проводить в электронных таблицах Excel. После логарифмирования экономико-производственных показателей с помощью функции ЛИНЕЙН были получены следующие результаты (Рисунок 5.2). Рисунок 5.2 - Результаты расчета функции Кобба-Дугласа Производственная функция Кобба-Дугласа имеет вид (5.13) Коэффициент детерминации имеет высокое значение , поэтому имеем значимую зависимость. Расчетное значение критерия Фишера также высокое: ; уровень значимости гипотезы о неадекватности уравнения статистическим данным приближается к нулю. ) Параметры уравнения (5.13) в сумме составляют ( , что свидетельствует о возрастающей отдаче от масштаба производства. Однако уровень значимости параметров модели свидетельствует об их несостоятельности (для и уровень значимости гипотезы о возможном равенстве их нулю больше ). К тому же значение коэффициента технологического прогресса настолько мало, что ставит под сомнение возрастающую отдачу от масштаба. Все это наводит на мысль о несостоятельности модели (5.13). Возможно, необходима функция более общего типа. Выбираем функцию с постоянной эластичностью замещения вида (5.10). Представим на рабочем листе электронных таблиц столбцы преобразованных переменных, которые соответствуют выражению (5.11) и выполним вычисления, задействовав для этого «Поиск решения». Получаем следующий результат: , - ⁄ (5.14) Коэффициент детерминации составляет . Эластичность замещения . Следовательно, первоначальное предположение о возможности исследования экономики с помощью функции Кобба-Дугласа было ошибочным: прослеживается низкая замещаемость труда капиталом. 79 Вопросы для самоконтроля 1. Дайте определение производственной функции. 2. Какие переменные могут быть задействованы в производственных функциях? 3. Перечислите свойства производственной функции. 4. Напишите функцию Кобба-Дугласа в общей и линейной формах. 5. В чем состоит однородность производственной функции? 6. Охарактеризуйте отдачу от изменения масштаба производства. 7. Как используется производственная функция в экономическом анализе? 8. Дайте характеристику эластичности выпуска по труду и капиталу. 9. Что такое производственная функция CES? 10. Охарактеризуйте эластичность замещения труда капиталом. 11. Что такое изокванта? Список рекомендуемой литературы: 1, 2, 5, 8, 9, 11. 80 Список литературы Основная 1. Айвазян С.А. и др. Математическая статистика и эконометрика. – М.: Наука, 1998. – 1264с. 2. Лукьяненко И.Т., Красникова Л.И. Эконометрика: учебник. – К.: Знания, КОО, 1998. – 494с. (на укр языке). 3. Магнус Я.Р. и др. Эконометрика. Начальный курс. – М.: Дело, 1997. – 248с. 4. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. – 366с., Кн. 2. – М.: Финансы и статистика, 1987. – 351с. 5. Экономико-математические методы и прикладные модели: Учебное пособие для вузов / Под редакцией Федосеева. – М.:ЮНИТИ, 1999. – 391с. Дополнительная 6. Шанченко Н.И. Лекции по эконометрике: учебное пособие. – Ул.: Ульяновск, 1998. – 140с. 7. Толбатов Ю.А. Эконометрика: учебник. – К.: Четверта хвиля, 1997. – 327с. (на укр языке). 8. Грубер Й. Эконометрия: В 2-х книгах, Кн. 1. – К.: Астарта, 1996. – 394с. 9. Замков О.О. и др. Математические методы в экономике: Учебник. – М.: МГУ, издательство ДИС, 1998. – 368с. 10.Семѐнова Е.Г. Основы эконометрического анализа: учебное пособие Е.Г. Семѐнова, М.С. Смирнова. – СПб.: ГУАП, 2006. – 72 с. 11.Эконометрика: Учебник для вузов / под ред. академика И.И. Елисеевой. – М.: Финансы и статистика, 2004. – 342с. 81 Приложение 1. Таблица F-распределения (=0,05) u1 1 2 3 4 5 6 7 8 9 10 u2 1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,29 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,64 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,28 2,24 2,19 29 2,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 82 Приложение 2. Таблица t-распределения = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,5 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,2 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 0,1 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 83 0,05 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 0,025 25,452 6,205 4,177 3,495 3,163 2,969 2,841 2,752 2,685 2,634 2,593 2,560 2,533 2,510 2,490 2,473 2,458 2,445 2,433 2,423 2,414 2,405 2,398 2,391 2,385 2,379 2,373 2,368 2,364 2,360 0,01 63,656 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 Приложение 3. DW-статистика Дарбина-Уотсона Критические точки dl и du даны для уровня значимости =0,05 n 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 k=1 dl 0,610 0,700 0,673 0,824 0,879 0,927 0,971 1,010 1,045 1,077 1,106 1,133 1,158 1,180 1,201 1,221 1,239 1,257 1,273 1,288 1,302 1,316 1,328 1,341 du 1,400 1,356 1,332 1,320 1,320 1,324 1,311 1,340 1,350 1,361 1,371 1,381 1,391 1,401 1,411 1,420 1,429 1,437 1,446 1,454 1,461 1,469 1,476 1,483 k=2 k=3 k=4 k=5 dl du dl du dl du dl du 0,467 0,559 0,629 0,697 0,658 0,812 0,861 0,905 0,946 0,982 1,015 1,046 1,074 1,100 1,125 1,147 1,168 1,188 1,206 1,224 1,240 1,225 1,270 1,896 1,777 1,699 1,641 1,604 1,579 1,562 1,551 1,543 1,539 1,536 1,535 1,536 1,537 1,538 1,541 1,543 1,546 1,550 1,553 1,556 1,560 1,563 0,368 0,455 0,525 0,595 0,628 0,715 0,767 0,814 0,857 0,897 0,933 0,967 0,998 1,026 1,053 1,078 1,101 1,123 1,143 1,162 1,181 1,198 2,287 2,128 2,016 1,928 1,864 1,816 1,779 1,750 1,728 1,710 1,696 1,685 1,676 1,669 1,664 1,660 1,656 1,654 1,652 1,651 1,650 1,650 0,296 0,376 0,444 0,512 0,574 0,632 0,685 0,734 0,779 0,820 0,859 0,894 0,927 0,958 0,986 1,013 1,038 1,062 1,084 1,104 1,124 2,588 2,414 2,283 2,177 2,094 2,030 1,977 1,935 1,900 1,872 1,848 1,828 1,812 1,797 1,785 1,775 1,767 1,759 1,753 1,747 1,743 0,243 0,316 0,379 0,445 0,505 0,562 0,615 0,664 0,710 0,752 0,792 0,829 0,863 0,895 0,925 0,953 0,979 1,004 1,028 1,050 2,822 2,645 2,506 2,390 2,296 2,220 2,157 2,104 2,060 2,023 1,991 1,964 1,940 1,920 1,902 1,886 1,873 1,861 1,850 1,841 84 Ольга Георгиевна Подольская ЭКОНОМЕТРИКА Курс лекций для студентов направления подготовки – 38.03.01 «Экономика» очной и заочной форм обучения Тираж___ экз. Подписано к печати_____________ Заказ №________. Объем 3,9_ п.л. Изд-во ФГБОУ ВО “Керченский государственный морской технологический университет” 298309 г. Керчь, Орджоникидзе, 82 85