Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛЕКЦИИ ПО ДИСЦИПЛИНЕ «ЭКОНОМЕТРИКА»
(ЗАОЧНОЕ ОТДЕЛЕНИЕ)
Тема 1. Основные понятия, предмет, методы и задачи эконометрики
1. Определение эконометрики
Впервые название «эконометрика» было введено в 1926 г. норвежским экономистом и статистиком Рагнаром Фришем. В буквальном переводе этот термин означает «измерения в экономике». Существуют несколько подходов к пониманию эконометрики.
1. Эконометрика – это раздел экономики, занимающийся разработкой и применением статистических методов для измерений взаимосвязей между экономическими переменными (С. Фишер)
2. Основная задача эконометрики – наполнить эмпирическим содержанием априорные экономические рассуждения (Л. Клейн)
3. Эконометрика является не более чем набором инструментов, хотя и очень полезных. Она является одновременно нашим телескопом и нашим микроскопом для изучения окружающего экономического мира (Ц. Грилихес)
4. Цель эконометрики – эмпирический вывод экономических законов (Э. Маленво)
Таким образом, эконометрика – наука, позволяющая на базе экономической теории, статистики и методов математического моделирования придавать количественное выражение взаимосвязей экономических явлений и процессов.
2. Предметная область эконометрики
Экономистам требуется понять природу и функционирование экономических систем. Их интересуют глобальные или макровеличины (ВВП, занятость и др.), а также отрасли, регионы, домашние хозяйства.
На уровне мезо- и микроэкономики в теории и хозяйственной практике также встречаются задачи, требующие определения взаимосвязей экономических показателей (зависимость цены продукции от рыночных факторов, связь рентабельности предприятия с основными производственными и финансовыми показателями).
При этом нас интересует не только выявление объективно существующих (на качественном уровне) экономических законов и связей между экономическими показателями, но и подходы к их формализации, включающие в себя методы спецификации соответствующих моделей с учетом проблемы их идентифицируемости.
При рассмотрении статистики, как составной части эконометрики нас интересует лишь тот ее аспект, который непосредственно связан с информационным обеспечением анализируемой эконометрической модели, хотя в эконометрике зачастую приходится решать полный спектр соответствующих задач: выбор необходимых экономических показателей и обоснование способа их измерения, определение плана статистического обследования и т.п.
3. Задачи эконометрики
По конечным прикладным целям выделим три основные группы задач:
1. Прогноз социально-экономических показателей (переменных), характеризующих состояние и развитие анализируемой системы.
2. Имитация возможных сценариев развития.
3. Исследование текущего состояния анализируемой системы.
Одна из целей состоит в том, чтобы сделать условные прогнозы о поведении предметов и процессов. Условные прогнозы помогают фирмам, потребителям и правительствам принять решения и изменить результаты.
Другая важная цель состоит в том, чтобы проверить экономическую теорию – разработать базу понимания, адекватную реальной ситуации.
Эконометрические модели широко применяются в бизнесе, экономике, общественных науках, исследовании экономической активности и в исследовании политических процессов. Они полезны для более полного понимания сущности происходящих процессов, их анализа.
Модель, построенная и верифицированная на основе (уже имеющихся) наблюденных значений объясняющих переменных, может быть использована для прогноза состояния и развития исследуемых процессов в будущем или для объяснения поведения системы в зависимости от влияния различных факторов.
4. Понятие экономической системы
Система – это объективное единство закономерно связанных друг с другом предметов и явлений.
Элемент системы – простейшая неделимая часть системы. Элемент системы не способен к самостоятельному существованию и не может быть описан вне его функциональных характеристик.
Важным свойством системы является иерархичность – возможность представить каждую систему как подсистему или элемент системы более высокого уровня. В свою очередь, каждая подсистема может рассматриваться как самостоятельная система.
Основным свойством системы, выделяющим ее из простой совокупности элементов, является целостность. Целостность – принципиальная несводимость свойств системы к сумме свойств ее элементов, а также невыводимость свойств системы из свойств ее элементов.
Экономическая система – система, элементами которой являются экономические категории – ресурсы, индивидуумы и социальные группы, производительные силы, производственные отношения, средства и предметы труда, факторы производства связанные между собой взаимосвязями, определенными в предметной области экономики – денежными, инвестиционными, информационными потоками.
5. Понятие модели экономической системы
Модель – это упрощенное, идеализированное представление процессов реального мира. Модель должна быть простой, чтобы её легко было обработать, но достаточно общей, чтобы быть полезной.
Модели упрощают реальность и имеют целью сбор только фундаментальных признаков системы. Однако, тезис о том, что спрос на апельсины зависит только от цены, является слишком упрощенным, а также нереалистичным утверждением.
Поэтому необходимо подбирать такое число параметров модели, которые адекватно описывают существующую экономическую систему и в то же время не включают в себя избыточных составляющих. Задача построения модели спроса на апельсины с учетом влияния химического состава, цвета, размера, наличия косточек и т.п. факторов так же является нереальной.
6. Типы данных
Данные, с которыми приходится работать эконометристам, делятся на три типа:
1. Пространственные данные (cross-section data).
Тип данных во многом определяет методику их оценки. Примерами пространственных данных являются финансовые отчеты предприятий за определенный квартал или год, результаты обследования домашних хозяйств за период, данные о ВВП различных стран в каком-либо конкретном году, и т.п., - то есть это данные об однородных объектах за один и тот же период времени.
2. Временные ряды (time series).
Примерами временных рядов являются ежедневные значения курса доллара по отношению к рублю за период с 1 января 1992 г. до 22 сентября 2002 г., значения ВВП России за год в период с 1992 до 2002 г., и т.п., - то есть последовательные значения одной экономической переменной в различные периоды времени.
3. Панельные данные (panel data).
Панельные данные – это до некоторой степени обобщение временных рядов и пространственных данных. Например, если с одних и те же предприятий каждый год собираются одни и те же показатели их хозяйственной деятельности, получится массив данных, в котором содержатся и данные об однородных объектах за один и тот же период времени, и последовательные значения одной экономической переменной в различные периоды времени.
7. Основные эконометрические модели
Можно выделить три основных класса моделей, которые чаще всего применяются в эконометрике:
1. Модели временных рядов.
К классу моделей временных рядов относятся модели, общей чертой которых является то, что они объясняют поведение временного ряда, исходя только из его предыдущих значений. Такие модели могут применяться, например, для прогнозирования объемов продаж, спроса, изменения курса акций и т.п.
2. Регрессионные модели с одним уравнением.
В регрессионных моделях с одним уравнением зависимая переменная у представляется в виде функции f(x,) = f(x1…xk, 1…p), где x1…xk – независимые переменные, 1…p –параметры. В зависимости от вида функции f(x,) модели делятся на линейные и нелинейные.
3. Системы регрессионных уравнений.
Системы уравнений состоят из совокупности тождеств, регрессионных уравнений и ограничений на функционирование описываемой экономической системы, представленных в виде неравенств.
В большинстве случаев экономические законы выражаются в относительно простой математической форме.
8. Этапы эконометрического моделирования
В общем виде последовательность построения эконометрических моделей можно представить в виде следующей схемы (рис.1).
Рис.1. Схема эконометрического исследования
Вообще построение эконометрической модели подразделяется на шесть основных этапов:
1. Постановка задачи – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
2. Анализ предметной области – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации.
3. Формулировка модели (спецификация) – выбор общего вида модели, и состава входящих в нее переменных.
4. Сбор данных – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей на различных временных или пространственных тактах функционирования изучаемого явления.
5. Оценка параметров модели – статистическое оценивание неизвестных параметров модели и статистический анализ модели.
6. Оценка качества модели – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
7. Интерпретация результатов – формулирование экономических выводов об изучаемом объекте и сопоставление их с теоретическими результатами и результатами других исследований.
9. Примеры
Функция потребления:
где С – потребление некоторого пищевого продукта на душу населения в некотором году, Y – реальный доход на душу населения в этом году, а Р – индекс цен на этот продукт, скорректированный (дефлированный) на общий индекс стоимости жизни; a0, a1, a2 — константы.
Производственная функция Кобба-Дугласа:
Q=AKL,
где А, , - параметры модели. Величина А зависит от единиц измерения Q, К и L, а также от эффективности производственного процесса.
Параметры и называют коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменится Q, если или увеличить соответственно на один процент.
Кривая Филипса описывает связь темпа роста зарплаты и уровня безработицы:
,
где - уровень заработной платы; - темп роста зарплаты (в %); - процент безработных в год t.
Тема 2. Элементарные понятия и определения теории вероятностей и математической статистики
Случайная величина X – числовая функция, заданная на некотором вероятностном пространстве.
Функция распределения случайной величины X – числовая функция числового аргумента, определяемая равенством f(x)=P(Xx), xR
Случайные величины могут быть дискретными и непрерывными.
Дискретная случайная величина – если множество ее значений конечно или счетно.
Непрерывная случайная величина – если функция ее распределения дифференцируема, то есть существует производная p(x)=f’(x), называемая плотностью случайной величины X.
В эконометрике используются дискретные случайные величины, значения которых, как правило, задаются выборочными значениями.
Пусть X1,...,Хn, Y1,...,Yn,– случайные выборки:
• выборочное среднее ;
• выборочная дисперсия ;
• выборочная ковариация ;
• парный коэффициент корреляции .
Парный коэффициент корреляции характеризует тесноту линейной зависимости между двумя случайными величинами.
-1≤rxy≤1,
чем ближе rxy к границам отрезка, тем сильнее связь X и Y;
чем ближе rxy к 0, тем слабее связь X и Y.
Если rxy>0, то между рассматриваемыми случайными величинами существует положительная связь (увеличение одного показателя приводит к увеличению другого);
если rxy <0, то связь отрицательная.
Коэффициент корреляции позволяет выявлять только линейные зависимости между случайными величинами
Распределение непрерывной случайной величины x называют нормальным (), если соответствующая ей плотность распределения равна
.
Случайная величина x распределена по стандартному нормальному закону распределения, если
.
Тема 3. Общий вид регрессионной модели
1. Понятие регрессии
Регрессионный анализ занимает центральное место во всем математико-статистическом инструментарии эконометрики.
Регрессия – функциональная зависимость между объясняющими переменными и средним значением зависимой переменной, которая строится с целью прогнозирования этого среднего значения при фиксированных значениях объясняющих переменных.
Регрессионное уравнение представляет собой зависимость вида:
.
2. Зависимая переменная
Переменная Y называется зависимой, она характеризует результат или эффективность функционирования анализируемой экономической системы. Ее значения формируются в процессе функционирования этой системы под воздействием ряда других переменных и факторов, часть из которых поддается регистрации и, в определенной степени, управлению и планированию.
В регрессионном анализе результирующая переменная выступает в роли функции, значения которой определяются значениями независимых переменных с некоторой случайной погрешностью, выступающих в роли аргументов. Поэтому по природе своей результирующая переменная Y всегда стохастична (случайна).
Пример:
Изучается зависимость Y – объема продаж холодильников от X1 цены реализации, X2 объема вложений, направленных на улучшение потребительских свойств продукции (энергосбережение, дизайн, дополнительные функции) и X3 вложений в сервисное обслуживание покупателей (открытие и оборудование сервис-центров, организация бесплатной доставки, затраты на гарантийное обслуживание).
В данном случае Y – является результатом функционирования экономической системы производства и сбыта продукции. Y не поддается детерминированному планированию и управлению, поскольку частично определяется внешними факторами: уровнем спроса и наличием конкуренции. По этой же причине, а также в связи с возможностью возникновения ошибок Y является случайной.
3. Независимые переменные
Переменные X=(x1,…,xn) называются независимыми (объясняющими, регрессорами). Они поддаются регистрации, описывают условия функционирования изучаемой реальной экономической системы и в существенной мере определяют процесс формирования значений результирующих переменных. Как правило, часть из них поддается хотя бы частичному регулированию и управлению.
В регрессионном анализе они играют роль аргументов той функции, в качестве которой рассматривается анализируемый результирующий показатель Y. Объясняющие переменные могут быть как случайными, так и неслучайными.
Пример:
В современных западных теориях менеджмента и маркетинга определяется модель рассматриваемой системы, в которой в качестве основных ее элементов, влияющих на объем сбыта продукции выделяются цена, качество, сервис. При этом одновременно поддаются управлению только два любых фактора из трех.
4. Параметры регрессии
Величины =(1,…,n) называют параметрами или коэффициентами регрессии. Они характеризуют веса факторов X в регрессионной модели.
Пример:
Переменные влияют на результат не одинаково в зависимости от региональных условий сбыта. Коэффициенты 1, 2, 3 показывают уровень влияния каждого из факторов на результат.
5. Функция регрессии
Функция f(X) называется функцией регрессии Y по Х (или просто – регрессией Y по X), если она описывает изменение условного среднего значения результирующей переменной Y в зависимости от изменения значений объясняющих переменных X.
6. Случайная ошибка
Присутствие случайной «остаточной» составляющей («регрессионных остатков») (Х) может быть обусловлено различными причинами:
1) отсутствие в регрессии факторов X влияющих на формирование значений Y;
2) присутствие в регрессии факторов X не влияющих на формирование значений Y;
3) неправильный выбор функциональной формы модели (если мы предположили линейную форму модели, а между переменными существует более сложная связь, то ошибка увеличится);
4) агрегирование переменных (факторы представляют собой комбинацию других переменных);
5) ошибки измерений (описки при сборе и записи данных или округление данных также увеличит ошибку);
6) ограниченность статистических данных (зачастую компании не имеют возможности отслеживать данные по всем филиалам, кроме того, если компания функционирует непродолжительное время, наблюдений может оказаться недостаточно);
7) влияние человеческого фактора (могут проявиться субъективные пристрастия как потребителей при покупке холодильников, так и исследователя при описании модели и сборе данных).
7. Типы ошибок
Ошибки классификации возникают, когда в состав генеральной совокупности не включены объекты, которые на самом деле к ней относятся.
Ошибки спецификации имеют место при неправильном отборе объектов (включении в генеральную совокупность таких объектов, которые на самом деле к ней не относятся) или факторов, влияющих на исследуемую характеристику (объясняющих переменных). Такие ошибки часто обусловлены недостатками в теоретическом анализе рассматриваемых явлений.
Ошибки модели проявляются в неправильном выборе вида искомой зависимости (например, отыскивается линейная зависимость между характеристиками в то время, как на самом деле они связаны степенной зависимостью).
8. Виды регрессионных уравнений
Наиболее часто используются следующие виды уравнений:
1. Парная линейная регрессия
2. Множественная линейная регрессия
3. Полиномиальное уравнение
4. Степенное уравнение .
5. Показательное уравнение (βi>0, βi≠1)
6. Экспоненциальное уравнение .
7. Логарифмическое уравнение .
8. Гиперболическое уравнение .
Тема 4. Парная линейная регрессия: оценка параметров
1. Понятие парной линейной регрессии
Парная линейная регрессия – регрессия между двумя случайными переменными, связанными линейным соотношением: Y= + X +, при этом предполагается, что N(0,).
2. Графическое представление парной линейной регрессии
Парная регрессия легко определяется по графическому изображению реальных статистических данных в виде точек (корреляционное поле или диаграмма рассеивания).
Рис 1. Диаграммы рассеивания статистических наблюдений
а) Взаимосвязь между Y и X близка к линейной: Y = + X
б) Взаимосвязь близка к квадратической: Y = + X + X2
в) Взаимосвязь между Y и X отсутствует. Какую бы мы ни выбрали форму связи, результаты проверки ее качества будут неудачными.
На рис. 1а) показано облако наблюдений, соответствующее парной линейной регрессии.
3. Проблема оценки коэффициентов регрессии
По выборке ограниченного объема нельзя точно определить теоретические значения и . Можно лишь построить эмпирическое уравнение регрессии:
,
где , - оценки параметров.
В результате имеем:
где e – оценка теоретического случайного отклонения e .
Оценки , отличаются от истинных значений и , что приводит к несовпадению эмпирической и теоретической линий регрессии. По различным выборкам из одной и той же генеральной совокупности получают разные значения оценок коэффициентов регрессии.
Рис. 2. Эмпирическая и теоретическая линии регрессии
Задача состоит в нахождении по выборке данных оценок и так, чтобы построенная линия регрессии была наилучшей в определенном смысле среди всех других прямых.
4. Метод наименьших квадратов
Мы хотим найти уравнение вида , то есть, получить теоретические значения результативного признака Y, подставляя в него фактические значения X. Оценки параметров линейной регрессии могут быть найдены разными методами.
Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений фактических значений зависимой переменной X от расчетных (теоретических) минимальна:
.
Фактически, метод наименьших квадратов позволяет минимизировать ошибки: .
Рис. 3. Графическое представление линии регрессии с МНК-параметрами
5. Вычисление МНК-оценок для парной линейной регрессии
Решим задачу минимизации: .
Чтобы найти минимум этой функции необходимо вычислить производные по каждому из параметров и приравнять их к нулю:
Решая эту систему, найдем искомые значения оценок :
6. Свойства МНК-оценок
Оценки принято обозначать символом параметра с крышечкой: .
Оценки коэффициентов уравнения регрессии, полученные методом наименьших квадратов могут обладать следующими свойствами:
1. Несмещенность - .
2. Состоятельность - .
3. Эффективность - , , где ’, ’ – любые другие оценки для и .
Содержательно несмещенность оценки означает, что при ее использовании мы не получаем систематической ошибки; состоятельность оценки гарантирует приближение оценки к истинному значению параметра при увеличении объема выборки, а эффективная оценка является наилучшей в смысле минимума среднеквадратичного отклонения. В классе несмещенных оценок эффективность означает минимальность дисперсии.
7. Теорема Гаусса-Маркова:
Если выполнены следующие условия
1) для всех наблюдений;
2) = const для всех наблюдений;
3) ;
4) tN(0,2), то оценки , полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок, то есть являются несмещенными, состоятельными и эффективными.
Привести картинки, показывающие нарушение условий Гаусса-Маркова.
Наряду с перечисленными условиями обычно также предполагается:
• число наблюдений существенно больше числа объясняющих переменных;
• отсутствуют ошибки спецификации;
• случайное отклонение независимо от объясняющей переменной.
Тема 5. Парная линейная регрессия: проверка качества
1. Проблемы использования уравнения регрессии
После определения оценок возникают вопросы:
• насколько точны и надежны найденные оценки;
• насколько точно эмпирическое уравнение регрессии соответствует уравнению для всей генеральной совокупности;
• насколько близки оценки к своим теоретическим значениям и .
Для ответа на эти вопросы рассчитываются и проверяются ряд показателей и гипотез.
2. Общая схема проверки качества парной регрессии
Адекватность модели – остатки должны удовлетворять условиям теоремы Гаусса-Маркова.
Основные показатели качества коэффициентов регрессии:
1. Стандартные ошибки оценок (анализ точности определения оценок).
2. Интервальные оценки коэффициентов уравнения регрессии (построение доверительных интервалов).
3. Значимость коэффициентов регрессии (проверка гипотез относительно коэффициентов регрессии).
Основные показатели качества уравнения регрессии в целом:
1. Стандартная ошибка регрессии Se (анализ точности уравнения регрессии).
2. Коэффициент детерминации R2 (проверка качества подгонки уравнения к эмпирическим данным).
3. Средняя ошибка аппроксимации (проверка качества подгонки уравнения к эмпирическим данным).
3. Стандартные ошибки коэффициентов
Оценки являются случайными величинами. Отсюда следует, что стандартные ошибки коэффициентов регрессии – это средние квадратические отклонения коэффициентов регрессии от их истинных значений.
Стандартные ошибки коэффициентов регрессии:
,
Стандартная ошибка является оценкой среднего квадратического отклонения коэффициента регрессии от его истинного значения. Чем меньше стандартная ошибка тем точнее оценка.
4. Интервальные оценки коэффициентов
На практике часто важно знать возможные значения параметров . Так как истинные значения параметров не известны, то о них можно судить приближенно. Для это рассчитываются доверительные интервалы.
Доверительные интервалы для коэффициентов регрессии определяются следующим образом:
1. Выбирается уровень доверия q. Обычно он близок к 1, например, 0,9; 0,95 или 0,99.
2. Рассчитывается уровень значимости = 1 – q.
3. Рассчитывается число степеней свободы n – 2, где n – число наблюдений.
4. Определяется критическое значение t-статистики (tкр) по таблицам распределения Стьюдента на основе и n – 2.
5. Рассчитываются доверительные интервалы для параметров .
α: ,
β: .
Доверительный интервал показывает, что истинное значение параметра с вероятностью q находится в данных пределах.
Чем меньше доверительный интервал относительно коэффициента, тем точнее полученная оценка.
5. Значимость коэффициентов регрессии
Коэффициент значим, если есть достаточно высокая вероятность того, что его истинное значение отлично от нуля.
Имеются альтернативные гипотезы: H0: =0 и H1: ≠0.
Если принимается гипотеза H0, то считают, что величина Y не зависит от X. В этом случае говорят, что коэффициент статистически незначим (т.к. слишком близок к нулю). В противном случае говорят, что коэффициент статистически значим, что указывает на наличие линейной зависимости между Y и X.
Для определения уровня значимости коэффициента используется t-статистика, которая соизмеряет значение коэффициента с его стандартной ошибкой.
Процедура оценки значимости коэффициентов осуществляется следующим образом:
1. Рассчитывается значение t-статистики для коэффициента регрессии по формуле или .
2. Выбирается уровень доверия q. Обычно он близок к 1, например, 0,9; 0,95 или 0,99.
3. Рассчитывается уровень значимости = 1 – q.
4. Рассчитывается число степеней свободы n – 2, где n – число наблюдений.
5. Определяется критическое значение t-статистики (tкр) по таблицам распределения Стьюдента на основе и n – 2.
6. Если , то коэффициент является значимым на уровне значимости . В противном случае коэффициент не значим (на данном уровне ).
6. Стандартная ошибка регрессии
Стандартная ошибка регрессии Se показывает, насколько в среднем фактические значения зависимой переменной y отличаются от ее расчетных значений
.
Используется как основная величина для измерения качества модели (чем она меньше, тем лучше).
7. Оценка значимости уравнения регрессии в целом
Уравнение значимо, если есть достаточно высокая вероятность того, что существует хотя бы один коэффициент, отличный от нуля.
Имеются альтернативные гипотезы:
H0: α==0 и
H1: α≠0≠0≠0.
Если принимается гипотеза H0, то уравнение статистически незначимо. В противном случае говорят, что уравнение статистически значимо.
Процедура оценки значимости уравнения парной регрессии осуществляется следующим образом:
1. Рассчитывается значение F-статистики по формуле .
2. Выбирается уровень доверия q (0,9; 0,95 или 0,99).
3. Рассчитывается уровень значимости = 1 – q.
4. Рассчитывается число степеней свободы n – 2, где n – число наблюдений.
5. Определяется критическое значение F-статистики (Fкр) по таблицам распределения Фишера на основе и n – 2.
6. Если , то уравнение является значимым на уровне значимости . В противном случае уравнение не значимо (на данном уровне ).
В парной регрессии значимость коэффициента регрессии β и значимость уравнения в целом эквивалентны.
8. Коэффициент детерминации R2
Для проверки качества подгонки уравнения к исходным данным значений y, то есть насколько хорошо уравнение регрессии согласуется со статистическими данными, используется коэффициент детерминации R2
.
Коэффициент R2 показывает долю дисперсии переменной y, объясненную регрессией, в общей дисперсии y.
Коэффициент детерминации лежит в пределах 0 £ R2 £ 1.
Чем ближе R2 к 1, тем выше качество подгонки уравнения к статистическим данным.
Если R2 = 1, то статистические данные лежат на линии регрессии, т.е. между зависимой и объясняющими переменными имеется функциональная зависимость.
Чем ближе R2 к 0, тем ниже качество подгонки уравнения к статистическим данным.
В случае парной регрессии R2 = rxy2.
Например, если R2 =0,85, то говорят, что на 85% изменение y описывается полученным уравнением и влиянием переменной x, а 15% изменения y – следствие влияния неучтенных в уравнении регрессии факторов.
9. Средняя ошибка аппроксимации
Оценку качества модели дает также средняя ошибка аппроксимации (средняя абсолютная процентная ошибка) – показывает в процентах среднее отклонение расчетных значений зависимой переменной от фактических значений yi
Если A ≤ 10%, то качество подгонки уравнения считается хорошим. Чем меньше значение A, тем лучше.
10. Интерпретация парной линейной регрессии
Параметр показывает, насколько изменится среднее значение Y при увеличении X на единицу.
Параметр формально является значением Y при X = 0. Он может не иметь экономического содержания. Интерпретировать можно лишь знак при параметре . Если > 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Иными словами, вариация по фактору X выше вариации для результата Y. Также считают, что включает в себя неучтенные в модели факторы.
11. Пример
По итогам 2008 года были собраны данные по прибыли и оборачиваемости оборотных средств 500 торговых предприятий г. Челябинска. Результаты наблюдения сведены в таблицу.
№
Годовая прибыль предприятия, млн. руб.
Годовая оборачиваемость оборотных средств, раз
1
28,3
4,7
2
30,5
5,2
…
…
…
…
…
…
…
…
…
499
35,6
6,1
500
37,4
6,3
Требуется построить зависимость прибыли предприятий от оборачиваемости оборотных средств и оценить качество полученного уравнения.
Пусть y – прибыль предприятия, x – оборачиваемость оборотных средств.
Y= + X +.
На основе исходных данных были рассчитаны следующие показатели:
=5,82
=34,5
=0,35
cov(x,y)=2,05
Se=0,91
rxy=0,78
A=11%
Уровень доверия возьмем q=0,95 или 95%.
Следовательно, Y=0,39 +5,86 X.
Проверка качества:
1. Стандартные ошибки оценок , . намного больше =0,39, следовательно, низкая точность коэффициента . очень мала по сравнению с , следовательно, высокая точность коэффициента .
2. Интервальные оценки коэффициентов уравнения регрессии.
= 1 – q =1 – 0,95 = 0,05;
n – 2 = 500 – 2 = 498;
tкр = 1,96;
α: → → очень низкая точность коэффициента;
β: → → высокая точность коэффициента.
3. Значимость коэффициентов регрессии.
=>1,96 → коэффициент значим;
=>1,96 → коэффициент значим.
4. Стандартная ошибка регрессии. Se=0,91, по сравнению со средним значением =34,5 ошибка невысокая, точность уравнения хорошая.
5. Коэффициент детерминации. R2 = rxy2=0,782=0,6084 не очень близко к 1, качество подгонки среднее.
6. Средняя ошибка аппроксимации. A=11%, качество подгонки уравнения среднее.
Экономическая интерпретация: при увеличении оборачиваемости оборотных средств предприятия на 1 раз в год средняя годовая прибыль увеличится на 5,86 млн. руб.
Тема 6. Нелинейная парная регрессия
Часто на практике между зависимой и независимыми переменными существует нелинейная форма взаимосвязи. В этом случае существует два выхода:
1) подобрать к анализируемым переменным преобразование, которое бы позволило представить существующую зависимость в виде линейной функции;
2) применить нелинейный метод наименьших квадратов.
Основные нелинейные регрессионные модели и приведение их к линейной форме
1. Экспоненциальное уравнение .
Если прологарифмировать левую и правую части данного уравнения, то получится
.
Это уравнение является линейным, но вместо y в левой части стоит ln y.
В данном случае параметр β1 имеет следующий экономический смысл: при увеличении переменной x на единицу переменная y в среднем увеличится примерно на 100·β% (более точно: y увеличится в раз).
2. Логарифмическое уравнение .
Переход к линейному уравнению осуществляется заменой переменной x на X=lnx..
Параметр β1 имеет следующий экономический смысл: для увеличения y на единицу необходимо увеличить переменную x в раз, т.е. примерно на .
3. Гиперболическое уравнение .
В этом случае необходимо сделать замену переменных x на . Для гиперболической зависимости нет простой интерпретации коэффициента регрессии β1.
4. Степенное уравнение .
Прологарифмировав левую и правую части данного уравнения, получим
.
Заменив соответствующие ряды их логарифмами, получится линейная регрессия.
Экономический смысл параметра β1: если значение переменной x увеличить на 1%, то y увеличится на β1%.
5. Показательное уравнение (β1>0, β1≠1).
Прологарифмировав левую и правую части уравнения, получим
.
Проведя замены Y=ln y и B1=ln β1, получится линейная регрессия.
Экономический смысл параметра β1: при увеличении переменной x на единицу переменная y в среднем увеличится в β1 раз.
Тема 7. Множественная линейная регрессия: определение и оценка параметров
1. Понятие множественной линейной регрессии
Модель множественной линейной регрессии является обобщением парной линейной регрессии и представляет собой следующее выражение:
, t=1...n,
где yt – значение зависимой переменной для наблюдения t,
xit – значение i-й независимой переменной для наблюдения t,
εt – значение случайной ошибки для наблюдения t,
n – число наблюдений,
m – число независимых переменных x.
2. Матричная форма записи множественной линейной регрессии
Уравнение множественной линейной регрессии можно записать в матричной форме:
,
где , , , .
3. Основные предположения
1. x1t...xkt – детерминированные величины, причем векторы xi=(xi1...xin)T – линейно независимы в Rn;
2. для всех наблюдений;
3. = const для всех наблюдений;
4. ;
5. tN(0,2).
В случае выполнения вышеперечисленных гипотез модель называется нормальной линейной регрессионной.
4. Метод наименьших квадратов
Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК): .
Чтобы найти минимум этой функции необходимо вычислить производные по каждому из параметров и приравнять их к нулю, в результате получается система уравнений, решение которой в матричном виде следующее:
→ .
,
5. Теорема Гаусса-Маркова
Если выполнены предположения 1-5 из пункта 3, то оценки , полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе линейных несмещенных оценок, то есть являются несмещенными, состоятельными и эффективными.
Тема 8. Множественная линейная регрессия: оценка качества
1. Общая схема проверки качества парной регрессии
Адекватность модели – остатки должны удовлетворять условиям теоремы Гаусса-Маркова.
Основные показатели качества коэффициентов регрессии:
1. Стандартные ошибки оценок (анализ точности определения оценок).
2. Интервальные оценки коэффициентов уравнения регрессии (построение доверительных интервалов).
3. Значимость коэффициентов регрессии (проверка гипотез относительно коэффициентов регрессии).
Основные показатели качества уравнения регрессии в целом:
1. Стандартная ошибка регрессии Se (анализ точности уравнения регрессии).
2. Значимость уравнения регрессии в целом (проверка гипотезы относительно всех коэффициентов регрессии).
3. Коэффициент детерминации R2 (проверка качества подгонки уравнения к исходным данным).
4. Скорректированный коэффициент детерминации R2adj (проверка качества подгонки уравнения к исходным данным).
5. Средняя ошибка аппроксимации (проверка качества подгонки уравнения к эмпирическим данным).
2. Стандартные ошибки оценок
Стандартные ошибки коэффициентов регрессии – это средние квадратические отклонения коэффициентов регрессии от их истинных значений.
,
где
- диагональные элементы матрицы ,
.
Стандартная ошибка является оценкой среднего квадратического отклонения коэффициента регрессии от его истинного значения. Чем меньше стандартная ошибка тем точнее оценка.
3. Интервальные оценки коэффициентов множественной линейной регрессии
Доверительные интервалы для коэффициентов регрессии определяются следующим образом:
1. Выбирается уровень доверия q (0,9; 0,95 или 0,99).
2. Рассчитывается уровень значимости = 1 – q.
3. Рассчитывается число степеней свободы n – m – 1, где n – число наблюдений, m – число независимых переменных.
4. Определяется критическое значение t-статистики (tкр) по таблицам распределения Стьюдента на основе и n – m – 1.
5. Рассчитывается доверительный интервал для параметра :
.
Доверительный интервал показывает, что истинное значение параметра с вероятностью q находится в данных пределах.
Чем меньше доверительный интервал относительно коэффициента, тем точнее полученная оценка.
4. Значимость коэффициентов регрессии
Процедура оценки значимости коэффициентов осуществляется аналогичной парной регрессии следующим образом:
1. Рассчитывается значение t-статистики для коэффициента регрессии по формуле .
2. Выбирается уровень доверия q ( 0,9; 0,95 или 0,99).
3. Рассчитывается уровень значимости = 1 – q.
4. Рассчитывается число степеней свободы n – m – 1, где n – число наблюдений, m – число независимых переменных.
5. Определяется критическое значение t-статистики (tкр) по таблицам распределения Стьюдента на основе и n – m – 1.
6. Если , то коэффициент является значимым на уровне значимости . В противном случае коэффициент не значим (на данном уровне ).
t-тесты обеспечивают проверку значимости предельного вклада каждой переменной при допущении, что все остальные переменные уже включены в модель.
5. Стандартная ошибка регрессии
Стандартная ошибка регрессии Se показывает, насколько в среднем фактические значения зависимой переменной y отличаются от ее расчетных значений
.
Используется как основная величина для измерения качества модели (чем она меньше, тем лучше).
Значения Se в однотипных моделях с разным числом наблюдений и (или) переменных сравнимы.
6. Оценка значимости уравнения регрессии в целом
Уравнение значимо, если есть достаточно высокая вероятность того, что существует хотя бы один коэффициент, отличный от нуля.
Имеются альтернативные гипотезы:
H0: 1=2=…=m=0 и
H1: 1≠02≠0…m≠0.
Если принимается гипотеза H0, то уравнение статистически незначимо. В противном случае говорят, что уравнение статистически значимо.
Значимость уравнения регрессии в целом осуществляется с помощью F-статистики.
Оценка значимости уравнения регрессии в целом основана на тождестве дисперсионного анализа:
TSS – общая сумма квадратов отклонений
ESS – объясненная сумма квадратов отклонений
RSS – необъясненная сумма квадратов отклонений
F-статистика представляет собой отношение объясненной суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы)
n – число выборочных наблюдений, m – число независимых переменных.
При отсутствии линейной зависимости между зависимой и независимой переменными F-статистика имеет F-распределение Фишера-Снедекора со степенями свободы k1 = m, k2 = n – m –1.
Процедура оценки значимости уравнения осуществляется следующим образом:
7. Рассчитывается значение F-статистики по формуле .
8. Выбирается уровень доверия q ( 0,9; 0,95 или 0,99).
9. Рассчитывается уровень значимости = 1 – q.
10. Рассчитывается число степеней свободы n – m – 1, где n – число наблюдений, m – число независимых переменных.
11. Определяется критическое значение F-статистики (Fкр) по таблицам распределения Фишера на основе и n – m – 1.
12. Если , то уравнение является значимым на уровне значимости . В противном случае уравнение не значимо (на данном уровне ).
В парной регрессии F-статистика равна квадрату t-статистики: , а значимость коэффициента регрессии и значимость уравнения в целом эквивалентны.
7. Коэффициент детерминации R2
Качество оценки уравнения можно проверить путем расчета коэффициента детерминации R2, который показывает степень соответствия найденного уравнения экспериментальным данным.
.
Коэффициент R2 показывает долю дисперсии переменной y, объясненную регрессией, в общей дисперсии y.
Коэффициент детерминации лежит в пределах 0 £ R2 £ 1.
Чем ближе R2 к 1, тем выше качество подгонки уравнения к статистическим данным.
Чем ближе R2 к 0, тем ниже качество подгонки уравнения к статистическим данным.
Коэффициенты R2 в разных моделях с разным числом наблюдений и переменных несравнимы.
8. Скорректированный коэффициент детерминации R2adj
Низкое значение R2 не свидетельствует о плохом качестве модели, и может объясняться наличием существенных факторов, не включенных в модель
R2 всегда увеличивается с включением новой переменной. Поэтому его необходимо корректировать, и рассчитывают скорректированный коэффициент детерминации
Если R2adj выходит за пределы интервала [0;1], то его использовать нельзя.
Если при добавлении новой переменной в модель увеличивается не только R2, но и R2adj, то можно считать, что вклад этой переменной в повышение качества модели существенен.
9. Средняя ошибка аппроксимации
Средняя ошибка аппроксимации (средняя абсолютная процентная ошибка) – показывает в процентах среднее отклонение расчетных значений зависимой переменной от фактических значений yi
Если A ≤ 10%, то качество подгонки уравнения считается хорошим. Чем меньше значение A, тем лучше.
10. Использование показателей качества коэффициентов и уравнения регрессии для интерпретации и корректировки модели
В случае незначимости уравнения, необходимо устранить ошибки модели. Наиболее распространенными являются следующие ошибки:
• неправильно выбран вид функции регрессии;
• в модель включены незначимые регрессоры;
• в модели отсутствуют значимые регрессоры.
После устранения ошибок требуется заново оценить параметры уравнения и его качество, продолжая этот процесс до тех пор, пока качество уравнения не станет удовлетворительным. Если после поделанных процедур, мы не достигли требуемого уровня значимости, то необходимо устранять другие ошибки (спецификации, классификации, наблюдения и т.д., см. тему 3, п. 6).
11. Интерпретация множественной линейной регрессии
Коэффициент регрессии при переменной xi показывает, на сколько увеличится среднее значение зависимой переменной y при увеличении xi на 1, при условии постоянства других переменных.
12. Пример
В апреле 2006 года были собраны данные по стоимости 200 двухкомнатных квартир в Металлургическом районе г. Челябинска, их жилой площади, площади кухни и расстоянии до центра города (пл. Революции). Результаты наблюдения сведены в таблицу.
№
Стоимость квартиры, тыс. руб.
Жилая площадь, м2
Площадь кухни, м2
Расстояние до центра, км
1
1200
29
6
10,1
2
1220
30
8
10,1
3
1270
30
9
10,3
…
…
…
198
1000
30
9
14,8
199
1020
30
7,5
14,8
200
1100
32
11
14,9
Требуется построить зависимость стоимости квартиры от трех факторов и оценить качество полученного уравнения.
Пусть y – стоимость квартиры, x1 – жилая площадь, x2 – площадь кухни, x3 – расстояние до центра.
y= 0+1 x1 +2 x2+3 x3+.
На основе исходных данных были рассчитаны следующие показатели:
=1160 тыс.р.
=30,7 м2
=7,7 м2
=12,7 км
0=399
1=16,5
2=58,5
3=–15,6
R2=0,54
Уровень доверия возьмем q=0,95 или 95%.
Следовательно, уравнение регрессии будет следующее
y= 399+16,5 x1 +58,5 x2–15,6 x3+.
Проверка качества:
1. Стандартные ошибки оценок , , , . Для 0 и 3 достаточно большие по сравнению с самими коэффициентами, следовательно, невысокая точность этих коэффициентов. Наиболее точным является 2, так как у него самая маленькая стандартная ошибка .
2. Интервальные оценки коэффициентов уравнения регрессии.
= 1 – q =1 – 0,95 = 0,05;
n – 2 = 200 – 2 = 198;
tкр = 1,96;
0: → ;
1: → ;
2: → ;
3: → .
Таким образом, точность всех коэффициентов кроме 2 низкая.
3. Значимость коэффициентов регрессии.
; ; ; . Все |t| >1,96 → коэффициенты значимы.
4. Стандартная ошибка регрессии. , по сравнению со средним значением =1160 ошибка невысокая, точность уравнения хорошая.
5. Коэффициент детерминации. R2=0,54 не очень близко к 1, качество подгонки среднее.
6. Скорректированный → качество подгонки среднее.
7. Средняя ошибка аппроксимации. A=9,08%, качество подгонки уравнения хорошее.
Экономическая интерпретация: при увеличении жилой площади на 1 м2 средняя стоимость квартиры увеличится на 16,5 тыс. руб.; при увеличении площади кухни на 1 м2 средняя стоимость квартиры увеличится на 58,5 тыс. руб.; при увеличении расстояния до центра на 1 км средняя стоимость квартиры снижается на 15,6 тыс. руб.
СПИСОК ЛИТЕРАТУРЫ
1. Айвазян С.А. Прикладная статистика. Основы эконометрики. – М.: ЮНИТИ, 2002.
2. Афанасьев В.Н., Юзбашев М.М., Гуляева Т.И. Эконометрика.- М.: Финансы и статистика, 2006.
3. Бигильдеева Т.Б., Постников Е.А. Эконометрика. – Челябинск: Челяб. гос. ун-т, 2007 г. – 109 с.
4. Бородич С.А. Эконометрика. – Мн.: Новое знание, 2006.
5. Доугерти К. Введение в эконометрику (пер. с изд. 1992 г.). – М.: ИНФРА-М, 1997.
6. Елисеева И.И. Практикум по эконометрике. – М.: Финансы и статистика, 2001.
7. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов. - М.: ЮНИТИ-ДАНА, 2002.
8. Колемаев В.А. Эконометрика. –М.: ИНФРА-М, 2005.
9. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учеб. – 6-е изд., перераб. и доп. – М.: Дело, 2004.
10. Мхитарян М.С., Архипова М.Ю. Эконометрика. – М.: Московский государственный университет экономики, статистики и информатики, 2004.
11. Орлов А.И. Эконометрика. – М.: Издательство «Экзамен», 2004.
12. Эконометрика: Учебник (под ред. И.И.Елисеевой). - М.: Финансы и статистика, 2005.