Основные понятия эконометрики
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Тема 1: ОСНОВНЫЕ ПОНЯТИЯ ЭКОНОМЕТРИКИ
§1. Предмет, задачи и методы эконометрики
1.1. Предмет эконометрики.
1.2. Задачи эконометрики.
1.3. Методы эконометрики.
1.1. Предмет эконометрики
Эффективность деятельности любого предприятия в условиях рыночной экономики невозможна без оценки связей между различными факторами и результативными показателями. Необходимо выделить роль факторов, которые положительно или отрицательно влияют на результаты деятельности предприятия, для того чтобы более правильно прогнозировать результаты хозяйственной деятельности в будущем. Изучением влияния различных факторов на будущий результат и занимается наука эконометрика.
Слово «эконометрика» представляет собой комбинацию двух слов: «экономика» и «метрика» (от греч. «метрия» - измерение). Сам термин подчеркивает специфику, содержание эконометрики как науки.
Эконометрика – наука, которая дает количественное выражение качественных закономерностей.
Эконометрика представляет собой комбинацию трех областей знаний:
• экономической теории;
• экономической статистики;
• математической статистики.
Таким образом, эконометрика – это дисциплина, объединяющая совокупность теоретических результатов, методов и приемов, позволяющих на базе экономической теории, экономической статистики и математико-статистического инструментария получать количественное выражение взаимосвязей экономических явлений и процессов.
Предметы эконометрики и статистики очень близки. Но существуют некоторые отличия. Эконометрика имеет дело с массовыми экономическими явлениями. Статистика имеет дело с массовыми явлениями любой природы, в том числе и в экономике.
Предметом эконометрики являются факторы, формирующие развитие экономических явлений и процессов.
1.2. Задачи эконометрики
Функционирование любого предприятия направлено на достижение высоких экономических результатов. Эконометрика ставит своими задачами обоснование путей достижения этих результатов и усовершенствование менеджмента хозяйственной деятельности в целом:
1. Правильная оценка влияния факторов на соблюдение принципов рыночной экономики.
2. Пересмотр системы критериев эффективности деятельности предприятия. Например, может возникнуть ситуация, при которой критерием будет не неизбежная рентабельность, а финансовые результаты в будущем.
3. Оценка ситуаций неопределенности при интерпретации экономических явлений и их предвидение.
4. Прогнозирование путей развития макро- и микроэкономических факторов хозяйственной деятельности. Прогнозная информация должна давать возможность принимать решение в зависимости от имеющейся экономической ситуации. Такие решения могут быть выработаны только на основании надежных статистических данных, обработанных и обобщенных соответствующими эконометрическими методами.
5. Определение краткосрочных и долгосрочных стратегий, которые обеспечивают выживаемость и конкурентоспособность данному предприятию.
6. Обоснование процесса принятия управленческих решений. Сам ход принятия управленческих решений должен учитывать их многовариантность, наличие неопределенности, оценку влияния факторов на каждый отдельно взятый вариант, установление параметров оптимальности и т. д. Выбор наилучшего варианта проводится путем применения эконометрических расчетов, которые помогают руководителю выработать правильное решение. Кроме того, эконометрика содействует рассмотрению руководителем новых и улучшенных альтернатив.
1.3. Методы эконометрики
Большинство эконометрических методов заимствовано из математической статистики. К ним относятся следующие методы:
• Сводка и группировка информации. При группировке делят совокупность на группы, выделяя основные типы и формы явлений. Рассматривая изменения признаков от группы к группе, изучают зависимость результативного признака от факторного, положенного в основе группировок.
• Вариационный и дисперсионный анализ. Он состоит в расчете межгрупповых и внутригрупповых дисперсий. Межгрупповая дисперсия показывает отклонение средних значений в каждой группе от общей средней. Внутригрупповая дисперсия характеризует отклонение от среднего значения в каждой отдельной группе.
• Метод наименьших квадратов. Этот метод используется для составления функциональной зависимости. Он предполагает минимизацию квадратов отклонений значений результатирующего фактора, рассчитанного с помощью функции, от его фактического значения.
• Корреляционный анализ. Используется для оценки корреляционной связи между различными факторами и результативным показателем по выборочным данным.
• Регрессионный анализ. Это статистический метод исследования зависимости случайной величины от переменных , где - это результативный признак, а - это факторы, влияющие на результат. Этот метод характеризует количественную связь факторов и результативных признаков. С его помощью можно установить, на сколько измениться результативный признак при изменении факторных признаков на единицу, если уровни всех других факторов принять неизменными.
• Статистические уравнения зависимости. Статистические уравнения зависимости позволяют обосновывать темпы роста показателей хозяйственной деятельности на будущий период, вычислять прогнозные значения, давать оценку степени влияния отдельных факторов на результативный признак, устанавливать уровни факторов при изменении результативного признака на единицу, или какую-либо заданную величину, определять совокупное влияние на результативный признак изменения каждого из факторов на единицу, или другую заданную величину, а также оценивать интенсивность использования факторов для достижения средней величины результативного показателя.
Эконометрические методы позволяют построить зависимости, отражающие взаимосвязи социально-экономических явлений, получить надёжный прогноз, проверить надежность готовых эмпирических зависимостей.
§2. Эконометрическая модель
2.1. Виды эконометрических моделей.
2.2. Основные этапы эконометрического моделирования.
2.1 Виды эконометрических моделей
Главным инструментом эконометрики служит эконометрическая модель.
Можно выделить три класса эконометрических моделей:
1. Модели временных данных, – в которых результативный признак является функцией переменной времени или переменных, относящихся к другим моментам времени.
К моделям временных данных, представляющих собой зависимость результативного признака от переменной времени, относятся модели:
◦ тренда (зависимости результативного признака от трендовой компоненты);
◦ сезонности (зависимости результативного признака от сезонной компоненты).
К моделям временных данных, представляющих собой зависимость результативного признака от переменных, датированных другими моментами времени, относятся модели:
• объясняющие поведение результативного признака в зависимости от предыдущих значений факторных переменных (модели с распределенным лагом);
• объясняющие поведение результативного признака в зависимости от предыдущих значений результативных переменных (модели авторегрессии);
• объясняющие поведение результативного признака в зависимости от будущих значений факторных или результативных переменных (модели ожиданий).
2. Регрессионная модель с одним уравнением.
В таких моделях результативный признак (зависимая переменная) представляется в виде функции факторных признаков (независимых переменных).
Ниже перечислены примеры регрессионных моделей с одним уравнением.
• функция цены: P = f (Q,Pk), где цена определенного товара – P зависит от объема его поставки – Q и от цен конкурирующих товаров – Pk.
• функция спроса: D = f (P,Pk,I), где величина спроса на определенный товар – D зависит от цены данного товара – P,от цен товаров-конкурентов – Pk, а также от реальных доходов потребителей – I.
• производственная функция: Q = f (L,K), представляющая собой зависимость объема производства товара Q от производительных факторов, например от затрат капитала K и затрат труда L.
3. Системы одновременных уравнений.
Эти модели описываются системами взаимосвязанных регрессионных уравнений. Система «объясняет», а также прогнозирует столько результативных признаков, сколько поведенческих уравнений входит в систему.
Уравнения системы могут быть либо тождествами, либо поведенческими уравнениями.
Для тождеств характерно, что их вид и значения параметров известны.
В поведенческих уравнениях значения параметров требуется оценить. Кроме того, поведенческие уравнения в качестве независимых переменных могут включать не только факторные, но и результативные признаки из других уравнений системы.
Примером системы одновременных уравнений является модель спроса и предложения, включающая 3 уравнения:
1 – уравнение предложения:;
2 – уравнение спроса: ;
3 – тождество равновесия: S=D.
где S - предложение товара в момент времени t;
D – спрос на товар в момент времени t;
Pt – цена товара в момент времени t;
Pt-1 – цена товара в предыдущий момент времени (t-1);
It – доход потребителей в момент времени t;
а0, а1, а2, b0, b1, b2 – параметры модели.
Данная модель «объясняет» две результативные переменные: 1) S – объем спроса, равный объему предложения в момент времени t; 2) Pt – цену товара в момент времени t.
2.2. Основные этапы эконометрического моделирования:
1. Определение конечных целей модели, набора участвующих факторных и результативных признаков;
2. Качественный (теоретический) анализ сущности изучаемого явления. Формирование и формализация априорной информации, относящихся к природе исходных статистических данных и случайных составляющих;
3. Выбор общего вида модели, состава и формы входящих в нее связей;
4. Сбор необходимой информации, анализ ее качества;
5. Оценка параметров модели;
6. Оценка качества модели (т.е. Оценка ее достоверности и надежности). Если качество модели не устраивает исследователя, то следует переход ко второму этапу;
7. Интерпретация полученных результатов.
Тема 2: ДВУМЕРНАЯ (ОДНОФАКТОРНАЯ ИЛИ ПАРНАЯ) РЕГРЕССИОННАЯ МОДЕЛЬ
§3. Модель парной линейной регрессии
3.1. Общий вид модели.
3.2. Метод наименьших квадратов (МНК).
3.1. Общий вид модели
Пусть имеется набор значений двух переменных: yi (объясняемая переменная или результат) и xi (объясняющая переменная или фактор). Между этими переменными имеется объективная связь:
yi = f (xi). (1)
Данное уравнение будем называть «истинным» уравнением регрессии. Необходимо по данным наблюдений (yi, xi, i=1;n) подобрать функцию «наилучшим» образом описывающую «истинную» зависимость (1). Подобрать функцию – значит определить вид функциональной зависимости и значения параметров.
Для определения вида функциональной зависимости можно использовать:
1. Теоретические соображения и опыт предыдущих аналогичных исследований.
2. Графический способ – на основе корреляционного поля или эмпирической линии регрессии.
Корреляционное поле – точечный график в системе координат (х,у). Каждая точка соответствует единице наблюдения. Положение каждой точки на графике определяется величиной двух признаков – факторного х и результативного у.
Эмпирическая регрессия – регрессия, полученная по эмпирическим (наблюдаемым) данным. Используются результаты аналитической, либо комбинационной группировки. Графически она представляет собой ломаную линию, составленную из точек, абсциссами которых являются средние значения факторного признака, а ординатами – средние значения признака результата. Число точек равно числу групп в группировке.
3. Можно также перебрать несколько функций (построить для каждой из них уравнение регрессии) и выбрать лучшую из них по показателям качества уравнения регрессии.
Наиболее часто используется линейная форма зависимости. Внимание к линейной форме объясняется:
◦ четкой экономической интерпретацией ее параметров;
◦ ограниченной вариацией переменных;
◦ а также тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют в линейную форму.
Модель линейной двумерной (однофакторной или парной регрессии) имеет вид:
yi = a + b·xi + ui (2)
Величина переменной yi состоит из двух составляющих:
1. Неслучайной составляющей a + b·xi;
2. Случайной составляющей ui.
Рис. 1. Истинная зависимость между х и у
На рисунке показано, как комбинация этих двух составляющих определяет величину yi для случая парной линейной модели регрессии.
Причины существования случайной составляющей ui:
1) отсутствие в модели «важных» факторов;
2) агрегирование переменных;
3) неправильная функциональная спецификация модели;
4) ошибки измерения переменных.
Экономическая интерпретация параметров парной линейной регрессии:
Знак коэффициента регрессии b в модели указывает направление связи:
▪ если b > 0, то связь прямая;
▪ если b < 0, то связь обратная.
Величина b показывает, на какую величину в среднем изменится результат у, если фактор х увеличится на одну единицу своего измерения.
Формально значение параметра а в модели – среднее значение у при х=0. Если фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра не имеет смысла.
3.2. Метод наименьших квадратов (МНК)
После определения вида функциональной зависимости – y = f(x) оценивают параметры модели. Для определения «наилучших» параметров модели можно использовать следующие критерии:
1) сумму квадратов отклонений наблюдаемых значений зависимой переменной у от значений y’, рассчитанных по функции f(x): - метод наименьших квадратов (МНК);
2) сумму модулей отклонений наблюдаемых значений зависимой переменной от ее расчетных значений:;
3) любую другую сумма отклонений: ,
где g – «мера», с которой отклонение для i-го наблюдения входит в функционал S.
Оптимальными будут значения параметров, минимизирующие функционал S.
Для оценки параметров a и b модели линейной парной регрессии
yi = a + b·xi + ui (i=1;n) наиболее часто используется традиционный метод наименьших квадратов, согласно которому в качестве оценок параметров a и b, принимают величины a’ и b’, минимизирующие сумму квадратов отклонений наблюдаемых значений результативного признака – уi от расчетных (теоретических) значений – = a’ + b’·xi:
Значения yi и xi нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются оценки параметров a’ и b’. Чтобы найти минимум функции двух переменных, необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их к нулю.
В результате получим систему из двух нормальных линейных уравнений:
Чтобы найти параметры регрессии a’ и b’, необходимо либо непосредственно решить эту систему, либо преобразовать ее и выразить каждый из параметров:
и или .
Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм Σу = Σ (при этом возможно некоторое расхождение из-за округления расчетов).
Результаты многих исследований подтверждают, что число наблюдений должно в 6 – 7 раз превышать число рассчитываемых параметров при переменной х. Это означает, что искать линейную парную регрессию, имея менее 7 наблюдений вообще не имеет смысла.
§4. Связь между факторным и результативным признаками
4.1. Коэффициент эластичности.
4.2. Коэффициенты парной линейной корреляции и детерминации
3.1. Коэффициент эластичности
Коэффициент эластичности представляет собой показатель силы связи фактора х с результатом у, показывающий, на сколько процентов изменится значение у при изменении значения фактора на 1%. Коэффициент эластичности (Э) рассчитывается как относительное изменение у на единицу относительного изменения х:
Различают обобщающие (средние) и точечные коэффициенты эластичности.
Рассмотрим эти коэффициенты для случая парной линейной регрессии.
Обобщающий коэффициент эластичности рассчитывается для среднего значения :
и показывает, на сколько процентов изменится у относительно своего среднего уровня при росте х на 1% относительно своего среднего уровня.
Точечный коэффициент эластичности рассчитывается для конкретного значения х = х0:
и показывает, на сколько процентов изменится у относительно уровня у0 при увеличении х на 1% от уровня х0.
Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах. Например, бессмысленно определять, на сколько процентов изменится заработная плата с ростом возраста рабочего на 1%.
4.2. Коэффициенты парной линейной корреляции и детерминации
Уравнение регрессии всегда дополняется расчетом коэффициентов корреляции и детерминации.
Коэффициент линейной парной корреляции – показатель тесноты линейной связи между признаками х и у:
где σх, σу – средние квадратические отклонения соответственно фактора и результата.
Область допустимых значений линейного парного коэффициента корреляции от –1 до +1. Если коэффициент корреляции по модулю близок к единице, то связь между признаками может быть охарактеризована как тесная линейная. Если коэффициент корреляции по модулю близок к нулю, то имеет место слабая линейная зависимость.
Линейный коэффициент корреляции оценивает тесноту связи между признаками в ее линейной форме. Поэтому, если значение очень близко к нулю, то это еще не значит, что связи между признаками нет. При выборе модели иного вида связь может оказаться достаточно тесной.
В табл. 1 представлена оценка тесноты линейной связи с помощью коэффициента корреляции (r).
Таблица 1
Оценка тесноты линейной связи
Значение
Теснота линейной связи
0 – 0,1
Связь отсутствует
0,1 – 0,3
Слабая
0,3 – 0,5
Умеренная
0,5 – 0,7
Заметная
0,7 – 0,9
Высокая
0,9 – 0,99
Очень высокая
1
Функциональная
При r > 0 связь прямая, т.е. с ростом х растет у.
При r < 0 связь обратная, т.е. с ростом х убывает у.
При парной линейной регрессии коэффициент детерминации равен квадрату парного линейного коэффициента корреляции: r2y(x) = (ry(x) )2.
Он показывает какая доля изменений результативного признака у обусловлена влиянием фактора х. Соответственно величина 1–r2y(x) характеризует долю вариации у, необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов.
§5. Оценка качества уравнения регрессии
5.1. Показатели качества регрессии
5.2. Проверка гипотез о значимости параметров регрессии
5.3. Проверка гипотезы о значимости коэффициента корреляции
5.4. Проверка гипотезы о значимости уравнения регрессии
5.1. Показатели качества регрессии
Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков – еi. Остаток представляет собой отклонение фактического значения зависимой переменной от значения данной переменной, полученного расчетным путем:
еi = yi – (i=1;n).
Если еi = 0 (i=1;n), то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями:
yi = (i=1;n).
Графически это означает, что теоретическая линия регрессии (линия, построенная по функции = a' + b'·xi) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак у полностью обусловлен влиянием фактора х.
На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических (еi ≠ 0). Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения регрессии.
Выделяют пять основных показателей качества регрессии:
1. Теоретический коэффициент (индекс для нелинейных форм связи) детерминации: . Он показывает какая доля изменений результативного признака у обусловлена влиянием фактора х. Соответственно величина 1– R2y(x) характеризует долю вариации у, необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов.
2. Коэффициент линейной парной корреляции – показатель тесноты линейной связи между признаками х и у:
3. Корень из коэффициента (индекса) детерминации есть коэффициент (индекс) множественной корреляции, или теоретическое корреляционное отношение отражает тесноту связи между несколькими показателями. Если все точки корреляционного поля лежат на теоретической линии регрессии, то Ry(x) = 1; следовательно, связь между х и у – функциональная, и уравнение регрессии очень хорошо описывает фактические данные. Если Ry(x) = 0, то уравнение плохо описывает данные, а значит, связь между признаками отсутствует.
4. Средняя квадратическая ошибка уравнения регрессии представляет собой среднее квадратическое отклонение наблюдаемых значений результативного признака от теоретических значений, рассчитанных по модели:
где n – число наблюдений;
h – число параметров в модели регрессии.
Величину средней квадратической ошибки можно сравнить со средним квадратическим отклонением результативного признака σу. Если Se < σу, то использование модели регрессии является целесообразным.
5. Средняя ошибка аппроксимации представляет собой величину абсолютных отклонений фактических значений результативного признака от теоретических, выраженную в процентах и вычисляющуюся по формуле:
Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Оценка качества модели с помощью средней ошибки апппроксимации отражена в табл. 2.
Таблица 2
Оценка качества модели регрессии с помощью средней ошибки апппроксимации
Значение , %
до 7
7 – 10
10 – 15
свыше 15
Качество модели регрессии
Высокое
Хорошее
Среднее
Низкое
5.2. Проверка гипотез о значимости параметров регрессии
С помощью метода наименьших квадратов были получены оценки параметров уравнения регрессии. Чтобы проверить, значимы ли эти параметры (т. е. значимо ли они отличаются от нуля в «истинном» уравнении регрессии), используют статистические методы проверки гипотез.
В качестве основной гипотезы (H0) выдвигают гипотезу о незначимом отличии от нуля «истинного» параметра регрессии. Альтернативной гипотезой (H1) при этом является гипотеза обратная, т. е. о неравенстве нулю «истинного» параметра регрессии. Мы заинтересованы в том, чтобы основная гипотеза была отвергнута. Для проверки этой гипотезы используется t-статистика критерия проверки гипотезы, имеющая распределение Стьюдента.
Найденное по данным наблюдений tфакт или tнабл сравнивается с критическим значением tтабл или tкрит. Критическое значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое равно (n – h).
а) Для проверки гипотезы H0: b = 0
H1: b ≠ 0
статистика критерия проверки имеет вид:
,
где – стандартная ошибка оценки коэффициента регрессии b.
Для линейного парного уравнения регрессии стандартная ошибка коэффициента вычисляется по формуле:
Если |tфакт| > tтабл, то основную гипотезу отвергают и считают, что с вероятностью (1 – α) «истинный» параметр регрессии b незначимо отличается от нуля.
б) Для проверки гипотезы H0: а = 0
H1: а ≠ 0
статистика критерия проверки имеет вид:
,
где – стандартная ошибка оценки коэффициента регрессии а.
Для линейного парного уравнения регрессии стандартная ошибка коэффициента вычисляется по формуле:
Полученное значение также сравнивают с критическим значением. Основную гипотезу отвергают, если |tфакт| > tтабл.
5.3. Проверка гипотезы о значимости коэффициента корреляции
С помощью статистических методов проверки гипотез можно также проверить значимость коэффициента линейной корреляции (т. е. значимо ли он отличается от нуля в генеральной совокупности).
В качестве основной гипотезы (H0) также выдвигают гипотезу о незначимом отличии от нуля коэффициента корреляции. Альтернативной гипотезой (H1) при этом является гипотеза обратная, т. е. о неравенстве нулю коэффициента корреляции. Мы заинтересованы в том, чтобы основная гипотеза была отвергнута.
Значимость коэффициента корреляции тоже можно проверить по
t-критерию Стьюдента.
Для проверки гипотезы H0: rxy = 0
H1: rxy ≠ 0
статистика критерия проверки имеет вид:
,
где – стандартная ошибка выборочного коэффициента корреляции rxy.
Для линейного парного уравнения регрессии:
Найденное значение сравнивается с табличным. Если |tфакт| > tтабл, то линейный коэффициент корреляции значим и связь между показателями х и у существенна.
Рассмотренная формула статистики критерия проверки гипотезы о незначимом отличии от нуля коэффициента корреляции рекомендуется к применению, если:
• число наблюдений (n) велико;
• величина |rух| не близка к единице.
Если же величина выборочного коэффициента корреляции по модулю близка к единице, то распределение его оценок отличается от распределения Стьюдента. В данном случае используют подход, предложенный Р. Фишером, а именно для оценки значимости линейного парного коэффициента корреляции r вводится вспомогательная величина z, связанная с данным коэффициентом следующим отношением:
.
Величину z можно не рассчитывать, а воспользоваться готовыми таблицами z–преобразований (приложение 2), в которых приведены значения z для соответствующих значений rух.
При изменении rух от –1 до +1 величина z изменяется от –∞ до +∞, что соответствует нормальному распределению. Математический анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к единице значениях коэффициента корреляции. Тогда гипотеза о том, что «истинный» коэффициент корреляции незначимо отличается от нуля, сводится к гипотезе о незначимом отличии от нуля величины z. Для проверки данной гипотезы используют следующую формулу:
.
Критическое значение t находят по таблицам стандартного нормального распределения по доверительной вероятности (1 – α). Гипотезу о равенстве коэффициента корреляции нулю отвергают, если |tфакт| > tтабл.
5.4. Проверка гипотезы о значимости уравнения регрессии
Оценка значимости уравнения регрессии в целом производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю коэффициента детерминации R2 = 0 (Либо о равенстве нулю параметра регрессии b). Альтернативная ей гипотеза о значимости уравнения – гипотеза о неравенстве нулю параметров регрессии или о неравенстве нулю коэффициента детерминации R2 ≠ 0.
Для проверки данной гипотезы используют F-критерий Фишера. Наблюдаемое (фактическое) значение находится по формуле:
По таблицам распределения Фишера-Снедеккора находят критическое значение F-критерия в зависимости от уровня значимости α и двух чисел степеней свободы k1 = h – 1 и k2 = n – h.
Для линейной парной регрессии эта формула примет вид:
.
Найденное значение сравнивается с табличным (приложение 3). Если фактическое значение критерия больше табличного, то это свидетельствует о статистической значимости уравнения регрессии в целом и показателя тесноты связи R, то есть они статистически надежны и сформировались под неслучайным воздействием фактора х.
§6. Интервальные оценки для линейной формы зависимости
6.1. Интервальные оценки для параметров уравнения парной линейной регрессии и коэффициента корреляции
6.2. Интервалы прогноза по линейному уравнению регрессии
6.1. Интервальные оценки для параметров уравнения
парной линейной регрессии и коэффициента корреляции
Величины стандартных ошибок совместно с t-распределением Стьюдента при n – h степенях свободы применяются также для расчета доверительных интервалов для параметров регрессии.
Доверительный интервал для коэффициента регрессии а можно определить по формуле:
и с вероятностью можно утверждать, что истинные значения параметра а будут находится в указанных интервалах.
Аналогично рассчитываются надёжностный интервалы для коэффициента регрессии b и для коэффициента парной линейной корреляции:
6.2. Интервалы прогноза по линейному уравнению регрессии
В прогнозных расчетах по уравнению регрессии определяется предсказываемое значение (ур) как точечный прогноз путём подстановки в уравнение регрессии = a’ + b’·x соответствующего значения х = хр. Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки , и соответственно интервальной оценкой прогнозного значения с доверительной вероятностью :
Средняя ошибка прогноза определяется по формуле:
Рассмотренная формула стандартной ошибки предсказываемого среднего значения у при заданном значении хр характеризует ошибку положения линии регрессии. Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере того, как «удаляется» от в любом направлении. Т.е., чем больше разность между хр и , тем больше ошибка , с которой предсказывается среднее значение у для заданного хр. Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении хр от . Если же значение хр оказывается за пределами наблюдаемых значений х, используемых при построении регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько хр отклоняется от области наблюдаемых значений фактора х.
На графике доверительные границы для ур представляют собой гиперболы, расположенные по обе стороны от линии регрессии.
При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза значения фактора х.
§7. Нелинейная регрессия
7.1. Виды моделей нелинейной регрессии
7.2. Коэффициенты эластичности
7.3. Показатели качества для нелинейной регрессии
7.1. Виды моделей нелинейной регрессии
Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.
Различают два класса нелинейных регрессий:
1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам:
• равносторонней гиперболы ;
• полиномы разных степеней: , и т. д.
2. Регрессии, нелинейные по оцениваемым параметрам:
• степенная ;
• показательная ;
• экспоненциальная .
Нелинейная регрессия по включенным переменным не имеет сложностей в оценке ее параметров. Она определяется, как и в линейной регрессии, методом наименьших квадратов (МНК), так как эти функции линейны по параметрам. Так, в параболе второй степени
,
заменяя переменные х = х1, х2 = х2, получим двухфакторное уравнение линейной регрессии:
,
для оценки параметров которого, можно использовать метод стандартизированных коэффициентов.
Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором, достигается максимальное (или минимальное) значение результативного признака: приравниванием к нулю первую производную параболы второй степени.
Для равносторонней гиперболы вида , заменив , получим линейное однофакторное уравнение регрессии , оценка параметров которого может быть дана МНК. При этом система нормальных линейных уравнений:
преобразуется в систему
После нахождения значений параметров, они подставляются в модель .
При имеем обратную зависимость, которая при характеризуется нижней асимптотой, то есть минимальным предельным значением , оценкой которого служит параметр .
При b < 0 имеем медленно повышающуюся функцию с верхней асимптотой при , то есть с максимальным предельным уровнем у, оценкой которого служит параметр а.
7.2. Коэффициенты эластичности для нелинейной регрессии
Коэффициенты эластичности представляют экономический интерес, а виды моделей не ограничиваются только линейной функцией. В таблице представлены формулы расчета коэффициентов эластичности для наиболее распространенных типов уравнений нелинейной регрессии.
Таблица 3
Коэффициенты эластичности для ряда математических функций
Вид функции,
у
Первая производная,
Коэффициент эластичности, Э
Линейная
b
Парабола второго порядка
Гипербола
Показательная
Степенная
Только для степенной функции коэффициент эластичности представляет собой постоянную независящую от x величину равную b. Параметр b в таких функциях имеет четкую экономическую интерпретацию, он показывает процентное изменение результата при изменении фактора на 1%.
7.3. Показатели качества для нелинейной регрессии
Уравнение нелинейной регрессии, также как и для линейной зависимости, дополняется коэффициентом корреляции, который в данном случае называют индексом корреляции .
В общем виде формула для вычисления индекса корреляции имеет вид:
.
Величина данного показателя находится в границах: , чем ближе он к 1, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.
Значимость индекса корреляции, также как и коэффициента корреляции для линейной связи, производится с помощью - критерия Стьюдента.
Величину квадрата индекса корреляции , называют индексом детерминации, который, как и для линейной формы связи, показывает, какая доля изменений результативного признака у, обусловлена влиянием фактора . Индекс детерминации можно сравнить с коэффициентом детерминации , найденного для линейной формы зависимости. Чем больше кривизна линии регрессии, тем величина коэффициента детерминации меньше индекса детерминации . Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически, если величина не превышает 0,1, то предположение о линейной форме связи считается оправданным.
Значимость уравнения регрессии в целом в случае нелинейной формы связи, проводится, как и для линейной формы связи, с помощью - критерия Фишера.
Также показателями качества для нелинейной формы связи выступают средняя квадратическая ошибка и средняя ошибка аппроксимации .
Так как показатели качества для линейной формы связи и для не линейной связи совпадают, то их можно использовать для сравнения различных уравнений регрессии. То есть можно найти несколько уравнений регрессии, просчитать для каждого из них показатели качества и сравнить их. Наилучшим будет являться то уравнение, для которого корреляция и детерминация будут наибольшими, а средняя квадратическая ошибка и средняя ошибка аппроксимации наименьшими.
Тема 2: МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
§8. Модель множественной линейной регрессии
8.1. Общий вид модели
8.2. Двухфакторное уравнение множественной регрессии
Парная регрессия может давать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. В противном случае, следует попытаться выявить влияние других факторов, введя их в модель, то есть построить уравнение множественной регрессии.
Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные, но наиболее широко используются линейная функции, так как, при ее использовании, возможна четкая экономическая интерпретация параметров данного уравнения. Поэтому, естественным обобщением линейной регрессии с двумя переменными является многомерная регрессионная модель или модель множественной регрессии:
yi = a + b1·x1i + b2·x2i +…+ bj·xji +…+ bm·xmi + ui, i=1;n, j=1;m .
где yi – значении признака результата (зависимой переменной) для i-го наблюдения;
xji – значение j-го фактора (независимой или объясняющей переменной) для i-го наблюдения;
a – свободный член, который формально показывает среднее значение у при х1 = х2 =…= хm = 0;
bj – коэффициент чистой регрессии при j-ом факторе (j=1;m). Он характеризует среднее изменение признака-результата у при изменении соответствующего фактора xj на единицу, при условии, что прочие факторы модели не изменяются и фиксированы на средних уровнях.
В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная задача множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на результативный показатель.
Факторы, включаемые во множественную регрессию должны отвечать следующим требованиям:
1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, воспользоваться бальной системой).
2. Каждый фактор должен быть достаточно тесно связан с результатом (т. е. коэффициент парной линейной корреляции между фактором и результатом должен существенно отличаться от нуля).
3. Факторы не должны сильно коррелировать друг с другом, тем более находится в строго функциональной зависимости (т. е. они должны быть интеркоррелированы).
8.2. Двухфакторное уравнение множественной регрессии
Двухфакторное уравнение множественной линейной регрессии имеет вид:
,
где – результативный признак;
х1 – первый фактор;
х2 – второй фактор;
а, b1 и b2 – параметры уравнения регрессии.
Для расчета параметров а, b1 и b2 сначала построим уравнение множественной регрессии в стандартизированном масштабе:
где - стандартизированные переменные;
β1 и β2 – стандартизированные коэффициенты регрессии, которые вычисляются по формулам:
и
Для построения уравнения в естественной форме рассчитаем b1 и b2, используя формулы перехода от βj к bj:
,
где – средние квадратические отклонения
Каждый из коэффициентов b уравнения регрессии определяет среднее изменение результата за счет изменения соответствующих факторов и фиксированного уровня другого. Так, коэффициент при х1 показывает, что увеличение (или снижение) первого фактора на единицу своего измерения ведет к соответствующему повышению (или снижению) результата. Соответственно коэффициент при х2 определяет меру зависимости у от второго фактора.
Параметр а определяют из соотношения:
.
Он показывает среднее значение результата у, при условии, что значения факторов равны нулю. Также как и в модели парной линейной регрессии, часто не имеет экономического смысла.
§9. Показатели тесноты связи фактора с результатом для множественной регрессии
9.1. Стандартизированные коэффициенты регрессии и частные коэффициенты эластичности
9.2. Коэффициенты множественной корреляции и детерминации
9.1. Стандартизированные коэффициенты регрессии и
частные коэффициенты эластичности
Если факторные признаки различны по своей сущности и/или имеют различные единицы измерения, то коэффициенты регрессии bj уравнения множественной линейной регрессии являются несопоставимыми. Поэтому уравнения регрессии дополняют соизмеримыми показателями тесноты связи фактора с результатом, позволяющими ранжировать факторы по силе влияния на результат. К таким показателям тесноты связи относят:
• стандартизированные коэффициенты регрессии (β-коэффициенты);
• частные коэффициенты эластичности.
Стандартизированные частные коэффициенты регрессии –
β-коэффициенты: показывают, на какую часть своего среднего квадратического отклонения σу изменится признак-результат у с увеличением соответствующего фактора xj на величину своего среднего квадратического отклонения σxj при неизменном влиянии прочих факторов модели.
Частные коэффициенты эластичности для множественной линейной зависимости рассчитываются по формуле:
и показывает, насколько процентов в среднем изменятся признак-результат у с увеличением признака-фактора xj на 1% от своего среднего уровня при фиксированном положении других факторов модели.
Частные коэффициенты эластичности и стандартизированные частные коэффициенты регрессии можно использовать для ранжирования факторов по силе влияния на результат. Чем больше величина или , тем сильнее влияет фактор xj на результат у. В этом основное достоинство стандартизированных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии bj, которые не сравнимы между собой.
9.2. Коэффициенты множественной корреляции и детерминации
Они характеризуют совместное влияние всех факторов на результат. Для линейного уравнения регрессии: yi = a + b1·x1i + b2·x2i +…+ bj·xji +…+ bm·xmi + ui коэффициент множественной детерминации может быть рассчитан через β-коэффициенты:
Следовательно, для двухфакторной модели формула примет вид:
Как и в модели парной регрессии, коэффициент детерминации показывает долю вариации у, обусловленную влиянием факторов х1, х2, …, хm.
Соответственно, коэффициент множественной корреляции есть корень квадратный из коэффициента детерминации:
Линейный коэффициент множественной корреляции может принимать значения от 0 до 1, поэтому он не может быть использован для определения направления связи между результатом и факторами. Для этого служат коэффициенты истинной регрессии . Если значение близко к единице, то уравнение регрессии хорошо описывает фактические данные и факторы сильно влияют на результат. При значении близком к нулю, уравнение регрессии плохо описывает фактические данные, и факторы оказывают слабое воздействие на результат.
Заметим, что для уравнения множественной регрессии также рассчитываются и прочие показатели качества, такие как средняя квадратическая ошибка и средняя ошибка аппроксимации.
§10. Частная регрессия и корреляция
10.1. Частные уравнения регрессии
10.2. Частная корреляция
9.1. Частные уравнения регрессии
На основе линейного уравнения множественной регрессии могут быть найдены частные уравнения регрессии, то есть уравнения регрессии, которые связывают результативный признак с соответствующими факторами при закреплении других учитываемых во множественной регрессии факторов на среднем уровне. Частные уравнения регрессии имеют следующий вид:
;
;
………………..…………………….;
.
В отличие от парной регрессии частные уравнения регрессии показывают изолированное влияние факторов на результат, так как другие факторы закреплены на средних уровнях. На основе частных уравнений регрессии можно определить частные коэффициенты эластичности по формуле
где – коэффициент регрессии для фактора ;
– значение признака-результата, полученное по частному уравнению регрессии для фактора хi.
10.2. Частная корреляция
Показатели парной корреляции – rxy характеризует тесноту связи результата и фактора, не принимая во внимание возможного влияния на результат других факторных признаков. Поэтому во множественном регрессионном анализе возникает проблема определения тесноты связи между признаками в чистом виде, т.е. при устранении воздействия других факторов. При этом, следует учитывать, что исключить влияние можно только учтенных в модели факторов. Показателем чистого влияния фактора на результат является частный коэффициент корреляции.
Частный коэффициент корреляции характеризует тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в модель регрессии.
Для расчета частных коэффициентов корреляции могут быть использованы парные коэффициенты корреляции. Для двухфакторной модели регрессии можно вычислить следующие коэффициенты частной корреляции:
(фактор х2 фиксирован),
(фактор х1 фиксирован),
Можно также рассчитать коэффициент частной корреляции, измеряющий тесноту связи между х1 и х2 при фиксации признака-результата у:
Рассмотренные частные коэффициенты корреляции являются коэффициентами частной корреляции первого порядка. Порядок частного коэффициента корреляции определяется числом факторов, влияние которых исключается.
Если рассматривается регрессия с числом факторов m, то возможны коэффициенты корреляции не только первого, но и второго, и третьего,…, и
(m – 1)-го порядков. На практике наибольший интерес представляют частные коэффициенты корреляции самого высокого порядка.
Формулы для расчета частных коэффициентов корреляции j-го порядка через коэффициенты частной корреляции (j – 1)-го порядка называются рекуррентными.
Частные коэффициенты корреляции могут быть рассчитаны и другим способом. В частности для двухфакторной модели они могут быть рассчитаны через коэффициент множественной детерминации:
Частные коэффициенты корреляции, рассчитанные первым способом по рекуррентным формулам, изменяются от –1 до +1, а рассчитанные вторым способом, через множественные коэффициенты детерминации, – от 0 до 1. Чем ближе к единице модуль частного коэффициента корреляции, тем теснее связь фактора с результатом при устранении влияния прочих факторов, включенных в модель регрессии.
Частные коэффициенты корреляции можно также использовать для ранжирования факторов модели по степени влиянии на результат. Они показывают конкретную меру тесноты связи каждого фактора с результатом в чистом виде. Чем больше абсолютная величина частного коэффициента корреляции, тем сильнее влияет рассматриваемый фактор на результат.
Значимость частных коэффициентов корреляции, так же как и парных коэффициентов корреляции, проверяется с помощью t-критерия Стьюдента. Наблюдаемое значение находится по формуле:
,
где r – оценка частного коэффициента корреляции;
l – порядок частного коэффициента корреляции.
Квадрат частного коэффициента корреляции – частный коэффициент детерминации. Коэффициенты частной детерминации не могут быть сравнимы, т. к. представляют собой доли от различных величин.
§11. Оценка надежности результатов множественной регрессии
11.1. Оценка значимости уравнения множественной регрессии в целом
11.2. Оценка значимости факторов, включенных в уравнение множественной регрессии
11.1. Оценка значимости уравнения множественной
регрессии в целом
Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью - критерия Фишера. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая сводится к гипотезе о равенстве нулю коэффициентов , то есть о том, что факторы не оказывают влияния на результат . Альтернативная ей гипотеза о значимости уравнения – это гипотеза о неравенстве нулю коэффициентов . Мы заинтересованы в том, чтобы основная гипотеза была отвергнута.
Для применения критерия Фишера необходимо найти две величины и , и сравнить их. Если >, то основная гипотеза отвергается, что свидетельствует о статистической значимости уравнения регрессии. Если же <, то основная гипотеза принимается, что свидетельствует о статистической незначимости уравнения регрессии.
Будем рассматривать двухфакторное уравнение регрессии
.
Для вычисления фактического значения пользуются формулой
,
где - это число наблюдений;
- число оцениваемых параметров,
- коэффициент множественной детерминации.
Для нахождения необходимо найти значения и , и воспользоваться таблицей.
11.2. Оценка значимости факторов, включенных в уравнение
множественной регрессии
Кроме оценки значимости уравнения регрессии в целом, необходимо проводить оценку качества факторов, включенных в модель. При наличии в модели нескольких факторов они могут вводится в модель в разной последовательности. В зависимости от последовательности введения в уравнение регрессии конкретного фактора, его теснота связи с результатом может быть различной. Мерой для оценки включения фактора в модель служит частный - критерий Фишера, то есть .
Частные - критерии - и оценивают статистическую значимость присутствия факторов и в уравнении множественной регрессии, оценивают целесообразность включения в уравнение одного фактора после другого фактора, то есть оценивает целесообразность включения в уравнение фактора после того, как в него был включен фактор . Соответственно указывает на целесообразность включения в модель фактора после фактора .
Частные - критерии - и вычисляются по формулам:
и .
Для нахождения необходимо найти значения и , и воспользоваться таблицей.
Например, по результатам исследований получилось, что , и , а .
Так как , то фактор является статистически значимым, то есть его целесообразно включать в модель после фактора .
Так как , то фактор является статистически не значимым и нет смысла включать его в модель после фактора . Это значит, что парная регрессионная модель зависимости среднего дохода от средней зарплаты является достаточно статистически значимой, надежной и нет необходимости усложнять ее, включая дополнительный фактор .
§ 12. Фиктивные переменные во множественной регрессии.
До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Но могут возникнуть ситуации, в которых необходимо включить в модель качественные факторы, не имеющие количественного выражения. Например, профессия, пол, образование, климатические условия и т.д. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены какие-либо цифровые метки, то есть качественные переменные преобразованы в количественные. Такого рода сконструированные переменные принято называть фиктивными переменными.
Пример. Пусть по данным о 20 рабочих цеха оценивается регрессия заработной платы рабочего за месяц от количественного фактора - возраст работника и качественного фактора - пол. При этом предполагается, что у мужчин заработная плата больше чем у женщин. Данные приведены в таблице.
Заработная плата рабочего за месяц, $
Возраст рабочего,
лет
Пол, м/ж
300
400
300
320
200
350
350
400
380
400
250
350
200
400
220
320
390
360
260
250
29
40
36
32
23
45
38
40
50
47
28
30
25
48
30
40
40
38
29
25
Ж
м
Ж
Ж
М
М
Ж
М
М
М
Ж
М
М
М
Ж
М
М
М
Ж
М
Введем в модель фиктивную переменную , которая принимает два значения: 1 – если пол рабочего мужской; 0 – если пол женский.
Построим модель
.
Вычислив параметры данного уравнения получим
.
Причем . Данное уравнение является значимым, так как .
Число при фиктивной переменной показывает, что у мужчин средняя заработная плата больше чем у женщин на 10,32 $.
В случае нашего примера совокупность рабочих можно разбить на две части и построить для них по полу частные уравнения регрессии.
При (рабочий - мужчина) .
При (рабочий - женщина) .
Сопоставляя эти частные уравнения регрессии, видно, что модели, описывающие зависимость заработной платы мужчин и женщин от возраста, различаются лишь значениями свободных членов. Причем, свободный член в уравнении регрессии в случае, когда рабочий – мужчина, больше, чем в противоположном случае. Если изобразить эти два уравнения графически, то получим две параллельные линии, причем, прямая, в случае рабочий – мужчина будет находится выше, чем во втором случае.