«Эконометрика» - конспект лекции

Конспект лекции по дисциплине «Эконометрика», Word формат

ЭКОНОМЕТРИКА Курс лекций ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ ЭКОНОМЕТРИКИ, ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ 1.1. Эконометрика: основные понятия и определения Эконометрика – это наука, изучающая методами математической статистики количественные закономерности и связи в экономике, выражаемые в виде математических моделей. Целевое назначение эконометрики – эмпирический вывод экономических закономерностей. Основные задачи эконометрики состоят в построении моделей, выражающей выводимые закономерности, оценка их параметров и проверка гипотез о закономерностях изменения и связях экономических показателей. Процессы эконометрического анализа могут характеризоваться двумя типами обрабатываемых данных: пространственными данными и временными рядами. Пространственные данные – это относящиеся к одному и тому же моменту времени данные о каком-либо экономическом показателе, характеризующем однотипные объекты. Например, данные об объеме производства на разных промышленных предприятиях за один и тот же период времени или о количестве работников разных промышленных предприятий в один и тот же момент времени. Временные ряды – это данные о каких-либо показателях, характеризующих одни и те же объекты в различные моменты времени. К такому типу данных относятся ежемесячные статистические данные за ряд лет по стране в целом или по отдельным регионам. Например, по объему промышленного производства или о количестве безработных. Особенность временных данных состоит в том, что они упорядочены во времени. Наиболее распространены три основных класса эконометрических моделей: регрессионные модели с одним уравнением, системы одновременных уравнений и модели временных рядов. Регрессионная модель – это уравнение, в котором объясняемая переменная представляется в виде функции от объясняющих переменных (например, модель спроса на некоторый товар в зависимости от его цены и дохода покупателей). По виду функции различают линейные и нелинейные регрессионные модели. Наиболее детально изучены и потому наиболее часто встречается в эконометрическом анализе методы оценки и анализа линейных регрессионных моделей. Системы одновременных уравнений представляют собой системы уравнений, состоящие из регрессионных уравнений и тождеств, в каждом из которых помимо объясняющих – независимых – переменных содержатся объясняемые переменные из других уравнений системы. Пример: система, включающая уравнение спроса, уравнение предложения и тождество – уравнение равенства спроса и предложения, характеризующее рыночное равновесие. К простейшим моделям временных рядов относятся модели тренда и модели сезонности. Тренд представляет собой устойчивое изменение уровня показателя в течение длительного времени. Сезонность характеризует устойчивые внутригодовые колебания уровня показателя. К более сложным моделям временных рядов относятся, например, модель адаптивного прогноза и авторегрессионая модель. Основная особенность моделей этого класса состоит в том, что они объясняют поведение временного ряда исходя из его предыдущих значений. 1.2. Основные задачи эконометрических исследований Эконометрическая модель, как правило, основана на теоретическом предположении о круге взаимосвязанных переменных и характере связи между ними. При всем стремлении к «наилучшему» описанию связей приоритет отдается качественному анализу. Поэтому в качестве этапов эконометрического исследования можно указать: • постановку проблемы; • получение данных, анализ их качества; • спецификацию модели; • оценку параметров; • интерпретацию результатов. На начальном этапе решения любой эконометрической задачи необходимо сформулировать эконометрическую модель, т.е. представить модель в виде уравнений, характеризующих связи между экономическими показателями. Например, уравнение связи между доходами семей () и сбережениями семей (), которое необходимо получить путем обработки результатов опроса нескольких сотен случайно отобранных семей: , где: – объясняющая (независимая) переменная (доходы семей); – объясняемая (зависимая) переменная (сбережения семей); – случайная составляющая (ошибка); и – параметры уравнения, заранее не известные и подлежащие определению в результате эконометрического анализа задачи. При решении любой задачи эконометрики необходима проверка соответствия полученной модели реальным экономическим данным. Если модель соответствует реальным данным, то возникает задача определения (оценки) параметров модели. Различают два уровня анализа: теоретический и эмпирический. На теоретическом уровне предполагается, что известны все возможные реализации экономических показателей (т.е. имеется вся генеральная совокупность в целом). Теоретически параметры модели можно оценить, если известны (или предполагаются заданными) статистические свойства генеральной совокупности. Как правило, все возможные исходы (т.е. возможные значения показателей) заранее неизвестны; на практике можно наблюдать только выбранные значения интересующих показателей, т.е. выборочную совокупность. На эмпирическом уровне на основе выборочной совокупности нельзя точно определить значения параметров модели, можно лишь получить их оценки, являющиеся случайными величинами. Таким образом, цель оценивания параметров состоит в получении как можно более точных значений неизвестных параметров модели, которые характерны для всей генеральной совокупности. Одной из основных задач экономических исследований является анализ зависимости между переменными (показателями), которая может быть функциональной (встречается очень редко) или статистической (в экономике, как правило, является преобладающей). Функциональная зависимость (иначе ее называют детерминированной) задается в виде формулы, которая каждому значению одной переменной ставит в соответствие строго определенное значение другой переменной, при этом воздействием случайных факторов пренебрегают. Статистическая зависимость – это связь переменных, на которую накладывается воздействие случайных факторов, при этом изменение одной переменной приводит к изменению математического ожидания (т.е. наиболее вероятного ожидаемого значения) другой переменной. Наиболее распространенной формулой статистической связи между переменными является уравнение регрессии. Если эта формула линейная (нелинейная), то регрессию называют линейной (нелинейной). Многие нелинейные модели можно преобразовать в линейные. 1.3. Основные понятия теории вероятностей и математической статистики Случайная величина характеризуется тем, что под воздействием случайных факторов она может с определенными вероятностями принимать те или иные значения из некоторого множества чисел. Случайная величина называется дискретной, если она принимает отдельные, изолированные друг от друга значения, и непрерывной, если множество ее значений непрерывно заполняет некоторый числовой промежуток. Дискретную случайную величину, число возможных значений которой конечно, обычно представляют в виде ряда распределения, состоящего из пары чисел, одно из которых – значение величины, другое – вероятность появления этого значения, при этом сумма вероятностей появления всех значений равна 1. Характеристикой непрерывной случайной величины является функция распределения, указывающая вероятность того, что эта случайная величина принимает значение, меньше заданной величины. Всему диапазону изменения случайной величины соответствует единичное значение функции распределения. К основным числовым характеристикам случайных величин относятся математическое ожидание (наиболее вероятное ожидаемое значение), дисперсия (вариация) и среднеквадратическое отклонение. Математическим ожиданием дискретной случайной величины называется сумма произведений всех ее значений на соответствующие вероятности: , где: математическое ожидание случайной величины ; - е значение случайной величины ; вероятность появления - го значение случайной величины ; порядковый номер дискретного значения случайной величины ; общее число дискретных значений случайной величины . Математическим ожиданием непрерывной случайной величины называется интеграл: , где: плотность распределения случайной величины , представляющая собой производную по функции распределения случайной величины ; интеграл, который берется на всем интервале, в котором определена случайная величина ; дифференциал случайной величины . Для большого числа случайных величин, с которыми имеют дело в эконометрике, предполагается нормальное или близкое к нему распределение. Для случайной величины (), имеющей нормальное распределение, математическое ожидание равно среднему значению генеральной совокупности. Теоретическая (генеральная) дисперсия случайной величины определяется как математическое ожидание квадрата отклонения случайной величины относительно ее математического ожидания: . Среднеквадратическое отклонение случайной величины , характеризующее степень отклонения в среднем случайной величины в совокупности от своего среднего значения, представляет собой корень квадратный из ее дисперсии: . Данные о случайных величинах, которые используются в эконометрическом анализе, обычно представляются ограниченной выборкой, математическое ожидание которой оценивается выборочной средней, т.е. средним арифметическим значений случайной величины в выборке: , где: выборочная средняя, - е значение случайной величины , порядковый номер выборочного значения случайной величины , общее число данных в выборке. Выборочная дисперсия (вариация) представляет собой среднее арифметическое квадратов отклонений случайной величины от среднего значения: . Выборочное среднеквадратическое отклонение случайной величины представляет собой корень квадратный из выборочной дисперсии: . Характеристики генеральной совокупности (т.е. всего возможного набора показателей) обычно неизвестны, поэтому они оцениваются на основе характеристик выборочной совокупности (т.е. ограниченного числа значений показателей). Характеристики генеральной совокупности принято называть параметрами, а выборочной совокупности – оценками. Чтобы выборочная оценка давала хорошее приближение оцениваемого параметра, она должна удовлетворять требованиям несмещенности, эффективности и состоятельности. Несмещенность является желательным свойством, так как только в этом случае они могут иметь практическую значимость. Оценка называется несмещенной, если ее математическое ожидание равно оцениваемому параметру при любом объеме выборки, т.е. математическое ожидание остатков равно нулю. Например, выборочное среднее является несмещенной оценкой математического ожидания генеральной совокупности – генеральной средней : . Итак, если несмещенность имеет место, то при большом числе полученных выборочных оценок искомого параметра остатки не будут накапливаться, и потому найденный параметр регрессии можно рассматривать как среднее значение из возможно большого количества несмещенных оценок. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным выборкам. Оценку, не являющуюся несмещенной, называют смещенной. Например, выборочная дисперсия является смещенной оценкой генеральной дисперсии. В качестве несмещенной оценки этой дисперсии используется уточненная величина (исправленная дисперсия): , где: несмещенная оценка дисперсии генеральной совокупности; несмещенная оценка стандартного отклонения генеральной совокупности; число измерений в выборке; - е значение измеренного показателя в выборке; порядковый номер измерения. Для практических целей важна не только несмещенность, но и эффективность оценок. Несмещенная оценка называется эффективной, если она имеет минимальную дисперсию по сравнению с другими выборочными оценками. Поэтому несмещенность оценки должна дополняться минимальной дисперсией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному. Пример: выборочная средняя является эффективной оценкой генеральной средней, так как она имеет наименьшую дисперсию в классе несмещенных оценок. Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными. Оценка называется состоятельной, если при увеличении объема выборки (т.е. если ) она стремится к оцениваемому параметру. Примером состоятельной оценки математического ожидания генеральной совокупности (генеральной средней ) является выборочное среднее . Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Большой практический интерес представляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра регрессии имеет предел значений вероятности, равный единице. Иными словами, вероятность получения оценки на заданном расстоянии от истинного значения параметра близка к единице. Меру связи между двумя случайными величинами и характеризуют выборочная ковариация и коэффициент корреляции. Выборочной ковариацией двух случайных величин и называется среднее арифметическое произведений отклонений значений этих величин от своих выборочных средних: , где: ковариация случайных величин и ; и -е значения случайных величин и ; и средние значения случайных величин и ; порядковый номер дискретного значения пар случайных величин и ; общее число дискретных значений пар случайных величин и . Коэффициент корреляции определяется выражением: , где: ковариация случайных величин и ; и вариации случайных величин и ; и стандартные отклонения случайных величин и . Коэффициент корреляции является безразмерной величиной и показывает степень линейной связи двух переменных: при положительной связи и при строгой положительной линейной связи; при отрицательной связи и при строгой отрицательной линейной связи; при отсутствии линейной связи. Случайные величины и называются некоррелированными, если , и коррелированными, если . Независимые случайные величины и всегда некоррелированные (т.е. ), но из некоррелированности случайных величин и не следует их независимость. Некоррелированность указывает лишь на отсутствие линейной связи между переменными, но не на отсутствие связи между ними вообще. ГЛАВА 2. МОДЕЛЬ МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ 2.1. Построение модели множественной линейной регрессии с использованием метода наименьших квадратов (МНК) В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии. Простая регрессия представляет собой модель, где среднее значение зависимой (объясняющей) переменной рассматривается как функция одной независимой (объясняющей) переменной , т.е. это модель вида . Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняющей) переменной рассматривается как функция нескольких независимых (объясняющих) переменных , т.е. это модель вида . Любой эконометрическое исследование начинается со спецификации модели, т.е. с формулировки вида модели исходя из соответствующей теории связи между явлениями. В первую очередь из всего круга вопросов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Предположим, выдвигается гипотеза о том, что величина спроса на товар А находится в обратной зависимости от цены , т.е. . В этом случае нужно знать, какие остальные факторы предполагаются неизменными, возможно, в дальнейшем их придется учесть в модели и от простой регрессии перейти к множественной. Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем по совокупности наблюдений. Так, если зависимость спроса от цены характеризуется, например, уравнением , то это означает, что с ростом цены на 1 ден. ед. спрос в среднем уменьшается на 2 ден. ед. В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией. Практически в каждом отдельном случае величина складывается из двух слагаемых: , где: фактическое значение результативного признака; теоретическое значение результативного признака, найденное исходя из соответствующей математической функции связи и , т.е. из уравнения регрессии; случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии. Случайная величина , или возмущение, включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. ЕЕ присутствие в модели обусловлено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных. Приведенное ранее уравнение зависимости спроса от цены точнее следует записывать как , поскольку всегда действуют случайные факторы. Обратная зависимость спроса от цены не обязательно характеризуется линейной функцией, возможны и другие соотношения, например: ; ; , поэтому от правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака подходят к фактическим данным . К ошибкам спецификации будет относиться не только неправильный выбор той или иной математической функции для , но и недоучет в уравнении регрессии какого-либо существенного фактора, т.е. использование парной регрессии вместо множественной. Так, спрос на конкретный товар может определяться и ценой, и доходом на душу населения. Наряду с ошибками спецификации могут иметь место ошибки выборки, поскольку исследователь чаще всего при установлении закономерной связи между признаками работает с выборочными данными. Ошибки выборки имеют место и в силу неоднородности данных в исходной статистической совокупности, что, как правило, бывает при изучении экономических процессов. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности единицы с аномальными значениями исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики. Использование временной информации также представляет собой выборку из всего множества хронологических дат. Изменив временной интервал, можно получить другие результаты регрессии. Наибольшую опасность в практическом использовании методов регрессии представляют ошибки измерения. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки ― увеличивая объем исходных данных, то ошибки измерения практически могут свести на нет все усилия по количественной оценке связи между признаками. Особенно велика роль ошибок измерения при исследовании на макроуровне. Так, в исследовании спроса и потребления в качестве объясняющей переменной широко используется «доход на душу населения». Вместе с тем статистическое измерение дохода сопряжено с рядом трудностей и не лишено возможных ошибок, например, в результате сокрытия доходов. Для построения модели множественной линейной регрессии с объясняющими переменными зависимость между ними в генеральной совокупности представляется в виде: , где: объясняемая – зависимая переменная; объясняющие – независимые переменные; параметры модели; случайное слагаемое. Обычно при построении модели множественной линейной регрессии предполагается отсутствие корреляций всех объясняющих переменных друг с другом. На основе наблюдений получают выборочное уравнение регрессии: , где оценки параметров . Для оценки параметров уравнения регрессии используется метод наименьших квадратов (МНК). Основные идеи МНК рассмотрим на примере частного случая модели множественной линейной регрессии при (т.е. модели линейной парной регрессии): . Рассмотрим диаграмму наблюдений пар случайных величин и , а также график уравнения регрессии (т.е. линию регрессии), который в общем случае не обязан проходить через точки наблюдений (рис. 1). Рис. 1. Точки наблюдений и линия регрессии Отклонение каждой точки наблюдения от расчетной величины функции, изображенной линией регрессии, равно: , где: остаток в м варианте реализации событий; значение зависимой переменной в м варианте реализации событий; расчетное значение зависимой переменной в м варианте реализации событий, определяемое уравнением регрессии; порядковый номер измерения переменных; общее число реализации событий. При применении МНК неизвестные оценки и параметров уравнения регрессии определяют путем минимизации суммы квадратов остатков: , где количество пар переменных, используемых для анализа. Необходимое условие минимума обеспечивается приравниванием нулю частных производных суммы квадратов остатков по величинам и : , , где значок дифференциала. Из этих условий вытекают два уравнения для определения величин и : , . Решая систему из двух уравнений, получим: , , где и выборочные средние значения переменных и . Коэффициент , представляющий собой угловой коэффициент регрессии, показывает скорость приращения переменной при изменении независимой переменной и связан с коэффициентом корреляции величин и соотношением: , где и среднеквадратические отклонения переменных и . В качестве примера модели линейной парной регрессии рассмотрим зависимость между сменной добычей угля на одного рабочего (т) и мощностью пласта (м) по следующим (условным) данным, характеризующим процесс добычи угля в шахтах и представленных в следующей таблице: 1 2 3 4 5 6 7 8 9 10 8 11 12 9 8 8 9 9 8 12 5 10 10 7 5 6 6 5 6 8 По данным исходной таблицы требуется: 1) найти уравнение регрессии по , 2) вычислить коэффициент корреляции между переменными и , 3) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м, 4) найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт, 5) найти с надежностью 0,95 интервальные оценки коэффициента регрессии и дисперсии , 6) оценить на уровне значимость уравнения по , 7) найти коэффициент детерминации и пояснить его смысл. Решение 1) Уравнения для определения величин и удобно предварительно преобразовать к так называемой системе нормальных уравнений: где соответствующие средние определяются по формулам: . Подставляя значение из первого уравнения последней системы в уравнение регрессии, получим: или . Для нахождения уравнения регрессии по вычислим все необходимые суммы: ; ; ; Теперь находим выборочные характеристики и параметры уравнений регрессии: ; ; ; ; . Итак, уравнение регрессии по : или . Из полученного уравнение регрессии следует, что при увеличении мощности пласта на 1 м добыча угля на одного рабочего увеличивается в среднем на 1,016 т (в усл. ед.) (отметим, что свободный член в данном уравнении не имеет экономического смысла). 2) Для практических расчетов коэффициента корреляции между переменными и целесообразно формулу преобразовать к виду: , так как по ней определяется непосредственно из данных наблюдений, и на значении не скажутся округления данных, связанные с расчетом средних и отклонений от них. Используя ранее подсчитанные суммы ; ; ; и вычислив сумму , определим искомый коэффициент корреляции: , величина которого показывает достаточно тесную связь между переменными и . 3) Для построения доверительного интервала для функции регрессии (накрывающего с доверительной вероятностью неизвестное значение ) определим дисперсию групповой средней , представляющей выборочную оценку . С этой целью уравнение регрессии представим в виде: Так как дисперсия групповой средней равна сумме дисперсий двух независимых слагаемых: , то остается рассчитать каждую из них в отдельности. Дисперсия выборочной средней рассчитывается по формуле: . Для расчета дисперсии коэффициента удобно начало координат переместить в точку , тогда , при этом , а уравнение регрессии упрощается , и коэффициент регрессии можно рассчитать по формуле: . Тогда дисперсия коэффициента равна: . Дисперсия групповых средних вычисляется с использованием соотношений для дисперсий выборочной средней и коэффициента с заменой ее оценкой : . Доверительный интервал для условного математического ожидания можно построить, используя статистику , имеющую распределение Стьюдента с степенями свободы: , где стандартная ошибка групповой средней . Выборочной оценкой условного математического ожидания является групповая средняя , которая определяется по построенному уравнению регрессии: (т). Построение доверительного интервала для предполагает знание дисперсию его оценки, т.е. . Результаты промежуточных расчетов (с учетом того, что ) удобно свести в таблицу: 8 11 12 9 8 8 9 9 8 12 ∑ 1,96 2,56 6,76 0,16 1,96 1,96 0,16 0,16 1,96 6,76 24,40 5,38 8,43 9,44 6,39 5,38 5,38 6,39 6,39 5,38 9,44 − 0,14 2,48 0,31 0,37 0,14 0,39 0,15 1,94 0,39 2,08 8,39 Несмещенной оценкой остаточной дисперсии является выборочная остаточная дисперсия , а в дисперсии коэффициента заменой ее оценкой получим: и (т). Взяв из таблицы распределения Стьюдента , можно определить доверительный интервал для условного математического ожидания с помощью соотношения: , откуда или (т). Таким образом, средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 4,38 до 6,38 т. 4) Для построения доверительного интервала для индивидуального значения сначала определяется дисперсия его оценки: ; откуда (т), а затем искомый доверительный интервал: , откуда или (т). Таким образом, индивидуальная сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 2,81 до 7,95 т. 5) Построение доверительных интервалов для параметров условного математического ожидания (в данном случае и ) основано на использовании следующего утверждения, известного из курса теории вероятностей. Если случайная составляющая , характеризующая отклонение от функции регрессии, распределена по нормальному закону, то статистика имеет распределение Стьюдента с степенями свободы. Поэтому интервальную оценку параметра на уровне значимости можно оценить по формуле: , с помощью которой найдем 95%-ный доверительный интервал для параметра : и , т.е. с надежностью 0,95 при изменении мощности пласта на 1 м суточная выработка будет изменяться на величину, заключенную в интервале от 0,537 до 1,495 (т). Построение доверительного интервала для параметра основано на том, что статистика имеет распределение с степенями свободы, а интервальная оценка для на уровне значимости имеет вид: . С учетом соотношения возьмем из таблицы распределения , и найдем 95%-ный интервал для параметра : или . Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,598 до 4,81, а их стандартное отклонение – от 0,773 до 2,19 (т). 6) Значимость уравнения по на уровне можно оценить либо с помощью таблиц распределения, либо с помощью таблиц распределения. Первый способ основан на основной теореме дисперсионного анализа: общая сумма квадратов (отклонений зависимой переменной от средней) равна сумме квадратов (обусловленной регрессией) и остаточной сумме квадратов : . С учетом рассчитанных ранее сумм , вычислим необходимые суммы квадратов: ; ; . Уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики , где табличное значение критерия Фишера-Снедекора, определенное на уровне значимости при и степенях свободы. Рассчитаем по этой формуле статистику: . Уравнение регрессии значимо, так как в соответствии с таблицей распределения , а . Второй способ основан на том, что значимость уравнения линейной парной регрессии может быть проверена путем оценки значимости коэффициента регрессии , который имеет распределение Стьюдента с степенями свободы. Уравнение парной линейной регрессии (коэффициент ) значимы на уровне (другими словами, гипотеза о равенстве параметра нулю, т.е. , отвергается), если фактически наблюдаемое значение статистики больше критического (по абсолютной величине), т.е. . С учетом и рассчитанных выражений и вычисляем: . По таблице распределения находим . Так как , то коэффициент регрессии и соответственно уравнение парной линейной регрессии по значимы. 7) Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии (или, как говорят, мерой качества подгонки регрессионной модели к наблюденным значениям ), характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле: . Величина показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной. Так как , то . Чем ближе к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если , то эмпирические точки расположены на линии регрессии и между переменными и существует линейная функциональная зависимость. Если , то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс. Используя ранее рассчитанные величины и , можно вычислить . Коэффициент детерминации можно определить из соотношения , где коэффициент корреляции : . В случае модели множественной линейной регрессии с объясняющими переменными необходимым условием минимума суммы квадратов остатков является равенство нулю ее частных производных по всем коэффициентам уравнения регрессии . Такое условие приводит к системе из линейного уравнения с неизвестным, называемой системой нормальных уравнений. Ее решение в матричной форме имеет вид: , где: вектор с компонентами ; матрица значений объясняющих переменных; транспонированная матрица значений объясняющих переменных (при транспонировании в матрице строки и столбцы меняют местами); вектор значений зависимой переменной. Несмещенной оценкой дисперсии модели является остаточная дисперсия : , при этом величину называют стандартной ошибкой регрессии. Зная стандартную ошибку регрессии, можно определить вектор вариаций коэффициентов уравнения регрессии: и стандартные ошибки оценок коэффициентов регрессии: . В качестве примера модели множественной линейной регрессии рассмотрим обобщение предыдущей задачи. Имеются следующие данные (условные) о сменной добыче угля на одного рабочего (т), мощности пласта (ранее обозначалась ) и уровне механизации работ (%), характеризующие процесс добычи угля в 10 шахтах: 1 2 3 4 5 6 7 8 9 10 8 11 12 9 8 8 9 9 8 12 5 8 8 5 7 8 6 4 5 7 5 10 10 7 5 6 6 5 6 8 В предположении, что между переменными , и существует линейная регрессионная зависимость: 1) найти ее аналитическое выражение (уравнение регрессии по и ), 2) найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт, 3) проверить значимость коэффициентов регрессии и построить для них 95%-ные доверительные интервалы, 4) найти интервальную оценку для дисперсии . 1) Модель множественной линейной регрессии можно представить в виде: , где е наблюдение зависимой переменной (), объясняющие переменные, я случайная составляющая, характеризующая отклонение от функции регрессии. Введем обозначения: матрица-столбец, или вектор, значений зависимой переменной размера ; матрица-столбец, или вектор, параметров размера ; матрица-столбец, или вектор, возмущений (случайных ошибок, остатков) размера ; - матрица-столбец, или вектор, значений объясняющих переменных размера ; в матрицу дополнительно введен столбец, все элементы которого равны 1, т.е. предполагается, что свободный член умножается на фиктивную переменную , принимающую значение 1 для всех : . Тогда в матричной форме модель множественной линейной регрессии примет вид: . Оценкой этой модели по выборке является уравнение , где , . Для оценки вектора неизвестных параметров применим метод наименьших квадратов, согласно которому вектор неизвестных параметров выбирается таким образом, чтобы сумма квадратов отклонений эмпирических значений от значений , найденных по уравнению регрессии, была минимальной: , при этом используется свойство произведения . С учетом свойства транспонирования произведения матриц после раскрытия скобок условие минимизации примет вид: . Можно доказать, что задача минимизации функции сводится к определению вектора неизвестных параметров из следующего матричного уравнения: , при этом матрица сумм первых степеней, квадратов и попарных произведений наблюдений и векторпроизведений наблюдений объясняющих и зависимой переменных имеют вид: , . Решением матричного уравнения является вектор , где матрица, обратная матрице коэффициентов , матрица-столбец, или вектор, ее свободных членов. Зная вектор , выборочное уравнение множественной регрессии можно представить в виде: , где групповая (условная) средняя переменной при заданном векторе значений объясняющей переменной . Для заданного примера , . Для удобства вычислений составляем вспомогательную таблицу. 1 8 5 5 64 25 25 40 40 25 5,13 0,016 2 11 8 10 121 64 100 88 110 80 8,79 1,464 3 12 8 10 144 64 100 96 120 80 9,64 0,130 4 9 5 7 81 25 49 45 63 35 5,98 1,038 5 8 7 5 64 49 25 56 40 35 5,86 0,741 6 8 8 6 64 64 36 64 48 48 6,23 0,052 7 9 6 6 81 36 36 54 54 36 6,35 0,121 8 9 4 5 81 16 25 36 45 20 5,61 0,377 9 8 5 6 64 25 36 40 48 30 5,13 0,762 10 1 7 8 144 49 64 84 96 56 9,28 1,631 94 63 68 908 417 496 603 664 445 − 4,701 Вычислим матрицу сумм первых степеней, квадратов и попарных произведений наблюдений и векторпроизведений наблюдений объясняющих и зависимой переменных: , . Матрицу определим по формуле , где определитель матрицы ; матрица, присоединенная к матрице . В результате получим: . Умножая эту матрицу на вектор, получим: . С учетом равенства уравнение множественной регрессии имеет вид: . Оно показывает, что при увеличении только мощности пласта (при неизменном ) на 1 м добыча угля на одного рабочего увеличивается в среднем на 0,854 т, а при увеличении только уровня механизации работ (при неизменном) – в среднем на 0б367 т. Добавление в регрессионную модель объясняющей переменной изменило коэффициент регрессии с 1,016 для парной регрессии до 0,854 – для множественной регрессии. Это объясняется тем, что во втором случае коэффициент регрессии позволяет оценить прирост зависимой переменной при изменении на единицу объясняющей переменной в чистом виде, независимо от . В случае парной регрессии учитывает воздействие на не только переменной , но и косвенно корреляционно связанной с ней переменной . 2) Формулы, используемые при построении доверительных интервалов для индивидуального и среднего значений, можно получить из аналогичных формул парной модели, изменив число степеней свободы на . Так, 95%-ный доверительный интервал для индивидуального значения можно рассчитать по формуле: , где . С учетом того, что и (т) окончательно получим: или (т). Итак, с надежностью 0,95 индивидуальная сменная добыча угля на одного рабочего в шахтах с мощностью пласта 8 м и уровнем механизации 6% находится в пределах от 3,05 до 7,93 т. 3) Проверим значимость коэффициентов регрессии и . Коэффициент значимо отличается от нуля (иначе – гипотеза о равенстве параметра нулю, т.е. :, отвергается) на уровне значимости , если , где табличное значение критерия Стьюдента, определенное на уровне значимости при числе степеней свободы . Отсюда следует соотношение для построения доверительного интервала для параметра : . Итак, значимость коэффициентов регрессии проверяется путем расчета средних квадратичных отклонений (стандартных ошибок) этих коэффициентов по формуле (где диагональный элемент матрицы ) и использования табличного значения : , ; , . Из неравенств и следует, что коэффициент значим, а коэффициент незначим. Доверительный интервал имеет смысл построить только для значимого коэффициента . Подстановка числовых данных в соотношение дает: или . Итак, с надежностью 0,95 за счет изменения на 1 м мощности пласта (при неизменном ) сменная добыча угля на одного рабочего будет изменяться в пределах от 0,322 до 1,376 (т). 4) Найдем 95%-ный доверительный интервал для дисперсии , который в множественной регрессии строится аналогично парной модели по формуле с соответствующим изменением числа степеней свободы критерия : . С учетом соотношения возьмем из таблицы распределения , и по этой формуле найдем 95%-ный интервал для параметра : или и . Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,565 до 5,349, а их стандартное отклонение – от 0,751 до 2,313 (т). 2.2. Свойства оценок, полученных методом наименьших квадратов (МНК) Зависимая переменная в теоретической модели регрессии имеет две составляющие: неслучайную составляющую и случайную составляющую . Получаемые с помощью МНК оценки коэффициентов регрессии также можно представить в виде двух составляющих – неслучайной и случайной. Неслучайные составляющие оценок равны параметрам , тогда как случайные составляющие этих оценок зависят от случайной составляющей теоретической модели регрессии . На практике разложить коэффициенты регрессии на составляющие довольно затруднительно, так как значения и неизвестны. Регрессионный анализ, основанный на применении метода наименьших квадратов (МНК), дает наилучшие из всех возможных результаты, если выполняются следующие условия (называемые условиями Гаусса-Маркова): 1. Математическое ожидание случайного слагаемого в любом м наблюдении должно быть равно нулю – . 2. Дисперсия случайного слагаемого должна быть постоянной для всех наблюдений – , где теоретическое значение среднеквадратической ошибки. 3. Случайные слагаемые должны быть статистически независимы, т.е. должно выполняться свойство некоррелированности их между собой. 4. Объясняющие переменные должны быть величинами неслучайными. При выполнении условий Гаусса-Маркова модель называется классической нормальной линейной регрессионной моделью. Наряду с условиями Гаусса-Маркова предполагается, что случайное слагаемое имеет нормальное распределение. При этом предположении требование некоррелированности значений случайного слагаемого эквивалентно их независимости. Первое условие означает, что нет постоянно действующего фактора, не включенного в модель, но оказывающего влияние на результативный фактор. Другими словами, случайное слагаемое не должно иметь систематического смещения. Если постоянное слагаемое включено в уравнение регрессии, то можно считать, что это условие выполняется автоматически, так как роль постоянного слагаемого как раз и заключается в том, чтобы учитывать постоянную тенденцию показателя , не учтенную в уравнении регрессии. Если не выполнено это условие, то оценки параметров уравнения регрессии, поученное с помощью МНК, будут неэффективными и смещенными. Второе условие означает, что дисперсия случайного слагаемого в каждом наблюдении имеет только одно значение. Другими словами, не должно быть априорной причины для того, чтобы в одних наблюдениях величина была больше, чем в других, хотя на практике величина остатков уравнения регрессии в разных наблюдениях будет разной. Но ее величина заранее неизвестна, и одна из первоочередных задач регрессионного анализа состоит в ее оценке. Если дисперсии случайного слагаемого зависят от номера наблюдения (т.е. выполняется условие гетероскедастичности), то оценки коэффициентов регрессии, полученные с помощью МНК, будут неэффективными и смещенными. Поэтому (по крайней мере, формально) можно получить более надежные оценки с использованием других методов. Так как условия Гаусса-Маркова предполагают независимость дисперсии случайного слагаемого от номера наблюдения (т.е. предполагает выполнение условия гомоскедастичности), то разработаны специальные методы диагностирования и устранения гетероскедастичности. Характерная диаграмма рассеяния для одного из возможных вариантов гетероскедастичности показана на рис. 2. Рис. 2. Случай гетероскедастичности остатков Третье условие указывает, что между значениями случайного слагаемого в разных наблюдениях нет систематической связи, т.е. указывает на некоррелированность (на независимость) случайных слагаемых для разных наблюдений. Если это условие нарушается (например, для временных рядов), то имеет место автокорреляция остатков, оценки коэффициентов регрессии, полученные МНК, оказываются неэффективными. Существуют методы диагностирования и устранения автокорреляции. Если четвертое условие (о том, что объясняющие переменные должны быть неслучайными) не выполняется, то оценки коэффициентов регрессии оказываются смещенными и несостоятельными. Теорема Гаусса-Маркова Если перечисленные четыре условия выполняются, то оценки, сделанные с помощью МНК, являются наилучшими оценками, так как они обладают свойствами: 1) несмещенности, что означает отсутствие систематической ошибки в положении линии регрессии; 2) эффективности – имеют наименьшую дисперсию в классе всех линейных несмещенных оценок; 3) состоятельности – при достаточно большом объеме данных оценки приближаются к истинным значениям. Если условия Гаусса-Маркова не выполнены, то можно найти другие оценки параметров уравнения регрессии, которые будут более эффективными по сравнению с оценками, найденными методом МНК. Кроме того, если не выполнены условия Гаусса-Маркова, то становятся неприменимы t-тесты и тест Фишера на качество оценивания и адекватность уравнения регрессии. 2.3. Анализ вариации зависимой переменной. Качество оценивания в модели множественной линейной регрессии Пусть в уравнении регрессии содержится объясняющих переменных. Дисперсию зависимой переменной можно представить в виде суммы объясненной и необъясненной составляющих: , где: остаток в м варианте реализации событий; значение зависимой переменной в м варианте реализации событий; среднее значение зависимой переменной; расчетное значение зависимой переменной в м варианте реализации событий, определяемое уравнением регрессии; число реализации событий, в каждом из которых при сочетании значений независимых переменных было получено значение зависимой переменной. Каждая сумма в этом разложении имеет собственное название: • ― общий разброс зависимой переменной (обозначается ); • ― разброс, объясненный регрессией (обозначается ); • ― разброс, не объясненный регрессией (обозначается ). Используя введенные обозначения, разложение дисперсии зависимой переменной можно записать в виде суммы: . Мерой объясняющего качества уравнения регрессии по сравнению с оценкой в виде среднего значения является коэффициент детерминации , который измеряет долю дисперсии, совместно объясненной всеми независимыми переменными: . В случае коррелированности независимых переменных объясняющие способности этих переменных могут перекрываться. Для компенсации такого увеличения вводится приведенный (скорректированный) коэффициент детерминации с поправкой на число независимых переменных, которым можно варьировать (называемое иначе числом степеней свободы): . Если при добавлении новой переменной (при этом уменьшается на 1 число степеней свободы) увеличение доли объясненной регрессии мало, то скорректированный коэффициент детерминации может уменьшаться, следовательно, добавлять новую переменную не следует. Качество оценок для модели множественной линейной регрессии предполагает определение статистической значимости полученных коэффициентов уравнения регрессии и коэффициента детерминации . Значимость коэффициентов уравнения регрессии оценивается с помощью критерия : , где стандартные ошибки коэффициентов регрессии. Величина имеет распределение Стьюдента с степенями свободы, где: число пар данных в выборке, использованных для получения уравнения регрессии; количество коэффициентов в уравнении регрессии. Алгоритм оценки значимости для коэффициентов уравнения регрессии состоит в следующем: 1) вычисляется наблюдаемое значение критерия ; 2) по таблице распределения Стьюдента по заданному уровню значимости и числу степеней свободы находится критическое значение ; 3) вычисленные критерии и сравниваются с критическим значением . Если , то соответствующий коэффициент уравнения регрессии значим и принимается. Если , то соответствующий коэффициент уравнения регрессии незначим, не отличается от нуля и не принимается. В эконометрике проверку гипотез осуществляют при 5%-м, реже на 10%-м уровне значимости. В первом случае стандартная ошибка оценки коэффициента регрессии составляет примерно до половины его величины. Последовательное исключение несущественных факторов (переменных), коэффициенты при которых оказались незначимы, составляют основу пошагового регрессионного анализа. Для определения статистической значимости коэффициента детерминации используется статистика: , где: число пар данных в выборке, использованных для получения уравнения регрессии; количество коэффициентов в уравнении регрессии. Величина имеет распределение Фишера с степенями свободы. Вычисленный критерий сравнивается с критической величиной следующим образом: если , то считается незначимым, он не отличим от нуля; если , то считается значимым, и уравнение регрессии может использоваться для объяснения изменения переменной под влиянием изменения переменных . Величины критических значений критериев оценки значимости принимаются при 5%-м, реже при 10%-м уровне значимости. Указанные уровни значимости соответствуют 95%-му и 90%-му доверительным интервалам соответственно. 2.4. Дополнительные аспекты использования метода наименьших квадратов (МНК) 2.4.1. Влияние мультиколлинеарности Мультиколлинеарность – это коррелированность двух или нескольких объясняющих переменных в уравнении множественной линейной регрессии. При наличии мультиколлинеарности оценки, формально полученные методом наименьших квадратов (МНК), обладают рядом недостатков: 1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии; 2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (при больших коэффициентах детерминации ). Если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить наличие среди них факторов, сильно коррелированных между собой. При наличии корреляции один из пары связанных между собой факторов исключается. Если статистически незначим лишь один фактор, то он должен быть исключен или заменен другим показателем. В модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами. 2.4.2. Спецификация переменных в уравнениях множественной линейной регрессии Построение эконометрической модели включает в себя обоснование решения о том, какие объясняющие переменные необходимо включить в уравнение множественной линейной регрессии, т.е. как правильно составить спецификацию модели, от которой в значительной степени зависят свойства оценок коэффициентов регрессии. Здесь возможны две ситуации. 1) В модели отсутствует переменная, которая должна быть включена. Предположим, что переменная зависит от двух переменных. Однако в модель включена только одна независимая переменная : . В этом случае оценка и ее дисперсия являются смещенными. Смещенность оценки связана с тем, что при отсутствии второй переменной в регрессии переменная играет двойную роль: отражает свое прямое влияние и заменяет переменную в описании ее влияния. Для данной регрессии коэффициент детерминации , отражающий общую объясняющую способность переменной в обеих ролях, завышен. 2) В модели включена переменная, которая не должна быть включена. В этом случае оценки коэффициентов регрессии и их дисперсии являются несмещенными, но не эффективными. Если обнаруживается, что коэффициенты при излишних переменных статистически незначимы, то эти переменные исключаются из модели. 2.4.3. Фиктивные переменные При исследовании влияния качественных признаков на объясняемую (зависимую) переменную в модель множественной линейной регрессии следует вводить фиктивные переменные, принимающие, как правило, два значения: 1, если данный признак присутствует в наблюдении; 0 – при его отсутствии. Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то используют несколько фиктивных переменных, число которых должно быть на единицу меньше числа значений признака. При назначении фиктивных переменных исследуемая совокупность по числу значений качественного признака разбивается на группы. Одну из групп выбирают как эталонную и определяют фиктивные переменные для остальных. Если качественный признак имеет два значения, то достаточно ввести одну фиктивную переменную. Например, строится модель, характеризующая показатели предприятий двух отраслей промышленности: электроэнергетики и газовой промышленности. Вводится фиктивная переменная, которой присваивается значение 0, если данные относятся к предприятиям электроэнергетики, и значение 1, если данные относятся к предприятиям газовой промышленности. При трех значениях качественного признака следует вводить две фиктивные переменные. Например, строится модель, характеризующая показатели предприятий трех регионов. Вводится одна фиктивная переменная, которой присваивается значение 0, если данные относятся к предприятиям первого региона, и значение 1, если данные относятся к предприятиям двух других регионов. Второй фиктивной переменной присваивается значение 0, если данные относятся ко второму региону, и значение 1, если данные относятся к первому и третьему регионам. Введение в регрессию фиктивных переменных существенно улучшает качество оценивания. 2.4.4. Сведение нелинейных регрессий к линейным моделям Нелинейность регрессии может иметь место в части как переменных, так и параметров. Нелинейность по переменной можно устранить заменой переменных. Например, нелинейные уравнения и заменами переменных и соответственно сводятся к линейным уравнениям: и . Нелинейность по параметру может устраняться различными способами. Наиболее часто нелинейность этого типа устраняется путем логарифмического преобразования уравнения. Например, нелинейные уравнения и после логарифмирования сводится к линейным уравнениям относительно новых переменных и параметров и : и . В общем случае параметры нелинейных уравнений регрессии оцениваются с использованием алгоритмов и программ, реализующих численные методы. Современные статистические пакеты программ для ПЭВМ позволяют оценивать параметры нелинейных уравнений регрессии любого типа. 2.5. Прогнозирование с помощью регрессионных уравнений Прогнозирование – это получение оценок зависимой переменной для некоторого набора независимых переменных, отсутствующего в исходных данных. Различают точечное прогнозирование (с получением точечной оценки) и интервальное прогнозирование. В первом случае оценкой является некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем вероятности (значимости). Точечная оценка может быть наиболее просто представлена в случае линейной модели парной регрессии: , где: и коэффициенты уравнения регрессии; значение зависимой переменной , предсказанное с использованием уравнения регрессии; значение независимой переменной , для которого необходимо предсказать величину зависимой переменной. Ошибка предсказания представляет собой разность между предсказанным и действительным значениями. Для оценки этой ошибки определяется стандартная ошибка предсказания, которая для случая линейной регрессии определяется выражением: , где: стандартная ошибка предсказания; стандартная ошибка регрессии; число пар данных, используемых для регрессионного анализа; значение независимой переменной, для которого дается прогноз; выборочное среднее переменной ; вариация переменной в выборке. Чем больше значение отклоняется от выборочного среднего , тем больше дисперсия ошибки предсказания; чем больше объем выборки , тем меньше дисперсия этой ошибки. Доверительный интервал для прогнозируемого значения зависимой переменной определяется по формуле: , где: критическое значение статистики Стьюдента при заданном уровне значимости и числе степеней свободы (для парной линейной регрессии ); число пар данных в выборке, использованных для получения уравнения регрессии. ГЛАВА 3. ВРЕМЕННЫЕ РЯДЫ. ГЕТЕРОСКЕДАСТИЧНОСТЬ И АВТОКОРРЕЛИРОВАННОСТЬ 3.1. Временные ряды и их моделирование с применением фиктивных переменных Временной ряд – это совокупность значений какого-либо показателя за несколько последовательных моментов времени. Значение временного ряда формируется под влиянием сочетания длительных, кратковременных и случайных факторов. Факторы, действующие в течение длительного времени, оказывают определяющее влияние на изучаемое явление и формируют основную тенденцию ряда – тренд . Периодические факторы формируют сезонные колебания ряда . Случайные факторы отражаются случайными изменениями уровней ряда . Аддитивная модель, в которой ряд представлен как сумма перечисленных компонент, имеет вид: . Модель, в которой ряд представлен как произведение перечисленных компонент, называется мультипликативной: . Из двух моделей указанного типа на основе анализа сезонных колебаний выбирается та, которая наиболее соответствует исходным статистическим данным. Основная задача экономического исследования временного ряда состоит в том, чтобы выявить каждую из перечисленных компонент ряда. Так, при постоянной (или близкой к ней) амплитуде сезонных колебаний используется аддитивную модель; при существенно меняющейся (возрастающей или убывающей) амплитуде сезонных колебаний используется мультипликативную модель. Для моделирования временных рядов используют модели парной линейной и нелинейной регрессии, множественной линейной и нелинейной регрессии и другие, специально разработанные модели. 3.2. Моделирование временных рядов с применением фиктивных переменных Методические особенности построения модели временного ряда рассмотрим на примере ряда, учитывающую основную его тенденцию – тренд – и сезонные колебания с использованием фиктивных переменных. Предположим, что сезонность можно учесть колебаниями моделируемой переменной по кварталам. Первый квартал каждого года будем считать эталонным кварталом, а для оценки различия между ним и другими кварталами будем использовать три фиктивные переменные. Тогда модель временного ряда представима в виде уравнения множественной линейной регрессии: , где: зависимая – объясняемая переменная; время; и фиктивные переменные; и параметры уравнения регрессии; случайное слагаемое. Фиктивные переменные, введенные в уравнение, определяются следующим образом: Переменная 1 квартал 2 квартал 3 квартал 4 квартал z1 1 z2 1 z3 1 3.3. Автокорреляция уровней временного ряда Между значениями временного ряда на отдельных его участках может иметь место корреляционная связь. Корреляционная зависимость между последовательными уровнями коэффициента автокорреляции временного ряда называется автокорреляцией уровней ряда. Коэффициент автокорреляции порядка определяется как коэффициент корреляции между рядом и рядом его смещенных значений : , где: ковариация переменных и ; и вариации переменных и . Число периодов , для которого рассчитывается коэффициент автокорреляции, называется лагом. С увеличением лага число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается или остается постоянным в зависимости от используемой методики оценки. Последовательность коэффициентов автокорреляции первого, второго и более высоких порядков (называемая автокорреляционной функцией временного ряда) обычно используется для того, чтобы выявить во временном ряде наличие трендовой и сезонных компонент или обосновать отсутствие этих компонент. При явном преобладании коэффициента автокорреляции первого порядка в исследуемом ряде главную роль играет основная тенденция – тренд. При явном преобладании коэффициентов автокорреляции порядка ряд содержит также сезонные колебания с периодом . 3.4. Обнаружение гетероскедастичности. Метод Голдфельда-Квандта Важнейшей предпосылкой регрессионного анализа является предположение о постоянстве дисперсии случайного слагаемого для всех наблюдений, т.е. гомоскедастичность. Это значит, что для каждого значения объясняющей переменной случайные слагаемые имеют одинаковые дисперсии. Если это условие не соблюдается, то имеет место гетероскедастичность. Разработаны различные методы обнаружения гетероскедастичности, в которых делаются различные предположения о зависимости между дисперсией случайного слагаемого и величиной объясняющих переменных (например, тест Голдфельда-Квандта). Метод Голдфельда-Квандта Обнаружение гетероскедастичности с использованием этого метода основывается на предположении о том, что стандартное отклонение случайного слагаемого пропорционально значению независимой переменной . Этапы проверки: 1. Все наблюдений в выборке упорядочиваются по возрастанию переменной . 2. Оцениваются отдельно регрессия для первых и регрессия для последних наблюдений. Средние наблюдений отбрасываются. 3. Составляется статистика: , где и суммы квадратов остатков для первых и последних наблюдений соответственно. Если верна гипотеза об отсутствии гетероскедастичности, то имеет распределение Фишера с степенями свободы, где число объясняющих переменных в уравнении регрессии. По таблице распределения Фишера определяется критическое значение критерия . Если , то гипотеза об отсутствии гетероскедастичности отклоняется. Метод Голдфельда-Квандта можно также использовать для обнаружения гетероскедастичности и в том случае, если стандартное отклонение случайного слагаемого обратно пропорционально значениям независимой переменной. В этом случае тестовой статистикой является величина . 3.5. Обобщенный метод наименьших квадратов (ОМНК) Из-за неэффективности оценок, полученных методом наименьших квадратов (МНК) при наличии гетероскедастичности, используется обобщенный (взвешенный) метод наименьших квадратов (ОМНК). В этом методе вклад данных наблюдений, имеющих большую дисперсию, уменьшается. В качестве примера рассмотрим теоретическую линейную регрессионную модель с двумя переменными: , где: – объясняющая (независимая) переменная – неслучайная величина; - объясняемая (зависимая) переменная; – случайное слагаемое (ошибка регрессии); порядковый номер наблюдения за реализацией событий; α и β – параметры уравнения. Предположим, что в исходной модели регрессии случайные слагаемые гетероскедастичны, что исключает постоянство значений дисперсии ошибок . Если дисперсии в каждом наблюдении известны, то, разделив каждое слагаемое в линейной регрессионной модели на соответствующее ему значение , можно получить преобразованную модель: . Для этой модели условие гомоскедастичности выполняется, и потому можно оценить обычным МНК параметры преобразованного уравнения, а затем и параметры исходного уравнения методом ОМНК. Для каждого из этих методов необходима минимизация суммы квадратов отклонений, в процессе которой отдельные слагаемые этой суммы взвешиваются: наблюдениям с большей дисперсией придается меньший вес. Тем самым оценки исходной модели получают непосредственно по оценкам МНК коэффициентов преобразованной модели. Как правило, на практике дисперсии неизвестны, поэтому их заменяют какими-либо оценками. Для экономических данных дисперсиичасто оказываются пропорциональными значениям объясняющей переменной , что позволяет с помощью обычного МНК оценить параметры преобразованной модели: . В этом уравнении коэффициент при будет эффективной оценкой , а постоянное слагаемое – эффективной оценкой . ОМНК обеспечивает не только несмещенность оценок параметров, но и меньшую дисперсию по сравнению с теми оценками, которые получены при минимизации суммы квадратов без взвешивания отдельных слагаемых. 3.6. Выявление автокорреляции Одной из самых важных предпосылок регрессионного анализа является независимость случайной слагаемой уравнения регрессии в любом наблюдении от его значений во всех других наблюдениях. Если это условие не выполняется, то говорят, что случайное слагаемое подвержено автокорреляции. При этом коэффициенты регрессии, получаемые методом наименьших квадратов (МНК), оказываются неэффективными, хотя и несмещенными, а их стандартные ошибки занижаются. Обычно автокорреляция появляется при исследовании данных временных рядов. Возникновение автокорреляции обычно связано с тем, что: 1) либо случайная составляющая уравнения регрессии подвергается воздействию некоторого постоянно действующего фактора, не включаемого в модель; 2) либо текущее значение случайной составляющей коррелированно с ее предыдущими значениями. Поэтому можно ожидать, что при работе с набором одновременных наблюдений явление автокорреляции будет наблюдаться достаточно редко. Пусть, например, обследуется выборка, состоящая из различных фирм, отраслей промышленности и т.д. Скорее всего, вероятность того, что при таком обследовании значение одной из переменных, заданной для какого-либо объекта, окажется связанной с зафиксированным значением этой же переменной другого объекта, очень мала. С другой стороны, циклический характер переменных приводит к тому, что при работе с временными рядами явление автокорреляции встречается довольно редко. Необходимым условием независимости случайных слагаемых является их некоррелированность для каждых двух соседних значений. При этом корреляция между соседними случайными слагаемыми уравнения регрессии оценивается коэффициентом корреляции между ними. Но значения этих случайных слагаемых обычно на практике неизвестны, поэтому проверяется статистическая некоррелированность остатков и разностей между измеренными значениями объясняемой переменной и расчетными значениями, определяемыми из уравнения регрессии, полученного с использованием обычного МНК. Такой оценкой коэффициента корреляции является коэффициент автокорреляции остатков первого порядка, который имеет вид: , где и порядковый номер и общее число наблюдений. При выявлении автокорреляции выдвигается гипотеза (об отсутствии корреляции первого порядка). Для проверки гипотезы используют статистику Дарбина-Уотсона, рассчитываемую по формуле: . Если автокорреляция остатков отсутствует (), то . При положительной автокорреляции () имеем . При отрицательной автокорреляции () ― . По таблице определяют критические (пороговые) значения критерия Дарбина-Уотсона и для заданного числа наблюдений, числа объясняющих переменных и уровня значимости. По этим значениям интервал (0;4) разбивается на 5 зон, и в зависимости от того, в какую зону попадает расчетное значение критерия, принимают или отвергают соответствующую гипотезу: Номер зоны Диапазон изменения статистики Вывод о наличии автокорреляции 1 (0;d1) гипотеза H0 отвергается (положительная автокорреляция) 2 (d1;d2) зона неопределенности 3 (d2;4- d2) гипотеза H0 принимается (отсутствие автокорреляции) 4 (4- d2;4- d1) зона неопределенности 5 (4- d1;4) гипотеза H0 отвергается (отрицательная автокорреляция) Наличие зон неопределенности связано с тем, что распределение статистики зависит не только от числа объясняющих переменных, но и от значений объясняющих переменных. 3.7 Оценивание параметров уравнения регрессии при автокорреляции Пусть исходное равнение регрессии, содержащее автокорреляцию случайных слагаемых, имеет вид: , где: – объясняющая (независимая) переменная – неслучайная величина; – объясняемая (зависимая) переменная; – случайное слагаемое (ошибка регрессии); порядковый номер наблюдения за реализацией событий; и – параметры уравнения. Пусть автокорреляция подчиняется автокорреляционной схеме первого порядка: , где: – коэффициент автокорреляции; случайное слагаемое, удовлетворяющее предпосылкам, определяющим возможность применения методом наименьших квадратов (МНК). Данная схема называется авторегрессионной, поскольку определяется значениями этой же величины с запаздыванием, и схемой первого порядка, потому что в этом случае запаздывание равно 1. Величина представляет собой коэффициент корреляции между двумя соседними ошибками. Предположим, что известно. Преобразуем исходное уравнение регрессии следующим образом: . Обозначим: , . Это преобразование переменных называется авторегрессионным или преобразованием Бокса-Дженкинса. Преобразованное уравнение будет иметь вид: , где переменная – не содержит автокорреляцию; при этом для оценки параметров и используется обычный МНК. Теперь коэффициент оценивается непосредственно, а коэффициент рассчитывается по формуле . На практике величина неизвестна, ее оценка получается одновременно с оценками и в результате различных итеративных процедур (например, процедура Хильдрата-Лу). Процедура Хильдрата-Лу. Эта процедура, широко применяемая в регрессионных пакетах, основана на использовании следующего алгоритма: 1) преобразованное уравнение оценивается для каждого значения из интервала (-1,1] с заданным шагом внутри него; 2) выбирается то значение ρ, для которого сумма квадратов остатков в преобразованном уравнении минимальна, а коэффициенты регрессии определяются при оценивании преобразованного уравнения с использованием этого значения. ГЛАВА 4. СИСТЕМЫ ОДНОВРЕМЕННЫХ УРАВНЕНИЙ 4.1. Структурная форма уравнений Структурная форма модели (системы одновременных уравнений) – это система уравнений, в каждом из которых помимо объясняющих (независимых) переменных могут содержаться объясняемые (зависимые) переменные из других уравнений. Уравнения, составляющие исходную модель, называются структурными уравнениями модели. Простейшая структурная форма модели имеет вид: , , где: и зависимые и независимые переменные; и случайные слагаемые; параметры модели. Параметры структурной формы модели называются структурными коэффициентами. Структурная форма модели включает в систему не только уравнение, отражающее взаимосвязи между отдельными переменными, но и уравнения, отражающие тенденцию развития явления – функции времени, а также разного рода уравнения-тождества. Тождества не содержат каких-либо подлежащих оценке параметров, а также не включают случайных слагаемых. В процессе оценивания параметров одновременных уравнений следует различать эндогенные (внутренние, зависимые) и экзогенные переменные. Эндогенными считаются переменные, значения которых определяются внутри модели. Это зависимые переменные, число которых равно числу уравнений системы. Экзогенными (внешними, независимыми) считаются переменные, значения которых определяются вне модели. Это заданные переменные, влияющие на эндогенные переменные, но не зависящие от них. В качестве экзогенных могут рассматриваться значения эндогенных переменных за предшествующий период времени. Обычно в каждом уравнении предполагается отсутствие корреляции экзогенных переменных со случайной составляющей. Однако в общем случае может иметь место корреляция эндогенных переменных со случайной составляющей, из-за которой использование метода МНК приводит к несостоятельным оценкам структурных коэффициентов. Поэтому для определения этих коэффициентов структурные уравнения модели преобразуют в приведенную форму. 4.2. Приведенная форма уравнений Приведенной формой уравнений называется система уравнений, в каждом из которых эндогенные переменные выражены только через экзогенные переменные и случайные составляющие. Уравнения, составляющие исходную модель, называют структурными уравнениями модели. Приведенная форма простейшей исходной модели имеет вид: , , где: и зависимые и независимые переменные; параметры приведенной формы модели; и случайные слагаемые. Параметры – коэффициенты приведенной формы модели системы уравнений называются коэффициенты приведенной формы (приведенными коэффициентами). Они оцениваются обычным методом наименьших квадратов (МНК), поскольку экзогенные переменные не коррелированны со случайными слагаемыми. Рассчитанные коэффициенты приведенной формы могут быть использованы для оценивания структурных коэффициентов. Такой способ оценивания структурных коэффициентов называется косвенным методом наименьших квадратов (КМНК). Структурные коэффициенты можно однозначно выражать через приведенные коэффициенты, или они могут иметь несколько разных оценок, но совсем не выражаться через них. Структурный коэффициент называется идентифицируемым, если его можно точно вычислить на основе приведенных коэффициентов, точно идентифицируемым, если он имеет единственную оценку, и сверхидентифицируемым, если он имеет несколько разных оценок. В противном случае он называется неидентифицируемым. Структурное уравнение является идентифицируемым, если идентифицируемы все его коэффициенты. Если хотя бы один структурный коэффициент неидентифицируем, то и все уравнение является неидентифицируемым. Модель считается идентифицируемой, если каждое ее уравнение идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель является неидентифицируемой. В зависимости от вида системы одновременных уравнений коэффициенты структурной модели могут быть оценены различными способами. Наиболее распространены следующие методы: • метод инструментальных переменных (ИП); • косвенный метод наименьших квадратов (КМНК); • двухшаговый метод наименьших квадратов (ДМНК). 4.3. Случай идентифицируемости: косвенный метод наименьших квадратов и метод инструментальных переменных Предположим, что необходимо оценить параметры уравнения функции потребления в простой модели Кейнса формирования доходов: функция потребления, тождество доходов, где: и объем потребления, совокупный доход и инвестиции соответственно; и структурные коэффициенты, причем характеризует предельную склонность к потреблению; случайное слагаемое. В исходной модели эндогенные (внутренние, зависимые) переменные, экзогенная – внешняя, независимая переменная. Непосредственное оценивание параметров и в структурном уравнении функции потребления дает смещенные и несостоятельные оценки, так как объясняющая переменная является эндогенной зависимой переменной. Разрешая структурную систему относительно эндогенных переменных, можно получить приведенную систему уравнений: , . В приведенной системе уравнений коэффициенты при переменной , равные и , представляют собой инвестиционные мультипликаторы потребления и дохода соответственно. Они показывают: если объем инвестиций возрастает на 1, то объем потребления увеличится на , а совокупный доход возрастет на . Известны разные методы оценивания структурных коэффициентов и . Косвенный метод наименьших квадратов (КМНК). Уравнение для в приведенной форме имеет вид: , где . Уравнение в приведенной форме включает экзогенную переменную , которая некоррелирована со случайным слагаемым , поэтому для оценки параметров и можно использовать обычный метод наименьших квадратов. Оцененное с помощью МНК уравнение в приведенной форме, полученное по выборочным данным, будет иметь вид: , где и оценки параметров и . Полученные таким образом оценки будут представлять собой несмещенные и состоятельные оценки параметров и . Используя приведенные выше соотношения параметров исходной (структурной) системы уравнений и приведенной системы уравнений, можно получить оценки параметров структурной системы уравнений: . Поскольку получены единственные оценки и структурных коэффициентов через оценки и приведенных коэффициентов, то структурное уравнение функции потребления является однозначно определенным – точно идентифицируемым. Проблема коррелированности объясняющей переменной со случайным слагаемым в структурном уравнении для может быть разрешена с помощью метода инструментальных переменных. Для применения этого метода необходимо найти такую инструментальную переменную, которая обладает следующими свойствами: 1) коррелируется с неудачно объясняющей переменной ; 2) не коррелируется со случайным слагаемым . В рассматриваемом примере в качестве инструментальной переменной может быть использована величина . Она коррелированна с , так как зависит от (что следует из исходных уравнений), и не коррелируется с , поскольку является экзогенной (внешней) переменной. 4.4. Случай сверхидентифицируемости: метод инструментальных переменных и двухшаговый метод наименьших квадратов (ДМНК) Случай сверхидентифицируемой системы уравнений рассмотрим на примере модели формирования доходов Кейнса: функция потребления, тождество доходов, где: и объем потребления, совокупный доход, инвестиции и государственные расходы соответственно; и структурные коэффициенты, причем характеризует предельную склонность к потреблению; случайное слагаемое. В исходной модели эндогенные переменные, и экзогенные. Разрешая структурную систему относительно эндогенных переменных, получим приведенную систему уравнений вида: , . Для оценивания структурных коэффициентов и используются различные методы. Метод инструментальных переменных. В структурном уравнении функции потребления в качестве инструментальных переменных для можно использовать или . В зависимости от выбора инструментальной переменной полученные оценки и будут различаться, но в обоих случаях они будут состоятельными. Поэтому в данном случае в качестве инструментальной переменной наиболее целесообразно выбрать комбинацию и . Структурное уравнение с избыточным числом экзогенных переменных, которые можно использовать как инструментальные, является переопределенным (сверхидентифицируемым). Двухшаговый метод наименьших квадратов (ДМНК). Двухшаговый МНК можно рассматривать как частный случай конструирования наилучшей из возможных комбинаций инструментальных переменных, если в качестве последних использовать избыточные экзогенные переменные, имеющиеся в уравнении. Выше было отмечено, что при использовании метода инструментальных переменных структурное уравнение функции потребления оказывается переопределенным, и потому для определения функции выбирается линейная комбинация двух переменных и : , где и коэффициенты, подлежащие оценке. На первом шаге ДМНК вместо переменной может быть выбрана регрессионная оценка приведенного уравнения для переменной с помощью обычного МНК: . Подставляя теоретические значения в структурное уравнение функции потребления (вместо фактических значений), получают уравнение: . На втором шаге ДМНК обычным методом МНК оценивают параметры и этого уравнения. При этом оценки структурных коэффициентов будут состоятельными. Двухшаговый МНК можно рассматривать как способ конструирования наилучшей из возможных комбинаций инструментальных переменных, если в уравнении имеется избыток экзогенных переменных, которые можно использовать как инструментальные. 4.5. Случай неидентифицируемости В случае неидентифицируемости структурной модели в нее необходимо ввести новые переменные, с помощью которых можно было бы добиться идентифицируемости модели. Рассмотрим модель спроса и предложения: уравнение спроса: , уравнение предложения: , тождество равновесия: , где: цена товара; и – параметры; и случайные слагаемые. Переменные являются эндогенными, их значения определяются в процессе установления рыночного равновесия. В рассматриваемой модели нет экзогенных переменных, поэтому ни одно из этих уравнений не является идентифицируемым. Чтобы модель имела статистическое решение, в нее необходимо ввести экзогенные переменные. Если все продавцы товара облагаются специальным налогом , который они должны платить с выручки, то данные об этом налоге могут быть включены в состав данных, используемых для анализа. При этом уравнения спроса останется неизменным, если переменная означает рыночную цену, а уравнение предложения изменится. Система примет вид: уравнение спроса: , уравнение предложения: , тождество равновесия: , где: экзогенная переменная; дополнительный параметр. Уравнение спроса будет идентифицируемым, поскольку переменная не включена в него и может выступать в качестве инструментальной для переменной , а уравнение предложения – неидентифицируемым. В уравнение спроса можно включить переменную доход на душу населения, при этом система примет вид: уравнение спроса: , уравнение предложения: , тождество равновесия: , где: экзогенная переменная – доход на душу населения; дополнительный параметр. Экзогенную переменную можно использовать в качестве инструментальной переменной для уравнения спроса. В итоге полученная модель представляет собой точно идентифицируемую модель спроса и предложения. 4.6. Применение ограничений коэффициентов системы уравнений В некоторых случаях неидентифицируемая модель может быть превращена в идентифицируемую путем задания соотношения между структурными коэффициентами. Такой метод носит название метода ненулевого ограничения. Рассмотрим этот метод на примере неидентифицируемой модели спроса и предложения: уравнение спроса: , уравнение предложения: , тождество равновесия: , где: цена товара; экзогенная переменная – налог с продаж; и параметры; и случайные слагаемые. Улучшить спецификацию модели можно, введя ограничение на коэффициенты . Тогда система исходных данных – структурных уравнений преобразуется к виду: уравнение спроса: , уравнение предложения: , тождество равновесия: . Благодаря введению ограничения на коэффициенты уравнение предложения стало идентифицируемым. Действительно, преобразованную систему можно рассмотреть как новую версию модели – систему из 4 уравнений: уравнение спроса: , уравнение предложения: , тождество цены товара для продавца , тождество равновесия: , где: цены товара для продавца (сумма, остающаяся у продавца после уплаты налога). Последние два уравнения системы являются уравнениями-тождествами и не требуют проверки на идентификацию. Переменная не включена в уравнение спроса, поэтому она может быть использована в качестве инструментальной для переменной . В результате с помощью метода наименьших квадратов можно получить уравнение регрессии вида: , где и коэффициенты, подлежащие оценке. Так как переменная не включена в уравнение предложения, то она также может использоваться в качестве инструментальной для переменной . Полученная модель в целом является точно определенной (точно идентифицируемой). Таким образом, наличие ограничения на коэффициенты системы уравнений (называемого ненулевым ограничением) позволяет исключить одну объясняющую переменную из уравнения. Если эта переменная эндогенная, для нее не нужно искать инструментальную переменную; если экзогенная, то она может использоваться в качестве инструментальной для одной из эндогенных переменных, оставшихся в уравнении. 4.7. Порядковое условие для идентификации уравнений Коэффициенты системы уравнений приведенной формы оцениваются обычным методом наименьших квадратов (МНК), если экзогенные переменные не коррелированны со случайным слагаемым. В противном случае используются различные модификации МНК. Коэффициент уравнения называется идентифицируемым, если его можно вычислить на основе приведенных коэффициентов, причем точно идентифицируемым, если он единственный, и сверхидентифицируемым, если он имеет несколько разных оценок. В противном случае он называется неидентифицируемым. Какое-либо структурное уравнение является идентифицируемым, если идентифицируемы все его коэффициенты. Если хотя бы один структурный коэффициент неидентифицируем, то и все уравнение является неидентифицируемым. Модель считается идентифицируемой, если каждое ее уравнение идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель неидентифицируема. В общем случае отдельное структурное уравнение системы является идентифицируемым, если имеется достаточное количество экзогенных (внешних) переменных (не включенных в само уравнение), которые можно использовать в качестве инструментальных для всех эндогенных объясняющих переменных уравнения. Пусть число экзогенных переменных, не включенных в уравнение, но присутствующих в системе; а число эндогенных переменных уравнения. Уравнение структурной модели может быть идентифицируемо, если выполняется порядковое условие, т.е. число не включенных в него объясняющих экзогенных переменных не меньше числа включенных в него эндогенных переменных: . Порядковое условие является необходимым, но недостаточным для идентификации. В частности: если , то уравнение точно идентифицируемо; если , то уравнение сверхидентифицируемо; если , то уравнение идентифицируемо. 4.8. Рекомендации к применению методов оценивания Приступать к оцениванию того или иного уравнения системы одновременных уравнений необходимо после того, как с помощью метода инструментальных переменных установлена его идентифицируемость. Для решения задачи по определению параметров точно идентифицируемого уравнения применяется косвенный метод наименьших квадратов (КМНК), а для решения задачи по определению параметров сверхидентифицируемого уравнения – двухшаговый метод наименьших квадратов (ДМНК). Метод КМНК включает в себя следующие этапы: 1. Структурная (исходная) модель преобразуется в приведенную форму. 2. Для каждого приведенного уравнения обычным методом МНК определяются приведенные коэффициенты. 3. Оценки приведенных коэффициентов пересчитываются в оценки параметров структурных уравнений. Метод ДМНК включает в себя следующие этапы: 1. На основе приведенной формы модели для сверхидентифицируемого уравнения получают теоретические (расчетные) значения эндогенных переменных, содержащихся в правой части уравнения. 2. Подставляя теоретические значения эндогенных переменных (вместо их фактических значений) в сверхидентифицируемое уравнение, с помощью обычного метода МНК определяют структурные коэффициенты этого уравнения. Метод получил название двухшагового, так как метод МНК используется дважды: при нахождении теоретических значений эндогенных переменных из приведенной формы модели и при определении структурных коэффициентов по теоретическим значениям эндогенных переменных и исходным данным экзогенных переменных. Трехшаговый метод наименьших квадратов (ТМНК) применяют при оценивании параметров всей системы уравнений в целом, если переменные, объясняемые в одном уравнении, в другом выступают в роли объясняющих. Например, в модели спроса и предложения, где, с одной стороны, спрос и предложение определяются рыночной ценой, а с другой – предложение должно быть равно спросу. При расчете параметров таких моделей учитывается вся система соотношений. Алгоритм данного метода реализуется в три этапа. На первых двух этапах используется двухшаговый метод наименьших квадратов (ДМНК) для определения обычных коэффициентов регрессии. После этого нужно увязать все уравнения системы между собой. В качестве меры устранения корреляции случайных членов используется матрица ковариаций ошибок моделей. Чтобы оценить, насколько несвязанными получаются уравнения спроса и предложения при расчете их отдельно, на последующем этапе при очередном счете коэффициентов регрессии учитывается матрица ковариаций ошибок регрессионных уравнений модели. Таким приемом достигается взаимосвязанность всей системы уравнений.

Эконометрика

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ