«Основы описательной статистики. Алгебра линейной регрессии»

Конспект лекции по дисциплине «Основы описательной статистики. Алгебра линейной регрессии», Word формат

Курс лекций по ЭКОНОМЕТРИКЕ Содержание Введение 1 Лекция 1. Основы описательной статистики. 3 1. Описательная статистика 3 2. Случайные ошибки измерения 8 Практическое занятие №1. «Знакомство с эконометрическим пакетом Econometric Views» 11 Лекция 2. 22 3. Алгебра линейной регрессии 22 4. Основная модель линейной регрессии 29 5. Гетероскедастичность и автокорреляция ошибок 37 Практическое занятие №2. «Применение Eviews при построении и анализе линейной однофакторной модели регрессии» 40 Практическое занятие № 3. «Применение Eviews при построении и анализе линейной однофакторной модели регрессии» 52 Лекция 3. 56 6. Ошибки измерения факторов и фиктивные переменные 56 Практическое занятие № 4. «Применение Eviews при построении и анализе многофакторной модели регрессии» 70 Лекция №4. 79 7. Оценка параметров систем уравнений 79 Практическое занятие № 5. «Фиктивные переменные» 87 Введение Представленный курс посвящен начальному уровню эконометрики — регрессионному анализу. Лекции включают 7 теоретических разделов: 1. Описательная статистика. 2. Случайные ошибки измерения. 3. Алгебра линейной регрессии. 4. Основная модель линейной регрессии. 5. Гетероскедастичность и автокорреляция ошибок. 6. Ошибки измерения факторов и фиктивные переменные. 7. Оценка параметров систем уравнений. Каждый раздел открывается кратким обзором теоретического материала, затем следует материал для освоения практических заданий. Практикум курса направлен на изучение и освоение практики эконометрики по следующим направлениям: 1. Знакомство с эконометрическим пакетом Econometric Views 2. Построение и анализ парной регрессии 3. Построение и анализ множественной регрессии 4. Использование фиктивных переменных в регрессии Примеры выполнения практических заданий приводятся с использованием эконометрического пакета Econometric Views (EViews). Подробную информацию об условиях приобретения и распространения пакета можно получить на сайте производителя: http://www.eviews.com. Все используемые в практикуме задания (примеры) основаны на учебном пособии Молчанов И.Н., Герасимова И.А. Компьютерный практикум по начальному курсу эконометрики (реализация на EViews). Приведенные примеры доступны в виде файлов в формате Excel и EViews по адресу: http://molchanov.narod.ru/econometrics.html . При выполнении предлагаемых заданий могут оказаться полезными следующие учебники и пособия: 1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: ЮНИТИ, 1998. – 1022 с. ISBN 5-238-00013-8. 2. Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 1997. – XIV, 402 с.: ил. - (Университетский учебник) Библиография: с.384-386. ISBN 5-86225-458-7; 0-19-50346-4. 3. Елисеева И.И. Эконометрика: Учебник /И.И.Елисеева и др. – М.: Финансы и статистика, 2001. – ISBN 5-279-01955-0. 4. Князевский В.С., Житников И.В. Анализ временных рядов и прогнозирование: Учеб. пособие. – Ростов-на-Дону: РГЭА, 1998. – 161 с. 5. Князевский В.С., Молчанов И.Н. Статистические расчеты на компьютере с использованием ППП Microstat. - Ростов-на-Дону: РГЭА, 1996. - 86 с. 6. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. – М.: Дело, 2000. – 400 с. ISBN 5-7749-0055-X. 7. Практикум по эконометрике: Учеб. пособие /И.И.Елисеева и др. – М.: Финансы и статистика, 2001. – 192 с. ISBN 5-279-02313-2. 8. Greene, W.H. Econometric analysis, Prentice Hall, 4th Edition, 2000. – 1004 pages. 9. Verbeek, M. A Guide to Modern Econometrics, Wiley, 2000. – 400 pages. Лекция 1. Основы описательной статистики. 1. Описательная статистика 1.1. Ряды наблюдений и их характеристики ряд наблюдений за непрерывной случайной переменной x, вариационный ряд, выборка. среднеарифметическое значение; - центрированные значения наблюдений; среднее линейное отклонение; медиана, т.е. среднее значение в ряду наблюдений: если упорядочены по возрастанию, то она равна при N нечетном и при N четном; моменты q-го порядка, центральные при , начальные при . дисперсия x , среднеквадратическое (стандартное) отклонение, центрированные и нормированные значения наблюдений, коэффициент вариации, показатель асимметрии, если , то распределение величины симметрично, если , то имеет место правая асимметрия, если , - левая асимметрия; показатель эксцесса (куртозиса), если то распределение близко к нормальному, если то распределение высоковершинное, если - низковершинное. Пусть наряду с величиной x имеется N наблюдений yi за величиной y. ковариация x и y, коэффициент корреляции x и y; если то величины x и y линейно независимы, если то они положительно линейно зависимы, если - отрицательно линейно зависимы. 1.2. Эмпирические распределения случайной величины Пусть все попадают в полуинтервал , который делится на k равных полуинтервалов длиной ; . (предполагается, что “чуть” меньше или равно , а “чуть” больше или равно , так что некоторые из попадают как в 1-й, так и в последний из этих k полуинтервалов). общий размах вариации. оптимальное соотношение между k и N (формула Стерджесса). l -й полуинтервал , где . доля общего количества наблюдений N , попавших в l-й полуинтервал - частоты, эмпирические оценки вероятностей попадания в данный полуинтервал; ; центры полуинтервалов; накопленные частоты (эмпирические вероятности, с которыми значения величины в выборке не превышают xl ): ; эмпирические плотности распределения вероятности. среднеарифметическое значение; медиана, здесь l-й полуинтервал является медианным, т.е. ; моменты q-го порядка; a-й (a100-процентный) квантиль, т.е. значение величины, которое не превышается в выборке с вероятностью a; здесь l-й полуинтервал является квантильным, т.е. ( являются квантилями с ); среднее по той (нижней) части выборки, которая выделяется a-м квантилем (l-й полуинтервал также квантильный). Среди квантилей особое значение имеют те, которые делят выборку на равные части (иногда именно эти величины называют квартилями): медиана; квартили; децили; процентили. децильный размах вариации (может быть также квартильным или процентильным); децильный коэффициент вариации (может быть медианным, квартильным или процентильным). мода, т.е. наиболее вероятное значение величины в выборке; здесь l-й полуинтервал является модальным, fl на нем достигает максимума; если этот максимум единственный, то распределение величины называется унимодальным; если максимума два - бимодальным; в общем случае - при нескольких максимумах - полимодальным. Гистограмма - эмпирическая (интервальная) функция плотности распределения; имеет ступенчатую форму: на l-м полуинтервале (l=1,...,k) принимает значение fl; Полигон - функция, график которой образован отрезками, соединяющими точки . Гистограмма и полигон могут строиться непосредственно по весам wl, если (как в данном случае) все полуинтервалы имеют одинаковую длину. Кумулята - эмпирическая (интервальная) функция распределения вероятности, график которой образован отрезками, соединяющими точки . Огива - то же, что и кумулята, или (в традициях советской статистики) функция, обратная кумуляте. 1.3. Теоретические функции распределения случайной величины x - случайная величина, z - детерминированная переменная. функция распределения вероятности x; функция плотности распределения вероятности x; , математическое ожидание, среднее (теоретическое); моменты q-го порядка (теоретические); дисперсия (теоретическая); ; показатель асимметрии (теоретический), показатель эксцесса, куртозиса (теоретический). Для квантиля ; для моды : максимум достигается при . Если распределение случайной величины симметрично, то и . В этом случае можно использовать понятие двустороннего квантиля , для которого , и значение которого совпадает с - значением обычного (одностороннего) квантиля. Если распределение случайной величины унимодально, то в случае симметричности , при правой асимметрии , при левой асимметрии . 1.4. Функции распределения, используемые в эконометрике В силу центральной предельной теоремы математической статистики, ошибки измерения и “остатки”, необъясняемые “хорошей” эконометрической моделью, имеют распределения близкие к нормальному. Поэтому все распределения, используемые в классической эконометрии, основаны на нормальном. Пусть - случайная величина, имеющая нормальное распределение с нулевым мат.ожиданием и единичной дисперсией (). Функция плотности распределения ее прямо пропорциональна (для наглядности в записи функции плотности вместо z использован символ-имя самой случайной величины); 95-процентный двусторонний квантиль равен 1.96, 99-процентный квантиль - 2.57. Пусть теперь имеется k таких взаимно независимых величин . Сумма их квадратов является случайной величиной, имеющей распределение c k степенями свободы (обозначается ). 95-процентный (односторонний) квантиль при k=1 равен 3.84 (квадрат 1.96), при k=5 - 11.1, при k=20 - 31.4, при k=100 - 124.3. Если две случайные величины и независимы друг от друга, то случайная величина имеет распределение t -Стъюдента с k степенями свободы (). Ее функция распределения прямо пропопорциональна ; в пределе при она становится нормально распределенной. 95-процентный двусторонний квантиль при k=1 равен 12.7, при k=5 - 2.57, при k=20 - 2.09, при k=100 - 1.98 . Если две случайные величины и не зависят друг от друга, то случайная величина имеет распределение F-Фишера с k1 и k2 степенями свободы (). 95-процентный (односторонний) квантиль при k2=1 равен 161, при k2=5 - 6.61, при k2=20 - 4.35, при k2=100 - 3.94 (квадраты соответствующих ); квантиль при k2=1 равен 200, при k2=5 - 5.79, при k2=20 - 3.49, при k2=100 - 3.09; квантиль при k1=3 равен 3.10, при k1=4 - 2.87, при k1=5 - 2.71, при k1=6 - 2.60. 2. Случайные ошибки измерения 2.1. Первичные измерения Путсь имеется N измерений xi, i = 1,...,N случайной величины x. Это - наблюдения за случайной величиной. Предполагается, что измерения проведены в неизменных условиях (факторы, влияющие на x, не меняют своих значений), и систематические ошибки измерений исключены. Тогда различия в результатах отдельных наблюдений (измерений) связаны только с наличием случайных ошибок: , где - истинное значение x, - случайная ошибка в i-м наблюдении. Если x и  - вектора-столбцы, соответственно, xi и i, а - N-компонентный вектор-столбец, состоящий из единиц, то данную модель можно записать в матричной форме: x . Предполагается, что ошибки по наблюдениям не зависят друг от друга и , а их дисперсии по наблюдениям одинаковы , или в матричной форме E(/) = IN2 (где IN - единичная матрица размерности N). Требуется найти b и - оценки, соответственно,  и i. Для этого используется метод наименьших квадратов (МНК), т.е. искомые оценки определяются так, чтобы или e/e  min, где e вектор-столбец оценок . В результате, x, e = x1Nb, т.е. МНК-оценкой истинного значения измеряемой величины является среднее арифметическое по наблюдениям. Оценка b относится к классу линейных, поскольку линейно зависит от наблюдений за случайной величиной. В рамках сделанных предположний доказывается, что - b является несмещенной оценкой  (b = E()), ее дисперсия равна и является минимальной на множестве линейных оценок; класс таких оценок (процедур оценивания) называют BLUE - Best Linear Unbiased Estimators; - несмещенной оценкой 2 является 2 e/e . Пусть теперь i распределены нормально, тогда оценка максимального правдоподобия  совпадает с b, она несмещена, состоятельна (в пределе при совпадает с  и имеет нулевую дисперсию) и эффективна (имеет минимально возможную дисперсию), величина имеет распределение N(0,1) и (1-)100-процентный доверительный интервал для  определяется как , где 1- - (1-)100-процентный двусторонний квантиль нормального распределения. Эта формула для доверительного интервала используется, если известно точное значение  . На практике точное значение , как правило, неизвестно, и используется другой подход. Величина имеет распределение и (1-)100-процентный доверительный интервал для  строится как , где tN-1,1- - (1-)100-процентный двусторонний квантиль tN-1-распределения. Поскольку величина  детерминирована, доверительные интервалы интерпретируются следующим образом: если процедуру построения доверительного интервала повторять многократно, то (1-)100 процентов полученных интервалов будут содержать истинное значение  измеряемой величины. 2.2. Производные измерения Пусть xj, j = 1,...,n - выборочные (фактические) значения (наблюдения, измерения) n различных случайных величин, j - их истинные значения, j - ошибки измерений. Если x,  - соответствующие n-компонентные вектора-строки, то x = . Предполагается, что E() = 0, и ковариационная матрица ошибок E(/) равна . Пусть величина y рассчитывается как f(x). Требуется найти дисперсию ошибки y = ) измерения (расчета) этой величины. Разложение функции f в ряд Тэйлора в фактической точке x по направлению   x (= ), если в нем оставить только члены 1-го порядка, имеет вид: f() = y  g или y = g (заменяя ““ на “=“), где g - градиент f в точке x (вектор-столбец с компонентами gj = x)). Откуда и g//g) = g/g, Это - общая формула, частным случаем которой являются известные формулы для дисперсии среднего, суммы, разности, произведения, частного от деления и др. В случае, если ошибки величин xj не скоррелированы друг с другом и имеют одинаковую дисперсию 2, g/g2. В случае, если известны только дисперсии ошибок j, можно воспользоваться формулой, дающей верхнюю оценку дисперсии ошибки результата вычислений: , где j - среднеквадратическое отклонение j. Практическое занятие №1. «Знакомство с эконометрическим пакетом Econometric Views» Эконометрический пакет Eviews обеспечивает особо сложный и тонкий инструментарий обработки данных, позволяет выполнять регрессионный анализ, строить прогнозы в Windows-ориентированной компьютерной среде. С помощью этого программного средства можно очень быстро выявить наличие статистической зависимости в анализируемых данных и затем, используя полученные взаимосвязи, сделать прогноз изучаемых показателей. Особо широкие возможности открывает Eviews при анализе данных, представленных в виде временных рядов. Eviews (далее пакет) установлен в директорий Program Files/Eviews3. Запуск осуществляется выбором соответствующего значка в панели Пуск/Программы/Eviews3/Eviews 3.1 (файл C:\Program Files\EViews3\EViews3.exe) (см. рис. 1) или щелчком (двойным щелчком – в зависимости от установок) по соответствующей пиктограмме на рабочем столе. Рис. 1. Если Вы все сделали правильно, появится стартовое окно пакета (рис.2). Рис. 2. Если в настоящий момент окно, содержащее пакет, является активным, то первая строка экрана (Title Bar) будет темнее остальных. При переключении в другое окно цветовая окраска данной строки изменит цвет на более приглушенный (серый). Ниже следует строка основного меню (Main Menu). Принцип его построения прост – при нажатии на соответствующие клавиши появляется раскрывающееся меню (drop-down menu). Доступные в настоящий момент опции являются затемненными (darkened menu items). Те пункты, с которыми в настоящий момент работа невозможна, приглушены (grayed menu items). Далее располагается командная строка (окно) (command window). В нем происходит непосредственный набор команд, которые выполняются после нажатия клавиши Enter (Ввод). Для исполнения многих команд отсутствует необходимость их набора – просто надо выбрать нужный пункт в основном меню. Большая часть экрана пакета отведена под рабочую область (work area). В ней размещаются рабочие объекты. Переключение между ними осуществляется нажатием клавиши F6. Последняя область экрана показывает текущее состояние (status line) пакета (рабочий каталог, текущий файл и др.). Завершение работы с пакетом осуществляется путем выбора в командной строке опции File/Exit. Система предложит сохранить/не сохранить имеющиеся данные. Если имя файла не было задано ранее, автоматически будет предложено имя UNTITLED. Его можно изменить на любое другое. Пакет имеет обширную справочную систему (пункт основного меню Help). Знакомство с пакетом начнем с файла, содержащего данные о совокупном спросе на деньги (M1) – (aggregate money demand) (M1) – зависимая переменная; независимые: доход (ВВП) - income (GDP); уровень цен (PR) - price level (PR); краткосрочная процентная ставка (RS) - short term interest rate (RS). Проведем некоторые преобразования и расчеты. Первым шагом создадим новый рабочий файл (workfile). Его имя должно иметь следующий вид и состоять только из латинских букв: Номер_группы_demo_01.wf1 (расширение wf1 присваивается автоматически). Например: 451_demo_01.wf1. Расположить его следует в директории, относящемся к Вашему факультету (внимательно ознакомьтесь с памяткой в компьютерном классе). Исходные данные находятся в файле Excel. Они должны быть импортированы в пакет. Создание рабочего файла начнем с того, что выберем File/New/Workfile в основном меню (см. рис. 3). После нажатия на кнопке со словом Workfile откроется диалоговое окно, с помощь которого можно задать тип вводимых Вами данных (см. рис. 4). Рис. 3. Рис. 4. Как видно из рис. 4, в пакете допускается восемь типов данных. Это могут быть: Годовые (Annual) – годы 20 в. идентифицируются по последним двум цифрам (97 эквивалентно 1997), для данных, относящихся к 21 в. необходима полная идентификация (например, 2020); Полугодовые (Semi-annual) – 1999:1, 2001:2 (формат – год и номер полугодия); Квартальные (Quarterly) – 1992:1, 65:4, 2005:3 (формат – год и номер квартала); Ежемесячные (Monthly) – 1956:1, 1990:11 (формат – год и номер месяца); Недельные (Weekly) и дневные (5/7 day weeks) – допускаются форматы Месяц/День/Год (по умолчанию) и (День/Месяц/Год) – настроить эту опцию можно в меню Options/Frequency Conversion & Date Display. Так, введенные числа 8:10:97 будут интерпретированы как Август, 10, 1997. Для установки, принятой в Европе, начальная дата будет выглядеть как Октябрь, 8, 1997; Недатированные или нерегулярные (Undated or irregular) – допускают работу с данными, строго не привязанными к определенным временным периодам. Важным является указание начальной (start) и конечной (end) даты/наблюдения (date/observation). В нашем примере начальным периодом является первый квартал 1952 г. (1952:1), конечным – четвертый квартал 1996 г. (1996:4). Закончив ввод временных периодов, надо нажать клавишу OK. Пакет создаст рабочий файл без имени, и на дисплее в рабочей области появится окно (см. рис. 5). Все рабочие файлы пакета всегда содержат вектор коэффициентов C и серию RESID. Рис. 5. Следующим шагом является просмотр исходных данных, содержащихся в исходном файле по адресу Program Files/Eviews3/Example files/demo.xls (формат Exсel версии 5.0 и младше). Важное замечание: имеющаяся версия пакета позволяет импортировать файлы Excel не старше версии 5.0. В противном случае будет выдано сообщение об ошибке. Всегда сохраняйте свои файлы как файлы Microsoft Excel 5.0/95. Для визуализации данных необходимо запустить табличный процессор Excel (действия аналогичны запуску Eviews). Результат представлен на рис. 6. Ознакомившись с данными, файл, подлежащий экспортированию, необходимо закрыть. Рис. 6. Для чтения данных, созданных в других программах, надо выбрать в рабочем файле опцию Procs/Import/Read Text-Lotus-Excel… (см. рис. 7). Появится диалог, представленный на рис. 8. Рис. 7. Перейдем к папке, содержащей искомый файл (для упрощения поиска в опции Тип файлов (Files of type) можно выбрать Excel.xls (см. рис.8). Для того, чтобы пакет «помнил» Ваши перемещения по папкам компьютера, можно поставить флажок в опции Update default directory (см. рис. 8). Рис. 8. Наведем курсор на файл demo.xls и нажмем кнопку Открыть (см. рис. 8). Появится диалог открытия электронных таблиц формата Excel (см. рис. 9). Рис. 9. По умолчанию в окне, представленном на рис. 9, предполагается, что данные находятся в столбцах (by observation - series in columns). Если данные представлены в виде серий в строках, то надо отметить другую опцию (By series - series in rows). Окно Upper-left data cell (левая верхняя ячейка данных) автоматически отобразило клетку B2. Это означает, что данные будут импортироваться из исходной таблицы с клетки, указанной в этом окне (тем самым первая строка и первый столбец будут пропущены). Это вполне соответствует структуре нашего исходного файла (см. рис. 6). Иногда приходится исправлять адрес такой клетки на актуальный. В окне Names for series or Number of series if names in file (имена для серий или число серий, если имена содержатся в файле) указываем цифру 4. Это связано с тем, что исходный файл (см. рис.6) содержит 4 переменные, находящиеся в столбцах. Имена для этих переменных будут взяты из первой строки электронной таблицы (клетки B1:E1). В том случае, когда необходимо импортировать часть данных (например, только первые две переменные), надо ввести их количество (цифра 2). Если имена переменных, по каким либо причинам, в исходном файле не заданы, можно вместо цифр ввести их имена (латинскими буквами). Если количество переменных, введенных в рассматриваемом окне, превышает количество реально существующих, то в рабочий файл будет введен столбец с заданным именем без данных (обозначаются такие клетки как NA). Если все другие установки удовлетворяют заданным Вами условиям, то можно нажать кнопку OK. Появится окно, отображенное на рис. 10. Рис. 10. После того, как исходные данные перенесены Вами в рабочую область пакета (появились имена переменных), надо провести их верификацию (проверку правильности). Вам необходимо создать новую группу, содержащую все импортированные серии (переменные). Это делается следующим образом: необходимо кликнуть мышкой по имени первой переменной (например, GNP), затем, удерживая клавишу CTRL кликнуть по переменным M1, PR и RS. Все серии на экране будут зачернены. Затем необходимо подвести курсор мыши на зачерненную область экрана и кликнуть правой кнопкой. Далее необходимо выбрать опцию Open. Пакет откроет диалоговое окно со следующими опциями (см. рис. 11). Выберем Open Group (открыть в одной группе). Пакет создаст группу с именем UNTITLED, в которую войдут все переменные (серии). По умолчанию, данные будут представлены в виде электронной таблицы (возможны другие варианты представления) – см. рис. 12. Рис. 11. Рис. 12. Проведите визуальную проверку корректности данных. Сравните, как разместились переменные из исходного файла, обратите внимание на столбец слева от первой переменной (он серого цвета). В нем отображены годы и порядковые номера кварталов. Полученной новой группе данных можно дать имя. Для этого необходимо нажать кнопку Name в текущем окне (см. рис. 12). Появится диалоговое окно (рис. 13.). Автоматически будет предложено имя – GROUP01. Его можно принять, нажав кнопку OK. В рабочем файле сразу добавится одна переменная с введенным Вами именем. Теперь к ней всегда можно перейти простым нажатием клавиши мыши. Рис. 13. Образованную Вами группу можно просматривать не только в виде электронной таблицы. Если, находясь внутри GROUP01, выбрать последовательность команд View/Multiple Graphs/Line (см. рис. 14), то данные предстанут не в виде таблицы, а как линейные графики по каждой серии (переменной) – см. рис. 15. Рис. 14. Для того, чтобы вернуться к прежней форме представления данных (например, электронной таблице), надо выбрать View/Spreadsheet. Для просмотра числовых характеристик (описательных статистик) отмеченных переменных необходимо выбрать в рабочем файле View/Descriptive Stats/Individual Samples (см. рис. 16). В результате появится окно, представленное на рис. 17. В нем содержатся: Mean – Среднее арифметическое значение; Median – Медиана; Maximum – Максимальное значение; Minimum – Минимальное значение; Std. Dev. – Стандартное отклонение (среднее квадратическое отклонение); Skewness – Коэффициент асимметрии; Kurtosis – Эксцесс; Probability – Вероятность; Observations – Количество наблюдений. Рис. 15. Рис. 16. Рис. 17. Если возникает необходимость проанализировать матрицу коэффициентов корреляции, то необходимо выбрать View/Correlations. Результат представлен на рис. 18. Рис. 18. Вы также можете исследовать характеристики для отдельных серий (переменных), совместив вывод диаграммы и числовых характеристик. Дважды кликните на имени серии (например, на переменной М1) и выберете в рабочем файле пункт меню View/Descriptive Stats/Histogram and Stats (см. рис. 19). Результат наглядно виден на рис. 20. Рис. 19. Рис. 20. С другими возможностями пакета Вы познакомитесь на последующих занятиях. Для индивидуальной работы по предложенной выше схеме предназначены нижеследующие данные. Подумайте, все ли данные необходимо заносить в электронную таблицу или импортировать из неё. Пример 1. Стоимость однокомнатных квартир в Москве [6]. Данные из газеты «Из рук в руки» за период с декабря 1996 г. по сентябрь 1997г. Была выбрана Юго-Западная часть города, в которой высок спрос на жилые площади (всего 69 наблюдений). Файл example_01.xls. Переменные: N - Номер по порядку. distc Удаленность. от центра, км. distm Удаленность от метро, мин. totsq Общая площадь квартиры, кв.м. kitsq Площадь кухни, кв.м. livsq Площадь комнаты, кв.м. floor Этаж. 0-первый/последний, 1-нет. cat Категория дома. 1-кирпичный, 0-нет. price Цена квартиры, тыс. USD. Найдите среднее арифметическое, выборочное стандартное отклонение и другие статистики параметров. Найдите коэффициенты корреляции параметров с ценой квартиры. Соответствуют ли полученные значения экономической интуиции? N region distc distm totsq kitsq livsq floor cat price 1 Фрунзенская 4 10 34,00 7,50 19,00 1 1 54 2 Ленинский пр. 5,7 7 36,00 10,00 20,00 35 3 Ленинский пр. 5,7 12 45,00 13,00 20,00 1 1 59 4 Академическая 7,6 10 35,30 10,00 20,00 1 35 5 Университет 8,7 6 33,00 5,50 22,00 1 33 6 Нов.Черемуш. 10,3 3 33,00 8,50 18,00 1 1 57 7 Юго-Западная 13,3 10 37,00 10,00 19,00 1 43 8 Коньково 14,8 2 38,00 8,50 19,10 1 39 9 Фрунзенская 4 15 54,00 9,20 27,20 1 1 70 10 Университет 8,7 15 35,00 6,00 20,00 1 43 11 Пр.Вернадск. 11,4 10 31,40 5,20 21,30 1 33 12 Ленинский пр. 5,7 7 32,00 6,00 21,00 1 37 13 Нов.Черемуш 10,3 7 38,00 8,00 19,00 33 14 Университет 8,7 10 31,60 8,80 14,00 31 15 Юго-Запад 13,3 5 32,00 8,00 17,00 1 37 16 Юго-Запад 13,3 10 37,00 10,00 19,00 1 43 17 Ленинский пр. 5,7 5 32,00 8,00 17,00 1 1 38 18 Академическая 7,6 10 37,00 8,00 19,00 1 1 51 19 Академическая 7,6 15 32,20 6,50 17,00 1 30 20 Коньково 14,8 3 33,00 8,00 19,00 1 30 21 Коньково 14,8 5 37,50 9,60 19,80 1 36 22 Коньково 14,8 10 33,00 7,00 19,00 1 33 23 Университет 8,7 15 32,00 6,00 21,50 1 35 24 Пр.Вернадск. 11,4 5 29,70 6,00 16,10 28 25 Пр.Вернадск. 11,4 15 36,00 8,60 18,00 40 26 Юго-Запад 13,3 15 36,00 10,00 19,00 33 27 Ленинский пр. 5,7 2 31,60 6,00 21,60 1 1 35 28 Ленинский пр 5,7 5 52,00 12,00 34,00 1 1 75 29 Коньково 14,8 3 36,00 10,00 19,00 1 40 30 Коньково 14,8 5 33,00 8,00 18,00 1 30 31 Университет 8,7 5 32,00 5,50 20,10 1 31 32 Академическая 7,6 15 35,00 9,80 20,00 1 37 33 Нов.Черемуш 10,3 15 38,00 10,00 19,50 1 40 34 Коньково 14,8 1 39,00 8,50 19,00 1 40 35 Фрунзенская 4 5 34,00 8,00 19,00 1 1 58 36 Фрунзенская 4 10 38,00 6,50 18,00 1 48 37 пр.Вернадск. 11,4 3 35,00 10,00 20,00 1 40 38 Юго-запад 13,3 7 36,00 9,00 19,50 1 42 39 Нов.Черемуш. 10,3 7 34,00 8,00 18,00 1 1 51 40 Коньково 14,8 5 38,00 8,50 19,00 1 43 41 Коньково 14,8 7 33,00 6,00 19,00 1 30 42 Коньково 14,8 10 32,00 8,00 17,00 1 40 43 Коньково 14,8 10 38,00 8,50 19,10 1 43 44 Академическая 7,6 5 43,00 8,50 25,00 1 53 45 Академическая 7,6 10 30,00 6,00 18,30 1 1 28 46 Коньково 14,8 7 34,80 7,80 17,80 29 47 Коньково 14,8 15 35,00 10,00 19,60 1 37 48 Коньково 14,8 3 32,80 6,50 18,50 1 30 49 НовЧеремуш. 10,3 10 39,00 9,00 19,00 1 45 50 Университет 8,7 15 49,00 9,00 20,50 1 52 51 Фрунзенская 4 3 32,00 6,20 19,00 1 1 53 52 Пр.Вернадск. 11,4 10 33,00 6,50 19,00 1 32 53 Пр.Вернадск. 11,4 15 32,30 6,00 21,90 28 54 Юго-Запад 13,3 10 30,00 7,00 19,80 1 34 55 Юго-Запад 13,3 10 34,00 9,00 19,00 1 42 56 Юго-Запад 13,3 7 33,00 7,00 19,00 33 57 Академическая 7,6 10 30,00 6,00 18,30 1 1 28 58 Академическая 7,6 15 32,00 6,00 18,00 1 30 59 Коньково 14,8 5 33,10 7,50 18,00 1 32 60 Коньково 14,8 2 38,00 7,50 19,00 1 41 61 Коньково 14,8 7 38,00 8,60 19,00 1 43 62 Коньково 14,8 5 37,30 6,50 19,00 1 31 63 Ленинский пр. 5,7 8 31,40 5,60 21,00 1 33 64 Ленинский пр. 5,7 7 52,00 10,00 34,00 1 1 60 65 Нов.Черемуш 10,3 15 30,00 6,00 17,00 1 1 37 66 Нов.Черемуш 10,3 5 36,00 11,00 20,00 1 41 67 Пр.Вернадск. 11,4 5 28,00 6,70 14,40 1 35 68 Пр.Вернадск. 11,4 10 31,40 5,20 21,30 1 33 69 Юго-Запад 13,3 5 32,00 8,00 17,00 1 37 В дальнейшем мы продолжим работу с этим файлом. Лекция 2. 3. Алгебра линейной регрессии 3.1. Обозначения и определения x - n-вектор-строка переменных xj;  - n-вектор-столбец коэффициентов (параметров) регрессии j при переменных x;  - свободный член в уравнении регрессии;  - ошибки измерения (ошибки уравнения, необъясненные остатки); x =  +  - уравнение (линейной) регрессии; x =  - гиперплоскость регрессии размерности n1; , ,  - истинные значения соответствующих величин; a, b, e - их оценки; xj - вектор x без j-й компоненты; j - вектор  без j-й компоненты; Xj - N- вектор-столбец наблюдений {xij} за переменной xj (вектор фактических значений переменной); X - Nn-матрица наблюдений {Xj} за переменными x; - та же матрица без j-го столбца;  - N- вектор-столбец ошибок (остатков) по наблюдениям; X = 1N +  - регрессия по наблюдениям (уравнение регрессии); - n-вектор-строка средних; - тот же вектор без j-й компоненты; - матрица центрированных наблюдений; - nn -матрица {mij} оценок ковариаций переменных x (эта матрица, по определению, - вещественная, симметрическая и положительно полуопределенная); - та же матрица без j- го столбца и j-й строки; mj - (n-1)-вектор-столбец (оценок) ковариаций xj c остальными переменными. - оценка остаточной дисперсии. Коэффициенты регрессии a и b находятся так, чтобы достигала своего наименьшего значения. В этом заключается применение метода наименьших квадратов. Из условия определяется, что и , т.е. гиперплоскость регрессии проходит через точку средних значений переменных, и ее уравнение можно записать в сокращенной форме: a = e. 3.2. Простая регрессия Когда на вектор параметров регрессии  накладывается ограничение j=1, имеется в виду простая регрессия, в левой части уравнения которой остается только одна переменная: Это уравнение регрессии xj по xj; переменная xj - объясняемая, изучаемая или моделируемая, переменные xj - объясняющие, независимые факторы, регрессоры. Из условия определяется, что и mj = Mjaj. Последнее называется системой нормальных уравнений, из которой находятся искомые МНК-оценки параметров регрессии: . Систему нормальных уравнений можно вывести, используя иную логику. Если обе части уравнения регрессии (записанного по наблюденям) умножить слева на и разделить на N, то получится условие , из которого следует искомая система при требованиях и . Такая же логика используется в методе инструментальных переменных. Пусть имеется N(n-1)-матрица наблюдений Z за некоторыми величинами z, называемыми инструментальными переменными, относительно которых известно, что они взаимно независимы с . Умножение обеих частей уравнения регрессии слева на и деление их на N дает условие , из которого - после отбрасывания 2-го члена правой части - следует система нормальных уравнений метода инструментальных переменных, где . МНК-оценка остаточной дисперсии удовлетворяет следующим формулам: , где - объясненная дисперсия. или (т.к. ) - коэффициент детерминации (равный квадрату коэффициента множественной корреляции между xj и xj), показывающий долю исходной дисперсии моделируемой переменной, которая объяснена регрессионной моделью. - расчетные значения моделируемой переменной (лежащие на гиперплоскости регрессии). В n-пространстве переменных вектора-строки матрицы X образуют так называемое облако наблюдений. Искомая гиперплоскость регрессии в этом пространстве располагается так, чтобы сумма квадратов расcтояний от всех точек облака наблюдений до этой гиперплоскости была минимальна. Данные расcтояния измеряются параллельно оси моделируемой переменной xj. В N-пространстве наблюдений показываются вектора-столбцы матрицы . Коэффициент множественной корреляции между xj и xj равен косинусу угла между и гиперплоскостью,”натянутой” на столбцы матрицы , вектор e является нормалью из на эту гиперплоскость, а вектор aj образован коэффициентами разложения проекции на эту гиперплоскость по векторам-столбцам матрицы . В зависимости от того, какая переменная остается в левой части уравнения регрессии, получаются различные оценки вектора  (и, соответственно, коэффициента ). Пусть a( j ) - оценка этого вектора из регрессии xj по xj. Равенство при выполняется в том и только в том случае, если e = 0 и, соответственно, R2 = 1. При n = 2 регрессия x1 по x2 называется прямой, регрессия x2 по x1 - обратной. Замечание: в отечественной литературе простой обычно называют регрессию с одной переменной в правой части, а регрессию с несколькими независимыми факторами - множественной. 3.3. Ортогональная регрессия В случае, когда ограничения на параметры  состоят в требовании равенства единице длины этого вектора / = 1, получается ортогональная регрессия, в которой расстояния от точек облака наблюдений до гиперплоскости регрессии измеряются перпендикулярно этой гиперплоскости. Уравнение ортогональной регрессии имеет вид: . Теперь применение МНК означает минимизацию по a при указанном ограничении на длину этого вектора. Из условия равенства нулю производной по a соответствующей функции Лагранжа следует, что причем , ( - половина множителя Лагранжа указанного ограничения) т.е. применение МНК сводится к поиску минимального собственного числа  ковариационной матрицы M и соответствующего ему собственного (правого) вектора a. Благодаря свойствам данной матрицы, искомые величины существуют, они вещественны, а собственное число неотрицательно (предполагается, что оно единственно). Пусть эти оценки получены. В ортогональной регрессии все переменные x выступают изучаемыми или моделируемыми, их расчетные значения определяются по формуле , а аналогом коэффициента детерминации выступает величина , где - суммарная дисперсия переменных x, равная следу матрицы M. Таким образом, к n оценкам вектора a простой регрессии добавляется оценка этого вектора ортогональной регрессии, и общее количество этих оценок становится равным n+1. Задачу простой и ортогональной регрессии можно записать в единой, обобщенной форме: , где W - диагональная nn-матрица, на диагонали которой могут стоять 0 или 1. В случае, если в матрице W имеется единственный ненулевой элемент wjj = 1, это - задача простой регрессии xj по xj; если W является единичной матрицей, то это - задача ортогональной регрессии. Очевидно, что возможны и все промежуточные случаи, и общее количество оценок регрессии - 2n1. Задача ортогональной регрессии легко обобщается на случай нескольких уравнений и альтернативного представления расчетных значений изучаемых переменных. Матрица M, являясь вещественной, симметрической и положительно полуопределенной, имеет n вещественных неотрицательных собственных чисел, сумма которых равна , и n соответствующих им вещественных взаимноортогональных собственных векторов, дающих ортонормированный базис в пространстве наблюдений. Пусть собственные числа, упорядоченные по возрастанию, образуют диагональную матрицу , а соответствующие им собственные вектора (столбцы) - матрицу A. Тогда A/A = In, MA = A. Собственные вектора, если их рассматривать по убыванию соответствующих им собственных чисел, есть главные компоненты облака наблюдений, которые показывают направления наибольшей “вытянутости” (наибольшей дисперсии) этого облака. Количественную оценку степени этой “вытянутости” (дисперсии) дают соответствующие им собственные числа. Пусть первые k собственных чисел “малы”. - сумма этих собственных чисел; AE - часть матрицы A, соответствующая им (ее первые k стоблцов); это - коэффициенты по k уравнениям регрессии или k младших главных компонент; AF - остальная часть матрицы A, это - nk старших главных компонент или собственно главных компоненет; A = [AE,AF]; xAE = 0 - гиперплоскость ортогональной регрессии размерности nk; - координаты облака наблюдений в базисе главных компонент; E - Nk-матрица остатков по уравнениям регрессии; F - N(nk)-матрица, столбцы которой есть так называемые главные факторы. Поскольку A/ = A-1 и AA/ = In, можно записать . Откуда получается два возможных представления расчетных значений переменных: . Первое из них - по уравнениям ортогональной регрессии, второе (альтернативное) - по главным факторам. - аналог коэффициента детерминации, дающий оценку “качества” этих обеих моделей. 3.4. Многообразие оценок регрессии Множество оценок регрессии не исчерпывается 2n1 отмеченными выше элементами. D - N/N-матрица преобразований в пространстве наблюдений (). Преобразование в пространстве наблюдений проводится умножением слева обеих частей уравнения регрессии (записанного по наблюдениям) на эту матрицу: . После такого преобразования - если D не единичная матрица - применение МНК приводит к новым оценкам регрессии (как простой, так и ортогональной), при этом параметр b - если - теряет смысл свободного члена в уравнении. C - невырожденная nn-матрица преобразований в пространстве переменных. Преобразование в пространстве пременных проводится следующим образом: , и в результате получается новое выражение для уравнения регрессии: , где . МНК-оценки f и a количественно различаются, если C не единичная матрица. Однако f является новой оценкой, только если . В противном случае она совпадает с исходной оценкой a с точностью до сделанного преобразования (представляет ту же оценку в другой метрике или шкале измерения). Результаты преобразования в пространстве переменных различны для простой и ортогональной регрессии. В случае простой регрессии xj по xj это преобразование не приводит к получению новых оценок, если j-я строка матрицы C является ортом, т.е. в независимые факторы правой части не “попадает” - после преобразования - моделируемая переменная. Если C диагональная матрица с элементами cjj=1, при , то оценка f дается в так называемой стандартизированной шкале. Если j-я строка матрицы C имеет ненулевые внедиагональные элементы, Cf и a совпадают только при R2 = 1. В случае ортогональной регрессии задача определения f записывается следующим образом: , где . После обратной подстановки переменных и элементарного преобразования она приобретает следующий вид: , где . Решение этой задачи дает новую оценку, даже если C является диагональной матрицей. Это - так называемая регрессия в метрике -1. 4. Основная модель линейной регрессии 4.1. Различные формы уравнения регрессии x - моделируемая переменная; z - n-вектор-строка независимых факторов; x = z +  +  - уравнение регрессии; X, Z - N-вектор и Nn-матрица наблюдений за соответствующими переменными; - n-вектор-строка средних значений переменных z. Первые две формы уравнения регрессии по наблюдениям аналогичны используемым в предыдущем разделе и имеют следующий вид: , или (истинные значения заменены их оценками) - исходная форма; - сокращенная форма. Оператор МНК-оценивания для этих двух форм имеет следующий вид: , где - nxn-матрица ковариации (вторых центральных моментов) z; - n-вектор-столбец ковариации между z и x. Третья форма - без свободного члена - записывается следующим образом: , где Z - N(n+1)-матрица, последний столбец которой состоит из единиц (равен 1N); a - (n+1)-вектор-столбец, последний элемент которого является свободным членом регрессии. Какая из этих форм регрессии используется и, соответственно, что именно означают a и Z, будет в дальнейшем ясно из контекста или будет специально поясняться. В этом разделе, в основном, используется форма уравнения регрессии без свободного члена. Оператор МНК-оценивания для нее записывается более компактно: , но - (n+1)(n+1)-матрица вторых начальных моментов [z,1]; - (n+1)-вектор-столбец вторых начальных моментов между [z,1] и x. Если в этом операторе вернуться к обозначениям первых двух форм уравнения регрессии, то получится следующее выражение: , из которого видно, что - обратная матрица ковариации z (размерности NN) совпадает с соответствующим блоком обратной матрицы вторых начальных моментов (размерности (N+1)(N+1)); - результаты применения двух приведенных операторов оценивания одинаковы. 4.2. Основные гипотезы, свойства оценок 1. Между переменными x и z существует зависимость x = z +  + . 2. Переменные z детерминированы, наблюдаются без ошибок и линейно независимы (в алгебраическом смысле). 3. E() = 0, E(/) = 2IN. 4. В модели линейной регрессии математической статистики, в которой переменные z случайны, предполагается, что ошибки  не зависят от них и - по крайней мере - не скоррелированы с ними. В данном случае это предположение формулируется так: независимо от того, какие значения принимают переменные z, ошибки  удовлетворяют гипотезе 3. В этих предположениях a относится к классу линейных оценок, т.к. a = LX, где L = - неслучайный (n+1)(N+1)-оператор оценивания; а также доказывается что - a является несмещенной оценкой , их матрица ковариации Ma равна (в обозначениях сокращенной формы уравнения регрессии это выражение давало бы - как показано в предыдущем пункте - матрицу ковариации коэффициентов регрессии при независимых факторах, а дисперсия свободного члена определялась бы по формуле ), и дисперсия любой их линейной комбинации минимальна на множестве линейных оценок, т.е. они относятся к классу BLUE - Best Linear Unbiased Estimators; - несмещенной оценкой 2 является = . Для расчета коэффициента детерминации можно использовать следующую формулу: , где , . Если предположить, что  (и, следовательно, их оценки e) распределены нормально: , то оценки a также будут иметь нормальное распределение: , они совпадут с оценками максимального правдоподобия, будут несмещенными, состоятельными и эффективными. В этом случае можно строить доверительные интервалы для оценок и использовать статистические критерии проверки гипотез. (1-)100-процентный доверительный интервал для i , i =1,...,n+1 (n+1=), строится следующим образом: , где - среднеквадратическое отклонение ai ( - ii-й элемент матрицы M1); tN-n-1,1- - (1-)100-процентный двусторонний квантиль tN-n-1-распределения. Для проверки нулевой гипотезы i = 0 применяется t-критерий. Гипотеза отвергается (влияние i-го фактора считается статистически значимым) с вероятностью ошибки (1-го рода) , если , т.к. при выполнении нулевой гипотезы величина имеет tN-n-1-распределение. Эта величина называется t-статистикой (ti-статистикой) и ее фактическое значение обозначается в дальнейшем . При использовании современных статистических пакетов программ не требуется искать нужные квантили t-распределения в статистических таблицах, поскольку в них (пакетах) рассчитывается уровеньошибки , с которой можно отвергнуть нулевую гипотезу, т.е. такой, что: , и, если он меньше желаемого значения либо равен ему, то нулевая гипотеза отвергается. Для проверки нулевой гипотезы об отсутствии искомой связи применяется F-критерий. Если эта гипотеза верна, величина имеет Fn,N-n-1-распределение. Данная величина называется F-статистикой и ее фактическое значение обозначается в дальнейшем Fc. Нулевая гипотеза отвергается (влияние z на x считается статистически значимым) с вероятностью ошибки (1-го рода) , если , где Fn,N-n-1,1- - (1-)100-процентный (односторонний) квантиль Fn,N-n-1-распределения. В современных статистических пакетах программ также рассчитывается уровень с ошибки для Fc, такой, что . Уместно отметить, что приведенные в разделе 2.1. сведения являются частным случаем рассмотренных здесь результатов при n=0. 4.3. Независимые факторы Если не выполняется 2-я гипотеза, и некоторые из переменных z линейно зависят от других, то матрица M вырождена, и использование приведенного оператора оценивания невозможно. Вообще говоря, предложить метод оценивания параметров регрессии в этом случае можно. Так, пусть множество независимых факторов разбито на две части (в этом фрагменте используются обозначения сокращенной формы уравнения регрессии): , , и . Тогда можно записать уравнение регрессии в форме + e, и оценить линейную комбинацию параметров (предполагая, что столбцы Z1 линейно независимы). Но чтобы оценить сами параметры, нужна априорная информация, например: . Однако вводить в регрессию факторы, которые линейно зависят от уже введенных факторов, не имеет смысла, т.к. при этом не растет объясненная дисперсия (см. ниже). На практике редко встречается ситуация, когда матрица M вырождена. Более распространен случай, когда она плохо обусловлена (между переменными Z существуют зависимости близкие к линейным). В этом случае имеет место мультиколлинеарность факторов. Поскольку гипотеза 2 в части отсутствия ошибок измерения, как правило, нарушается, получаемые (при мультиколлинеарности) оценки в значительной степени обусловлены этими ошибками измерения. В таком случае (если связь существует), обычно, факторы по отдельности оказываются незначимыми по t-критерию, а все вместе - существенными по F-критерию. Поэтому в регрессию стараются не вводить факторы сильно скоррелированные с остальными. В общем случае доказывается, что , где и - дисперсии, объясненные факторами z1 и z2 по отдельности; - прирост объясненной дисперсии, вызванный добавлением в регрессии факторов z2 к факторам z1. В соотношении для прироста объясненной дисперсии: - левая часть выполняется как строгое равенство, если и только если (коэффициент детерминации в регрессии по z1 уже равен единице), или вектор остатков в регрессии по z1 ортогонален факторам , т.е. имеет с ними нулевую корреляцию (возможное влияние факторов z2 уже “приняли” на себя факторы z1), или факторы линейно зависят от факторов ; - правая часть выполняется как строгое равенство, если и только если факторы ортогональны факторам . Если в множество линейно независимых факторов добавлять новые элементы, то коэффициент детерминации растет вплоть до единицы, после чего рост прекращается. Своего максимального значения он обязательно достигнет при n = N (возможно и раньше) - даже если вводимые факторы не влияют по-существу на изучаемую переменную. Поэтому сам по себе коэффициент детерминации не может служить статистическим критерием “качества” уравнения регрессии. Более приемлем в этой роли коэффициент детерминации, скорректированный на число степеней свободы: , который может и уменьшиться при введении нового фактора. Точную же статистическую оценку качества (в случае нормальности распределения остатков) дает F-критерий. Однако учитывая, что значения Fc оказываются несопоставимыми при изменении n (т.к. получают разное число степеней свободы), наиболее правильно эту роль возложить на уровень ошибки с для Fc. В результате введения новых факторов в общем случае меняются оценки параметров при ранее введенных факторах: , где - оценка параметров регрессии по z1 (до введения новых факторов); A12 - матрица, столбцы которой являются оценками параметров регрессии переменных z2 по z1. “Старые” оценки параметров сохраняются (), если и только если - коэффициент детерминации в регрессии по z1 уже равен единице, или вектор остатков в регрессии по z1 ортогонален факторам (в этих двух случаях a2 = 0), или факторы ортогональны факторам (в этом случае A12 = 0). Итак, возникает проблема определения истинного набора факторов, фигурирующих в гипотезе 1, который позволил бы найти оценки истинных параметров регрессии. Определение такого набора факторов есть спецификация модели. Формальный подход к решению этой проблемы заключается в поиске так называемого наилучшего уравнения регрессии, для чего используется процесс (метод) шаговой регрессии. Пусть z - полный набор факторов, потенциально влияющих на x. Рассматривается процесс обращения матрицы ковариации переменных [x,z]. В паре матриц (n+1)(n+1) делаются одновременные преобразования их строк в орты. Известно, что, если 1-ю матрицу преобразовать в единичную, то на месте 2-й матрицы будет получена обратная к 1-й (исходной). Пусть этот процесс не завершен, и только несколько строк 1-й матрицы (но не ее 1-я строка) преобразованы в орты. Это - ситуация на текущем шаге процесса. На этом шаге строкам-ортам в 1-й матрице соответствуют включенные в регрессию факторы, на их месте в 1-й строке этой матрицы оказываются текущие оценки параметров регрессии при них. Строкам-ортам во 2-й матрице соответствуют невведенные факторы, на их месте в 1-й строке 1-й матрицы размещаются коэффициенты ковариации этих факторов с текущими остатками изучаемой переменной. На месте mxx показывается текущее значение остаточной дисперсии. На каждом шаге оцениваются последствия введения в регрессию каждого не включенного фактора (преобразованием в орты сответствующих строк 1-й матрицы) и исключения каждого введенного ранее фактора (преобразованием в орты соответствующих строк 2-й матрицы). Выбирается тот вариант, который дает минимальный уровень ошибки с для Fc. Процесс продолжается до тех пор, пока этот уровень сокращается. Иногда в этом процессе используются более простые критерии. Например, задается определенный уровень t-статистики (правильнее - уровень ошибки с для tc), и фактор вводится в уравнение, если фактическое значение tc для него выше заданного уровня (ошибка с ниже ее заданного уровня), фактор исключается из уравнения в противном случае. Такие процессы, как правило, исключают возможность введения в уравнение сильно скоррелированных факторов, т.е. решают проблему мультиколлинеарности. Формальные подходы к спецификации модели должны сочетаться с теоретическими подходами, когда набор факторов и, часто, знаки параметров регрессии определяются из теории изучаемого явления. 4.4. Прогнозирование Требуется определить наиболее приемлемое значения для xN+1 (прогноз), если известны значения независимых факторов (вектор-строка): . - истинное значение искомой величины; - ожидаемое значение; - искомый МНК-прогноз. Полученный прогноз не смещен относительно ожидаемого значения: , и его ошибка имеет нулевое матожидание: E(d) = 0, и дисперсию , которая минимальна в классе линейных оценок . Оценка стандартной ошибки прогноза при n = 1 рассчитывается по формуле . 5. Гетероскедастичность и автокорреляция ошибок 5.1. Обобщенный метод наименьших квадратов (взвешенная регрессия) Если матрица ковариации ошибок по наблюдениям отлична от 2IN (нарушена 3-я гипотеза основной модели), то МНК-оценки параметров регрессии остаются несмещенными, но перестают быть эффективными в классе линейных. Смещенными оказываются МНК-оценки их ковариции, в частности оценки их стандартных ошибок (как правило, они преуменьшаются). Пусть теперь E(/) = 2, где  - вещественная, симметрическая положительно определенная матрица (структура ковариации ошибок). Обобщенный метод наименьших квадратов (ОМНК), приводящий к оценкам класса BLUE, означает минимизацию взвешенной суммы квадратов отклонений: . Для доказательства проводится преобразование в пространстве наблюдений с помощью невырожденной NN-матрицы D, такой, что . После такого преобразования остатки D начинают удовлетворять 2-й гипотезе. На практике с матрицами  общего вида обычно не работают. Рассматривается два частных случая. 5.2. Гетероскедастичность ошибок Пусть ошибки не скоррелированы по наблюдениям, и матрица  диагональна. Если эта матрица единична, т.е. дисперсии ошибок одинаковы по наблюдениям (гипотеза 3 не нарушена), то имеет место гомоскедастичность или однородность ошибок по дисперсии. В противном случае констатируют гетероскедастичность ошибок или их неоднородность по дисперсии. Для проверки гипотезы о гомоскедастичности можно использовать критерий Бартлета. Для расчета bc - статистики, лежащей в основе применения этого критерия, множество МНК-оценок остатков ei, i = 1,...,N делится на k непересекающихся подмножеств. Nl - количество элементов в l-м подмножестве, ; - оценка дисперсии в l-м подмножестве; - отношение средней арифметической дисперсий к средней геометрической; это отношение больше или равно единице, и чем сильнее различаются дисперсии по подмножествам, тем оно выше; . При однородности наблюдений по дисперсии эта статистика распределена как . Факт неоднородности наблюдений по дисперсии остатков мало сказывается на качестве оценок регрессии, если эти дисперсии не скоррелированы с независимыми факторами. Проверить наличие зависимости дисперсии ошибок от факторов-регрессоров можно следующим образом. Все наблюдения упорядочиваются по возрастанию одного из независимых факторов или расчетного значения изучаемой переменной Za. Оценивается остаточная дисперсия по K “малым” и по K “большим” наблюдениям (“средние” N2K наблюдения в расчете не участвуют, а K выбирается приблизительно равным трети N). В случае гомоскедастичности ошибок отношение распределено как FK-n-1,K-n-1. Если гипотеза гомоскедастичности отвергается, необходимо дать оценку матрице . Совместить проверку этой гипотезы с оценкой данной матрицы можно следующим образом. В качестве оценок дисперсии ошибок по наблюдениям принимаются квадраты оценок остатков , и строится регрессия на все множество независимых факторов или какое-то их подмножество. Если какая-то из этих регрессий оказывается статистически значимой, то гипотеза гомоскедастичности отвергается, и в качестве оценок ( по предположению) примаются расчетные значения . В некоторых статистических критериях проверки на гомоскедастичность в качестве оценок ii принимаются непосредственно . Имея оценку матрицы , можно провести преобразование в пространстве наблюдений с помощью матрицы , после которого остатки D можно считать удовлетворяющими гипотезе 3. 5.3. Автокорреляция ошибок Пусть теперь наблюдения однородны по дисперсии и их последовательность имеет физический смысл и жестко фиксирована (например, наблюдения проводятся в последовательные моменты времени). Для проверки гипотезы о наличии линейной автокорреляции 1-го порядка ошибок по наблюдениям , где  - коэффициент авторегрессии 1-го порядка;  - N-вектор-столбец {i}; можно использовать критерий Дарбина-Уотсона или DW-критерий (при автокорреляции 2-го и более высоких порядков его применение становится ненадежным). Фактическое значение dc статистики Дарбина-Уотсона (отношения Фон-Неймана) или DW-статистики раcсчитывается следующим образом: Оно лежит в интервале от 0 до 4, в случае отсутствия автокорреляции ошибок приблизительно равно 2, при положительной автокорреляции смещается в меньшую сторону, при отрицательной - в большую сторону. Если  = 0, величина d распределена нормально, но параметры этого распределения зависят не только от N и n. Поэтому существует по два значения для каждого (двустороннего) квантиля, соответствующего определенным , N и n: его нижняя dL и верхняя dU границы. Нулевая гипотеза принимается, если ; она отвегается в пользу гипотезы о положительной автокорреляции, если , и в пользу гипотезы об отрицательной автокорреляции, если . Если или , вопрос остается открытым (это - зона неопределенности DW-критерия). Пусть нулевая гипотеза отвергнута. Тогда необходимо дать оценку матрицы . Оценка r параметра авторегрессии  определяется из приближенного равенства , или рассчитывается непосредственно из регрессии e на него самого со двигом на одно наблюдение. Оценкой матрицы  является , а матрица D преобразований в пространстве наблюдений равна . Для преобразования в простанстве наблюдений, называемом в данном случае авторегрессионным, используют обычно указанную матрицу без 1-й строки, что ведет к сокращению количества наблюдений на одно. В результате такого преобразования из каждого наблюдения, начиная со 2-го, вычитается предыдущее, умноженное на r, теоретическими остатками становятся i, которые удовлетворяют гипотезе 2. После этого преобразования снова оцениваются параметры регрессии. Если новое значение DW-статистики неудовлетворительно, то можно провести следующее авторегрессионное преобразование. Обобщает процедуру последовательных авторегрессионных преобразований метод Кочрена-Оркарта, который заключается в следующем. Для одновременной оценки r, a и b используется критерий ОМНК (в обозначениях исходной формы уравнения регрессии): , где zi - n-вектор-строка значений независимых факторов в i-м наблюдении (i-строка матрицы Z). Поскольку производные функционала по искомым величинам нелинены относительно них, применяется итеративная процедура, на каждом шаге которой сначала оцениваются a и b при фиксированном значении r предыдущего шага (на первом шаге обычно r = 0), а затем - r при полученных значениях a и b. Процесс, как правило, сходится. Практическое занятие №2. «Применение Eviews при построении и анализе линейной однофакторной модели регрессии» Пример 2. Имеются следующие данные по 10 фермерским хозяйствам области: № п\п 1 2 3 4 5 6 7 8 9 10 Урожайность зерновых ц\га 15 12 17 21 25 20 24 14 23 13 Внесено удобрений на 1 га посевов, кг 4,0 2,5 5,0 5,8 7,5 5,7 7,0 3,0 6,0 3,5 Необходимо: 1. Создать файл с исходными данными в среде Excel (файл example_02.xls). 2. Осуществить импорт исходных данных в Eviews. 3. Создать workfile (рабочий файл). 4. Найти значения описательных статистик по каждой переменной и объяснить их. 5. Построить поле корреляции моделируемого (результативного) и факторного признаков. Объяснить полученные результаты. 6. Найти значение линейного коэффициента корреляции и пояснить его смысл. 7. Определить параметры уравнения парной регрессии и интерпретировать их. Объяснить смысл полученного уравнения регрессии. 8. Оценить статистическую значимость коэффициента регрессии и уравнения в целом. Сделать выводы. 9. Объяснить полученное значение . 10. Построить эмпирическую и теоретическую линию регрессии и объяснить их. 11. Построить и проанализировать график остатков. 12. С вероятностью 0,95 построить доверительный интервал для ожидаемого значения урожайности по точечному значению . 13. Оформить отчет по занятию. Порядок выполнения задания 1. В Excel исходные данные должны быть организованы таким образом, чтобы в каждой колонке были представлены данные по соответствующей переменной (рис. 21). Имена переменных набираются латинскими буквами. Файл необходимо сохранить в формате Excel 5.0/95 (рис. 22). Введем обозначения: урожайность зерновых – переменная Productivity (зависимая, Y); внесено удобрений на 1 га посевов – Fertilizers (независимая, X). Рис. 21. Рис. 22. 2. Создаем рабочий файл для импортирования исходных данных из Excel в Eviews, работая с диалоговым окном File/New/Workfile (рис. 23), далее выбираем: Procs/Import/Read Text-Lotus-Excel (рис. 24). Рис. 23. Рис. 24. 3. Далее в открывшемся окне находим и выбираем файл Excel с исходными данными (файл не должен в этот момент использоваться любыми программами), осуществляя автоматический импорт исходных данных в workfile (рис. 25). В следующем открывшемся диалоговом окне нужно указать адрес ячейки, в которой записаны данные первого по счету наблюдения и число переменных в рассматриваемом примере (рис. 26).. Если все выполнено правильно, то в открывшемся окне workfile должны появиться имена переменных, а также константа (с) и остатки (resid) (рис. 27). Рис. 25. Рис. 26. Рис. 27. Рис. 28. Сохраним рабочий файл (рис. 28). 4. Значения описательных статистик находим следующим образом: в окне workfile выделяем переменные, щелкаем мышкой по выделенной части и далее выбираем: Open/As Group/ (рис. 29). Открывается окно с исходными данными. Новую группу можно сохранить, выбрав опцию Name (рис. 30). Для просмотра описательных статистик View/Descriptive Stats/Common Sample (рис 31). Результат представлен на рис. 32. Рис. 29. Рис. 30. Рис. 31. Рис. 32. 5. В окне workfile (рис. 32) для построения поля корреляции необходимо выбрать следующие пункты меню: VIEW/GRAPH/SCATTER/SIMPLE SCATTER/ (рис. 33). Полученный в результате график представляет собой поле корреляции результативного и факторного признаков (рис. 34). 6. В окне Workfile (используя созданную группу из двух переменных) выбрать: /VIEW/CORRELATION/ (рис. 35). Полученная таблица - корреляционная матрица, в которой отражено значение коэффициента парной корреляции результативного и факторного признаков (рис. 36). Рис. 33. Рис. 34. Рис. 35. Рис. 36. 7. В диалоговом окне описать в общем виде искомое уравнение: LS PRODUCTIVITY C FERTILIZERS (метод наименьших квадратов (LS) эндогенная переменная, константа, экзогенная переменная), или выбрать в строке главного меню EVIEWS: QUICK/ESTIMATE EQUATION/ PRODUCTIVITY C FERTILIZERS (рис. 37). В открывшемся окне (рис. 38) должны быть переменные: зависимая переменная, применяемый метод, число наблюдений, параметры уравнения регрессии, стандартные ошибки, значения t – статистик и соответствующие им вероятности, значение и ряд других показателей. Рис. 37. Рис. 38. 8. и 9. Результаты выполнения п.7 позволяют оценить статистическую значимость параметров уравнения регрессии и объяснить полученное значение R . Рис. 39. 10. Для построения эмпирической линии регрессии в окне workfile выделить группу переменных и выбрать: VIEW/GRAPH/SCATTER/SCATTER WITH REGRESSION/ (рис. 39). В промежуточном окне (рис. 40) необходимо нажать . Полученный график (рис. 41) – эмпирическая линия регрессии. Чтобы построить теоретическую (подогнанную) линию регрессии, необходимо найти теоретические (вычисленные с помощью уравнения регрессии) значения результативного признака. Для этого открыть окно с параметрами уравнения регрессии, далее выбрать Forecast (рис. 42). Появится окно (рис. 43), в котором к исходным добавилась новая переменная PRODUCTIVIf (прогнозное, (теоретическое, выровненное) значение переменной PRODUCTIVITY). Затем, выделив все переменные (включая теоретическое значение результативного признака), в командной строке записать SCAT FERTILIZERS PRODUCTIVITY PRODUCTIVIf. Полученный график (рис. 44) – теоретическая (подогнанная) линия регрессии. Рис. 40. Рис. 41. Рис. 42. Рис. 43. Рис. 44. 11. Данная операция возможна только в том случае, если ей предшествует построение регрессионного уравнения. В окне Workfile можно дважды щелкнуть на переменной Resid (рис. 45). Далее, выбрать: VIEW/LINE GRAPH/, или, открыв окно с параметрами уравнения регрессии, выбрать: VIEW /ACTUAL, FITTED…/ACTUAL, FITTED…TABLE/ (рис. 46). Результат представлен на рис. 47. Другой вариант вывода (фактические, предсказанные значения переменных, остатки, график остатков) – рис. 48. Рис. 45. Рис. 46. Рис. 47. Рис. 48. 12. Для нахождения границ доверительного интервала в командной строке необходимо указать (рис. 49): GENR XK = 5 * 1.05 GENR YFK = 4.53 +2.77*XK GENR h = ((1 + 0.25^2)/1.6957^2) ^0.5 GENR CI = 2.31*(1.07/10^0.5)*h В результате искомые границы определяются следующим образом: YFK CI , т.е. от YFK+CI до YFK-CI (см. рис. 50). Рис. 49. Рис. 50. 13. Оформить отчет по занятию. Отчет должен содержать: подробные пояснения расчетов, ссылки на используемые формулы, результаты работы Eviews в виде экранных копий, другую, необходимую на Ваш взгляд, информацию. Практическое занятие № 3. «Применение Eviews при построении и анализе линейной однофакторной модели регрессии» (Выполняется самостоятельно). Пример 3. Компания American Express Company в течение долгого времени полагала, что владельцы ее кредитных карточек имеют тенденцию путешествовать более интенсивно, как по делам бизнеса, так и для развлечений. Как часть объемного исследования, проведенного Нью-Йоркской компанией рыночных исследований по заказу American Express Company, было осуществлено определение взаимосвязи между путешествиями и расходами владельцев кредитных карточек. Исследовательская фирма случайным образом выбрала 25 владельцев карточек из компьютерного файла American Express Company и записала суммы их общих расходов за определенный период времени. Для выбранных владельцев карточек фирма так же подготовила и разослала по почте вопросы о числе миль, которые провел в путешествиях владелец карточки за изучаемый период. Данные, полученные из опроса, составляют исходную информацию анализа (Х – число миль, проведенных в пути; У – расходы путешественников (усл. ден ед.). № п\п Miles (Х) Costs (У) 1 1211 1802 2 1345 2405 3 1422 2005 4 1687 2511 5 1849 2332 6 2026 2305 7 2133 3016 8 2253 3385 9 2400 3090 10 2468 3694 11 2699 3371 12 2806 3998 13 3082 3555 14 3209 4692 15 3466 4244 16 3643 5298 17 3852 4801 18 4033 5147 19 4267 5738 20 4498 6420 21 4533 6059 22 4804 6426 23 5090 6321 24 5233 7026 25 5439 6964 1. Создать файл с исходными данными в среде Excel (файл example_03.xls). 2. Осуществить импорт исходных данных в Eviews. 3. Создать рабочий файл (workfile). 4. Найти значения описательных статистик по каждой переменной и объяснить их (рис. 51). 5. Построить поле корреляции моделируемого (результативного) и факторного признаков (рис. 52). Объяснить полученные результаты. 6. Найти значение линейного коэффициента корреляции и пояснить его смысл (рис. 53). 7. Определить параметры уравнения парной регрессии и интерпретировать их. Объяснить смысл полученного уравнения регрессии (рис. 54). 8. Оценить статистическую значимость коэффициента регрессии и уравнения в целом. Сделать выводы. 9. Объяснить полученное значение . 10. Построить эмпирическую и теоретическую линию регрессии и объяснить их (рис. 55). 11. Построить и проанализировать график остатков (рис. 56). 12. С вероятностью 0,95 построить доверительный интервал для оценки ожидаемого значения средних расходов владельцев карточек, дальность путешествий которых составила 4000 миль (рис. 57). 13. Оформить отчет по занятию. Результаты расчетов по практическому занятию №3 для самоконтроля: Рис. 51. Рис. 52. Рис. 53. Рис. 54. Рис. 55. Рис. 56. Рис. 57. Лекция 3. 6. Ошибки измерения факторов и фиктивные переменные 6.1. Ошибки измерения факторов Пусть теперь нарушается гипотеза 2, и независимые факторы наблюдаются с ошибками (здесь используются обозначения первых двух форм уравнения регрессии): z = z0 + , или в разрезе наблюдений: Z = Z0 + , где z0 и  - n-вектора-строки истинных значений факторов и ошибок их измерений; Z0 и  - соответствующие Nn-матрицы значений этих величин по наблюдениям. Предполагается, что истинные значения и ошибки независимы друг от друга (по крайней мере, не скоррелированы друг с другом) и известны их матрицы ковариации (одинаковые для всех наблюдений): E(z0/,) = 0, E(z0/,z0) = M0, E(/) = . Уравнение регрессии можно записать в следующей форме:   , (т.е. остатки теперь не могут быть независимыми от факторов-регрессоров) и в рамках сделанных предположений доказать, что E(M) = M0 + , E(a) = (M0 + )-1M0, т.е. МНК-оценки теряют в такой ситуации даже свойство несмещенности. Как правило, они преуменьшены по сравнению с истинными значениями (в случае n = 1, ). Существуют три подхода к оценке параметров регрессии в случае наличия ошибок измерения независимых факторов. а) Простая регрессия. Если имеется оценка W ковариационной матрицы ошибок  и ошибки регрессоров взаимно независимы с изучаемой переменной, то можно использовать следующий оператор оценивания: a = (M-W)-1m, который обеспечивает несмещенность оценок. б) Инструментальные переменные. Если имеется n факторов y, которые взаимно независимы как с ошибками уравнения , так и ошибками основных факторов , то оценка несмещена. Исторически первой в этом классе получена оценка Вальда для случая n = 1. Для получения этой оценки i-я компонента вектора-столбца Y принимается равной единице, если zi больше своей медианы, и минус единице, если - меньше медианы (при нечетном N среднее значение теряется). В результате получается, что где - средние значения переменных по верхней части выборки, - их средние значения по нижней части выборки. Такая оценка более эффективна, если исключить примерно треть “средних” наблюдений. Позже эта оценка была обобщена: матрицу значений инструментальных переменных было предложено формировать столбцами рангов по наблюдениям соответствующих переменных z. в) Ортогональная регрессия. Если ошибки факторов не зависят друг от друга и от ошибок в уравнениях (которые в этом случае интерпетируются как ошибки изучаемой переменной), их дисперсии одинаковы и равны дисперсии ошибки изучаемой переменной, а между истинными значениями переменных имеется линейная зависимость, то можно использовать ортогональную регрессию. Возвращаясь к обозначениям 3-го раздела,  и (M  In)a = 0, a/a = 1. В этом случае матрица ковариации ошибкок переменных имеет вид 2In. Если матрица ковариации ошибок есть 2, то применяется регрессия в метрике -1: . Для доказательства проводится преобразование в пространстве переменных с помощью матрицы C, такой, что , после которого матрица ковариации ошибок переменных приобретает вид 2In, и становится возможным применить обычную ортогональную регрессию. Ортогональная регрессия при принятых гипотезах приводит к состоятельным оценкам параметров. 6.2. Фиктивные переменные С помощью фиктивных или псевдо- переменных, принимающих дискретные, обычно, целые значения, в регрессию включают качественные факторы. Уточнение обозначений: Z - Nn-матрица наблюдений за “обычными” независимыми факторами;  - n-вектор-столбец параметров регрессии при этих факторах; ; 0 = . В этих обозначениях уравнение регрессии записывается следующим образом: . Пусть имеется один качественный фактор, принимающий два значения (например: “мужчина” и “женщина”, если речь идет о модели некоторой характеристики отдельных людей, или “годы войны” и “годы мира” - в модели, построенной на временных рядах наблюдений, которые охватывают периоды войны и мира, и т.д.). Ставится вопрос о том, влияет ли этот фактор на значение свободного члена регрессии. 2-матрица наблюдений за качественным фактором (матрица фиктивных переменных): равен единице, если фактор в i-м наблюдении принимает 1-е значение, и нулю в противном случае; равен единице, если фактор в i-м наблюдении принимает 2-е значение, и нулю в противном случае. - 2-х компонентный вектор-столбец параметров при фиктивных переменных. Исходная форма регрессии с фиктивными переменными: . Поскольку сумма столбцов матрицы равна Z0, оценка параметоров непосредственно по этому уравнению невозможна. Проводится преобразование фиктивных переменных одним из двух спасобов. а) В исходной форме регрессии исключается один из столбцов матрицы фиктивных переменных, в данном случае - первый. - матрица фиктивных переменных без первого столбца; = . Тогда эквивалентная исходной запись уравнения имеет вид: + , и после умножения матрицы справа на вектор параметров получается запись уравнения регресии в которой отсутствует линейная зависимость между факторами-регрессорами: , где . После оценки этих параметров можно определить значения исходных параметров 0 и , предполагая, что сумма параметров при фиктивных переменных (в данном случае 1 + 2) равна нулю, т.е. влияние качественного фактора приводит к колебаниям вокруг общего уровня свободного члена: . б) Предполагая, что сумма параметров при фиктивных переменных равна нулю, в исходной форме регрессии исключается один из этих параметров, в данном случае - первый.  - вектор-стобец параметров при фиктивных переменных без первого элемента; C . Эквивалентная исходной запись уравнения принимает форму: , и после умножения матрицы C слева на матрицу наблюдений за фиктивными переменными получается запись уравнения регрессии, в которой также отсутствует линейная зависимость между регрессорами: . После оценки параметров этого уравнения недостающаяся оценка параметра 1 определяется из условия 1 = 2. Качественный фактор может принимать больше двух значений. Так, в классической модели выделения сезонных колебаний он принимает 4 значения в случае поквартальных наблюдений и 12 значений, если наблюдения проводились по месяцам. Матрица в этой модели имеет размерность, соответственно, N4 или N12. Пусть в общем случае качественный фактор принимает k значений. Тогда: матрица имеет размерность Nk, вектор-столбец - размерность k, матрицы и ZF - N (k1), вектора-столбцы и  - k1; k(k+1) матрица , k(k1) матрица ; . Можно показать, что , или , где - (k1)(k1)-матрица, состоящая из единиц; и далее показать, что результаты оценки параметров уравнения с фиктивными переменными при использовании обоих указанных подходов к устранению линейной зависимости факторов-регрессоров одинаковы. После оценки регрессии можно применить t-критерий для проверки значимости влияния качественного фактора на свободный член уравнения. Если k слишком велико и приближается к N, то на параметры при фиктивных переменных накладываются более жесткие ограничения (чем равенство нулю их суммы). Так, например, если наблюдения проведены в последовательные моменты времени, и вводится качественный фактор “время”, принимающий особое значение в каждый момент времени, то , и обычно предполагается, что значение параметра в каждый момент времени (при фиктивной переменной каждого момента времени) больше, чем в предыдущий момент времени на одну и ту же величину. Тогда роль матрицы C играет N-вектор-столбец T, состоящий из чисел натурального ряда, начиная с 1, и , где T - скаляр. Уравнение регрессии с фактором времени имеет вид (эквивалентная исходной форма уравнения при использовании способа “б” исключения линейной зависимости фиктивных переменных): . Метод фиктивных переменных можно использовать для проверки влияния качественного фактора на коэффициент регрессии при любом обычном факторе. Исходная форма уравнения, в которое вводится качественный фактор для параметра j, имеет следующий вид: , где -й столбец матрицы Z, - k-вектор-столбец параметров влияния качественного фактора на j; в векторе  j-я компонента теперь обозначается - средний уровень параметра j; - операция прямого произведения столбцов матриц. Замечание Прямое произведение матриц AB, имеющих размерность, соответственно, mAnA и mBnB есть матрица размерности (mAmB)(nAnB) следующей структуры: Прямое произведение матриц обладает следующими свойствами: (AB)(CD) = (AC)(BD), если произведения AC и BD имеют смысл, . Прямое произведение столбцов матриц применимо к матрицам, имеющим одинаковое число строк, и осуществляется путем проведения операции прямого произведения последовательно с векторами-строками матриц. Приоритет прямого произведения матриц выше, чем обычного матричного произведения. При использовании способа “а” эквивалентная исходной форма уравнения имеет вид (форма “а”): , где - матрица Z без j-го столбца, - вектр  без j-го элемента; а в случае применения способа “б” (форма “б”): . Все приведенные выше структуры матриц и соотношения между матрицами и векторами сохраняются. В уравнение регрессии можно включать более одного качественного фактора. В случае двух факторов, принимающих, соответственно, k1 и k2 значения, форма “б” уравнения записывается следующим образом: , где вместо “F” в качестве индекса качественного фактора используется его номер. Это уравнение может включать фиктивные переменные совместного влияния качественных факторов (взаимодействия фактров). В исходной форме компонента совместного влияния записывается следующим образом: , где - k1k2-вектор-столбец /, а - параметр при фиктивной переменной, которая равна 1, если 1-й фактор принимает i1-е значение, а 2-й фактор - i2-е значение, и равна 0 в остальных случаях (вектором-столбцом наблюдений за этой переменной является (k1(i1-1)+i2)-й столбец матрицы ). Как и прежде, вектор параметров, из которого исключены все компоненты, линейно выражаемые через остальные, обозначается . Он имеет размерность (k11)(k21) и связан с исходным вектором параметров таким образом: , где C1 и C2 - матрицы размерности k1(k1-1) и k2(k2-1), имеющие описанную выше структуру (матрица C). Теперь компоненту совместного влияния можно записать следующим образом: , а уравнение, включающее эту компоненту (форма “б”) - . В общем случае имеется L качественных факторов, j-й фактор принимает kj значений. Пусть упорядоченное множество {1,2,...,L} обозначается F, а J - его подмножества. Общее их количество, включая пустое подмножество, равно 2L. Каждому такому подмножеству взаимно однозначно соответствует число, например, в системе исчисления с основанием , и их можно упорядочить по возрастанию этих чисел. Если пустое подмножество обозначить 0, то можно записать J = 0,1,...,L,{1,2},...,{1,L},{2,3},...,{1,2,3},...,F. Тогда уравнение регрессии записывается следующим образом: , где при j > 0; C0 = 1. Выражение означает, что j принимает значения последовательно с 1-го по последний элемент подмножества J. Очевидно, что приведенная выше запись уравнения для L = 2 является частным случаем данной записи. Если p(J) - количество элементов в подмножестве J, то или - J-е эффекты, эффекты p(J)-го порядка, при p(J) = 1 - главные эффекты, при p(J) > 1 - эффекты взаимодействия, эффекты совместного влияния или совместные эффекты. или J - параметры соответствующих J-х эффектов или также сами эти эффекты. 6.3. Дисперсионный анализ Рассматривается частный случай уравнения регрессии с фиктивными переменными, когда оно включает только такие (фиктивные) переменные, и для каждого сочетания значений факторов имеется одно и только одно наблюдение за изучаемой переменной. Тогда и уравнение имеет вид: , в котором отсутствует вектор ошибок , т.к. при учете эффектов всех порядков их сумма в точности равняется X. Матрица Z имеет размерность NN и она не вырождена. Поэтому  = Z1X. Но чтобы получить общие результаты, имеющие значение и для частных моделей, в которых эффекты высоких порядков принимаются за случайную ошибку, ниже используется техника регрессионного анализа. Это - регрессионная модель полного (учитываются эффекты всех порядков) одномерного (изучаемая переменная единственна) многофакторного дисперсионного анализа без повторений (для каждого сочетания значений фактров есть одно наблюдение). Обычному линейному индексу компонент вектора X можно поставить в соответствие мультииндекс I, принимающий значения из множества , так что, если I = {i1,i2,...,iL}, то , и - при этом - обозначения xi и xI эквивалентны. При таком соответствии обычного индекса и мультииндекса в линейной последовательности значений мультииндекса быстрее меняются его младшие компоненты (с большим порядковым номером). , если j > 0, и N0 = 1 - количество столбцов в матрице ; , если j > 0, и = 1 - количество столбцов в матрице ; очевидно, что ; - мультииндекс с множеством значений ; I = IF. Mb = m - система нормальных уравнений, где M - NN-матрица, b и m - N-вектора-столбцы и, как обычно, . При выбранном порядке следования значений факторов от наблюдения к наблюдению (быстее меняют свои значения более младшие факторы) где j есть , если , или , в противном случае. Тогда где j есть , если , или , в противном случае, и далее , если , т.е. переменные разных эффектов ортогональны друг другу, , M0 = 1; , где - NJ-вектор-столбец средних по сочетаниям значений факторов J с мультииндексом компонент IJ (является средним значением x по тем наблюдениям, в которых 1-й фактор из множества J принимает i1-е значение, 2-й - i2-е значение и т.д.); . M - блочно-диагональная матрица {MJ}, m - вектор-столбец {mJ}. После решения системы нормальных уравнений и перехода к “полным” векторам параметров эффектов получается следующее: , где (как и прежде, ), B0 = 1. Параметры разных эффектов (разных по J) не зависят друг от друга, и исключение из уравнения некоторых из них не повлияет на значения параметров оставшихся эффектов. Чтобы получить более “прозрачные” формулы для определения парметров эффектов, следует ввести понятие сопоставимых векторов этих параметров. Если , то - NJ-вектор-столбец параметров -го эффекта, сопоставимый с вектором : он имеет ту же размерность, что и , и каждая компонента вектора повторена в нем раз - так, что любой компоненте вектора в векторе соответствует компонента , для которой является подмножеством тех же элементов , что и по отношению к J. В этом выражении для сопоставимых векторов параметров эффектов , где j равен , если , или , в противном случае (, ). Эти матрицы обладают следующим свойством: , откуда получается выражение для рекурентного расчета параметров эффектов (например, если известны , то ). При J = F это выражение представляет собой другую форму записи основного уравнения регрессии: , т.е. . - основное тождество дисперсионного анализа, показывающее распределение общей дисперсии изучаемой величины по факторам и их взаимодействиям, где - дисперсия, объясненная совместным влиянием факторов J; представляет собой сумму квадратов с степенями свободы. Все эти дисперсии не зависят друг от друга. Если совместное влияние факторов так же существенно (или не существенно) как и факторов J, то статистика (предполагается, что она больше единицы) имеет -распределение (предполагается, что x нормально распределено). Этот факт можно использовать для проверки гипотез о сравнительной существенности факторов и их взаимодействий. Обычно эффекты высоких порядков отождествляют со случайной ошибкой. Уравнение регрессии приобретает свою обычную форму и можно воспользоваться t- и F-критериями для проверки значимости отдельных факторов и их взаимодействий. Важно, что оценки оставшихся в уравнении эффектов при этом не меняются. Переходя к более общему и более сложному случаю модели дисперсионного анализа с повторениями, полезно вспомнить следующее. Если в модели регрессионного анализа  несколько строк матрицы Z одинаковы, то можно перейти к сокращенной модели, в которой из всех этих строк оставлена одна, а в качестве соответствующей компоненты вектора X взято среднее по этим наблюдениям с одинаковыми значениями независимых факторов. Т.е. совокупность наблюдений с одинаковыми значениями независимых факторов заменяется одним групповым наблюдением. При исходной гипотезе E() = 2I дисперсия остатка по этому наблюдению равна ng2, где ng - количество замененных наблюдений, и значения переменных в групповом наблюдении должны быть умножены на (в соответствии с ОМНК). Значения оценок параметров по исходной и сокращенной модели будут одинаковыми, но полная () и остаточная (e/e) суммы квадратов в исходной модели будут больше, чем в сокращенной на сумму квадратов отклонений переменных x по исключенным наблюдениям от своей средней. Пусть теперь рассматривается регрессионная модель одномерного однофакторного дисперсионного анализа с повторениями: . Фактор принимает k значений, и для каждого i-го значения существует ni наблюдений (ni повторений), т.е. исходная совокупность X разбита по какому-то признаку на k групп, причем сначала в ней идут наблюдения по 1-й группе, потом - по 2-й и т.д.. ; - Nk-матрица структуры . Всем повторениям в матрице Z соответствуют одинаковые строки, поэтому можно перейти к сокращенной модели. - среднее и - дисперсия по i-й группе; - суммарная дисперсия по группам. Сокращенная модель имеет следующий вид: . При естественном требовании , которое эквивалентно = 0, матрица C имеет вид и . - объясненная дисперсия, равная полной дисперсии в сокращенной модели. Полная дисперсия в исходной модели распадается на две части: - объясненную и остаточную, или в терминах дисперсионного анализа - межгрупповую и внутригрупповую дисперсии, которые имеют, соответственно, k и Nk1 степеней свободы. Применяя F-критерий, можно оценить статистическую значимость использования данной группировки в целом или выделения отдельных групп. Теперь рассматривается общий случай L-факторной модели. В этом случае N больше NF на общее число повторений по всем сочетаниям значений факторов. Пусть nI - число наблюдений при I-м сочетании значений факторов; ; xI - среднее значение и - дисперсия наблюдений при I-м сочетании; - суммарная внутригрупповая или остаточная дисперсия для исходной модели с NNF1 степенями свободы. Сокращенная модель имеет вид: , где n - диагональная NF-матрица {nI}; X - NF-вектор-столбец {xI}; Z,  - аналогичны L-факторной модели без повторений. Пусть далее , -матрица , в частности - диагональная NJ- матрица , где - количество наблюдений при IJ-м сочетании значений факторов J (); -матрица , -вектор-столбец , где - NJ-вектор-столбец средневзвешенных x по сочетаниям значений факторов J. Матрица M и вектор m системы нормальных уравнений для b составляются естественным образом из блоков и mJ. Формулы для MJ (в данном случае MJJ), mJ и XJ, приведенные для модели без повторений, являются частным случаем этих формул при . - полная дисперсия в сокращенной модели или объясненная дисперсия в исходной модели. Разные эффекты могут оставаться ортогональными ( при ) в одном специальном случае, когда каждый более младший фактор делит все выделенные до него подгруппы в одинаковых пропорциях, т.е. (в частности, когда количество повторений nI для всех сочетаний I одинаково). В этом случае для ортогональности эффектов достаточно матрицы выбрать так, чтобы . Эти требования удовлетворяются, если данные матрицы обладают описанной выше (для однофакторной модели с повторениями) структурой: , где . Такие матрицы обобщают структуру матриц модели без повтрений. Для этого специального случая можно построить формулы решения задачи дисперсионного анализа, обобщающие приведенные выше формулы для модели без повторений. В общем случае указанный выбор матриц обеспечивает равенство нулю только . Особым выбором CJ (p(J)>1) можно добиться равенства нулю еще некоторых блоков общей матрицы M. Матрица CJ не обязательно должна равняться прямому произведению по . Она должна быть размерности  и иметь ранг , т.е., например, обладать структурой , где cJ - -матрица. Поэтому для определения этой матрицы необходимо иметь  условий. Поскольку , нужное количество условий содержат требования для всех , включая пустое множество (C0 = 1). Таким образом, матрицы CJ всегда можно определить так, чтобы эффекты нулевого и высшего порядков были ортогональны друг с другом и с остальными эффектами, и, в частности, . Дисперсия в общем случае не делится на факторные дисперсии, как это было в модели без повторений; точно в ней выделяется только дисперсия эффектов высшего порядка (при указанном выборе CJ): , и для нее непосредственно можно проверить нулевую гипотезу с помощью F-критерия . Нулевые гипотезы для остальных факторных дисперсий имеют вид J = 0, и в числителе F-статистики помещается величина , где - соответствующий блок матрицы M1, а в знаменателе - или - если нулевая гипотеза для не отвергается. Практическое занятие № 4. «Применение Eviews при построении и анализе многофакторной модели регрессии. Выявление мультиколлинеарности и гетероскедастичности в модели. Проверка спецификации модели» Пример 4. Имеются данные о вариации дохода кредитных организаций США за период 25 лет в зависимости от изменений годовой ставки по сберегательным депозитам и числа кредитных учреждений. Введем следующие обозначения: – прибыль кредитных организаций, %; - чистый доход на 1$ депозита; – число кредитных учреждений. Год (Income) (Credit institutions) (Profit) 1 3,92 7298 0,75 2 3,61 6855 0,71 3 3,32 6636 0,66 4 3,07 6506 0,61 5 3,06 6450 0,7 6 3,11 6402 0,72 7 3,21 6368 0,77 8 3,26 6340 0,74 9 3,42 6349 0,9 10 3,42 6352 0,82 11 3,45 6361 0,75 12 3,58 6369 0,77 13 3,66 6546 0,78 14 3,78 6672 0,84 15 3,82 6890 0,79 16 3,97 7115 0,7 17 4,07 7327 0,68 18 4,25 7546 0,72 19 4,41 7931 0,55 20 4,49 8097 0,63 21 4,7 8468 0,56 22 4,58 8717 0,41 23 4,69 8991 0,51 24 4,71 9179 0,47 25 4,78 9318 0,32 1. Создать файл с исходными данными в среде Excel (файл example_04.xls). 2. Осуществить импорт исходных данных в Eviews. 3. Создать workfile. 4. Найти значения описательных статистик по каждой переменной и объяснить их (рис. 58). Рис. 58. 5. Построить корреляционную матрицу для всех переменных, включенных в модель (рис. 59). Рис. 59. 6. Построить регрессионное уравнение МНК, в котором зависимая переменная – прибыль кредитных организаций, а независимые – чистый доход на 1$ депозита и число кредитных учреждений (рис. 60, 61). Рис. 60. Рис. 61. Уравнение примет следующий вид: . Подставим полученные оценки из итоговой формы вывода: . 7. Оценить статистическую значимость параметров полученного уравнения и всей модели в целом. 8. Проверить наличие мультиколлинеарности в модели. Сделать вывод. Мультиколлинеарность – это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. В результате высококоррелированные объясняющие переменные действуют в одном направлении и имеют недостаточно независимое колебание, чтобы дать возможность модели изолировать влияние каждой переменной. Проблема мультиколлинеарности возникает только в случае множественной регрессии. Мультиколлинеарность особенно часто имеет место при анализе макроэкономических данных (например, доходы, производство). Получаемые оценки оказываются нестабильными как в отношении статистической значимости, так и по величине и знаку (например, коэффициенты корреляции). Следовательно, они ненадежны. Значения коэффициентов R2 могут быть высокими, но стандартные ошибки тоже высоки, и отсюда t- критерии малы, отражая недостаток значимости. Для проверки появления мультиколлинеарности применяются два метода, доступные во всех статистических пакетах: Вычисление матрицы коэффициентов корреляции для всех объясняющих переменных. Если коэффициенты корреляции между отдельными объясняющими переменными очень велики, то, следовательно, они коллинеарны. Однако, при этом не существует единого правила, в соответствии с которым есть некоторое пороговое значение коэффициента корреляции, после которого высокая корреляция может вызвать отрицательный эффект и повлиять на качество регрессии. Для измерения эффекта мультиколлинеарности используется показатель VIF – «фактор инфляции вариации»:  , где - значение коэффициента множественной корреляции, полученное для регрессора как зависимой переменной и остальных переменных . При этом степень мультиколлинеарности, представляемая в регрессии переменной , когда переменные включены в регрессию, есть функция множественной корреляции между и другими переменными . Если , то объясняющие переменные, коррелирующие между собой, считаются мультиколлинеарными. Существует еще ряд способов, позволяющих обнаружить эффект мультиколлинеарности:  Стандартная ошибка регрессионных коэффициентов близка к нулю.  Мощность коэффициента регрессии отличается от ожидаемого значения.  Знаки коэффициентов регрессии противоположны ожидаемым.  Добавление или удаление наблюдений из модели сильно изменяют значения оценок. Значение F-критерия существенно, а t-критерия – нет. Для устранения мультиколлинеарности может быть принято несколько мер: Увеличивают объем выборки по принципу, что больше данных означает меньшие дисперсии оценок МНК. Проблема реализации этого варианта решения состоит в трудности нахождения дополнительных данных. Исключают те переменные, которые высококоррелированны с остальными. Проблема здесь заключается в том, что возможно переменные были включены на теоретической основе, и будет неправомочным их исключение только лишь для того, чтобы сделать статистические результаты «лучше». Объединяют данные кросс-секций и временных рядов. При этом методе берут коэффициент из, скажем, кросс-секционной регрессии и заменяют его на коэффициент из эквивалентных данных временного ряда. Проделанные манипуляции позволяют предположить, что мультиколлинеарность может присутствовать (оценки любой регрессии будут страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными), однако в данном примере это не влияет на результаты оценки регрессии. Следовательно, выделять «лишние» переменные не стоит, так как это отражается на содержательном смысле модели. 9. Проверить спецификацию модели. Объяснить полученные результаты. Подробно теоретические вопросы, связанные с проблемами спецификации эконометрических моделей, были рассмотрены в лекционном курсе. В нашем случае мы ограничимся тем, что попробуем исключить поочередно независимые переменные. Первой исключаем переменную CREDIT_INSTITUTI (рис. 62). Коэффициент при переменной INCOME изменил знак на противоположный. Рис. 62. Рис. 63. В случае исключения из первоначальной модели переменной INCOME, знак регрессионного коэффициента при переменой CREDIT_INSTITUTI остался без изменения (рис. 63). Представляется разумным разделять эффект двух независимых переменных на зависимую переменную в модели с совместным их влиянием в регрессионном уравнении. Данный пример иллюстрирует важность использования множественной регрессии вместо парной в случае, когда изучаемое явление существенно детерминирует несколько независимых переменных. 10. Проверить наличие гетероскедастичности в модели. Объяснить полученные результаты. Если остатки имеют постоянную дисперсию, они называются гомоскедастичными, но если они непостоянны, то гетероскедастичными. Гетероскедастичность приводит к тому, что коэффициенты регрессии больше не представляют собой лучшие оценки или не являются оценками с минимальной дисперсией, следовательно, они больше не являются наиболее эффективными коэффициентами. Воздействие гетероскедастичности на оценку интервала прогнозирования и проверку гипотезы заключается в том, что хотя коэффициенты не смещены, дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещены. Если смещение отрицательно, то оценочные стандартные ошибки будут меньше, чем они должны быть, а критерий проверки будет больше, чем в реальности. Таким образом, мы можем сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот, если смещение положительно, то оценочные ошибки будут больше, чем они должны быть, а критерии проверки – меньше. Значит, мы можем принять нулевую гипотезу, в то время как она должна быть отвергнута. Проверкой на гетероскедастичность служит тест Голдфелда-Кванта. Он требует, чтобы остатки были разделены на две группы из наблюдений, одна группа с низкими, а другая – с высокими значениями. Обычно срединная одна шестая часть наблюдений удаляется после ранжирования в возрастающем порядке, чтобы улучшить разграничение между двумя группами. Отсюда число остатков в каждой группе составляет , где представляет одну шестую часть наблюдений. Критерий Голдфелда-Кванта – это отношение суммы квадратов отклонений (СКО) высоких остатков к СКО низких остатков: . Этот критерий имеет распределение с степенями свободы. Чтобы решить проблему гетероскедастичности, нужно исследовать взаимосвязь между значениями ошибки и переменными и трансформировать регрессионную модель так, чтобы она отражала эту взаимосвязь. Это может быть достигнуто посредством регрессии значений ошибок по различным формам функций переменной, которая приводит к гетероскедастичности, например, , где - независимая переменная (или какая-либо функция независимой переменной), которая предположительно является причиной гетероскедастичности, а отражает степень взаимосвязи между ошибками и данной переменной, например, или и т. д. Следовательно, дисперсия коэффициентов запишется: . Отсюда если , мы трансформируем регрессионную модель к виду: . Если , т.е. дисперсия увеличивается в пропорции к квадрату рассматриваемой переменной , трансформация приобретает вид: . Используя Eviews, можно провести проверку и устранение гетероскедастичности следующим образом: Запустить стандартную регрессию. Вычислить остатки. Запустить регрессию с использованием квадрата остатков как зависимой переменной и оценить зависимую переменную как независимую переменную (тест White). Оценить nR2, где n – объем выборки, R2 – коэффициент детерминации. Использовать статистику с одной степенью свободы (в EVIEWS – используется F – статистика) для проверки существенности отличия nR2 от нуля. Основным способом устранения гетероскедастичности является применение взвешенного метода наименьших квадратов. Выбираем тест White (см. рис. 64). Рис. 64. Итог формы вывода представлен на рис. 65. Рис. 65. Как следует из приведенной распечатки, вероятность ошибки первого рода равна 51,86%. Следовательно, нулевую гипотезу (об отсутствии гетероскедастичности) нельзя отклонить. Для случая, когда гетероскедастичность присутствует, проблему гетероскедастичности можно решать следующим образом: Выбираем в пунктах меню текущего окна опцию Proc/Specify/Estimate… (рис. 66). Появляется окно оценки регрессии, где необходимо нажать клавишу Options и в появившимся окне отметить Heteroskedasticity (рис. 67). Рис. 66. Рис. 67. Появилось новое, переоцененное уравнение (рис. 68). Полученное уравнение можно вновь проверить по тесту White. Рис. 68. 11. Оформить отчет. Лекция №4. 7. Оценка параметров систем уравнений 7.1. Невзаимозависимые системы ,  - k-вектора-строки центрированных значений изучаемых (эндогеных) переменных и их случайных ошибок; E() = 0, E(/) = 2; - n-вектор-строка центрированых значений независимых факторов (экзогенных переменных); A - nk-матрица коэффициентов регрессии; - система уравнений регрессии;  - та же система по N наблюдениям; в каждом наблюдении матожидание ошибок равно нулю, их матрица ковариации одинакова (равна 2) и они не скоррелированы по наблюдениям. , где , т.е. факт скоррелированности ошибок разных изучаемых переменных () не создает дополнительных проблем, и уравнения системы могут оцениваться по отдельности с помощью обычного МНК. Пусть для коэффициентов матрицы A имеются априорные ограничения, и эта матрица имеет, например, следующую структуру: , где ai - ni-вектор-столбец коэффициентов в i-м уравнении (для i-й изучаемой переменной); . Т.е. для каждой изучаемой переменной имеется свой набор объясняющих факторов с Nni-матрицей наблюдений (), и система уравнений записывается как совокупность внешне не связанных между собой уравнений: , . Поскольку ошибки скоррелированы, правильная оценка параметров регрессии дается решением следущих уравнений: , где - элемент матрицы -1. Эта оценка совпадает с обычной МНК-оценкой , если матрица  диагональна. 7.2. Взаимозависимые или одновременные уравнения. Проблема идентификации. Уравнения регрессии записываются в форме без свободного члена. X - Nk-матрица наблюдений за изучаемыми переменными x; Z - N(n+1)-матрица наблюдений за независимыми факторами z; B - kk-матрица параметров регрессии при изучаемых переменных; и ll = 1 - условия нормализации, т.е. предполагается, что в конечном счете в левой части l-го уравнения остается только l-я переменная, а остальные изучаемые переменные переносятся в правую часть; A - (n+1)k-матрица параметров регрессии при независимых факторах;  - Nk-матрица значений случайных ошибок  по наблюдениям; xB = zA + , или XB = ZA +  - структурная форма системы уравнений регрессии; x = zAB1 + B1, или X = ZAB1 + B1 - приведенная форма системы; D = AB1 - (n+1)k-матрица параметров регрессии приведенной формы. Для их оценки используется МНК: . DB  A = 0 или WH = 0, где (n+1)(n+k+1)-матрица , (n+k+1)k-матрица , - условия для оценки параметров структурной формы. В общем случае этих условий недостаточно. Необходимы дополнительные условия. Пусть для параметров l-го уравнения имеется дополнительно r l условий: R lh l = 0, где R l - r l(n+k+1)-матрица дополнительных условий; - (n+k+1)-вектор-столбец параметров l-го уравнения - l-й столбец матрицы H. - общие условия для определения структурных параметов l-го уравнения, где Wl - (n+r l+1)(n+k+1)-матрица. Они позволяют определить искомые параметры с точностью до постоянного множителя (с точностью до выполнения условий нормализации ll = 1), если ранг матрицы Wl равен n+k. Для этого необходимо, чтобы ; необходимо и достаточно, чтобы ранг матрицы R lH равнялся k1. l-е уравнение не идентифицировано, если; оно точно идентифицировано, если и ранг Wl равен n+k; сверхидентифицировано, если и строки Rl линейно не зависмы. Обычно строки матрицы Rl являются ортами, т.е. дополнительные ограничения исключают некоторые переменные из структурной формы. Тогда, если kl и n l - количества, соответственно, изучаемых переменных и независимых факторов в l-м уравнении, то для его идентификации необходимо, чтобы . Дальнейшее изложение ведется в предположении, что строки матрицы Rl - орты. 7.3. Оценка параметров отдельного уравнения Xl - Nkl-матрица наблюдений за изучаемыми переменными xl, входящими в l-е уравнение; Xl - N-вектор-столбец наблюдений за l-й переменной x l; - N(kl1)-матрица Xl без столбца Xl наблюдений за ; l - kl-вектор-столбец параметров при изучаемых переменных в l-м уравнении; l - (kl1)-вектор-столбец l с обратным знаком и без l-го элемента (без элемента ll = 1); Z l - N(n l+1)-матрица наблюдений за независимыми факторами zl, входящими в l-е уравнение;  l - (n l+1)-вектор-столбец параметров при этих факторах;  l - N-вектор-столбец остатков  l в l-м уравнении по наблюдениям; или - l-е уравнение регрессии. Применение обычного МНК к этому уравнению дает в общем случае смещенные оценки. Если данное уравнение точно идентифицировано, то для оценки его параметров можно использовать косвенный метод (КМ) наименьших квадратов. С помощью МНК оцениваются параметры приведенной формы системы уравнений, через которые однозначно выражаются структурные параметры данного уравнения. Можно записать уравнения для этой оценки. Действительно, условия эквивалентны , где - klk-матрица, полученная из Ik вычеркиванием нужных строк; - аналогичная (n l+1)(n+1)-матрица для Al. Тогда для Bl и Al, удовлетворяющим требуемым условиям, выполняется следующее: , и требования WHl = 0 можно записать в форме (переходя к обозначениям оценок соответствующих величин) , (т.к. и ) или , где (n+1)-вектор-столбец (l-й столбец матрицы D); (n+1)(kl1)-матрица (матрица, составленная из столбцов матрицы D, соответствующих переменным ). Это - система уравнений для нахождения искомых параметров. Она имеет единственное решение в случае точной идентификации уравнения, т.е., если ее матрица квадратна, размерности n+1 и не вырождена (необходимое и достаточное условие точной идентификаци уравнения). Для сверхидентифицированного уравнения можно применить двухшаговый метод (2М) наименьших квадратов. На 1-м шаге с помощью МНК оцениваются параметры приведенной формы для переменных : , где Vl - N(kl-1)-матрица остатков по уравнениям; и определяются расчетные значения этих переменных (“очищенные” от ошибок): . На 2-м шаге с помощью МНК оцениваются искомые параметры структурной формы из уравнения: . Можно определить единый оператор 2М-оценивания. Поскольку и , этот оператор записывается так (1-я форма оператора): , или в более “прозрачной” - 2-й форме (учитывая, что ): . Если уравнение не идентифицировано, то обращаемая матрица в данном операторе вырождена. Если уравнение точно идентифицировано, то 2М-оценка совпадет с КМ-оценкой. Для сверхидентифицированного уравнения можно использовать также метод наименьшего дисперсионного отношения (МНДО). Строгое обоснование его применимости вытекает из метода максимального правдоподобия. Пусть bl в уравнении X lbl = Z la l + e l оценено, и X lbl рассматривается как единая эндогенная переменная. В результате применения МНК определяются: , , . Теперь находится остаточная сумма квадратов при условии, что все экзогенные переменные входят в l-е уравнение. Она равна , где . Тогда bl должны были бы быть оценены так, чтобы . (иначе было бы трудно понять, почему в этом уравнении присутствуют не все экзогенные переменные). Решение этой задачи приводит к следующим условиям: , из которых f находится как минимальный корень соответствующего характеристического уравнения, а bl определяется с точностью до постоянного множителя (с точностью до нормировки bll = 1). В общем случае f > 1, но . Если данное уравнение точно идентифицировано, то f = 1, и МНДО-оценки совпадают с КМ- и 2М-оценками. Оператор позволяет получить так называемые оценки k-класса (не путать с k - количеством эндогенных переменных в системе). При k = 0, они являются обычными МНК-оценками для l-го уравнения; при k = 1, это - 2М-оценки; при k = f, - МНДО-оценки. 2М-оценки занимают промежуточное положение между МНК- и МНДО-оценками (т.к. f > 1). Исследования показывают, что эффективные оценки получаются при k < 1. 7.4. Оценка параметров всех (идентифицированных) уравнений Из приведенной формы системы уравнений следует, что , и далее , т.е. в общем случае все эндогенные переменные скоррелированы с ошибками во всех уравнениях. Это является основным препятствием для применения обычного МНК ко всем уравнениям по отдельности. Но в случае, если в матрице B все элементы, расположенные ниже главной диагонали, равны нулю (т.е. в правой части l-го уравнения могут появляться только более младшие эндогенные переменные , и последней компонентой любого вектора xl является xl), а в матрице , наоборот, равны нулю все элементы, расположенные выше главной диагонали или эта матрица диагональна, то l не скоррелирован с переменными при любом l. Это - рекурсивная система, и для оценки ее параметров можно применять МНК к отдельным уравнениям. Для оценки параметров всех идентифицированных уравнений системы можно применить трехшаговый метод (3М) наименьших квадратов. Предпологается, что идентифицированы все k уравнений: , где . При условии, что матрица ковариации ошибок эндогенных переменых 2 одинакова во всех наблюдениях (гипотеза гомоскедастичности) . В уравнении (*) рассматривается как вектор n+1 наблюдений за одной эндогенной переменной, а - как матрица n+1 наблюдений за nl+kl+1 экзогенными переменными. Поскольку матрица ковариации остатков по этому уравнению равна (т.е. отлична от 2IN), для получения оценок cl параметров l нужно использовать ОМНК: . Это - еще одна (3-я) форма записи оператора 2М-оценивания. Первые два шага 3М совпадают с 2М, но цель их не в получении оценок cl, а в том, чтобы оценить el, и затем получить оценки W матрицы 2: . Теперь все уравнения (*) записываются в единой системе: (**) , или , где Y - соответствующий k(n+1)-вектор-столбец наблюдений за изучаемой переменной; Q - -матрица наблюдений за экзогенными переменными;  - - вектор-столбец параметров регрессии;  - k(n+1)-вектор столбец остатков по наблюдениям. Легко проверить, что матрица ковариации остатков  удовлетворяет следующему соотношению: , где  - операция прямого умножения матриц. Для нее имеется оценка: k(n + 1)k(n + 1)-матрица . Эта матрица отлична от , поэтому на 3-м шаге 3М-оценивания к единой системе (**) применяется ОМНК и получается окончательная оценка c параметров : В таком виде оператор 3М-оценивания используется для всех сверхидентифицированных уравнений. Для точно идентифицированных уравнений он имеет более сложную форму. Но для таких уравнений всегда можно применить КМ-оценивание. Практическое занятие № 5. «Фиктивные переменные» Иногда необходимо включение в регрессионную модель одной или более качественных переменных (например, разделение по полу: мужской и женский; по уровню образования: общее и профессиональное и т.д.). Альтернативно может понадобиться сделать качественное различие между наблюдениями одних и тех же данных. Так, если проверяется взаимосвязь между размером компании и месячными доходами по акциям, может быть желательным включение качественной переменной, представляющей месяц январь, по причине хорошо известного «январского эффекта» во временных рядах доходов по ценным бумагам. Данный «январский эффект» - это феномен, заключающийся в том, что средние доходы по акциям, особенно небольших компаний, в среднем выше в январе, чем в другие месяцы. Таким образом, если мы рассматриваем январские наблюдения как качественно отличные от других наблюдений, фиктивная переменная позволит произвести подобное качественное различие. Фиктивные переменные бывают двух типов - сдвига и наклона. Фиктивная переменная сдвига - это переменная, которая меняет точку пересечения линии регрессии с осью ординат в случае применения качественной переменной (рис. 69). Фиктивная переменная наклона - это та переменная, которая изменяет наклон линии регрессии в случае использования качественной переменной (рис. 70). Оба типа фиктивных переменных будут иметь значение или , когда наблюдения данных совпадают с уместной количественной переменной, но будут иметь нулевое значение при совпадении с наблюдениями, где эта качественная переменная отсутствует. Рис. 69. Рис. 70. Пример 5. По данным примера 1 (файл example_01.xls.) дать интерпретацию бинарным, «фиктивным» переменным, принимающим значения 0 или 1: floor – принимает значение 0, если квартира расположена на первом или последнем этаже, cat –принимает значение 1, если квартира находится в кирпичном доме. Построим регрессионное уравнение вида LS PRICE C CAT FLOOR (рис 71). Тем самым мы предполагаем (хотя в действительности это может быть и не так), что на цену квартиры оказывают влияние только две, указанные выше, составляющие. В результате получится уравнение следующего вида (рис 72): . Рис. 71. Рис. 72. Используя результаты оценивания уравнения, содержащиеся в форме вывода (рис. 72), можно записать такое уравнение: . Как же можно интерпретировать полученные результаты? Полученный коэффициент при CAT означает, что квартиры в кирпичных домах стоят в среднем на $13471 дороже аналогичных квартир в панельных домах. Коэффициент при FLOOR может быть интерпретирован так: квартиры на не первом/последнем этажах стоят в среднем на $4644 дороже аналогичных, расположенных на первом/последнем этажах.

Основы описательной статистики. Алгебра линейной регрессии

Тебе могут подойти лекции