Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 11. Практические и методические рекомендации, пример выполнения практического задания
Общие комментарии
В данному курсе предусмотрена теоретическая контрольная работа, а также эмпирический проект в качестве экзаменационного задания. Для выполнения задания по эмпирическому проекту необходимо будет выполнить ряд вычислений в некотором статистическом пакете (допускается использование таких стандартных эконометрических/статистических пакетов, как Stata, Econometric Views, Statistica, SPSS и др.). В данном разделе конспекта лекций приводится пример выполнения задания, аналогичного экзаменационному, в эконометрической программе MATRIXER, которая свободно распространяется ее автором Александром Цыплаковым и доступна для скачивания, например, со странице, посвященной непосредственно этой программе: http://matrixer.narod.ru/
Эмпирический проект заключается в выполнении ряда заданий по теме «линейная регрессия». Данные к эмпирическому проекту являются частью задания, предлагаются индивидуальные массивы данных по вариантам.
Результатом выполнения проекта должен стать отчет (оформленный в формате MS Word), в котором должны быть описаны последовательность и результаты действий и расчетов, а также их содержательная интерпретация и ответы на вопросы задания, не требующие расчетов.
Обратите внимание, что данный пример выполнения задания является практическим руководством, но не примером отчета. В отчете не должны содержаться инструкции по выполнению тех или иных команд в программном продукте и «сриншоты» проводимых действий. Отчет содержит аккуратно оформленные результаты выполнения задания.
Отчет необходимо оформить по правилам и стандарту университета, как ответ на экзаменационный билет. Не забывайте указывать в отчете номер варианта.
Исходная задача, данные
Изучается зависимость цены на некоторый товар длительного пользования в магазинах не маленького города. Имеются данные о цене товара в 120 магазинах, а также такая дополнительная информация, как:
Цена товара в соседних магазинах (оценена экспертами-маркетологами по ближайшим 5 магазинам, в которых продается такой же товар);
Расстояние от магазина до ближайшей станции метро (условная дистанция до ближайшей станции метро по пешим маршрутам, считающимся удобными);
Является ли данный магазин частью крупной сети магазинов или нет;
Количество магазинов конкурирующих магазинов, в которых продается или может продаваться такой же товар, не далеко от данного магазина (экспертная оценка степени конкуренции в районе);
Количество людей, проживающих недалеко от данного магазина (экспертная оценка);
Необходимо изучить зависимость цены на товар в магазине от данных факторов. На основе имеющейся информации предположите разумную модель цены на товар в магазине, сделайте обоснованные (логически) предположения о знаке влияния тех или иных факторов на зависимую переменную. Оцените предлагаемую модель методом наименьших квадратов, оцените качество оценок (проверка гипотез о факторах, об остатках, о форме модели), при необходимости внесите поправки в модель и оценки. Дайте содержательную интерпретацию полученных результатов. Оцените, насколько вероятно в данной модели проявление проблемы эндогенности? Предложите вариант борьбы с этой проблемой, если необходимо (какие данные вы бы предпочли собрать и как использовали бы их для уточнения оценок, какое уточнение вы ожидаете?)
Шаг 1. Загрузка данных в MATRIXER из среды MS Excel
В «моем варианте» задания исходные данные к задаче находятся в отдельной книге MS Excel в столбцах на одном листе:
Всего в задаче используется 6 исходных переменных (переменная «номер магазина» — это только номер наблюдения в выборке). Я перенесу данные в среду MATRIXER путем создания в ней новых переменных и копирования в них данных из среды MS Excel (обратите внимание, что MATRIXER, как и многие другие статистические пакеты, не всегда «воспринимает» числовые данные из среды Excel, если разделителем целой и дробной частей в десятичном формате является запятая, а не точка).
Главное окно среды MATRIXER выглядит следующим образом:
Для создания новой переменной можно воспользоваться пунктом меню Матрицы >> Создать, либо просто нажать кнопку INS. Переменной при создании необходимо дать имя (подробно об именах переменных рекомендуется прочитать в справке программы, меню Справка>> Как начать работать с программой, также в справке можно ознакомиться с другими возможностями импорта данных в программу и прочими функциями программы).
После введения имени переменной откроется окно редактирования матрицы, в которое необходимо внести (например, вставить из буфера обмена) данные:
После создания переменные появятся в разделе «Матрицы» главного окна программы:
Шаг 2. Оценка параметров линейной регрессии
Выбор формы уравнения регрессии — это часть задачи. Возможно, Вам покажется более благоразумным или естественным построить уравнение логарифма цены, а не исходного значения, или не включать какие-то из исходных данных в модель изначально, не проводя попыток и тестов. В данном примере приводится лишь одна из возможных форм моделей, обоснование модели — часть задачи, но не предмет практического руководства по выполнению задания, поэтому не обсуждается, однако в экзаменационной работе уравнение должно быть обосновано логически, теоретически или т.п.
Пусть исходная модель регрессии имеет вид
,
т.е. это самая обычная линейная регрессия, в которой зависимой переменной является цена на товар в магазине, а факторами — другие характеристики магазина (цена на аналогичный товар в соседних магазинах, количество конкурентов поблизости, количество рядом проживающих людей, расстояние до ближайшей станции метро, индекс принадлежности к крупной торговой сети); естественно, изначально предполагается, что в такой модели валидны гипотезы регрессионного анализа, и возможно применение МНК для оценки параметров.
Чтобы оценить параметры регрессионного уравнения МНК в среде MATRIXER можно воспользоваться соответствующим пунктом меню Панели (подробнее см. справку программы) или ввести команду в командное окно:
Синтаксис команды для оценки параметров линейной регрессии МНК очень прост. Для приведенного выше уравнения команда будет следующая:
Pr : 1 Pr_Comp N_Comp Peop Subw Large
Структура команды следующая: имя зависимой переменной отделяется двоеточием от списка факторов через пробелы (единица в списке факторов говорит о том, что в регрессии есть свободный член, константа). После ввода команды в командное окно необходимо нажать кнопку Выполнить , если команда введена корректно, то появится результат вычислений.
Рассмотрим этот результат более подробно (вывод результатов оценки параметров регрессионного уравнения имеет очень похожую структуру в большинстве статистических пакетов).
Информация об уравнении
Верхняя часть полученной таблицы содержит общую информацию об уравнении: тип уравнения (линейная регрессия), метод оценивания (обычный МНК), использованное в оценке количество наблюдения (120 в нашем случае):
Оценки параметров, проверка значимости отдельных факторов
Вторая часть таблицы содержит непосредственно оценки параметров при каждом факторе, их стандартные ошибки, t-статистики для проверки гипотез о равенстве нулю каждого коэффициента, и соответствующие РДУЗ (в таблице — «Знач.»):
Основываясь на этой информации, мы уже можем начать проверку качества исследуемой модели, а именно — проверку значимости отдельных коэффициентов. В частности, в данном примере видно, что РДУЗ напротив трёх факторов (константа на значимость традиционно не проверяется) «достаточно мал» (составляет менее любого из стандартных приемлемых уровней допустимой вероятности ошибки первого уровня — 0.1, 0.05 и даже 0.01). С двумя другими факторами ситуация в точности обратная (РДУЗ очень велик), именно про эти факторы (в нашем случае — факт принадлежности магазина к крупной сети и цена в ближайших конкурирующих магазинах) мы делаем вывод об их не значимости (гипотеза о равенстве нулю коэффициентов при этих факторах не может быть отвергнута). Как правило, в дальнейшем такие переменные из модели исключаются.
Значения коэффициентов при переменных (при значимых факторах) говорят о направлении и силе их влияния. Согласно форме уравнения (линейная регрессия) мы можем сделать предварительное заключение, что, например, чем больше конкурентов находится поблизости от данного магазина, тем ниже изучаемая цена на товар (в среднем — приблизительно минус 63 рубля за каждого дополнительного соседнего конкурента), тогда как большее число рядом проживающих жителей и близость к метро положительно сказываются на цене (на каждую тысячу человек, проживающих недалеко от магазина, цена на товар становится выше в среднем на 50 руб., а в магазинах, располагающихся ближе к метро — выше приблизительно на 211 руб. на каждые 100 метров). Подобных выводов о влиянии цены в конкурирующих соседних магазинах и о принадлежности к крупной торговой сети мы сделать не можем, т.к. влияние этих факторов признано не значимым.
Статистики уравнения
Последний блок результирующей таблицы содержит дополнительные статистики, касающиеся оценок уравнения. О таких популярных коэффициентах, как , скорректированный (“R^2adj.”) и информационные критерии AiC и BiC рекомендуется прочитать в литературе (любой учебник по эконометрике из базового списка подойдет). Последние строчки таблицы (AR(1) в ошибке, ARCH(1) в ошибке) специфичны для моделей временных рядов и в нашем случае информационной нагрузки не несут. Наибольший интерес для нас в этой части таблице представляют строки Нормальность, Гетероскедастичность, Функциональная форма. В этих строках приведены результаты расчетов критериев проверки, соовтетсвенно, нормальности остатков, гомоскедастичности остатков, линейной функциональной формы. Форма резульатта расчета по критериям — вполне стандартная: приведен тип статистики (Chi^2(1) — статистика типа Хи-квадрат с 1 степенью свободны), значение статистики (расчетное значение функции отклонения) и РДУЗ (в квадратных скобках после значения статистики).
Рассмотрим, например, результат проверки на нормальность остатков в модели. Основная гипотеза состоит в том, что остатки действительно являются реализацией нормально распределенной случайной величины, РДУЗ составил более 0.6, т.е. гипотезу отвергнуть не удается (стандартным уровнем допустимой вероятности ошибки первого рода в таком критерии можно смело считать 0.05, что существенно ниже достигнутой значимости). Таким образом, мы можем сделать вывод, что остатки можно признать нормально распределенными.
Аналогично мы делаем вывод о том, что определить гетероскедастичность в модели не удалось, однако форму модели нельзя считать линейной.
Заметим, однако, что вывод об отсутствии гетероскедастичности — предварительный; имеет смысл провести дополнительные тесты, в особенности, если есть обоснованные содержательные «подозрения», что гетероскедастичность остатков может иметь место.
Что касается линейной формы модели, то этот результат также предварительный. Чтобы выяснить, какие факторы нелинейно влияют на зависимую переменную, необходимо провести дополнительные тесты.
Также в этом блоке результатов нас интересуют строки Сумма квадратов остатков, в которой указано соответствующее число (это не что иное, как RSS, необходимый для построения ряда статистики в классических критериях проверки гипотез об оценках) и строка Максимум логарифмической функции правдоподобия (также показатель, необходимый для построения статистик в классических критериях, основанных на ММП). Заметьте, что для получения оценок использован МНК, т.е. функция правдоподобия рассчитана исходя из предположения о нормальности остатков.
Также в этом блоке результатов приведена -статистика и соответствующий ей РДУЗ (в квадратных скобках после значения статистики). Этот критерий проверяет одновременную значимость всех факторов в уравнении. В данном случае -статистика имеет (5, 114) степеней свободы (по количеству факторов и количеству наблюдений – количество факторов – 1). Нулевая гипотеза о совместной незначимости факторов в уравнении в данном случае отвергается, т.к. РДУЗ слишком мал (не отличим от 0 при округлении до 4 знаков после десятичной точки, это меньше любого разумного критического уровня значимости).
Некоторые другие возможности анализа оценок уравнения регрессии
Если в результирующей таблице оценок регрессионного уравнения МНК нажать кнопку , то мы попадем в основной диалог результатов оценки уравнения (до этого мы находились в его первом пункте — «Оценки и статистики»):
В целях более подробного изучения возможностей программы MATRIXER в ключе анализа результатов оценки регрессионного уравнения обратитесь к справке программы. Мы более подробно рассмотрим пункты Критерий удаления переменных и Эффекты второго порядка, при этом пункт об удалении переменных мы оставим «на потом».
Эффекты второго порядка — общее название дополнительных факторов, включаемых в модель и основанных на произведениях исходных факторов. Самый просто пример эффекта второго порядка является квадрат некоторого фактора или его третья степень (формально, однако, третья степень фактора — это эффект третьего порядка, т.е. перекрестный эффект второго порядка по отношению к самому фактору и его квадрату). Включение в модель эффектов второго порядка полезно при «подозрении» на нелинейность формы уравнения. Рассмотрим результат анализа эффектов второго порядка в данном примере:
В этом диалоге приводится список всех эффектов второго порядка в порядке возрастания РДУЗ критерия t-Стьюдента на значимость фактора, отвечающего за соответствующий эффект, при включении его в модель регрессии. Если в нашем примере при оценке значимости эффектов второго порядка мы допускаем вероятность ошибки первого рода 0.05, то значимыми эффектами второго порядка стоит признать квадрат расстояния до метро (Регрессоры 5 5, т.е. произведение 5-го регрессора на самого себя), произведение расстояния до метро (фактор 5) и количества конкурентов поблизости (фактор 3), квадрат количества конкурентов поблизости и произведение цены в конкурирующих магазинах неподалеку и факта принадлежности к большой торговой сети.
Эти результат развивают предварительный вывод о нелинейности формы модели — теперь мы видим, за счет нелинейного влияния каких факторов (фактор 3 и фактор 5) был сделан такой вывод. Именно эти факторы необходимо будет ввести в модель для устранения ошибки нелинейной формы.
Также важен эффект произведения цены конкурентов и факта принадлежности к сети: если по отдельности эти факторы признаны не значимыми, то мы видим, что они имеют «совместное влияние», т.е. в среднем цена в конкурирующих магазинах не существенно сказывается на изучаемой цене, однако ее влияние более существенно в магазинах крупных сетей.
Шаг 3. Внесение поправок в модель регрессии
Проделанной работы уже достаточно, чтобы внести некоторые поправки в модель, прежде чем продолжить ее углубленный анализ. Главное изменение в модели, которое необходимо произвести по итогам вышеприведённого анализа, — это изменение списка регрессоров. Исключим незначимые факторы из модели, добавим значимые эффекты второго порядка; новая команда будет иметь вид:
Pr : 1 Peop N_Comp N_Comp^2 Subw Subw^2 N_Comp*Subw Large Pr_Comp Pr_Comp*Large
Как видно, на самом деле мы ничего не исключили, а только добавили. Причина этого в том, что, добавляя эффект второго порядка Pr_Comp*Large, мы уже не можем исключить его отдельные компоненты (это приведет к смещению оценки эффекта второго порядка), даже если эти отдельные компоненты не значимы в отдельности. Исключить теперь их можно будет только вместе с этим эффектом, проверив их совместную значимость (для этого нам пригодится опция Ограничения или Удаление переменных).
Рассмотрим вновь полученные оценки и статистики:
Обратите внимание, что для корректного копирования результатов оценки, как текста, в файл формата MS Words или т.п. лучше использовать опцию меню программы MATRIXER Текст >> Копировать в буфер в формате RTF, и вставлять этот текст шрифтом Courier New размером 9-10.
Теперь только фактор Peop не «завязан» в каком либо эффекте второго порядка в уравнении, и только его значимость можно проверить критерием t-Стьюдента (остальные факторы можно проверять только в совокупности в рамках всего эффекта второго порядка). Данный фактор значим, его влияние осталось по сути прежним, немного изменилось числовое значение (48 против 50).
Остальные факторы участвуют в формировании эффектов второго порядка, всего 4 группы факторов, которые к тому же пересекаются. В каждой группе факторов есть как значимые, так и не значимые в отдельности компоненты, поэтому необходимо применить критерий проверки значимости части факторов в уравнении. Это можно сделать из пункта меню результатов Критерий удаления переменных. Например, нам необходимо проверить на значимость группу факторов, связанных с переменной N_comp (это факторы N_Comp, N_Comp^2, N_Comp*Subw) :
Отметив в открывшемся диалоге необходимые переменные мы сразу наблюдаем результат расчета по критерию (в форме F-критерия и W-критерия, результаты отличаются минимально). Нулевая гипотеза состоит в существенности ограничений (одновременное равенство нулю коэффициентов при выбранных переменных), большое значение (более 0.05, например) РДУЗ (в нашем случае более 0.34 по обеим формам критерия) говорит, что гипотезу отвергнуть не удается, т.е. данная группа факторов незначима и может быть исключена.
Аналогично проверяя остальные группы факторов, делаем вывод, что также надо исключить группу факторов, связанных с переменной Large, а группы факторов, связанных с переменной Subw и переменной Pr_Comp, исключать не стоит. Аналогичный результат можно было получить с помощью опции Ограничения / функции параметров (рекомендуется изучить самостоятельно, обратитесь к справке).
Заметьте, что, например, переменная N_Comp*Subw входит одновременно в две группы факторов, исключению из регрессии подвергается только одна из которых, таким образом, эта переменная в регрессии остается (аналогично, остается переменная Large*Pr_Comp).
Исключив из модели все, что решено исключить, регрессию необходимо переоценить и повторить процедуру. В частности, после исключения указанных переменных из регрессии, свою значимость в модели утратила и группа факторов, связанная с переменной Pr_Comp. Таким образом, в итоговой модели осталось всего 3 фактора (основанные на двух переменных) и свободный член:
Pr : 1 Peop Subw Subw^2
В этой модели значимы все факторы, остатки признаются нормальными и гомоскедастичными (это, однако, предстоит уточнить в дальнейшем), и форма уравнения признается верной.
Шаг 4: выбор «итоговой модели», анализ окончательного результата
Таким образом, шаги 2 — 3 построения модели могут повторяться циклически; далеко не всегда удается «обнаружить» удачную во всех отношениях спецификацию регрессионного уравнения сразу же, с первой итерации. Более того, часто удается обнаружить несколько альтернативных спецификацию (с различными наборами факторов и/или поправками), «подходящих» по всем критериям качества модели. Иногда, напротив, не удается найти ни одной и приходится в качестве окончательного результата делать выводы по одной не вполне качественных моделей с соответствующими поправками на качество выводов, важно в таком случае понимать, какие рекомендации к усовершенствованию модели и решению возникших проблем необходимо выдать. В обоих последних случаях необходимо сделать выбор в пользу одной из нескольких альтернативных спецификаций модели, для чего разработан ряд более-менее строгих методик и вполне строгих статистических критериев. Например, в случае с моделями временных ярдов, как описывается в лекциях, ключевым часто является прогнозный критерий (выбирается та модель, которая показала себя наилучшим образом в прогнозировании наиболее актуальных для исследователя тенденций, например, самых недавних).
Прогнозный критерий также часто является ключевым в выборе и моделей не временных рядов. Например, в нашей задаче моделирования цены на товар в магазинах, целесообразно было бы заблаговременно выделить во всей выборке наблюдений две подгруппы: обучающая (модельная) выборка (для оценки параметров моделей, проведения критериев качества и пр.) и обучающая (тестовая) выборка (для сравнения качества моделей). Обычно на тестовой выборке модели сравниваются по ошибке «прогноза», т.е. в нашем примере — по сумме квадратов остатков на тестовой выборке; лучшей считается модель, для которой ошибка на тестовой выборке меньше.
Подход прогнозного критерия наиболее разумен, если стоит задача прогнозирования «out-of-sample», т.е. оценки значений (или характеристик распределения) изучаемой зависимой переменной для объектов, не входящих в выборку.
Если же задачи прогнозирования «out-of-sample» не стоит изначально, то возможны и другие критерии сравнения качества моделей, не подразумевающие деления выборки на обучающую и прогнозную. Наиболее распространенным примером такого критерия являются информационные критерии. Несмотря на слово «критерии» в термине, в строгом смысле эти показатели не являются статистическими критериями, т.е. не подразумевают четкой формулировки принятия решения об отвержении или не отвержении некой статистической гипотезы. Информационные критерии используются для сравнения разных спецификаций моделей одних и тех же данных (зависимых переменных). Чем меньше значение статистики информационного критерия, тем «лучше» считается спецификация модели. Например, в нашей задаче и результатах оценивания, полученных в программе MATRIXER, приводятся значения двух информационных критериев: информационный критерий Акаике AiC и Байесовский информационный критерий BiC (см. блок дополнительных статистик уравнения). Как видно, по мере «получения» последнего уравнения регрессии, значение AiC менялось, в итоге оказавшись меньше, чем было в самом первом уравнении; это свидетельствует о том, что в итоге мы получили более качественное уравнение относительно самой первой попытки оценки.
Более подробно ознакомиться с видами и различиями информационных критериев рекомендуется в учебнике Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков А.А. Эконометрия. — Новосибирск: Издательство СО РАН, 2005. Глава 7.
Эндогенность факторов и инструментальные переменные
Проблема эндогенности является очень частой причиной получения неадекватных, ошибочных результатов оценивания взаимосвязей между экономическими величинами.
Например, в нашей задаче моделирования цены на товар в магазинах мы получили в итоговом уравнении регрессии отсутствие влияния на цену в данном магазине со стороны цены в ближайших конкурентов, что может показаться весьма странным выводом с точки зрения экономической теории (ведь вариация цен в выборке существенна, как и вариация цен конкурентов).
Очень вероятно, что это может являться проявлением проблемы эндогенности переменной «цена в конкурирующих магазинах». Суть проблемы эндогенности (см. соответствующую лекцию) — это корреляция переменной и ошибки в уравнении регрессии. В данном примере источниками такой проблемы может быть, например, тот факт, что причинно-следственная связь между зависимой переменной и той, которая подозревается на эндогенность, двунаправленна: если цена конкурентов влияет на цену в данном магазине, то и этот магазин является чьим-то конкурентом, а значит, и сама цена в нем влияет на цену его конкурентов; корреляция переменной «цена у конкурентов» и ошибки в уравнении неизбежна. Другой пример возможной эндогенности в нашей задаче — это ошибка измерения факторов; обратите внимание, что в описании многих переменных значится «экспертная оценка», что напрямую свидетельствует об ошибках измерения, характер которых установить вряд ли представляется возможным. Если эти ошибки связаны с зависимой переменной (скажем, при оценке величины, которая в среднем составляет, 100 неких единиц, мы ожидаем ошибку, измеряемую десятками, то можем ли мы рассчитывать на такой же разброс ошибки в оценке величины, которая сама измеряется миллионами?), то снова неизбежна корреляция фактора, измеренного с ошибкой, и ошибки в уравнении регрессии.
Подумайте, как может еще проявиться проблема эндогенности в нашей задаче (для каких факторов, каковы причины).
Оценки параметров уравнений регрессии с эндогенными факторами являются смещенными, и часто характер смещения сложно определить. Таким образом, получив незначимую оценку влияния переменной «цена конкурентов» мы не можем гарантировать, что этого влияния нет, если подозреваем эндогенность этой переменной. То же самое касается и полученных значимых результатов; в случае эндогенности фактора смещение оценки коэффициента при нём в уравнении регрессии может изменить даже знак коэффициента.
В нашем итоговом уравнении осталось всего 2 фактора — количество людей, проживающих рядом с магазином, и расстояние от магазина до метро. Хотя обе переменные носят статус «экспертных оценок», вряд ли разумно подозревать их эндогенность — даже если они измерены с ошибками, эти ошибки, скорее всего, не связаны с зависимой переменной; сами же переменные являются пространственными характеристиками расположения магазина и маловероятно, что на них может повлиять цены на товар в магазине. Однако, если мы хотим получить более надежную картину оценки влияния цен конкурентов (и, возможно, других факторов, которые были исключены), то необходимо учесть проблему эндогенности.
Решение проблемы эндогенности, как правило, сводится к поиску инструментальных переменных. Если есть переменные, которые для некоторого эндогенного фактора являются годными и сильными инструментами (см. соответствующую лекцию об инструментальных переменных), то они помогут устранить корреляцию данного фактора с ошибкой уравнения регрессии.
Зачастую поиск адекватных инструментов — задача, гораздо более сложная и трудоемкая, чем все остальное исследование. Например, в нашей задаче мы ограничены имеющимися данными и фактически не можем получить дополнительную информацию. Если бы мы находились в ситуации реального исследования, то необходимость решить проблему эндогенности, скорее всего, привела бы к необходимости дополнительных данных, а именно — поиска годных и сильных инструментов. В случае нашей переменной «цена конкурентов» годным и сильным инструментом будет переменная, которая связана с ценой конкурентов, но не связана с ошибкой в уравнении. К сожалению, любая переменная, связанная с политикой ценообразования и маркетингом (акции, скидки и т.п.) будет иметь ту же проблему, что и цена конкурентов — взаимовлияние «данного магазина» и «конкурентов». Остается искать только среди некоторых пространственных характеристик магазинов, которые влияют на цену конкурентов, но не связаны с ошибкой в оценке цены данного магазина. По примеру итогового построенного уравнения подошла бы оценка расстояния от конкурирующих магазинов до метро, а также количество проживающих рядом с конкурирующими магазинами людей; этих данных, конечно, мы не имеем, однако, обратим внимание, что конкуренты в переменной «цена конкурентов» рассматриваются только ближайшие, т.е. эти переменные вполне могут послужить и инструментами для них. Самостоятельно подумайте, какие еще данные могут подойти в качестве инструментов для этой и других переменных в нашей задаче?
Выбранные инструменты являются годными (что уже пояснялось выше), являются ли они сильными? Проверим это, построив вспомогательное уравнение регрессии с зависимой переменной Pr_Comp и факторами N_Comp, Peop и Subw. Подумайте, почему в уравнение целесообразно и допустимо включить переменную N_Comp? После необходимых преобразований (подумайте, каких?) результирующее вспомогательное уравнение регрессии для переменной «цена конкурентов» имеет следующие результаты оценивания:
Обратите внимание, что по t-критерию Стьюдента во вспомогательном уравнении только 2 фактора значимы при допустимой вероятности ошибки первого рода не более 0.1 (какие?); это говорит, что остальные факторы в этом уравнении по отдельности являются слабыми инструментами для переменной «цена конкурентов». Однако все факторы в уравнении значимы в совокупности (см. F-критерий), т.е. в совокупности этот набор переменных можно считать сильными инструментами. Построение такого уравнения — первый шаг классического метода инструментальных переменных.
Согласно классической процедуре метода инструментальных переменных (в виде 2-шагового МНК, см. соответствующую лекцию) следует в исходное уравнение регрессии вместо переменной Pr_Comp включить расчетные значения вспомогательного уравнения с инструментами. После построения любого регрессионного уравнения в программе MATRIXER, расчетные значения (а также некоторые другие данные уравнения, см. подробности в справке программы) хранятся во временных матрицах (отличительная черта временной матрицы — название начинается с символа “\”). Чтобы видеть временные матрицы, необходимо отметить соответствующий пункт меню настроек программы: Сервис >> Настройки >> Interface >> MatricesMenu >> ShowModelMatricies. Либо после каждой процедуры оценивания список временных матриц доступен в диалоге «Данные модели» (кнопка в основном окне программы), список «Матрицы». Необходимые нам расчетные значения хранятся в матрице \Fitted, сохраним ее (создадим копию) под другим именем (например, N_Comp_instrumented), чтобы иметь возможность использовать ее в других моделях.
Добавим новую переменную в наше итоговое уравнение регрессии исходной зависимой переменной:
Как видно, согласно такому уравнению существенно изменился вывод о влиянии фактора «Цена конкурентов» на зависимую переменную; теперь это влияние можно признать значимым (почему?) и сделать соответствующие выводы о направлении и «силе» влияния. Однако обратите внимание на то, как изменились значения информационных критериев по сравнению с предыдущим уравнением, какой можно сделать вывод? Решение о том, какое из уравнений признать окончательным результатов работы, остается за Вами — исследователем; очень вероятно, что в полученное после применения метода инструментальных переменных уравнение, также стоит внести некоторые коррективы, конечно, по результатам проведения соответствующих критериев качества (т.е. необходимо вернуться с этим уравнением к шагам 2 — 3), а затем сделать выбор.