Справочник от Автор24
Поделись лекцией за скидку на Автор24

Отбор факторов и выбор формы уравнения множественной регрессии

  • 👀 2023 просмотра
  • 📌 1983 загрузки
Выбери формат для чтения
Статья: Отбор факторов и выбор формы уравнения множественной регрессии
Найди решение своей задачи среди 1 000 000 ответов
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Отбор факторов и выбор формы уравнения множественной регрессии» pdf
Раздел 2. Множественная регрессия 2.1. Отбор факторов и выбор формы уравнения множественной регрессии 2.1.1. Требования к отбору факторов Несмотря на то, что парная линейная регрессия легко интерпретируется, в действительности она встречается очень редко, поэтому более широкое применение получила множественная регрессия. Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Но поведение отдельных экономических переменных контролировать нельзя, т.е. равенство всех прочих условий для оценки влияния одного исследуемого фактора обеспечить не удается. В этом случае следует попытаться выявить влияние других факторов, введя их в модель. Естественным продолжением парной линейной регрессии является множественная линейная регрессионная модель с р переменными: y = a +b1x1 + b2x2 + … + bpxp + ε Каждый фактор xi представляет собой набор из п наблюдений по одному и тому же признаку. Коэффициенты bi - это частные производные у по факторам xi: 𝑏1 = 𝑑𝑦 𝑑𝑦 𝑑𝑦 , 𝑏2 = , … , 𝑏𝑝 = 𝑑𝑥1 𝑑𝑥2 𝑑𝑥𝑝 при условии, что все остальные факторы постоянны. Главная цель множественного регрессионного анализа заключается в построении модели с большим числом факторов и определении при этом влияния каждого из них в отдельности, а также их совокупности на моделируемый показатель. Модель линейной множественной регрессии, для которой выполняются условия Гаусса - Маркова, называется нормальной линейной множественной регрессией. Приступая к построению множественной регрессии, исследователь в самом начале сталкивается с проблемами отбора факторов, которые будут учитываться в регрессионном уравнении, и выбором его вида. При отборе факторов существуют определенные правила, выполнение которых необходимо, иначе оценки параметров уравнения и оно само будут недостоверными и не отразят истинную связь результативного признака с факторными. Факторы должны отвечать следующим требованиям: 1. Факторы должны быть количественно измеряемы. Если модель необходимо включить качественный фактор, не имеющий количественной меры, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место ее нахождения: районы могут быть проранжированы), наличию или отсутствию какого-либо признака также должно придаваться числовое значение (например, мужчина - 0, женщина - 1). 2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между каждым включаемым в модель фактором и результатом должен отличаться от нуля, причем на достаточно большую величину, что требуется для подтверждения наличия связи). 3. Факторы не должны быть тесно связаны между собой и тем более находиться в строгой функциональной связи (не должны коррелировать друг с другом). Если между факторами существует высокая корреляция, то нельзя определить непосредственно влияние каждого из них на результативный показатель, и параметры уравнения регрессии оказываются неинтерпретируемыми. Отбор факторов для включения в модель обычно осуществляется в два этапа: на первом подбираются факторы в зависимости от экономической сущности проблемы (т.е. набор факторов определяется непосредственно самим исследователем), а на втором на основе матрицы парных коэффициентов корреляции устанавливается теснота связи для параметров регрессии. Считается, что две переменные явно коллинеарны, т.е. линейно зависимы друг от друга, если rxixj≥0,7. Если факторы явно коллинеарны, то они дублируют друг друга, и один из них рекомендуется исключать из регрессии. Особенность исключения фактора состоит в том, что предпочтение отдается не более тесно связанному с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами, включаемыми в модель. В требовании проявляется специфика множественной регрессии как метода исследования совокупного воздействия факторов в условиях их независимости друг от друга. Однако матрица парных коэффициентов корреляции позволяет проследить лишь явную связь между факторами (попарно). Намного сложнее установить так называемую мультuколлuнеарность факторов, когда более чем два из них связаны между собой нестрогой линейной зависимостью. В связи с этим наибольшие трудности встречаются, когда необходимо выявить совокупное воздействие нескольких факторов друг на друга. Если при исследовании модели приходится сталкиваться с мультиколлинеарностью, то это означает, что некоторые из включаемых в модель факторов всегда будут действовать вместе. На практике о наличии мультиколлинеарности судят по определителю матрицы парной межфакторной корреляции. Предположим, что модель имеет следующий вид: y = a +b1x1 + b2x2 + b3x3 + ε. Построим для нее матрицу парной межфакторной корреляции и найдем ее определитель: rх1х1 rх1х2 rх1х3 Det ІRІ = rх2х1 rх2х2 rх2х3 rх3х1 rх3х2 rх3х3 Если факторы вообще не коррелируют между собой, то определитель данной матрицы равняется единице, так как в этом случае: rх1х1 = rх2х2 = rх3х3 = 1; rхiхj = rхjхi ; rх1х2 = rх1х3 = rх2х3 = 0, и матрица единична, поскольку все недиагональные элементы равны нулю: 1 0 0 Det ІRІ = 0 1 0 = 1. 0 0 1 Если же наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю: 1 1 1 Det ІRІ = 1 1 1 = 0. 1 1 1 Можно сделать вывод, что чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов. При наличии явной мультиколлинеарности в модель следует включать не все факторы, а только те, которые в меньшей степени влияют на мультиколлинеарность (при условии, что качество модели снижается при этом незначительно). В наибольшей степени «ответственным» за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (имеет более высокие по модулю значения коэффициентов парной линейной корреляции). При отборе факторов также рекомендуется соблюдать следующее правило: число включаемых в модель факторов должно быть в шесть-семь раз меньше объема совокупности, по которой строится регрессия. 2.1.2. Фиктивные переменные До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые значения, т.е. качественные переменные должны быть преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. Преобразование качественных переменных в количественные соответствует первому требованию по отбору факторов для множественной регрессии. Предположим, что определено уравнение для потребления кофе: 𝑦 = 𝑎 + 𝑏𝑧 + 𝑐𝑥 + 𝜀, где 𝑦 - количество потребляемого кофе; 𝑥 – цена; фиктивная переменная 𝑧={ 1, для мужчин; 0, для женщин. Теоретические значения размера потребления кофе для мужчин будут получены из уравнения 𝑦𝑥 = 𝑎 + 𝑏 + 𝑐𝑥. Для женщин соответствующие значения получим из уравнения 𝑦𝑥 = 𝑎 + 𝑐𝑥. Сопоставив эти результаты, видим, что различия в уровне потребления мужчин и женщин состоят в различии свободных членов данных уравнений: a – для женщин и a+b – для мужчин. В рассмотренном примере качественный фактор имел только два альтернативных значения (мужчина и женщина), которым и соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Общее правило звучит так: если качественная переменная имеет k альтернативных значений, то при моделировании используются (k-1) фиктивных переменных. Коэффициенты при фиктивных переменных называются дифференциальными коэффициентами свободного члена. Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой бинарный признак играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной y рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 – во всех остальных случаях. Модель такой зависимой переменной имеет вид: 𝑦 = 𝑎 + 𝑏1 𝑥1 + ⋯ + 𝑏𝑝 𝑥𝑝 + 𝑐1 𝑧1 + ⋯ + 𝑐𝑘 𝑧𝑘 + 𝜀 0, ложь, 𝑦={ 1, истина. Такая модель называется вероятностной линейной моделью. 2.1.3. Ошибки спецификации Одним из базовых предположений построения качественной модели является правильная спецификация уравнения регрессии. Правильная спецификация уравнения регрессии означает, что оно в целом верно отражает соотношение между экономическими показателями, участвующими в модели. Это является необходимой предпосылкой дальнейшего качественного оценивания. Неправильный выбор функциональной формы или набора объясняющих переменных называется ошибками спецификации. Рассмотрим основные типы ошибок спецификации. 1. Отбрасывание значимой переменной. Например, y = a + b1·x1 + ε вместо y = a + b1·x1 + b2·x2 + ε . Исследователь по каким-то причинам (недостаток информации, поверхностное знание о предмете исследования и т.п.) считает, что на переменную y реально воздействует лишь переменная x1. При этом он не рассматривает в качестве объясняющей переменную x2, совершая ошибку отбрасывания существенной переменной. Последствия данной ошибки достаточно серьезны. Оценки, полученные с помощью МНК по такому уравнению являются смещенными и несостоятельными даже при бесконечно большом числе испытаний. Следовательно, возможные интервальные оценки и результаты проверки соответствующих гипотез будут ненадежны. 2. Добавление незначимой переменной. В некоторых случаях в уравнение регрессии включают слишком много объясняющих переменных, причем не всегда обоснованно. Например, y = a + b1·x1 + b2·x2 + ε вместо y = a + b1·x1 + ε . Исследователь подменяет простую модель более сложной, добавляя при этом не оказывающую реального воздействия на у объясняющую переменную x2. В этом случае совершается ошибка добавления несущественной переменной. Последствия данной ошибки будут не столь серьезными, как в предыдущем случае. Оценки параметров регрессии остаются для такой модели, как правило, несмещенными и состоятельными. Однако их точность уменьшится, увеличиваю при этом стандартные ошибки, т.е. оценки становятся неэффективными, что отразится на их устойчивости. 3. Выбор неправильной функциональной формы. Например, ln y = a + b1·x1 + b2·x2 + ε или y = a + b1·ln x1 + b2·ln x2 + ε вместо y= a + b1·x1 + b2·x2 + ε Любое эмпирическое уравнение регрессии с теми же переменными, но имеющее другой функциональный вид, приводит к искажению истинной зависимости. Последствия данной ошибки будут весьма серьезными. Обычно такая ошибка приводит либо к получению смещенных оценок, либо к ухудшению статистических свойств оценок коэффициентов регрессии и других показателей качества уравнения.
«Отбор факторов и выбор формы уравнения множественной регрессии» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач

Тебе могут подойти лекции

Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot