Справочник от Автор24
Поделись лекцией за скидку на Автор24

Множественная регрессия и корреляция

  • 👀 656 просмотров
  • 📌 621 загрузка
Выбери формат для чтения
Статья: Множественная регрессия и корреляция
Найди решение своей задачи среди 1 000 000 ответов
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Множественная регрессия и корреляция» doc
Лекция 2. Множественная регрессия и корреляция При решении практических задач исследователи сталкиваются с тем, что корреляционные связи не ограничиваются связями меж­ду двумя признаками: результативным у и факторным х. В дейст­вительности результативный признак зависит от нескольких фак­торных. Например, инфляция тесно связана с динамикой потребительских цен, розничным товарооборотом, численностью безработных, объемами экспорта и импорта, курсом доллара, ко­личеством денег в обращении, объемом промышленного производ­ства и другими факторами. В условиях действия множества факторов показатели парной корреляции оказываются условными и неточными. Количественно оценить влияние различных факторов на результат, определить форму и тесноту связи между результативным признаком у и фак­торными признаками х1, х2, ..., xk можно методами множественной (многофакторной) корреляции. Многофакторный корреляционно-регрессионный анализ сво­дится к решению следующих задач: • обосновать взаимосвязи факторов, влияющих на исследуе­мый показатель; • определить степень влияния каждого фактора на результа­тивный признак путем построения модели-уравнения мно­жественной регрессии, которая позволяет установить, в ка­ком направлении и на какую величину изменится результативный показатель при изменении каждого факто­ра, входящего в модель; • количественно оценить тесноту связи между результативным признаком и факторами. Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям: 1) быть количественно измеримыми; 2) не должны быть коррелированны между собой и тем боле находиться в точной функциональной связи. Наличие между двумя факторами весьма тесной линейной связи (парный коэффициент корреляции rхх превышает по абсолютной величи­не 0,7) называется коллинеарностью, а между несколькими факто­рами — мультиколлинеарностью. Мультиколлинеарность – это нестрогая линейная зависимость между факторными признаками, которая приводит к следующим нежелательным последствиям: 1. Оценки параметров становятся ненадежными, они обнаруживают большие стандартные ошибки, малую значимость, в то же время модель является значимой, т.е. значение множественного коэффициента корреляции завышено; 2. Небольшое изменение исходных данных приводит к существенному изменению оценок параметров модели; 3. Оценки параметров модели имеют неправильные знаки или неоправданно большие значения, что делает модель непригодной для анализа и прогнозирования; 4. Становится невозможным определить изолированное влияние факторов на результативный показатель. В наибольшей степени ответственным за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (он имеет высокие по модулю значения коэффициентов парной линейной корреляции). Поэтому, если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. Пример. Проверим наличие мультиколлинеарности между факторами х1 (возраст, лет), х2 (стаж работы, лет), х3 (выработка шт./смену), которые могут оказывать влияние на результативный признак - заработная плата. Для этого построим корреляционную матрицу. Из матрицы видно, что между признаками имеется довольно сильная линейная зависимость, т.к. . Вследствие этого требуется устранить один из факторов. Таблица 1 y x1 x2 х3 y 1 x1 0,853056 1 x2 0,849877 0,935263 1 x3 0,778766 0,615448 0,69661 1 Из модели следует исключить фактор х2, т.к. он теснее связан с третьим фактором, чем фактор х1: . Определившись с набором факторов, исследователи переходят к построению многофакторной эконометрической модели. Математически задача сводится к нахождению аналитического выражения, наилучшим образом описывающего связь факторных признаков с результативным, т.е. к отысканию функции вида: у = f(x1, х2, ..., xk). Выбрать форму связи довольно сложно. Эта задача на практике основывается на априорном теоретическом анализе изучаемого явления и подборе известных типов математических моделей. Среди многофакторных регрессионных моделей выделяют ли­нейные (относительно независимых переменных) и нелинейные. Наиболее простыми для построения, анализа и экономической интерпретации являются многофакторные линейные модели, ко­торые содержат независимые переменные только в первой степени: , где a – свободный член, параметр, представляющий собой среднее значение y при x1=х2=…=хk=0. bj – коэффициент регрессии при j-ом факторе (j=1;k). Характеризует среднее изменение признака-результата у в связи с изменением соответствующего фактора хj на единицу, при условии, что прочие факторы модели не изменяются и фиксированы на средних уровнях; yi – значение признака-результата для i–го наблюдения; xi – значение j-го фактора для i–го наблюдения; - случайная составляющая результативного признака i–го наблюдения. Если связь между результативным признаком и анализируемы­ми факторами нелинейна, то выбранная для ее описания нелиней­ная многофакторная модель (степенная, показательная и т.д.): Степенная - ;. Экспонента – ; Гипербола – ; мо­жет быть сведена к линейной путем линеаризации. Параметры уравнения множественной регрессии, как и парной, рассчитываются методом наименьших квадратов, при этом реша­ется система нормальных уравнений с k +1 неизвестными: где хij — значение j-го факторного признака в i-м наблюдении; уi — значение результативного признака в i-м наблюдении. Как правило, прежде чем найти параметры уравнения множест­венной регрессии, определяют и анализируют парные коэффици­енты корреляции: . При этом систему нормальных уравнений мож­но видоизменить таким образом, чтобы при вычислении параметров регрессии использовать уже найденные парные коэф­фициенты корреляции. Для этого в уравнении регрессии заменяют переменные у, х1, х2, ..., xk переменными ti, полученными следую­щим образом: Эта процедура называется стандартизацией переменных. В резуль­тате осуществляется переход от натурального масштаба переменных хij к центрированным и нормированным отклонениям tij. В стандартизированном масштабе среднее значение признака равно 0, а среднее квадратическое отклонение равно 1, т.е. . При переходе к стандартизированному масштабу переменных уравнение множественной регрессии принимает вид: , где (j = 1, k ) — стандартизированные коэффициенты регрессии. -коэффициент характери­зует изменение исследуемого показателя в зависимости от изме­нения одного фактора при постоянном уровне остальных. Иначе, -коэффициент показывает, на какую часть сигмы () изменилось бы значение результата, если бы соответствующий j-фактор изменился на сигму (), а прочие факторы не измени­лись бы. Кроме того, -коэффициенты позволяют оценить степень воз­действия факторных признаков на результат. В силу того что все -коэффициенты выражены в одинаковых единицах измерения, при 2 > 3 фактор х2 сильнее влияет на результативный признак, чем фактор х3. К уравнению множественной регрессии в стандартизованном масштабе применяется МНК. -коэффициенты определяются из следующей системы уравнений: Связь коэффициентов множественной регрессии bi со стандартизованными коэффициентами описывается соотношением . Параметр а определяется как . В двухфакторном регрессионном анализе найти уравнение регрессии в стандартизированном масштабе можно через формулы: , . На основе линейного уравнения множественной регрессии: могут быть найдены частные уравнения регрессии: В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном среднем уровне. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности: где bj – коэффициент регрессии при j-ом факторе; ‒ частное уравнение регрессии. Для того чтобы оценить сравнительную силу влияния факторов, по каждому фактору рассчитывают средние коэффициенты элас­тичности: , где — среднее значение j-го факторного признака; — среднее значение результативного признака; — коэффициент регрессии при j-м факторном признаке. Расчет коэффициента эластичности дополняет экономический анализ. Данный коэффициент показывает, на сколько процентов следует ожидать изменения результативного показателя при изме­нении фактора на 1% и неизменном значении других факторов. Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации. Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, или оценивает тесноту совместного влияния на результат. Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции: где — общая дисперсия результативного признака; — остаточная дисперсия, характеризующая отклонения фактических уровней результативного признака yi от рассчитанных по уравне­нию множественной регрессии . При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением: Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции или совокупного коэффициента корреляции. При линейной форме связи расчет совокупного коэффици­ента корреляции можно также выполнить, используя парные коэффи­циенты корреляции: где b1, b2, ..., bk — параметры уравнения множественной регрессии в натуральном масштабе. Наряду с измерением совместного влияния отобранных факто­ров на результативный признак важно определить воздействие каж­дого фактора при элиминировании его взаимосвязи с остальными (что возможно, когда последние зафиксированы на постоянном уровне). Для решения данной задачи при линейной связи применяют частные коэффициенты корреляции, а для нелинейной - частные индексы детерминации. В общем виде при наличии k факторов для уравнения: коэффициент частной корреляции, измеряющий влияние на у фактора хk при неизменном уровне других факторов, можно определить по формуле: , где - множественный коэффициент детерминации всего комплекса факторов с результатом; - тот же показатель детерминации, но без введения в модель фактора хk. Пример. Рассмотрим методику корреляционно-регрессионного анализа на примере статистической обработки данных по предприятиям электросвязи Таблица 2.2 Основные производственные показатели предприятий электросвязи Номер предприятия Чистая прибыль, тыс. руб. Численность обслуживае­мого населения, млн. чел Рентабель­ность, % у х1 х2 1 197 4,9 20 2 254 5,1 22 3 112 6,5 10 4 145 3,7 21 5 176 4,0 25 6 76 2,5 19 В качестве результативного признака возьмем чистую прибыль у. Основные факторы, влияющие на ее формирование: численность населения, обслуживаемого предприятием электросвязи х1, и рен­табельность х2 Линейная форма зависимости между признаками постулируется, и, следовательно, задача сводится к отысканию па­раметров уравнения: . При линейной форме связи множественный корреляционно-регрессионный анализ проводится на основе информации о сред­них значениях признаков , их средних квадратических отклонениях и парных коэффициентах корреляции . Построим уравнение двухфакторной регрессии в стандартизи­рованном масштабе и рассчитаем показатели тесноты связи (табл. 2.2). Таблица 2.2 Расчетная таблица для определения параметров уравнения регрессии у х1 х2 (х1)2 (х2)2 х1 х2 у х1 у х2 у2 197 4,9 20 24,0 400 98 965 3940 38809 254 5,1 22 26,0 484 112 1295 5588 64516 112 6,5 10 42,3 100 65 728 1120 12544 145 3,7 21 13,7 441 78 537 3045 21025 176 4,0 25 16,0 625 100 704 4400 30976 76 2,5 19 6,3 361 48 190 1444 5776 = = 960 = 26,7 = 117 = 128,3 = 2411 = = 501 = 4419 = 19537 = =173646 Используя итоги расчетной таблицы (см. табл. 2.2) и извест­ные формулы для расчета средних, дисперсий и парных коэффи­циентов корреляции: , . вычислим показатели, необходимые для отыскания -коэффициентов: = 160 тыс. руб., у = 57,8 тыс. руб.; = 4,45 млн. чел., = 1,2513 млн. чел.; = 19,5%, = 4,6458%; 0,3392, 0,5071, - 0,5806. Система нормальных уравнений в стандартизированном виде может быть записана так: Решая эту систему, находим: = 0,9558, 2 = 1,062. Таким образом, можно записать уравнение регрессии в стандар­тизированном виде: ty = 0,9558t1 + 1,062t2. Коэффициенты при tj показывают, что большее воздействие на чистую прибыль предприятия электросвязи оказывает рентабель­ность (2 > ). С ее ростом на сигму при постоянной численности об­служиваемого населения чистая прибыль увеличивается на 1,062 своего среднего квадратического отклонения. Переход от стандартизированного уравнения регрессии к урав­нению регрессии в натуральном масштабе осуществляется по фор­мулам: . Найдем параметры искомого уравнения: ; ; . Уравнение зависимости чистой прибыли предприятий электро­связи от численности обслуживаемого населения и рентабельности имеет вид: Оно показывает, что с ростом численности обслуживаемого населения на 1 млн. чел., при исключении влияния второго фактора (рентабельности), чистая прибыль возрастает на 44,15 тыс. руб., а при неизменной численности населения с ростом рентабельности на 1% чистая прибыль повысится на 13,21 тыс. руб. Коэффициент множественной детерминации для нашего при­мера окажется равным: =0,8627. Отсюда коэффициент множественной корреляции . Полученные значения коэффициентов множественной корре­ляции и детерминации, близкие к 1, свидетельствуют о том, что при построении двухфакторной модели учтены важные факторы увели­чения чистой прибыли. При дополнительном включении факторов в анализ (для данного числа предприятий) может увеличиться сово­купный коэффициент детерминации и, соответственно, уменьшить­ся остаточная дисперсия, доля которой в нашем примере мала: 0,8627 = 0,1373. Следовательно, на долю неучтенных факторов приходится не более 13,73% дисперсии результативного признака. Эластичность по каждому фактору и по их совокуп­ности составит: =2,84. Эластичность по каждому фактору и в целом по совокупности больше 1, значит, чистая прибыль увеличивается в большей степе­ни, чем факторы. С увеличением каждого фактора на 1% следует ожидать увеличения чистой прибыли на 2,84%. Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии оценивается с помощью F-критерия: , где ‒ факторная сумма квадратов на одну степень свободы; ‒ остаточная сумма квадратов на одну степень свободы; R2 ‒ коэффициент (индекс) множественной детерминации; n – число наблюдений; m – число параметров при переменных х (в линейной регрессии совпадает с числом включенных в модель факторов). Величина Fтабл находится по таблицам при заданном уровне значимости и числе степеней свободы Если Fрасч › Fтабл, уравнение признается статистически значимым. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности включения в модель фактора. Мерой для оценки включения фактора в модель служит частный F-критерий: , где ‒ коэффициент множественной детерминации для модели с полным набором факторов; ‒ тот же показатель, но без включения в модель фактора хk. В случае превышения значения частного F-критерия значения табличного делается вывод о целесообразности включения фактора в модель. Для оценки значимости каждого коэффициента регрессии не­обходимо рассчитать значение t-критерия Стьюдента (отношение коэффициента регрессии к его средней ошибке): . Коэффициент регрессии считается статистически значимым, если превышает — табличное (теоретическое) значение t-критерия Стьюдента для заданного уровня значимости и п – m – 1 степени свободы. Бывает необходимо включить в модель качественный (атрибутивный) фактор (факторы). Примером качественных признаков может служить пол, образование, климатические условия. Чтобы ввести такие признаки в модель, они должны быть преобразованы в количественные, т.е. им должны быть присвоены цифровые метки. Сконструированные на основе качественных факторов числовые переменные называют фиктивными переменными. Так для построения уравнения регрессии, в котором результативным показателем является заработная плата рабочего за месяц, а объясняющими факторами: возраст рабочего и пол; необходимо ввести в модель: фиктивную переменную z, которая принимает 2 значения: 1 – если пол рабочего мужской; 0 – если пол женский. Построим модель: . Для оценки параметров модели используем МНК с системой нормальных линейных уравнений: В рассмотренном примере качественный признак принимает только 2 значения. Если же градаций качественного признака больше 2, в модель вводится несколько фиктивных переменных. При введении в модель фиктивной переменной действует принцип: число фиктивных переменных должно быть на 1 меньше числа градаций качественного фактора. Например, при наличии качественного фактора «образование», принимающего значения: до 8 классов, среднее, специальное, необходимо использовать две фиктивные переменные (табл. 2.). Таблица 2 Образование z1 z2 До 8 классов Среднее 1 Специальное 1 При оценке параметров уравнения регрессии применяется метод наименьших квадратов. При этом делаются определенные предпосылки относительно случайной величины . В модели: случайная составляющая представляет собой ненаблюдаемую величину. После того как проведена оценка параметров модели, рассчитав разности фактических и теоретических значений результативного признака можно определить оценки случайно составляющей . При изменении спецификации модели, добавления в нее новых наблюдений выборочные оценки остатков могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений. Исследование остатков предполагает проверку наличия следующих пяти предпосылок МНК: - случайный характер остатков; - нулевая средняя величина остатков, не зависящая от хi; - гомоскедастичность – дисперсия каждого отклонения одинакова для всех значений х; - отсутствие автокорреляции остатков; - остатки подчиняются нормальному распределению. Первые две предпосылки проверяются графически. Третья предпосылка при малом объеме выборки может проверена с помощью метода Гольфельда-Квандта. Параметрический тест включает следующие шаги: 1. Все n наблюдений в выборке упорядочиваются по возрастанию переменной х. 2. Исключаются из рассмотрения С центральных наблюдений; при этом (n-C)/2>p, p – число оцениваемых параметров. 3. Разделение совокупности из (n-C) наблюдений на две группы и определение по каждой из групп уравнений регрессии. 4. Определяется остаточная сумма квадратов для первой S1 и второй групп S2 и находится соотношение F= S1/ S2. Если верна гипотеза Н0 об отсутствии гетероскедастичности, то F имеет распределение Фишера с (n-C-2p)/2 степенями свободы, где p – число объясняющих переменных. По таблице определяются критическое значение критерия Fкр. Если F›Fкр, то нулевая гипотеза об отсутствии гетероскедастичности отклоняется. Последствия гетероскедастичности: - оценки параметров уравнения регрессии становятся неэффективными; - оценки стандартных ошибок параметров регрессии будут неверными. (Например, оценки стандартных ошибок могут оказаться заниженными. Тогда значения t-критерия – завышенными. Мы решим, что параметр регрессии значим, а на самом деле это будет не так и сделаем неправильные выводы о значимости уравнения регрессии.) Таким образом, нами рассмотрена технология построения многофакторной эконометрической модели, показатели, характеризующие ее адекватность и возможность использования для прогнозирования. Рассмотрена также возможность включения в модель качественного фактора путем ввода фиктивной переменной, так как в экономических и социальных процессах не все факторы носят количественный характер.
«Множественная регрессия и корреляция» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач

Тебе могут подойти лекции

Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot