Множественная регрессия и корреляция

👀 998 просмотров
📌 952 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Множественная регрессия и корреляция», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Множественная регрессия и корреляция», Word формат

ГЛАВА МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ 3.1. СПЕЦИФИКАЦИЯ МОДЕЛИ Парная регрессия может дать хороший результат при модели ровании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Например, при постро ении модели потребления того или иного товара от дохода иссле дователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения. Для того чтобы иметь правильное представление о влиянии дохода на по требление, необходимо изучить их корреляцию при неизменном уровне других факторов. Прямой путь решения такой задачи со стоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планирова нию эксперимента — методу, который используется в химиче ских, физических, биологических исследованиях. Экономист в отличие от экспериментатора-естественника лишен возможнос ти регулировать другие факторы. Поведение отдельных экономи ческих переменных контролировать нельзя, т. е. не удается обес печить равенство всех прочих условий для оценки влияния одно го исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. пост роить уравнение множественной регрессии у = а + 6, •Xj + b21х2 + ... + Ь. •х. + е. I Такого рода уравнение может использоваться при изучении потребления. Тогда коэффициенты Ь, — частные производные потребления у по соответствующим факторам х{. 90 в предположении, что все остальные х} постоянны. В 30-е гг. XX в. Дж.М. Кейнс сформулировал свою гипотезу потребительской функции. С того времени исследователи неоднократно обращались к проблеме ее совершенствования. Совре менная потребительская функция чаще всего рассматривается как модель вида где С у Р М Z — потребление; - доход; — цена, индекс стоимости жизни; — наличные деньги; - ликвидные активы. г При этом о < — <1. dy Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции из держек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время Множе ственная регрессия —один из наиболее распространенных мето дов в эконометрике. Основная цепь множественной регрессии построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель. Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Суть проблемы спе цификации рассматривалась применительно к парной зависимо сти в п. 2.1. Она включает в себя два круга вопросов: отбор фак торов и выбор вида уравнения регрессии. Их решение при пост роении модели множественной регрессии имеет некоторую спе цифику, которая рассматривается ниже. 3.2. ОТБОР ФАКТОРОВ ПРИ ПОСТРОЕНИИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требова ниям. 1. Они должны быть количественно измеримы. Если необхо димо включить в модель качественный фактор, не имеющий ко личественного измерения, то ему нужно придать количествен ную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов не движимости учитывается место нахождения недвижимости: рай оны могут быть проранжированы). 2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи. Включение в модель факторов с высокой интеркорреляцией, когда Ryx. < RX]X2для зависимости у = а + Ьх-ху + Ь2- х2 + г может привести к нежелательным последствиям —система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми. Так, в уравнении у = а + Ьх ■х 1 + Ь2 ■х2 + е предполагается, что факторы х, и х2 независимы друг от друга, т. е. гх „ = 0. Тогда можно говорить, что параметр Ь{ измеряет си лу влияния фактора х, на результат у при неизменном значении фактора х2. Если же гх „ = 1, то с изменением фактора х, фактор х2 не может оставаться неизменным. Отсюда Ьх и Ь2нельзя интер претировать как показатели раздельного влияния x t и х2 и на у. Пример. Рассмотрим регрессию себестоимости единицы про дукции (руб., у) от заработной платы работника (руб., х) и произ водительности его труда (единиц в час, z): у = 22 600 —5 •х —10 • z + е. Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед. себестоимость едини цы продукции снижается в среднем на 10 руб. при постоянном 92 уровне оплаты труда. Вместе с тем параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффи циента регрессии при переменной х в данном случае обусловлено высокой корреляцией между х и г. (гп = 0,95). Поэтому роста за работной платы при неизменности производительности труда (если не брать во внимание проблемы инфляции) быть не может. Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором р факторов, то для нее рассчитывается показа тель детерминации J r, который фиксирует долю объясненной ва риации результативного признака за счет рассматриваемых в ре грессии р факторов. Влияние других не учтенных в модели фак торов оценивается как 1 —Rr с соответствующей остаточной дис персией S2. При дополнительном включении в регрессию р + 1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться: Л2, - н а * 2, и 6 % ^ . Если же этого не происходит и данные показатели практиче ски мало отличаются друг от друга, то включаемый в анализ фак тор хр+, не улучшает модель и практически является лишним фактором. Так, если для регрессии, включающей пять факторов, коэффициент детерминации составил 0,857 и включение шесто го фактора дало коэффициент детерминации 0,858, то вряд ли це лесообразно дополнительно включать в модель этот фактор. Насыщение модели лишними факторами не только не снижа ет величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по /-критерию Стьюдента. Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качест венного теоретико-экономического анализа. Однако теоретичес кий анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и це лесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подби раются факторы исходя из сущности проблемы; на второй 93 на основе матрицы показателей корреляции определяют /-стати стики для параметров регрессии. Коэффициенты интеркорреляции (т. е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно коллинеарны, т. е. находятся между собой в линейной зависимости, если rXjX. > 0,7. Поскольку одним из условий построения уравнения множе ственной регрессии является независимость действия факторов, т. е. RXjX. = 0, коллинеарность факторов нарушает это условие. Ес ли факторы-явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочте ние при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множест венной регрессии как метода исследования комплексного воз действия факторов в условиях их независимости друг от друга. Пусть, например, при изучении зависимости у =Дх, z, v) мат рица парных коэффициентов корреляции оказалась следующей: У X Z У 1 X 0,8 1 Z 0,7 0,8 1 V 0,6 0,5 0,2 V * 1 Очевидно, что факторы х и z дублируют друг друга. В анализ целесообразно включить фактор z, а не х, так как корреляция z с результатом у слабее, чем корреляция фактора х с у (гуг< г^), но зато слабее межфакторная корреляция < г^. Поэтому в данном случае в уравнение множественной регресии включаются факто ры z, v. По величине парных коэффициентов корреляции обнаружи вается лишь явная коллинеарность факторов. Наибольшие труд ности в использовании аппарата множественной регрессии воз никают при наличии муяьтиколлинеарности факторов, когда бо 94 лее чем два фактора связаны между собой линейной зависимос тью, т. е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарносги факторов может озна чать, что некоторые факторы будут всегда действовать в унисон, В результате вариация в исходных данных перестает быть полно стью независимой, и нельзя оценить воздействие каждого факто ра в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК). Если рассматривается регрессия y ^ a + b 'x + y z + d - v + e, то для расчета параметров, применяя МНК, предполагается ра венство ~ *5факт + ‘S'e» где 2 S у - общая сумма квадратов отклонений 2-(У/ — У) ; ‘Зфакг ~ факторная (объясненная) сумма квадратов отклонений £ (й - у )2-, Sz — остаточная сумма квадратов отклонений £(у,- — . В свою очередь, при независимости факторов друг от друга о равенство Г •Уфакт = S x + S z + S v> где Sx, St, Sv —суммы квадратов отклонений, обусловленные влиянием соответствующих факторов. Если же факторы интеркоррелированы, то данное равенство нарушается.. Включение в модель мулыпиколлинеарных факторов нежела тельно в силу следующих последствий: • затрудняется интерпретация параметров множественной ре грессии как характеристик действия факторов в «чистом» ви де, ибо факторы коррелированы; параметры линейной рег рессии теряют экономический смысл; • оценки параметров ненадежны, обнаруживают большие стан дартные ошибки и меняются с изменением объема наблюде ний (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования. х 95 Для оценки мультиколлинеарности факторов может исполь зоваться определитель матрицы парных коэффициентов корреля ции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы rxpc.(Xj * Xj) были бы равны нулю. Так, для включающего три объ ясняющих переменных уравнения у = а + />! •X] + Ь2 ■х2 + Ь3 •х3 + е матрица коэффициентов корреляции между факторами имела бы определитель, равный единице. г Г а Det R г а д д а д г ' а г г ' а д ' а г г а д — д а 1 д г а 1 д = 1, 1 д так как г. ГХ2Х2 ^*3*3 ’ ^ ^1*2 ^Х1Х3 Г*2ХЪ Если же, наоборот, между факторами существует полная ли нейная зависимость и все коэффициенты корреляции равны еди нице, то определитель такой матрицы равен нулю: 1 1 1 Det Д| = 1 1 1 = 0 1 1 1 Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной кор реляции, тем меньше мультиколлинеарность факторов. Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных Н0 : Det |Я| = I. Доказано, что величина п —1—-(2 m+5)\gDetR 6 Х 2Д л ( л - 1) имеет приближенное распределение степенями свободы. Если фактическое значение X превосходит табличное (критическое) Х фаи- > НСтабл(#,а)>то ги потеза Н0 отклоняется. Это означает, что Det |Л| * 1, недиагональ ные ненулевые коэффициенты корреляции указывают на колли неарность факторов. Мультиколлинеарность считается дока занной. Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассмат ривается каждый из факторов. Чем ближе значение коэффициен та множественной детерминации к единице, тем сильнее прояв ляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов JCJ ... Хр< ^ X2l*l х3 —хр ^ Т' можно выделить переменные, ответственные за мультиксшлинеарность, следовательно, можно решать проблему отбора факто ров, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации. Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколли неарности состоит в исключении из модели одного или несколь ких факторов. Другой подход связан с преобразованием факто ров, при котором уменьшается корреляция между ними. Напри мер, при построении модели на основе рядов динамики перехо дят от первоначальных данных к первым разностям уровней А/ = у, —у,_ь чтобы исключить влияние тенденции, или исполь зуются такие методы, которые сводят к нулю межфакторную кор реляцию, т. е. переходят от исходных переменных к их линейным комбинациям, не коррелированных друг с другом (метод главных компонент). Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если у хъ *з)>то возможно пост роение следующего совмещенного уравнения: у = а + Ьх ■ЛГ| + Ь2 • х 2 + Ь3 • х3 + />)2 •х, ■х2 + х X X t • X j + />23 • Х2 • X j + Е. Рассматриваемое уравнение включает взаимодействие перво го порядка (взаимодействие двух факторов). Возможно включе ние в модель и взаимодействий более высокого порядка, если бу7*1525 97 дет доказана их статистическая значимость по /'-критерию Фи шера, например, Ьт • х х ■х2 -х3 —взаимодействие второго поряд ка и т. д. Как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми, совмещен ные уравнения регрессии ограничиваются взаимодействиями первого и второго порядков. Но и эти взаимодействия могут ока заться несущественными, поэтому нецелесообразно полное включение в модель взаимодействий всех факторов и всех поряд ков. Так, если анализ совмещенного уравнения показал значи мость только взаимодействия факторов х, и х3, то уравнение бу дет иметь вид: у = а + />| • + Ь2 ■х2 + Ь3 - Xj + Ьи • Х| • х3 + е. Взаимодействие факторов х, и х3 означает, что на разных уровнях фактора х3 влияние фактора х, на у будет неодинаково, т. е. оно зависит от значений фактора х3. На рис. 3.1 взаимодейст вие факторов представляется непараллельными линиями связи с результатом у. И, наоборот, параллельные линии влияния факто ра X! на у при разных уровнях фактора х3означают отсутствие вза имодействия факторов Xj и х3. Рис. 3.1. Графическая иллюстрация взаимодействия факторов: а - х | влияет на у, причем это влияние одинаково как при хъ=В1, так и при ху*В2 (одинаковый наклон линий регрессии), что означает отсутствие взаи модействия факторов х, и х3; б —с ростом Х| результативный признак у возрастает при х = В (; с ростом Х| результативный признак у снижается при х3 = В2. Между х, и х существу ет взаимодействие. 3 3 98 Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинаций азота и фосфора). Решению проблемы устранения мультиколлинеарности фак торов может помочь и переход к уравнениям приведенной фор мы. С этой целью в уравнение регрессии производится подста новка рассматриваемого фактора через выражение его из другого уравнения. Пусть, например, рассматривается двухфакторная регрессия вида ух = а + Ьх • х, + Ь2 • х2, для которой факторы х 2 и х 2 обнару живают высокую корреляцию. Если исключить один из факто ров, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двух факторное уравнение регрессии совместно с другим уравнением, в котором фактор (например, х2) рассматривается как зависимая переменная. Предположим, известно, что к2— А + В • у + С • х3. Подставляя это уравнение в искомое вместо х 2, получим: у = а + Ьх-Х\ + Ь2-(А + В -у + С -х3) или > рх *(1 —Ь2 яВ) = (а + b2' А) + b} •х, + С ' b2' Ху t Если (1 — Ь2 ■ В) * 0, то, разделив обе части равенства на (1 —Ь2 • В), получаем уравнение вида лУ _ (a+bi-A) bx ■ '■■— ■— + х (1-Ъ -В ) ( l - f y S ) С-^2 Xt + ' ■ ------ 1*А1, 1 (1- k - B ) 3 которое представляет собой приведенную форму уравнения1для определения результативного признака у. Это уравнение может быть представлено в виде рх = а + b\ -х, + Ь'3-х3. К нему для оценки параметров может быть применен метод наименьших квадратов. Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов рег рессии. Подходы к отбору факторов на основе показателей кор1Приведенная форма модели рассматривается в гл. 4. 7* 99 р реляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения ре грессии принята, меняется алгоритм ее решения на ЭВМ. Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии: • метод исключения; • метод включения; • шаговый регрессионный анализ. Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты —отсев факторов из полного его набора (метод исключения), дополнительное введе ние фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ)1. На первый взгляд может показаться, что матрица парных ко эффициентов корреляции играет главную роль в отборе факто ров. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать во прос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результа том. Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6—7 раз меньше объема совокупности, по которой строится регрессия. Если это соотно шение нарушено, то число степеней свободы остаточной вариа ции очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-крите рий меньше табличного значения. 3.3. ВЫБОР ФОРМЫ УРАВНЕНИЯ РЕГРЕССИИ Как и в парной зависимости, возможны разные виды уравне ний множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной мно жественной регрессии ух = а + Ьх ■х { + Ь2 •х2 + ... + Ь. •х. парамет ры при х называются коэффициентами «чистой» регрессии. Они 'Подробнее ал.: Дрейпер Н., Смит Г. Прикладной регрессионный ана лиз. - С. 172-188. 100 характеризуют среднее изменение результата с изменением соот ветствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне. Пример. Предположим, что зависимость расходов на продук ты питания по совокупности семей характеризуется следующим уравнением: ух = 0,5 + 0,35 •Jtj + 0,73 •дс2, где у — расходы семьи за месяц на продукты питания, тыс. руб.; х, — месячный доход на одного члена семьи, тыс. руб.; х2 — размер семьи, человек. Анализ данного уравнения позволяет сделать выводы —с рос том дохода на одного члена семьи на 1 тыс. руб. расходы на пита ние возрастут в среднем на 350 руб. при том же среднем размере семьи. Иными словами, 35 % дополнительных семейных расхо дов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Параметр а не подлежит экономической интерпре тации. При изучении вопросов потребления коэффициенты регрес сии рассматриваются как характеристики предельной склоннос ти к потреблению. Например, если функция потребления С, име ет вид С( ~ а + b0 - Rf + bt - Rt_ j + e, то потребление в период времени 1зависит от дохода того же пе риода R, и от дохода предшествующего периода R,_{. Соответст венно коэффициент Ь0 характеризует эффект единичного возрас тания дохода R, при неизменном уровне предыдущего дохода. Коэффициент Ь0 обычно называют краткосрочной предельной склонностью к потреблению. Общим эффектом возрастания как текущего, так и предыдущего дохода будет рост потребления на Ь — 7>о + Ьх. Коэффициент b рассматривается здесь как долгосрочная склонность к потреблению. Так как коэффициен ты Ь0 и Ь, > 0, то долгосрочная склонность к потреблению долж на превосходить краткосрочную Ь0. Например, за период 1905—1951 гг. (за исключением военных лет) М.Фридман постро ил для США следующую функцию потребления: С, = 53 + 0,58 • R, + 0,32 • R,_ , с краткосрочной предельной склонностью к потреб лению 0,58 и с долгосрочной склонностью к Потреблению 0,9 . 1См.: Маленво Э. Статистические методы эконометрии. —М.: Статис тика, 1975. - С. 138. Ч 101 Функция потребления может рассматриваться также в зави симости от прошлых привычек потребления, т. е. от предыдуще го уровня потребления С,_,: С( —а + Ь0 • Rt + ft, • С,_j + е. В этом уравнении параметр Ь0 также характеризует кратко срочную предельную склонность к потреблению, т. е. влияние на потребление единичного роста доходов того же периода R,. Дол госрочную предельную склонность к потреблению здесь измеря ет выражение Ьц/Ц —£>,). Так, если уравнение регрессии составило С, —23,4 + 0,46 • R, + 0,20 • С,_| + е, то краткосрочная склонность к потреблению равна 0,46, а долго срочная —0,575 (0,46/0,8). В степенной функции % —а- x bi •X j2- ' xJ p коэффициенты bj являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1 % при неизменности действия других факторов. Этот вид уравнения регрессии получил наи большее распространение в производственных функциях, в ис следованиях спроса и потребления. Предположим, что при исследовании спроса на мясо получе но уравнение „ mi рх = 0,82 -JC,-2,63 • Х21,11 или ух =0,82-—jgj-, где у — количество спрашиваемого мяса; х, - цена; х 2 - доход. Следовательно, рост цен на 1 % при том же доходе вызывает снижение спроса в среднем на 2,63 %. Увеличение дохода на 1% обусловливает при неизменных ценах рост спроса на 1,11 %. В производственных функциях вица Р — a - F bt • F j 2 ...• Fmbm' е, где Р — количество продукта, изготавливаемого с помощью т производст венных факторов (Flf Fm); b — параметр, являющийся эластичностью количества продукции по отношению к количеству соответствующих производственных факторов. 102 Экономический смысл имеют не только коэффициенты Ь каждого фактора, но и их сумма, т. е. сумма эластичностей: В ~ Ь , + Ь2 + ...+ Ьт. Эта величина фиксирует обобщенную харак теристику эластичности производства. Производственная функ ция имеет вид Р = 2 F,0-3 • F20’2 F30'5 ■е, где Р F/ F2 F3 — выпуск продукции; — стоимость основных производственных фондов; — отработано человеко-дней; — затраты на производство, эластичность выпуска по отдельным факторам производства со ставляет в среднем 0,3 % с ростом Ft на 1 % при неизменном уровне других факторов; 0,2 % —с ростом F2 на 1 % также при не изменности других факторов производства и 0,5 % с ростом F3 на 1 % при неизменном уровне факторов Fx и F2. Для данного урав нения В = bi + b2 + Ь3 — 1. Следовательно, в целом с ростом каж дого фактора производства на 1% коэффициент эластичности выпуска продукции составляет 1%, т.е. выпуск продукции увели чивается на 1%, что в микроэкономике соответствует постоянной отдаче на масштаб. т При практических расчетах не всегда Efy = 1• Она может быть /=| как больше, так и меньше единицы. В этом случае величина В фиксирует приближенную оценку эластичности выпуска с рос том каждого фактора производства на 1 % в условиях увеличива ющейся (В > 1) или уменьшающейся (В < 1) отдачи на масштаб. Так, если г = 2,4 • Z’,0,3 • F2 '7 • F3 ’2, то с ростом значений каж дого фактора производства на 1 % выпуск продукции в целом возрастает приблизительно на 1,2 %. Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии: • экспонента - у = еа +* +Ь *2+- + V V +■, • гипербола —у - ---------------, которая испольа+Р| •х1+р2-х2+...+$р-хр зуется при обратных связях признаков. Стандартные компьютерные программы обработки регресси онного анализа позволяют перебирать различные функции и вы брать ту из них, для которой остаточная дисперсия и ошибка ап 103 проксимации минимальны, а коэффициент детерминации мак симален. Если исследователя не устраивает предлагаемый стандартной программой набор функций регрессии, то можно использовать любые другие функции, приводимые путем соответствующих преобразований к линейному виду, например: i. 1 Л У у х = а+Ьх-хх+Ь2 — +bi -x $ 2 +Ь4 \пх4. х 2 Обозначив Z, = * /, Z2 * 1/Xfi z3 = X3I/2, Z4 * 1пхф получим линейное уравнение множественной регрессии I у = а + Ьх • z x + Ь2 ' Zj + Ьг • г3 + ЬА • Z4 + е. Однако чем сложнее функция, тем менее интерпретируемы ее параметры. При сложных полиномиальных функциях с большим числом факторов необходимо помнить, что каждый параметр преобразо ванной функции является средней величиной, которая должна быть подсчитана по достаточному числу наблюдений. Если число наблюдений невелико, что, как правило, имеет место в экономе трике, то увеличение числа параметров функции приведет к их статистической незначимости и соответственно потребует упро щения вида функции. Если один и тот же фактор вводится в рег рессию в разных степенях, то каждая степень рассматривается как самостоятельный фактор. Так, если модель имеет вид поли нома второго порядка у = а + Ьх • х, + Ь2 • х 2 + Ьх| • х? х + Ь22 ■xr 2 + ЬХ2 • х х • х 2 + е, то после замены переменных Z\ — х х, z2 = х2, z 3 — х 2, z* — з?2, г5= х хх 2 получим линейное уравнение регрессии с пятью фак торами: у = а + Ьх ■Zt + *2 ‘ *2 + h ’ z 3 + *4 ‘ U + Ь5 • Z$ + е. ' ь I Поскольку, как отмечалось, должно выполняться соотноше ние между числом параметров и числом наблюдений, для поли нома второй степени требуется не менее 30—35 наблюдений. 104 В эконометрике регрессионные модели часто строятся на ос нове макроуровня экономических показателей, когда ставится задача оценки влияния наиболее экономически существенных факторов на моделируемый показатель при ограниченном объе ме информации. Поэтому полиномиальные модели высоких по рядков используются редко. 3.4. ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Параметры уравнения множественной регрессии оценивают ся, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки пара метров регрессии. Так, для уравнения у — а + Ьх • Х] + Ь2 • х 2 + ... + Ьр ■хр + е сис тема нормальных уравнений составит: +Д* -5>2 +...+Ьр ■Y.Xp, '£ у = п а + Ь 1 2 > * I =Я-2>, +Л, -I* ? +Й2 1*1 '*2 + - +ЬР-2 > . •*„ Цу-Хр = o -S *p + *i -Z * l X +Ь 2 - £ * 2 - Xt +... + V I ^ . Ее решение может быть осуществлено методом определителей АЬ, Аа , а =— , о, = А А где . АЬр А А — определитель системы; Аа, АЬх, ..., АЬр — частные определители. При этом ... I п I* . 1 *2 Z *i I* ? 1*2*1 д = S *2 1*1*2 I* ! 1 *„ 1 * |* р 1 * 2 Х Р ... 1 * р хр Л*/»*| ... £ х рх 2 105 а Аа, АЛ, ДЬр получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы. Возможен и иной подход к определению параметров множе ственной регрессии, когда на основе матрицы парных коэффи циентов корреляции строится уравнение регрессии в стандарти зованном масштабе: *у = Pt • (*, + Рг • {х2 + - + V ' % + е> У-У . xi~*i tx —стандартизованные переменные: ty , 1Х, > где /у, 1Х , 1 р ау а х, для которых среднее значение равно нулю: Ту —Тх. —О, а среднее квадратическое отклонение равно единице: о,у - о,х= 1; р —стандартизованные коэффициенты регрессии. Применяя МНК к уравнению множественной регрессии в стандартизованном масштабе, после соответствующих преобра зований получим систему нормальных уравнений вида ^ у х } = Pi J Р2 ‘ Р/> * » Rух2 “ Pi ' ^* 2*, ■*"Р2 Рз *R XyX2 ■*"••• + Эрi *R x• jc2> ^УХГ Pi ' Дс,ДС| P2 "*"P3 ' ^ хУхр "'"•'''I" Р/)' Решая ее методом определителей, найдем параметры —стан дартизованные коэффициенты регрессии (^-коэффициенты). Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответст вующий фактор х, изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все перемен ные заданы как центрированные и нормированные, стандартизо ванные коэффициенты регрессии Д сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по си ле их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от ко эффициентов «чистой» регрессии, которые несравнимы между собой. Пример. Пусть функция издержек производства у (тыс. руб.) характеризуется уравнением вида 106 4 J у —200 + 1,2 • x ( + 1,1 • Xj + e, где x, — основные производственные фонды (тыс. руб.); х2 —численность занятых в производстве (чел.). Анализируя его, мы видим, что при той же занятости допол нительный рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение численности занятых на одного человека способствует при той же технической оснащенности предприя тий росту затрат в среднем на 1,1 тыс. руб. Однако это не означа ет, что фактор х, оказывает более сильное влияние на издержки производства по сравнению с фактором х2. Такое сравнение воз можно, если обратиться к уравнению регрессии в стандартизо ванном масштабе. Предположим, оно выглядит так: ty = 0,5 • + 0,8 • txr Это означает, что с ростом фактора х, на одну сигму при не изменной численности занятых затраты на продукцию увеличи ваются в среднем на 0,5 сигмы. Так как /3, < /32(0,5 < 0,8), то мож но заключить, что большее влияние оказывает на производство продукции фактор х2, а нех,, как кажется из уравнения регрессии в натуральном масштабе. В парной зависимости стандартизованный коэффициент рег рессии есть не что иное, как линейный коэффициент корреляции г . Подобно тому, как в парной зависимости коэффициенты рег рессии и корреляции связаны между собой, так и во множествен ной регрессии коэффициенты «чистой» регрессии b-t связаны со стандартизованными коэффициентами регрессии /3„ а именно: 1 „ СТУ (3.1) * Это позволяет от уравнения регрессии в стандартизованном масштабе = Pi • (г, + 02 ‘ гхг + - + Рр ’ \ (3-2) переходить к уравнению регрессии в натуральном масштабе пе ременных: Р —а + bt •Х| + Ь2 •х2 + ... + Ь. • х_. 107 Параметр а определяется как a - y - f t , • Х | - А 2 - Х 2- . . . - 4 »,*Тг (3.3) Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет их использовать при отсеве факторов — из модели исключаются факторы с наименьшим значением fy. Компьютерные программы построения уравнения множест венной регрессии в зависимости от использованного в них алго ритма решения позволяют получить либо только уравнение рег рессии для исходных данных, либо, кроме того, уравнение рег рессии в стандартизованном масштабе. Прц нелинейной зависимости признаков, приводимой к ли нейному виду, параметры множественной регрессии также опре деляются МНК с той лишь разницей, что он используется не к исходной информации, а к преобразованным данным. Так, рас сматривая степенную функцию у = а • х|*1 **2*2 ..'. хрьр ■е, мы преобразовываем ее в линейный вид: lgy = lga + bx • lgx, + b2 • lgx2 + ... + bp • lgXp + lge, где переменные выражены в логарифмах. Далее обработка МНК та же, что и описана выше: строится система нормальных уравнений и определяются параметры lgа, Ьх, Ьг, ..., Ьр. Потенцируя значение Iga, найдем параметр а и соот ветственно общий вид уравнения степенной функции. Поскольку параметры степенной функции представляют со бой коэффициенты эластичности, то они сравнимы по разным факторам. Пример. При исследовании спроса на масло получено следу ющее уравнение: lgy = —1,25 —0,858 • lgX| + 1,126 • lgx2 + е, где у — количество масла на душу населения (кг); х, - цена (руб.); х 2 —доход на душу населения (тыс. руб.). 108 I Анализируя уравнение, видим, что с ростом цены на 1 % при том же доходе спрос снижается в среднем на 0,858 %, а рост дохо да на 1 % при неизменных ценах вызывает увеличение спроса в среднем на 1,126 %. В виде степенной функции данное уравнение примет вид: у - 0,056 •x ^ ’858 • х2-1,126 • е. При других нелинейных функциях методика оценки парамет ров МНК осуществляется так же. В отличие от предыдущих функций параметры более сложных моделей не имеют четкой экономической интерпретации: они не являются/показателями силы связи и ее эластичности. Это не исключает возможности их применения, но делает их менее привлекательными в практиче ских расчетах. 3.5. ЧАСТНЫЕ УРАВНЕНИЯ РЕГРЕССИИ На основе линейного уравнения множественной регрессии y = a + bl , x l + b2, x2 + ... + bp , xp + e У могут бьггь найдены частные уравнения регрессии: Ух| дг2>*э Хр = f ( x I )> Ухгх1*у,...,хр = /(**г)> * Ухрх гх 1 . Vi 2 ■ т. е. уравнения регрессии, которые связывают результативный признак с соответствующими факторами х при закреплении дру гих учитываемых во множественной регрессии факторов на сред нем уровне. Частные уравнения регрессии имеют следующий вид: Ухх•х2,*3>.. Ухг-хх,хг Ухр' х . , .xp = a + bi ' *i + Ь2 х 2 + Ь3 х 3 + ... + Ьр-хр + е; хр * а + Ь\; X, + Ь2 •х2 + Ь3 •х 3 + ... + Ьр •хр + е; | й + 6| •х | + 62 • х 2+ ... + | • Хр_ | + Ьр •хр + е. 109 При подстановке в эти уравнения средних значений соответ ствующих факторов они принимают вид парных уравнений ли нейной регрессии, т. е. имеем: Ух,.хЛ ...х,_{ = Ар +Ьрх р, А ( = а + ^ 'Зс2 +frj •х3 + * .+ Ь р 'Х р9 = q +Л| •Xj + b$ *Xj +...+bp •Xpy где 4 В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному чле ну уравнения множественной регрессии. Это позволяет на осно ве частных уравнений регрессии определять частные коэффици енты эластичности: (3.4) где b{ — коэффициенты регрессии для фактора х{ в урав нении множественной регрессии; х — частное уравнение регрессии. Пример. Предположим, что по ряду регионов множественная регрессия величины импорта на определенный товар у относи тельно отечественного его производствах), изменения запасовХ2 и потребления на внутреннем рынке х3 оказалась следующей: у ——66,028 + 0,135 *Х| + 0,476 ■х2 + 0,343 •лс3. При этом средние значения для рассматриваемых признаков составили: 7 = 31,5, X, = 245,7, Х2 = 3,7, Х3 = 182,5. 110 На основе данной информации могут бьггь найдены средние по совокупности показатели эластичности: Э ,± Ь ,~ 2 -. 7xi V (3.5) Для данного примера они окажутся равными: — 2457 Эу = 0,135-——^—= 1,053%, 31,5 т. е. с ростом величины отечественного производства на 1 % раз мер импорта в среднем по совокупности регионов возрастет на 1,053 % при неизменных запасах и потреблении семей. Для второй переменной коэффициент эластичности состав ляет: Э = 0,476 ■ = 0,056%, Ух2 31,5 т. е. с ростом изменения запасов на 1 % при неизменном произ водстве и внутреннем потреблении величина импорта увеличива ется в среднем на 0,056 %. Для третьей переменной коэффициент эластичности состав ляет: 18? S ЭУч = 0,343-^= 1,987% , т. е. при неизменном объеме производства и величины запасов с увеличением внутреннего потребления на 1 % импорт товара воз растает в среднем по совокупности регионов на 1,987 %. Средние показатели эластичности можно сравнивать друг с другом и со ответственно ранжировать факторы по силе их воздействия на результат. В рассматриваемом примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара х3, а наименьшее —изменение запасов х2. Наряду со средними показателями эластичности в целом по совокупности регионов на основе частных уравнений регрессии могут быть определены частные коэффициенты эластичности для каждого региона. Частные уравнения регрессии в нашем слу чае составят: 111 А | т- е- Ухх Х2 *з ' х2 *3 = а + 6 1 ' Х 1 + 6 2 • х 2 + 6 3 • * 3 . = -66,028 + 0,135 *1 + 0,476 • 3,7 + 0,343182,5 = — 1,669 + 0,135 ■х.; * т- е- 9х2 I Px2 xix3 = о + bi ' Xf + Ь2-х2 + Ь3- х 3, Х1 Х3= -66,028 + 0,135 • 245,7 + 0,476 ■х2 + 0,343 182,5 = = 29,739 + 0,476 • х2; 9хз ■jcj jcj ^ ^1 х 1 ^2 ^2 Ь3 Х3, т- е- Л3 х2 = -66,028 + 0,135 • 245,7 + 0,476 • 3,7 + 0,343 = - 31,097 + 0,343 х}. х3= Подставляя в данные уравнения фактические значения по от дельным регионам соответствующих факторов, получим значе ния моделируемого показателя у при заданном уровне одного фактора и средних значениях других факторов. Эти расчетные значения результативного признака используются для определе ния частных коэффициентов эластичности по приведенной вы ше формуле. Так, если, например, в регионе х, = 160,2; х2 = 4,0; х3 = 190,5, то частные коэффициенты эластичности составят: Л — Ух1Х2,хз ~ ^2 л—^ У или Э„ =0,135---- --- 160^2— -— = 1,084%; - 1,669+ 0,135 - 160,2 иди э =0,476--------- —— ------= 0,060%; 'ч 29,739 + 0,476-4,0 * a ЭУ l , хг 190 5 или Эг =0,343-— ------ — ---------- = 1,908% Ухгх ^ г -31,097+0,343-1-90,5 Как видим, частные коэффициенты эластичности для региона несколько отличаются от аналогичных средних показателей по совокупности регионов. Они могут быть использованы при при нятии решений относительно развития конкретных регионов. 3.6. МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ Практическая значимость уравнения множественной регрес сии оценивается с помощью показателя множественной корре ляции и его квадрата —коэффициента детерминации. 112 Показатель множественной корреляции характеризует тесно ту связи рассматриваемого набора факторов с исследуемым при знаком, или, иначе, оценивает тесноту совместного влияния факторов на результат. Независимо от формы связи показатель множественной кор реляции может быть найден как индекс множественной корре ляции: (3.6) где (Р'у —общая дисперсия результативного признака; «Гоп. ~ остаточная дисперсия для уравнения у —f ( x , х ,..., Хр). Методика построения индекса множественной корреляции аналогична построению индекса корреляции для парной зависи мости. Границы его изменения те же: от 0 до 1. Чем ближе его зна чение к 1, тем теснее связь результативного признака со всем на бором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному пар ному индексу корреляции: Ryx^xj... Хр —Ryxj(max) (^ Гр)1 При правильном включении факторов в регрессионный ана лиз величина индекса множественной корреляции будет сущест венно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множествен ной регрессии факторы третьестепенны, то индекс множествен ной корреляции может практически совпадать с индексом пар ной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, 4TQ, сравнивая индексы множественной и парной корреля ции, можно сделать вывод о целесообразности включения в урав нение регрессии того или иного фактора. Так, если у рассматри вается как функция х и £ и получен индекс множественной кор реляции Ry~ = 0,85, а индексы парной корреляции при этом были Ryx ~ 0,82 и Ryz = 0,75, то совершенно ясно, что уравнение парной регрессии у = f(x) охватывало 67,2 % колеблемости ре зультативного признака под влиянием фактора х, а дополнитель ное включение в анализ фактора z увеличило долю объясненной вариации до 72,3 %, т. е. уменьшилась доля остаточной вариации на 5,1 проц. пункта (с 32,8 до 27,7%). e-isjs из Расчет индекса множественной корреляции предполагает оп ределение уравнения множественной регрессии и на его основе остаточной дисперсии: 2 _ ^ОСТ —Ухххг...хр) П ~ Можно пользоваться следующей формулой индекса множе ственной корреляции: л = 1— 2 vZ(y-y) / V " - (3 -7) При линейной зависимости признаков формула индекса кор реляции может быть представлена следующим выражением: Ryxxxv ..jc, ~ ' гу х ,> (3.8) где РХ/ —стандартизованные коэффициенты регрессии; гт —парные коэффициенты корреляции результата с каждым фактором. В справедливости данной формулы можно убедиться, если обратиться к линейному уравнению множественной регрессии в стандартизованном масштабе и определить для него индекс мно жественной корреляции как А 2 или, что то же самое, „ , L ( 'v - 0 2 Г*2’ (3.10) В формуле (3.10) числитель подкоренного выражения пред ставляет собой факторную сумму квадратов отклонений для стандартизованных переменных: t = У-У о„ 114 Поскольку Ту = 0 и 2'At —Ту )2 = U у —п, индекс множествен ной корреляции для линейного уравнения в стандартизованном масштабе можно записать в виде (3.11) Подставим в эту формулу выражение t v через tу Рх[ ' "l" Рх2 ' (*2 @хр " получим: ’(*, + Рх2 Л 2 + - + Рх, Л , ) - = л/Рх, ---Z^x, 'ty+ —+PXj> — Z^x, '(?• 1 Так как —■zA, О*, то получим формулу индекса множест венной корреляции следующего вида (3.8): R - д/Рх, ’гух, +Рх2‘ 0*2 + " ‘ + Рх, ‘Гж, “ >/ZP х ^ Г у х ,’ Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множест венной корреляции, или, что то же самое, совокупного коэффици ента корреляции. Возможно также при линейной зависимости определение со вокупного коэффициента корреляции через матрицу парных ко эффициентов корреляции: х, = ]jl ~ А г„ ' (3‘ 12^ с где Дг —определитель матрицы парных коэффициентов корреляции; Д/-Ц - определитель матрицы межфакторной корреляции. Для уравнения у = а + Ьх • х { + Ь2 • х 2 + ... + Ър • хр + е опреде литель матрицы коэффициентов парной корреляции Примет вид: 8* 115 Аг = 1 0*. О*. 1 0*2 0*2 Г*|*2 г f г ’ ** *\*р 1 — Гх^сг 0^2 ... 1 Г*2*1 0*, Г гухр (3.13) Определитель более низкого порядка Г], остается, когда вы черкиваются из матрицы коэффициентов парной корреляции первый столбец и первая строка, что и соответствует матрице коэффициентов парной корреляции между факторами: II > 1 Г*2*1 Г*1*2 1 ■ ■• /^1* V ' ■* Г>Х1Хр Х\ЛР (3.14) _ Г* Г * | Гг , хрх1 ... 1 Как видим, величина множественного коэффициента корре ляции зависит не только от корреляции результата с каждым из факторов, но и от межфакторной корреляции. Рассмотренная формула позволяет определять совокупный коэффициент корре ляции, не обращаясь при этом к уравнению множественной рег рессии, а используя лишь парные коэффициенты корреляции. При трех переменных для двухфакторного уравнения регрес сии данная формула совокупного коэффициента корреляции легко приводится к следующему виду: Г гух| ГУ*1 1 г*|*1 г 1 Х \Х 2 Г Л 11 Г 1 Rух,х. * 1*2 rl, + r * -2 -r „ r„ У*1 У*! У*\ у*2 1-г.* 1 *2 * 1 *2 (3.15) Гхх\х2 х 1 Индекс множественной корреляции равен совокупному ко эффициенту корреляции не только при линейной зависимости рассматриваемых признаков. Тождественность этих показателей, 116 как и в парной регрессии, имеет место и для криволинейной за висимости, нелинейной по переменным. Так, если для фирмы модель прибыли у имеет вид у = а + Ь{ • ДГ| + Ь2 • 1пх2 + by • lror3 + i 4 • lnx4 + е, где х, — удельные расходы на рекламу; хг — капитал фирмы; Ху — доля продукции фирмы в общем объеме продаж данной группы товаров по региону; х — процент увеличения объема продаж фирмы по сравнению с предыдущим годом. 4 Тогда независимо от того, что фактор х, задан линейно, а факторы х2, Ху, x4 —в логарифмах, оценка тесноты связи может бьггь произведена с помощью линейного коэффициента множе ственной корреляции. Так, если рассматриваемая модель в стан дартизованном виде оказалась следующей: ty 0,4 • tX{ + 0,5 • Г,2 + 0,4 • tXj + 0,3 • tX4, а парные коэффициенты корреляции прибыли с каждым из ее факторов составили ryxI ГЛп*2 —®’7, ГЯп*з — ~ то коэффициент множественной детерминации окажется рав ным: ^ |W 4 = ~ ° ’4 *( - °>6>+ °»5 • °>7 + °>4 ‘ °>6 + ° ’3 • М = °’95- Тот же результат даст и индекс множественной детермина ции, определенный через соотношение остаточной и общей дисперсии результативного признака. Иначе обстоит дело с криволинейной регрессией, нелиней ной по оцениваемым параметрам. Предположим, что рассматри вается производственная функция Кобба-Дугласа: Р = а - Lb l‘ А*2-е, где Р — объем продукции; L — затраты труда; К — величина капитала; Ьу + £>2e I. 117 Логарифмируя ее, получим линейное в логарифмах урав нение 1аР = Inа + й, • Ini + Ь2 ■Ini' + 1пе. Оценив параметры этого уравнения по МНК, можно найти теоретические значения объема продукции Р и соответственно остаточную сумму квадратов Е(/* — Р), которая используется в расчете индекса детерминации (корреляции): Л » .! - g g z . f r I (Р-Р)2 Однако при этом нельзя забывать, что МНК применяется не к исходным данным продукции, а к их логарифмам. Поэтому в индексе корреляции с общей суммой квадратов Л(Р — Р) срав нивается остаточная дисперсия, которая определена по теорети ческим значениям логарифмов продукции: И(Р —антилогарифм (f£>))2, т. е. когда по 1п> путем потенцирования нашли Р. Индекс детерминации для нелинейных по оцениваемым па раметрам функций в некоторых работах по эконометрике приня то называть «квази-Л ». Для его определения по функциям, ис пользующим логарифмические преобразования (степенная, экс понента), необходимо сначала найти теоретические значения 1пу (в нашем примере In)*), затем трансформировать их через анти логарифмы: антилогарифм (ту ) = у, т. е. найти теоретические значения результативного признака и далее определять индекс детерминации как «квази- /? », пользуясь формулой «квази-Я2» = \ - 1(У ,-анот.“дога^ < |П1))2. I (У -у)2 (3.16) Величина индекса множественной корреляции, определен ная как «квази-/г», не будет совпадать с совокупным коэффици ентом корреляции, который может быть рассчитан для линейно го в логарифмах уравнения множественной регрессии, ибо в последнем раскладывается на факторную и остаточную суммы квадратов не £(у —у-)2, а Е(1пу —1пу) . Аналогичное положение, когда индекс и коэффициент множественной корреляции не сов падают, имеем и для обратной функции: 118 У= 1 a + b{ -X, +...+b -х +е ибо теоретическое значение результативного признака опре деляется путем обращения расчетной величины -р В рассмотренных показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, ко торая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений п. Если число параметров при Xj равно т и приближается к объему на блюдений, то остаточная дисперсия будет близка к нулю и коэф фициент (индекс) корреляции-приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допус тить возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной кор реляции. Скорректированный индекс множественной корреляции со держит поправку на число степеней свободы, а именно остаточ ная сумма квадратов £(у —ух.х, х )2 делится на число степеней свободы остаточной вариации (л —т —7), а общая сумма квадра тов отклонений £(у —у ) —на число степеней свободы в целом по совокупности (п —1). Формула скорректированного индекса множественной детер минации имеет вид: 7Г2 , £ (У -? )2:( я - от-1) 1 ( у - у ) 2:( л - 1) ’ (317) где т — число параметров при переменных х\ п — число наблюдений. Поскольку Д у - у ) / Д у - у ) = 1 - / г , то величину скоррек тированного индекса детерминации можно представить в виде Л2 = 1-(1-Т?2) — ( п - т - 1) (3 18) 1• ' 7J2 и R . Чем больше величина т, тем сильнее различия Я 119 I Для линейной зависимости признаков скорректированный коэффициент множественной корреляции определяется по той же формуле, что и индекс множественной корреляции, т.е. как корень квадратный из R 2. Отличие состоит лишь в том, что в ли нейной зависимости под да подразумевается число факторов, включенных в регрессионную модель, а в криволинейной зави симости да —число параметров при х и их преобразованиях (х2, In х и др.), которое может быть больше числа факторов как эко номических переменных. Так, если у —f(x v x j , то для линейной регрессии да = 2, а для регрессии вида у = а + bl -x l + b |2 • х 2 +Ь2 *х2 + Ь22 • х2 + г число параметров при х равно 4, т. е. да = 4. При заданном объеме наблюдений при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный ко эффициент множественной детерминации убывает. Его величина может стать и отрицательной при слабых связях результата с фак торами. В этом случае он должен считаться равным нулю. При не большом числе наблюдений скорректированная величина коэф фициента множественной детерминации Л2 имеет тенденцию пе реоценивать долю вариации результативного признака, связан ную с влиянием факторов, включенных в регрессионную модель. Пример. Предположим, что при п = 30 для линейного уравне ния регрессии с четырьмя факторами R2 = 0,7, а с учетом коррек тировки на число степеней свободы R 2= 1- (1 - 0,7) • • 1 L =0,652. (30-4-1) Чем больше объем совокупности, по которой исчислена рег рессия, тем меньше различаются показатели f r и R2. Так, уже при п = 50 при том же значении Л2 и да величина R 2 составит 0,673. В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректирован ный коэффициент (индекс) множественной корреляции (детер минации). Величина коэффициента множественной детермина ции используется для оценки качества регрессионной модели. Низкое значение коэффициента (индекса) множественной кор реляции означает, что В регрессионную модель не включены су щественные факторы —с одной стороны, а с другой стороны — рассматриваемая форма связи не отражает реальные соотноше ния между переменными, включенными в модель. Требуются дальнейшие исследования по улучшению качества модели и уве личению ее практической значимости. 120 3.7. ЧАСТНАЯ КОРРЕЛЯЦИЯ Как было показано выше, ранжирование факторов, участву ющих в множественной линейной регрессии, может быть прове дено через стандартизованные коэффициенты регрессии (/^-коэффициенты). Эта же цель может быть достигнута с помо щью частных коэффициентов корреляции — для линейных связей. При нелинейной взаимосвязи исследуемых признаков эту функцию выполняют частные индексы детерминации. Кроме того, частные показатели корреляции широко используются при решении проблемы отбора факторов: целесообразность включе ния того или иного фактора в модель доказывается величиной показателя частной корреляции. Частные коэффициенты (или индексы) корреляции характери зуют тесноту связи между результатом и соответствующим фак тором при устранении влияния других факторов, включенных в уравнение регрессии. Показатели частной корреляции представляют собой отно шение сокращения остаточной дисперсии за счет дополнитель ного включения в анализ нового фактора к остаточной диспер сии, имевшей место до введения его в модель. Пример. Предположим, что зависимость объема продукции у от затрат труда х ; характеризуется уравнением ухх =27,5 + 3,5 -Х|, гт = 0,58. Подставив в это уравнение фактические значения х {, найдем теоретические величины объема продукции ух и соответствую щую величину остаточной дисперсии S1: р2 V 107- V 2 - " ■ Включив в уравнение регрессии дополнительный фактор х2 — техническую оснащенность производства, получим уравнение регрессии вида ухт = 20,2 + 2,8 •х, + 0,2 ■х2. Для этого уравнения остаточная дисперсия, естественно, меньше. Предположим, что — 3,7, a S1^ = 6. Чем большее число факторов включено в модель, тем меньше величина оста точной дисперсии. 121 Сокращение остаточной дисперсии за счет дополнительного включения фактора х2 составит: ■SL, Xх J - У*1*2= 2,3. ’ Чем больше доля этого сокращения в остаточной вариации до введения дополнительного фактора, т. е. в , тем теснее связь между у и х2 при постоянном действии факторах,. Корень квад ратный из этой величины и есть индекс частной корреляции, по казывающий в «чистом» виде тесноту связи у с х2. Следовательно, чистое влияние фактора х2 на результат у можно определить как с2 _ с2 ух, ух,х, r)*2*,=j с2 ‘ (3.19) ух. Аналогично определяется и чистое влияние на результат фак тора х,: ~ ^УХЛ 2*1*2 V с2 ' (3.20) в °УХ2 _ Если предположить, что о ^ = 5, то частные показатели кор реляции для уравнения у = 20,2 + 2,8 ■х, + 0,2 •х2 составят гy*i 2 = л1^-^-= 0,51 V 5 и r x = 2*2*1 V 6 = 0,619. Сравнивая полученные результаты, видим, что более сильное воздействие на объем продукции оказывает техническая осна щенность предприятий. Если выразить остаточную дисперсию через показатель де терминации ^ост = (1 - Д то формула коэффициента част ной корреляции примет вид: w 122 _ , l I *^2*2 s, ^ У Х \Х г L * У |* 2 - f - s, _ I - f - ^ ^2*1*2 ,_ r . П • 2П Соответственно 1-Л УХЛ ГУ*г*\ 1-г,ухI (3.22) Рассмотренные показатели частной корреляции принято на зывать коэффициентами (индексами) частной корреляции пер вого порядка, ибо они фиксируют тесноту связи двух переменных при закреплении (элиминировании влияния) одного фактора. Если рассматривается регрессия с числом факторов р, то воз можны частные коэффициенты корреляции не только первого, но и второго, третьего (р — 1) порядка, т. е. влияние фактора х, можно оценить при разных условиях независимости действия других факторов: гт —при постоянном действии фактора х2; Г>*г*2*з—ПРИ постоянном действии факторов х2 и х3; г .Х2.Х —при неизменном действии всех факторов, вклю ченных в уравнение регрессии. Сопоставление коэффициентов частной корреляции разного порядка по мере увеличения числа включаемых факторов пока зывает процесс «очищения» зависимости результативного при знака с исследуемым фактором. Например, при изучении зависимости себестоимости добычи угля от объема добычи парный коэффициент корреляции оказал ся равным —0,75, характеризуя довольно тесную обратную связь признаков. Частный коэффициент корреляции этой зависимости при постоянном влиянии уровня производительности труда со ставил —0,58 и демонстрирует хотя и достаточную, но уже замет но менее тесную связь себестоимости и объема добычи. Закрепив на постоянном уровне также и размер основных фондов, теснота связи рассматриваемых признаков оказывается еще более низ кой, т. е. —0,52. Хотя частная корреляция разных порядков и может представ лять аналитический интерес, в практических исследованиях предпочтение отдают показателям частной корреляции самого высокого порядка, ибо именно эти показатели являются допол нением к уравнению множественной регрессии. В общем виде при наличии р факторов для уравнения у = а + Ьх -х, + Ь2 •х2 + ... + Ьр •хр + е коэффициент частной корреляции, измеряющий влияние на у фактора X/ при неизменном уровне других факторов, можно оп ределить по формуле 123 ( 1-Л уххх2...х,...хр 1Г “i п2 ’ u 1 л:к*1*2-.-*ы*ы---*, где Л2^ ^ Я2*»! Х2 (3.23) Х/ —множественный коэффициент детерминации всего комплекса р факторов с результатом; х/+1...хр —тот же показатель детерминации, но без введения в модель фактора хЛ При / = 1 формула коэффициента частной корреляции при мет вид: I ryx\*2 ‘- x, - J l 1 ^jar,x2...x, 1 „2 ’ (3.24) Данный коэффициент частной корреляции позволяет изме рить тесноту связи между у и х, при неизменном уровне всех дру гих факторов, включенных в уравнение регрессии. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Напри мер, ^ —коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты частной корреляции более высоких порядков можно определить через ко эффициенты частной корреляции более низких порядков по ре куррентной формуле _ 'у х ,- х ,JC2 - V , —Xf-I ' ^Х1ХГХЛ —хр-1 Гухгх1х2,..хр Г ’ 1,1 г 12 .... ■у(^ —ryxf -xlx2...xf _l ) '(1—Гх1хг х1х2...х1>^ ) (3.25) При двух факторах и / = 1 данная формула примет вид: - ГУ*1 ГУЧ -Xft Соответственно при / = 2 и двух факторах частный коэффици ент корреляции у с фактором х2 можно определить по формуле 124 (3.27) Для уравнения регрессии с тремя факторами частные коэф фициенты корреляции второго порядка определяются на основе частных коэффициентов корреляции первого порядка. Так, по уравнению у = а + Ь1•Х| + Ь2 •х2 + Ь3 •х3 + е возможно исчисление трех частных коэффициентов корреляции второго порядка: гу х у х 2х 3> гуХ2'Х\х3’> Гухух\ху> каждый из которых определяется по рекуррентной формуле. Например, при / = 1 имеем формулу для расчета гУ Х \ х у с 3 > а именно (3.28) Пример. Предположим, изучается зависимость тиража газеты у от ожидаемого дохода от распродажи газеты х,, количества пер сонала редакции дс2, рейтинга газеты среди других газет, распро страняемых в регионе х3. В этом случае матрица парных коэффи циентов корреляции составила: rm =0,69 I Гу*, = 0,58 гх л = 0,46 1 fyx, =0,55 гх<Х) = 0,50 rXjXs =0,41 1 Исходя из этих данных, найдем частные коэффициенты корре ляции первого и второго порядка. Приведем частные коэффициенты корреляции первого порядка зависимости у отдс, и Xj. 125 т. е. при закреплении фактора х2 на постоянном уровне корреля ция у их, оказывается более низкой (0,585 против 0,69); УХ2-Х, = — у/(1 -г^Н 1 -гх2л ) = 0,409, V(I-0,692) (1-0,462) т. е. при закреплении фактора х, на постоянном уровне влияние фактора Х2 на у оказывается менее сильным (0,409 против 0,58); _ *j*i i*yxз * _ ryxvx, - 0,69 0,55 ■0,50 ^(1-0,552)-(1-0,502) т. е. при закреплении фактора х3 на постоянном уровне влияние фактора х, на у несколько снизилось по сравнению с парной кор реляцией (0,574 против 0,69) ввиду некоторой связи факторов х, и х 3; УХ2**3 _ гух1~ гух,' гхухг ""/ 11Г"1::=*а^каая V(1 - #&) ■А - J| 1— I ) 0,58-0,55-0,41 11 ал/гс яя—■■■'■—■■■— V( ‘ - 0.552) ■(1 - 0,412) т. е. при закреплении фактора х3 на постоянном уровне влияние на у фактора Х2 оказалось несколько менее сильным (0,465 против 0,58); yx^'Xt _ гу*)~гу*\'гх&\ __ 0,55-0,69-0,50 _ А1Л, -— "l-- —UjJX/j ;(1-г^)-(1-гД Х|) у (1 - 0.692)•(!—0,502) т. е. корреляция фактора х3 с у снизилась при фиксированном влиянии на у фактора х. (0,55 и 0,327); гу*э гл*Гг*л . 0,55-0,58-0,41 _ Л/ПП УХух? ~ " г " 11 ^Г"П1 1 —1 ' “I’11"''1 т'шг гI —U,420, p - r ^ H l - r 2Xi) V a-0 ^8 2)-(i-0,4l2) т. е. при закреплении фактора х2 на постоянном уровне влияние фактора х3 на у оказалось менее значительным (0,420 и 0,55). Приведем частные коэффициенты корреляции второго по рядка. 126 г - tГух' гухух2 Гх\хгх7 _ 0,585-0,420-0,385 n gng л ,в д i j a - r ^ y a - r ^ ) ^1-0,4202У(1-3852) При фиксированном влиянии факторов х2 и х3 корреляция у с х, оказалась еще меньше, чем при частной корреляции первого порядка (при закреплении фактора х2): 0,69; 0,585 и 0,505. гух2 лг,лг, гухг х^ Гухгхх'rx-lxyxi I Vo - ^ h i - 'w *) 0,409-0,327 •0,234 — I Л - и,J02. v^1" 0*327 >-<1- 234 > Корреляция фактора х2 с у снизилась до 0,409 при элимини ровании фактора х, и до 0,362 при элиминировании двух факто ров —х, и х3. _ Гухгх| гухгх1'гхгхух{ _ 0,327-0,409-0,234 А , № 2 V(i-°>409 ) ( i - 2342) Корреляция у с х3 снизилась с 0,55 в парной регрессии до 0,327 при закреплении на постоянном уровне фактора х( и до 0,261 при одновременном закреплении на постоянном уровне факторов х, и х2. Частная корреляция второго порядка зависимо сти у с факторами х,, х2 и х3оказалась значительно более низкой — 0,505; 0,362 и 0,261 против 0,69; 0,58 и 0,55 для парной регрессии. Рассчитанные по рекуррентной формуле частные коэффици енты корреляции изменяются в пределах от —1 до +1, а по фор мулам через множественные коэффициенты детерминации —от 0 до 1. Сравнение их друг с другом позволяет ранжировать факто ры по тесноте их связи с результатом. Частные коэффициенты корреляции, подтверждая ранжировку факторов по их воздейст вию на результат, на основе стандартизованных коэффициентов регрессии (/^коэффициентов) в отличие от последних дают кон кретную меру тесноты связи каждого фактора с результатом в чистом виде. Если из стандартизованного уравнения регрессии ty = Pxi’ + Рх2 ■*х2 + Рхз • *хЪследует, что РХ1 > рхг > рху т. е. по силе влияния на результат порядок факторов таков: х, , х2, х3, то этот же порядок факторов определяется и по соотношению част ных коэффициентов корреляции, Гух,.хусз > гт -.хт > гт .Х{ХГ Согласованность частной корреляции и стандартизованных коэффициентов регрессии наиболее отчетливо видна из сопос тавления их формул при двухфакторном анализе. Для уравнения 127 регрессии в стандартизованном масштабе t y — р • tx. + /3L • tx2 ^-коэффициенты могут быть определены по формулам, вытека ющим из решения системы нормальных уравнений: Y _ Y ,/• _ У*\ *ух2 'х,х2 (3.29) Сравнивая их с рекуррентными формулами расчета частных коэффициентов корреляции гт ,Х2 и Гух2 Х{, можно видеть, что (3.30) Иными словами, в двухфакторном анализе частные коэффи циенты корреляции —это стандартизованные коэффициенты ре грессии, умноженные на корень квадратный из соотношения до лей остаточных дисперсий фиксируемого фактора на фактор и на результат. В эконометрике частные коэффициенты корреляции обычно не имеют самостоятельного значения. В основном их используют на стадии формирования модели, в частности в процедуре отсева факторов. Так, строя многофакторную модель, например, мето дом исключения переменных, на первом шаге определяется урав нение регрессии с полным набором факторов и рассчитывается матрица частных коэффициентов корреляции. На втором шаге отбирается фактор с наименьшей и несущественной по /-крите рию Стьюдента величиной показателя частной корреляции. Ис ключив его из модели, строится новое уравнение регрессии. Про цедура продолжается до тех пор, пока не окажется, что все част ные коэффициенты корреляции существенно отличаются от ну ля. Если исключен несущественный фактор, то множественные коэффициенты детерминации на двух смежных шагах построе ния регрессионной модели почти не отличаются друг от друга, т. е. л р + 1 * В?р где р —число факторов. Из приведенных ранее формул частных коэффициентов кор реляции видна связь этих показателей с совокупным коэффици ентом корреляции. Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), 128 можно определить совокупный коэффициент корреляции по формуле У&Р**1*2 (3.31) —I При полной зависимости результативного признака от иссле дуемых факторов коэффициент совокупного их влияния равен единице. Из единицы вычитается доля остаточной вариации ре зультативного признака (1 —г2), обусловленная последовательно включенными в анализ факторами. В результате подкоренное выражение характеризует совокупное действие всех исследуемых факторов. В рассмотренном примере с тремя факторами величина ко эффициента множественной корреляции составила: Величина множественного коэффициента корреляции всегда больше (или равна) максимального частного коэффициента кор реляции, что имеет место в нашем примере: 0,770 по сравнению с 0,505. 3.8. ОЦЕНКА НАДЕЖНОСТИ РЕЗУЛЬТАТОВ МНОЖЕСТВЕННОЙ РЕГРЕССИИ И КОРРЕЛЯЦИИ Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью /'-кри терия Фишера: р _ AfrucT _ Яост R2 1 -Л 2 п -т -1 (3.32) и где Дф,,, — /г т - факторная сумма квадратов на одну степень свободы; остаточная сумма квадратов на одну степень свободы; коэффициент (индекс) множественной детерминации; число параметров при переменных х (в линейной регрессии совпадает с числом включенных в модель факторов); п — число наблюдений. д -1 5 2 8 129 Пример. Предположим, что модель урожайности пшеницы у (ц/га) от количества внесенных минеральных удобрений на 1 га х, (ц) и осадков х2 (мм) характеризуется следующим уравнением: у = —120 + 0,2 • —0,008 •X!2 + 0,8 •х2 —0,001 ■х22 + е. При этом ст., —2, л = 30, R = 0,85. Результаты дисперсионного анализа оказываются следующими (табл. 3.1). Т аблица 3.1 Результаты дисперсионного апализа Источники вариации Число степеней свободы Дисперсия Сумма квадратов, на одну сте пень свобо SS ды, D ^факт ^табл (0,05) Объясне ния за счет регрессии 4 86,7 21,675 16,27 2,76 Остаточная 25 33,3 1,332 1,00 — Общая 29 120,0 — — - *^общ ~ Л 'о^у —30-4 — 120; S S = S S ^ • Д2 = 120 • 0,85 = 86,7; ^ост ~ *^обш ' 0 —Л?) ~ *^общ —^факт —120 —86,7 —33,3. Так как фактическое значение / ’-критерия при а = 0,05 пре вышает табличное, то уравнение статистически значимо. Этот же результат получим, воспользовавшись приведенной ранее фор мулой /-критерия: 1—0,852 4 Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фак тор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться 130 в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть раз ной в зависимости от последовательности его введения в модель. Мерой для оценки включения фактора в модель служит частный / ’-критерий, т. е. Fx Частный /-критерий построен на сравнении прироста фак торной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. Предположим, что оцениваем значимость влияния х х как дополнительно включен ного в модель фактора. Используем следующую формулу: п2 р л уххх2...хр 1Л,ух2...хр = г1 ^у-2х-------\--* хх2...хр ггде __ п2 (3.33) - коэффициент множественной детерминации для модели с полным набором факторов; л - тот же показатель, но без включения в модель фактора х ,; п - число наблюдений; т — число параметров в модели (без свободного члена). Если оцениваем значимость влияния фактора хр после вклю чения в модель факторов х1# х ^ и то формула частного / ’-критерия примет вид: _ „ » 2 л ухtx2...xp х2...хр_1 \1- Лл уххх2.,.хр 2 ХР Л —/И —1 1 (3.34) В общем виде для фактора х частный / ’-критерий определит ся как г R2 R2 rK yxt...xi...xp — £yyxt...xl_lxM ...xp If —W —1\ а- ~ . *■ Кухх...хг...хр (3.35) В числителе формул (3.33) —(3.35) показан прирост доли объ ясненной вариации у за счет дополнительного включения в мо дель соответствующего фактора: &ухт..хр ~ 9* ~ прирост за счет дс,; Хр_, - за счет хр; 131 ^ yx\.-.jCj..jCp R ja c |..jc ;_ i* /+ |..J C p за счетX/. В знаменателе доля остаточной вариации по регрессионной модели, включающей полный набор факторов. Если числитель и знаменатель Fx умножить на Z(y —у ) 2 или, что то же самое, на п ■о2у, то получим соотношение прироста факторной (объяснен ной) суммы квадратов отклонений к остаточной сумме квадра тов. Чтобы получить величину F-критерия, необходимо эти сум мы квадратов отклонений разделить на соответствующее число степеней свободы. Так как прирост факторной суммы квадратов отклонений обусловлен дополнительным включением в модель одного исследуемого фактора (например, х хили хр), то число сте пеней свободы для него равно: dfx = 1. Для остаточной суммы квадратов отклонений по регрессионной модели число степеней свободы, как уже было рассмотрено ранее, равно: df2 = п ~ т — 1. Соотношение числа степеней свободы приведено в формуле ча стного F-критерия в виде дроби: Фактическое значение частного / ’-критерия сравнивается с табличным при 5%-ном или 1%-ном уровне значимости и числе степеней свободы: 1 и и —да — 1. Если фактическое значение Fxt превышает / табл (a, dfx, df2), то дополнительное включение фак тора х,- в модель статистически оправданно и коэффициент чис той регрессии Ь, при факторе х, статистически значим. Если же фактическое значение FX/ меньше табличного, то дополнитель ное включение в модель фактора х,- не увеличивает существенно долю объясненной вариации признака у, следовательно, нецеле сообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистически незначим. С помощью частного /-критерия можно проверить значи мость всех коэффициентов регрессии в предположении, что каж дый соответствующий фактор х,- вводился в уравнение множест венной регрессии последним. Пример. Применим частный /-критерий для оценки значи мости коэффициентов регрессии в уравнении множественной регрессии, описывающей зависимость объема продукции у от за трат труда X] и технической оснащенности производства х2: у = 20,2 + 2,8 •X, + 0,2 •х2 + е. Частный /-критерий для фактора х, определим по формуле 132 2 11- RVl*2 2 В рассматриваемом примере Ryxm = 0,767, rm — 0,667, h = 30, m = 2. Соответственно имеем величину Fx.. „ 0.7672 -0,6672 Ч (30 - 2 -1)=9,4. 2 1-0,767 Табличное значение F-критерия при 5%-ном уровне значи мости для числа степеней свободы 1 и 27 равно 4,21. Следователь но, включение в модель фактора х х после фактора х2 статистиче ски оправдано - доля объясненной вариации возросла на 14,3 проц. пункта (0,7672 - 0,6672) • 100. Частный f -критерий для фак тора х2 определим как ■ у*л В рассматриваемом примере чим значение f . ' = 0,58. Соответственно полу Т абли ц а 3.2 Дисперсионный анализ для оценки существенности фактора х г Источники вариации Общая Регрессия Число степеней свободы Дисперсия Сумма на одну сте квадратов, пень свобо SS ды, D р ^табл ^факг (0,05) 29 270 2 158,8 79,4 19,3 3,35 — ----- — \ Обуслов ленная X, 1 90,8 90,8 22,0 4,21 Обуслов ленная х 2 при данном X, 1 68 68 16,5 4,21 Остаточная 27 111,2 4,118 — — 133 Фактическое значение Fx. больше табличного, и, следова тельно, включение в модель фактора х2 после введения в нее фак тора х, весьма значимо —доля объясненной вариации возросла на 25,2 проц. пункта (58,8-33,6 %). Коэффициент регрессии в модели статистически значим. Значения частных /-критериев получаются в результате дис персионного анализа. Применительно к нашему примеру результаты дисперсионного анализа представлены в табл. 3.2. В табл. 3.2 приведены три значения /-критерия. В первой строке показан общий /-критерий. Он составил 19,3 и характери зует значимость двухфакторного уравнения регрессии в целом. Вторая величина / —22,0 характеризует значимость парной рег рессии у = а + Ъ • Х( при условии, что остаточная дисперсия сов падает с величиной остаточной дисперсии для множественной регрессии. Влияние фактора х, статистически значимо, так как F — 22,0 больше табличного значения / табл = 4,21. Третье значе ние / = 16,5 — это Частный /-критерий, оценивающий значи мость дополнительного включения в модель фактора х2 после введения в нее фактора х (. Его величина совпадает с ранее рассчитанной по формуле частного /-критерия / „ . Табл. 3.2 отличается от таблиц результатов дисперсионного анализа, рассматриваемых ранее (см., например, табл.3.1). В ней источник вариации «регрессия» раскладывается на две составля ющие: 1) обусловленная влиянием факторах!; 2) обусловленная дополнительным включением в регрессионную модель фактора х2. Соответственно в нашем примере число степеней свободы за счет регрессии, равное 2, также раскладывается на число степе ней свободы для каждого фактора, т. е. 1 для фактора xt и 1 для фактора х2. Сумма квадратов за счет регрессии I <ухт - У)2 = • Е(У - У)2 = 0.7672 • 270 = 158,8 соответственно распадается на две суммы. Сумма квадратов, обусловленная включением в модель факторах/, определяется в предположении, что построено лишь парное уравнение регрес сии ух = а + b • Х|. Эта величина может быть рассчитана как г2ух.' Е (у~У )2, что применительно к нашим данным составит 90,8 134 (0,582 ■270). Сумму квадратов, обусловленную дополнительным включением фактора х2, после того как в модель включен фактор х , , определим как разность суммы квадратов за счет регрессии по двум факторам и за счет регрессии только факторах,. Эта величи на составит 68 (158,8 —90,8). Далее по известным уже формулам определяются значения дисперсии на одну степень свободы и /"-критерий. Чтобы получить частный F- критерий для факторах,, необхо димо рассмотреть другую таблицу дисперсионного анализа, в ко торой оценивается дополнительный вклад фактора х, после включения в модель фактора х2 (табл. 3.3). Т абли ц а 3.3 Дисперсионный анализ для оценки существенности фактора х, Число степеней свободы Сумма квадратов, S Дисперсия на одну степень свободы, D F-критерий Общая 29 270 — — Регрессия 2 158,8 79,4 19,3 Обусловлен ная^ 1 120,1 120,1 29,2 Источники вариации Обусловлен ная*, придан ном х 2 1 Остаточная 1 38,7 38,7 9,4 27 111,2 4,118 1 Частный /'-критерий для фактора х, составил, как и ранее, 9,4. Если величина частного / ’-критерия оказывается меньше табличного значения, то дополнительное включение в модель то го или иного фактора нецелесообразно. Частный /-критерий оценивает значимость коэффициентов чистой регрессии. Зная величину Fx , можно определить и Г-кри терий для коэффициента регрессии при /-м факторе, tb , а именно: Ч (3-36> 135 В рассматриваемой модели Nкритерий для коэффициентов чистой регрессии составит: г. =^/^4 = 3,065 и /^ =V16,5 =4,06, что больше табличного значения /табл = 2,05, и подтверждает статис тическую значимость включенных в модель факторов. Если уравнение содержит больше двух факторов, то соответствующая программа PC дает таблицу дисперсионного анализа, показывая значимость последовательного добавления к уравнению регрессии соответствующего фактора. Так, если рас сматривается уравнение у = а + /», •х, + Ьг •х2 + Ьг •х3 + е, то определяются последовательно /'-критерий для уравнения с од ним фактором х,, далее /-критерий для дополнительного включе ния в модель фактора х2, т. е. для перехода от однофакторного уравнения регрессии к двухфакторному, и, наконец, /-критерий для дополнительного включения в модель фактора х3, т. е. дается оценка значимости фактора х3 после включения в модель факто ров х, и х2. В этом случае /-критерий для дополнительного вклю чения фактора х2 после х, является последовательным в отличие от /-критерия для дополнительного включения в модель фактора х3, который является частным /-критерием, ибо оценивает значи мость фактора в предположении, что он включен в модель по следним. С /-критерием Стьюдента связан именно частный /-критерий. Последовательный /-критерий может интересовать исследователя на стадии формирования модели. Оценка значимости коэффициентов чистой регрессии по /-критерию Стьюдента может быть проведена и без расчета част ных /-критериев. В этом случае, как и в парной регрессии, для каждого фактора используется формула \ где ть, (3.37) bt —коэффициент чистой регрессии при факторе xf; ть. - средняя квадратическая ошибка коэффициента регрессии Ь(. Для уравнения множественной регрессии у = а + Ьх -X, + Ь2 х2 + ... Ьр хр средняя квадратическая ошибка коэффициента регрессии может быть определена по следующей формуле: 136 су' 1 р а =------ i— ;--------1 ,■ (3.38) где ау — среднее квадратическое отклонение для признака у\ ах - среднее квадратическое отклонение для признака х,-; — коэффициент детерминации для уравнения множественной р регрессии; г коэффициент детерминации для зависимости фактора х со Лг 1 ‘,1Лр . „ всеми другими факторами уравнения множественной регрессии; п - т — 1 — число степеней свободы для остаточной суммы квадратов отклонений. Как видим, чтобы воспользоваться данной формулой, необ ходимы матрица межфакторной корреляции и расчет по ней со ответствующих коэффициентов детерминации Я хрС1 х Так, для уравнения у = а + •.*[ + Ьг •*2 + Ь3 •х3 + е ... ■ оценка значимости коэффициентов регрессии Ьь Ь2, Ь3 предпола гает расчет трех межфакторных коэффициентов детерминации, а ИМеННО. Я XyXycjt Я Х2 ~х^ху Я ху х|Х2‘ Вместе с тем, если учесть, что <Уу ь ' Iр2 j /хух,...хр */ 1У __ п2 1/Х^..ХР 11-Я ЛУХ ’ (3.39) то можно убедиться, что / ’ «А (3.40) На основе соотношения bt и ть получим: / —Gy А с т I —/?^ I У*1‘“ХР Х/ u l - R XjXi . Gy 11—R^ 1 * <5Х{ V 1 —^Х,х,...хр />2 _ /?2 __ - ------- — Г2------------ V rt-m -l= V ^ f1 137 Продемонстрируем это соотношение на примере двухфактор ного уравнения регрессии у = а + Ьх • х, + Ь2 *х2. Ранее было по казано, что коэффициенты регрессии Л, могут быть определены как гд е р , — с та н д а р ти з о в а н н ы й к о э ф ф и ц и е н т р е гр е с с и и . В свою очередь для двухфакторного уравнения регрессии р Г —Г *ггХуХ% 1— 1 '*1*2 Соответственно параметр Ьх определится как ГУХi Гух2' ГХуХ2 Су I - г 2, оДанное выражение тождественно расчету параметра Ьхисходя из приведенной формулы bh а именно: Л.2 -г.2 )"ух,ха -ухг . = v i-4 Иными словами, имеем тождество ryx I ГУ*1 ' Г* Л i-4 _ 1 I Ryx Л Гухг i-4 Справедливость данного равенства легко доказывается, если выразить / 4 „через парные коэффициенты корреляции: „*1 'Г™ о21 _ Л* +Л* - 2 т У У^2 г.., *1*2 .У*1*2 1 2 Тогда имеем: 138 >*1*2 У*2 _ Следовательно, При представлении результатов множественной рефессии наряду с уравнением множественной рефессии и скорректиро ванным коэффициентом множественной корреляции или детер минации принято приводить значения tb.. Пример. При зависимости объема продукции у от зафат тру дах, и технической оснащенности х2 результаты рефессии оказа лись следующими: у = 20,2 + 20,8 •х, + 0,2 •х2 + е; hi ~ 3,1; tb2 —4,1; R —0,747. Практически если фактические значения tb > 3, то совершенно ясно, что значение коэффициента рефессии статистически досто верно. Уравнение может быть использовано для прогнозирования. Величина / ’-критерия, оценивая значимость уравнения рег рессии в целом, характеризует одновременно и значимость коэф фициента (индекса) множественной корреляции. Вместе с тем оценку существенности коэффициента множественной корреля ции можно дать и через сравнение скорректированного коэффи циента корреляции с его табличным значением при соответству ющем уровне вероятности и числе степеней свободы я —т — I. Так, при я —30 и т = 2 фактическое значение R должно превы шать 0,368 при 5 %-ном уровне значимости, чтобы можно было считать его значение отличным от нуля с вероятностью 0,95. 139 I Аналогично можно оценивать и существенность частных по казателей корреляции. Фактическое значение частного коэффи циента корреляции сравнивается с табличным значением при а — 0,05 или а = 0,01 и числе степеней свободы к = п —h —2, где п — число наблюдений, h — число исключенных переменных. Так, если п = 30 и оценивается существенность частного коэффи циента корреляции второго порядка (например, г„. то h = 2 и к = 26. Если h является наивысшим порядком расчета частных коэф фициентов корреляции для уравнения регрессии, то практически величина к совпадает с числом степеней свободы для остаточной вариации с п —т —1. Так, в уравнении у —а + Ьх •х х + Ьг ■ + Ь3х х х3 + е, рассчитанном при и = 30, п —т — 1 = 26. Если же урав нение регрессии дополняется расчетом частных коэффициентов корреляции разных порядков (второго, третьего и т. п.), то к —п —И— 2. Если величина частного F-критерия выше табличного значе ния, то это означает одновременно не только значимость рассма триваемого коэффициента регрессии, но и значимость частного коэффициента корреляции. Существует взаимосвязь между ква дратом частного коэффициента корреляции и частным F-крите рием, а именно: . . . » ■ ' ~f v * 1 1 Кухх...хр где г*т .Х1„^ ■>•■=■ д • *ж * —частный коэффициент детерминации фактора xf с у при неизменном уровне всех других факторов; 1 —lPyxy.jCi^xj+i х ~ Д°ля остаточной вариации уравнения регрессии, р включающего все факторы, кроме фактора xt\ 1х - доля остаточной вариации для уравнения регрес сии с полным набором факторов. Пример. Для рассматриваемой регрессии у = 20,2 + 20,8 •х { + 0,2 •х2 + е; Гуху*г * 0,51; гт = 0,667; ^ = 0,767. Тогда 0,512 •1 •(30 - 2 -1) = 9,4, 1- 0,767 что соответствует ранее определенной величине F, 140 <3-41> 4 Взаимосвязь показателей частного коэффициента корреля ции, частного /"-критерия и /-критерия Стьюдента для коэффи циентов чистой регрессии может использоваться в процедуре от бора факторов. Отсев факторов при построении уравнения рег рессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением част ного коэффициента корреляции, но и по величинам tb. и FXj. Частный /"-критерий широко используется и при построении мо дели методом включения переменных и шаговым регрессионным методом1. 3.9. ФИКТИВНЫЕ ПЕРЕМЕННЫЕ ВО МНОЖЕСТВЕННОЙ РЕГРЕССИИ До сих пор в качестве факторов рассматривались экономиче ские переменные, принимающие количественные значения в не котором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качествен ных уровней. Это могут быть разного рода атрибутивные призна ки, такие, например, как профессия, пол, образование, климати ческие условия, принадлежность к определенному региону. Что бы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. каче ственные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурные переменные» . Рассмотрим применение фиктивных переменных для функ ции спроса. Предположим, что по группе лиц мужского и жен ского пола изучается линейная зависимость потребления кофе от цены. В общем виде для совокупности обследуемых уравнение регрессии имеет вид: у —а + Ь- х + е, где у — количество потребляемого кофе; х — цена. 'Подробнее о разных методах построения уравнения множественной регрессии см.: Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — С. 172-225. 2См., например: Ерина AM. Математико-статистические методы изуче ния экономической эффективности производства. —М.: Финансы и стати стика, 1983. 141 Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: у х — ах + Ьх • х х + ъх и женского пола: у2 = а2 + Ь2 • х2 + е2. Различия в потреблении кофе проявятся в различии средних у х и у 2 . Вместе с тем сила влияния х на у может быть одинако вой, т. е. Ь » Ьх » Ь2. В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединяя уравнения у\ и у2 и вводя фиктивные переменные, можно прийти к следующему выражению: у = ах ■zx + а2' %2 + b ‘ х + е, где z x и Z2 —фиктивные переменные, принимающие значения: 2| = 1 —мужской пол . О—женский пол ’ _ 0 —мужской пол 1 —женский пол В общем уравнении регрессии зависимая переменная у рас сматривается как функция не только цены х, но и пола (zx, Zj). Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда Z\ - 1, то z2 —0 и, наоборот, при zx — 0 переменная z2 - 1. Для лиц мужского пола, когда z x - 1 и г2 = 0> объединенное уравнение регрессии составит: у —ах + b • х, а для лиц женского пола, когда z x - 0 и z2 - 1, у - а2 + b • х. Иными словами, разли чия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии: ах * а2. Па раметр Ь является общим для всей совокупности лиц, как для мужчин, так и для женщин. Следует иметь в виду, что при введении фиктивных перемен ных Z\ и z2 в модель y - a x-zx +a2-z2 + b -x + s применение МНК для оценивания параметров ах и а2, приведет к вырожденной ма трице исходных данных, а следовательно, и к невозможности по лучения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т. е. урав нение примет вид у —ах • zx + а2- z2 + Ь •х + А. Предполагая при параметре А независимую переменную, рав ную 1, имеем матрицу исходных данных: 142 I 1 1 1 1 1 1 1 *2 *3 *4 [_1 О 1 *5 J В рассматриваемой матрице существует линейная зависи мость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего столбцов. Поэтому матрица исходных факторов вырождена. Выходом из создавшегося затруднения мо жет явиться переход к уравнениям у —A + A |'Z | + ft‘X+ e или у = А + Лг • Z2 + Ь •х + е, т. е. каждое уравнение включает только одну фиктивную пере менную Z\ или ZiПредположим, что определено уравнение у = А + Aj •Z\ + Ь •х + е, где Z\ —принимает значения 1 для мужчин и 0 для женщин. Теоретические значения размера потребления кофе для мужчин будут получены из уравнения у = А + А[ + Ь • х. Для женщин соответствующие значения получим из уравнения у =*А + Ь •х. Сопоставляя эти результаты, видим, что различия в уровне по требления мужчин и женщин состоят в различии свободных чле нов данных уравнений: А —для женщин и А + А, - для мужчин. Пример. Проанализируем с использованием фиктивных пере менных зависимость урожайности пшеницы у от вида вспашки z и количества внесенного органического удобрения х. 143 По 25 наблюдениям уравнение парной регрессии (без учета вида вспашки) составило: у = 11,463 + 0,326 х; 8,7; /А- 11,9; /„ - 2,95; - 0,5246. Для его расчета использовалась следующая система нормаль ных уравнений: ' 25-а+ 192-6 = 349,1, 192-Д+1914-6 = 2824,2. Уравнение регрессии статистически значимо —F, tb, ^ пре вышают табличные значения: при 5 %-ном уровне существенно сти и числе степеней свободы 23: F - 4,28; tb — 2,069; г^ = 0,398; при 1 %-ном уровне значимости: F — 7,88; 1Ь — 2,807; = 0,507). По виду вспашки поля характеризовались двумя категория ми: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайнос ти. Чтобы убедиться в этом, введем в уравнение регрессии фик тивную переменную z для отражения эффекта вида вспашки, а именно: z — 1 для зяблевой вспашки и z —0 для весенней вспаш ки. Уравнение регрессии примет вид: у —а + b'X + c'Z + EПрименяя метод наименьших квадратов для оценки парамет ров данного уравнения, получим следующую систему нормаль ных уравнений: Г 2> = и-а+ б-2> + с-£.г, £ у - х =а-'£х +Ь-'£х2 +c-'£zx, '£.yz =a-'Zz +b - Y x z + c - Y z 2. Ввиду того, что z принимает лишь два значения (1 и 0), Y z ~ n l (число полей с зяблевой вспашкой), Е х • z —Ex, (количе ство внесенных удобрений на полях с зяблевой вспашкой), Е г “ Ег = « 1, Еу • z —EVi (сумма у по полям зяблевой вспашки). 144 В рассматриваемом примере вся совокупность из 25 единиц подразделена на две подгруппы: с зяблевой вспашкой —13 полей и с весенней — 12 полей, т. е. и, = 13 и п2 — 12. Соответственно разделению на эти две группы имеем: - 9 9 + 93 - 192; 1у - + 1у2 - 199,4 + 149,7 - 349,1. Тогда система нормальных уравнений примет вид: 25а+192-6+13с = 349,1, 192-а+1914-6+99-с = 2824,2, 13-а+99-6+13-с= 199,4. Решая ее, получим уравнение регрессии ( V у —9,908 + 0,331 •х + 2,908 • z. Уравнение регрессии статистически значимо: F — 15,6; R = 0,766; Ж = 0,741; (а = 11,8; tb - 3,9; tc - 4,1. Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объясненной ва риации выросла с 27,5 % ( г ^ = 0,2752) до 58,7 % (R2^ — 0,5867). При этом сила влияния количества внесенных органических удо брений на урожайность осталась практически неизменной: коэф фициенты регрессии, по существу, одинаковы (0,326 в парном уравнении и 0,331 во множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практиче ски отсутствует: гх1 = - 0,016. Применение зяблевой вспышки способствует росту урожай ности в среднем на 2,9 ц с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и разли чию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц с 1 га для весенней вспашки). Частный /'-критерий для фактора г составил 16,58, что выше табличного значения при числе степеней свободы 1 и 22 (4,30 при а = 0,05 и 7,94 при а — 0,01). Это подтверждает целесообразность включе ния фиктивной переменной в уравнение регрессии. Уравнения парной регрессии по отдельным видам вспашки показывают, практически единую меру влияния количества вне сенного удобрения на урожайность: 1Q-1523 145 у = 12,678 + 0,349 - jc, R - 0,638 —при зяблевой вспашке; у = 10,148 + 0,300 •х, R = 0,643 - при весенней вспашке. Поэтому вполне реально предположить единую меру влияния данного фактора независимо от вида вспашки, что и имеет место в уравнении регрессии с фиктивной переменной. Включив фик тивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции г„ . х, оценива ющий в чистом виде влияние данного фактора, составил 0,6555, что несколько выше, чем аналогичный показатель для фактора х, т. е. г * . г - 0,6385. Частные уравнения регрессии по отдельным видам вспашки составили: |) —12,816 + 0,331 •х —для зяблевой вспашки; У(г=0) “ 9,908 + 0,331 •х —для весенней вспашки. Как видим, функция урожайности для первой группы (при z = 1) параллельна функции для второй группы, но сдвинута вверх. В рассмотренном примере качественный фактор имел только два состояния, которым и соответствовали обозначения 1 и 0. Ес ли же число градаций качественного признака-фактора превы шает два, то в модель вводится несколько фиктивных перемен ных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица ис ходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели. Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хру щевка», панельный, кирпичный. При использовании трех категорий домов вводятся две фик тивные переменные: h и s2. Пусть переменная zx принимает зна чение 1 для панельного дома и 0 для всех остальных типов домов; переменная z2 принимает значение 1 для кирпичных домов и 0 для остальных; тогда переменные z t и г2 принимают значения 0 для домов типа «хрущевки». Предположим, что уравнение регрессии с фиктивными пере менными составило: у —320 + 500 • х + 2200 • Z\ + 1600 • z% 146 Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид: • «хрущевки» —у = 320 + 500 • х, • панельные —у — 2520 + 500 • х; • кирпичные —у — 1920 + 500 • х; Параметры при фистивных переменных Z\ и г2 представляют собой разность между средним уровнем результативного при знака для соответствующей группы и базовой группы. В рассма триваемом примере за базу сравнения цены взяты дома «хрущев ки», для которых Z\ —Z2 —0. Параметр при Z\ —2200 означает, что при одной и той же полезной площади квартиры цена ее в па нельных домах в среднем на 2200 долл. США выше, чем в «хру щевках». Соответственно параметр при Zj показывает, что в кир пичных домах цена выше в среднем на 1600 долл. при неизмен ной величине полезной площади по сравнению с указанным ти пом домов. В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т. е. двух и более ка чественных факторов, каждый из которых может иметь несколь ко градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выраже ние (цена, доход на одного члена семьи, цена на взаимозаменяе мые товары и др.), учитываются и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по по лу, национальному составу и др. При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три соци альные группы, три возрастные категории и ряд экономических переменных, то она примет вид: 9 у “ а + 6| *st + £>2 *s2 ^3 ' Z\ где ^4 *^2 ^5 **1 ^6 ’ х2 ’ хк у - потребление; 1 —если наблюдения относятся к социальной группе (/ = 1,2), 0 —в остальных случаях; 1 —если наблюдения относятся к возрастной группе (/ = 1,2), 0 —в остальных случаях; xJf х2,..., хк ~ экономические (количественные) переменные. 10* 147 Фиктивные переменные широко используются для оценки сезонных различий в потреблении. Учет сезонного фактора при построении динамических моделей рассмотрен в главе 5. Фиктивные переменные могут вводиться не только в линей ные, но и в нелинейные модели, приводимые путем преобразова ний к линейному виду. Так, модель с фиктивными переменными может иметь вид: • 1пу = а + Ьх •Х| + ... + Ьр •хр + с *z + е, где z —фиктивная переменная. Целесообразность такого вида модели диктуется характером связи между экономическими переменными: у —a - ft*1• ft2*2... Ь*р • е. ¥ Фиктивная переменная вводится в эту модель как очередной сомножитель: у —a - ft*1 ■ft2*2 ... Ь*р ■ £ y - Z 2 =a-Yz 2+bi-ZZiZi +Ьг- Z z l Поскольку переменные z принимают лишь два значения — 1 или 0, в данной системе имеем следующие равенства: = Zzi2 = nx = 8; Хг2 = Zz2 ~ 12; Zz\z2 = 0. Соответственно система нормальных уравнений составит: 30*a+ 8 ■Л| +12 'l?2 —1404, * 8*a + 8• —280, I 2a+ 12-^2 =558. 151 Решая систему, получим: а = 56,6; Ь{ = — 21.6; Ъ2 = —10.1. Уравнение регрессии, как было показано ранее, примет вид: у = 56,6 —21,6 • Z\ — 10,1 • ZiИндекс детерминации для данной модели составит: что статистически значимо: / ’-критерий = 54,6 при а = 0,05 и при степенях свободы 2 и 27, / та6л = 3,35. Поскольку коэффициенты при фиктивных переменных в мо дели, не содержащей других экономических факторов, характе ризуют величину эффектов /-го уровня фактора г, то регрессион ная модель по своему содержанию тождественна дисперсионной модели. В основе нашего примера лежит дисперсионная модель вида Уц = У + Tj + Eg, где Уу — у-е наблюдение результативного признака на/-м уровне исследу емого фактора (в примере i = 1 ,2 ,3;у —1,..., 30); У — среднее значение результативного признака в целом по совокуп ности (в примере у = 46,8); Tj — эффект, обусловленный i-м уровнем фактора р, где р —число оцениваемых параметров. I Т абли ц а 3.7 Поступление доходов в консолидированный бюджет Санкт-Петербурга (у - млрд руб.) в зависимости от численности работающих на крупных и средних предприятиях (х —тыс. чел.) экономики районов за 1994 г.1 № п/и 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Итого А Районы города */ Уг Ух Павловский Кронштадт Ломоносовский Курортный Петродворец Пушкинский Красносельский Приморский Колпинекий Фрунзенский Красногвардейский Василеостровский Невский Петроградский Калининский Выборгский Кировский Московский Адмиралтейский Центральный 3 6 8 18 20 23 39 49 60 74 79 95 106 112 115 125 132 149 157 282 1652 4,4 8,1 12,9 20,8 15,5 28,8 37,5 48,7 68,6 104,6 90,5 88,3 132,4 122,0 99,1 114,2 150,6 156,1 209,5 342,9 1855,5 -1,0 2,5 4,9 16,6 19,0 22,5 41,4 53,2 66,1 82,6 88,5 107,4 120,4 127,4 131,0 142,7 151,0 171,0 180,5 327,8 1855,5 5,4 5,6 8,0 4,2 -3,5 6,3 -3,9 -4,5 2,5 22,0 2,0 -19,1 12,0 -5,4 -31,9 -28,5 -0,4 -14,9 29,0 15,1 0,0 'За строками цифр. —СПб, 1995. —С. 141—145. 165 3. Разделение совокупности из (п — С) наблюдений на две группы (соответственно с малыми и большими значениями фак тора х) и определение по каждой из групп уравнений регрессии. 4. Определение остаточной суммы квадратов для первой (5\) и второй (S2) групп и нахождение их отношения: R = J , : S2. При выполнении нулевой гипотезы о гомоскедастичности от ношение R будет удовлетворять / ’-критерию с (п —С —2р) : 2 сте пенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение /'-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточ ных величин. Пример. Рассмотрим табл. 3.7. В соответствии с уравнением ух = -4,565 + 1,178 •х (г = 0,9828, F= 510,7) найдены теоретические значения ух и отклонения от них фактиче ских значений у, т. е. е,. Итак остаточные величины 8, обнаружи вают тенденцию к росту по мере увеличения х и у (рис. 3.11). 166 Этот вывод подтверждается и по критерию Гольдфельда Квандта. Для его применения необходимо определить сначала число исключаемых центральных наблюдений С. Из экспери ментальных расчетов, проведенных авторами метода для случая одного фактора, рекомендовано при п = 30 принимать С = 8, а при п = 60 —соответственно С = 16. В рассматриваемом примере при п = 20 было отобрано С = 4. Тогда в каждой группе будет по 8 наблюдений [(20 - 4 ): 2]. Результаты расчетов представлены в табл. 3.8. Т абли ц а 3.8 Проверка линейной регрессии ив гетероскедастичность Уравнения регрессии X У Ух € I-я группа с первыми 8 районами: ух = 2,978+ +0,92\х г = 0,979 F= 136,4 3 6 8 18 20 23 39 49 4,4 8,1 12,9 20,8 15,5 28,8 37,5 48,7 5,7 8,5 10,3 19,6 21,4 24,2 38,9 48,1 -1,3 -0,4 2,6 1,2 -5,9 4,6 -1,4 0,6 А 68,34 Сумма 2-я группа с последними 8 районами: ух = 31,142 + + 1,338х г * 0,969 93,4 г Л Сумма 1,69 0,16 6,76 1,44 34,81 21,16 1,96 0,36 106 112 115 125 132 149 157 282 132,4 122,0 99,1 114,2 150,6 156,1 209,5 342,9 * 110,7 118,7 122,7 136,1 145,4 168,2 178,9 346,1 21,7 3,3 -23,6 -21,9 5,2 -12,1 30,6 -3,2 470,89 10,89 556,96 479,61 27,04 146,41 936,36 10,24 2638,40 Величина R = 2638,4 : 68,34 = 19,3, что превышает табличное значение /'-критерия 4,28 при S %-ном и 8,47 при 1 %-ном уров не значимости для числа степеней свободы 6 для каждой остаточ ной суммы квадратов ((20 — 4 — 2*2) : 2), подтверждая тем са мым наличие гетероскедастичности. 167 При построении регрессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК —отсутствие автокор реляции остатков, т. е. значения остатков е,- распределены неза висимо друг от друга. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последую щих) наблюдений. Коэффициент корреляции между б,- и еу, где е; —остатки текущих наблюдений, г, —остатки предыдущих наблю дений (например, j = / - 1), может быть определен как соv(e/,ejF) т. е. по обычной формуле линейного коэффициента корреляции. Если этот коэффициент окажется существенно отличным от ну ля, то остатки автокоррелированы и функция плотности вероят ности F(e) зависит от j- й точки наблюдения и от распределения значений остатков в других точках наблюдения. Для регрессионных моделей по статической информации ав токорреляция остатков может быть подсчитана, если наблюдения упорядочены по фактору х, как это имеет место в табл.3.7. Коэф фициент автокорреляции остатков может быть найден по следу ющим рядам данных (л = 19): Е/-1 5,6 8 4,2 -3,5 6,3 ■■■ -14,9 29,0 15,1 5,4 5,6 8 4,2 -3,5 ■■■ -0,4 -14,9 29,0 Учитывая, что соу(е(.,е,_,)=ё7ёП - Щ'ё~,=924,99:19—(—0,2842) ■(-0,7947) = 48,4578. оге/ = 15,1347, огы-_ j = 14,7663,-получим: гг. гс. = 0,2168, что при 17 степенях свободы явно незначимо ( / ’-отношение < 1) и демонстрирует отсутствие автокорреляции остатков. Отсутствие автокорреляции остаточных величин обеспечива ет состоятельность и эффективность оценок коэффициентов ре грессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динами ки, где ввиду наличия тенденции последующие уровни динами ческого ряда, как правило, зависят от своих предыдущих уров ней. О специфике исследования остаточных величин по регрес сионным моделям по временным рядам (см. п. 6.4). 168 Наряду с предпосылками МНК как метода оценивания пара метров регрессии при построении регрессионных моделей долж ны соблюдаться определенные требования относительно пере менных, включаемых в модель. Они были рассмотрены ранее при решении проблемы отбора факторов. Это прежде всего требова ние относительно числа факторов модели по заданному объему наблюдений (отношение 1 к 6—7). Иначе параметры регрессии оказываются статистически незначимыми. В общем виде приме нение МНК возможно, если число наблюдений п превышает чис ло оцениваемых параметров т, т. е. система нормальных уравне ний имеет решение только тогда, когда п> т . Чрезвычайно важным является и требование относительно матрицы исследуемых факторов. Она должна бьггь свободна от мультиколлинеарности. Во множественной регрессии предпола гается, что матрица факторов представляет собой невырожден ную матрицу, определитель которой отличен от нуля. Наличие мультиколлинеарности мо^ет исказить правильную экономиче скую интерпретацию параметров регрессии (см. п. 3.2). При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрес сии, которые обладают свойством несмещенности, имеют мень шее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости пара метров регрессии. Этой цели, как уже указывалось, служит и при менение обобщенного метода наименьших квадратов, к рассмот рению которого мы и переходим в п. 3.11. 3.11. ОБОБЩЕННЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ При нарушении гомоскедастичносги и наличии автокорреля ции ошибок рекомендуется традиционный метод наименьших квадратов (известный в английской терминологии как метод OLS — Ordinary Least Squares) заменять обобщенным методом, т. е. методом GLS (Generalized Least Squares). Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют мень169 шие выборочные дисперсии. Специфика обобщенного МНК применительно к корректировке данных при автокорреляции ос татков будет рассмотрена далее. Здесь остановимся на использо вании обобщенного МНК для корректировки гетероскедастич ности. Как и раньше, будем предполагать, что среднее значение ос таточных величин равно нулю. А вот дисперсия их не остается не изменной для разных значений фактора, а пропорциональна ве личине Kt, т. е. где о2 - дисперсия ошибки при конкретном /'-м значении фактора; о - постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; К, - коэффициент пропорциональности, меняющийся с изменением величины фактора, что и обусловливает неоднородность диспер сии. При этом предполагается, что о2 неизвестна, а в отношении величины К выдвигаются определенные гипотезы, характеризу ющие структуру гетероскедастичности. В общем виде для уравнения У1 = а + Ь-х, + е, при о2 = о2 • К„ модель примет вид: у, =а+$г х,+,[к^-Е1. В ней остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции, можно перейти к уравнению с гомоскедастичными остатками, поделив все переменные, зафик сированные в ходе /-го наблюдения на ~Щ. Тогда дисперсия остатков будет величиной постоянной, т. е. сг = о2. Иными словами, от регрессии у по х мы перейдем к регрессии на новых переменных: уД/к и х/*Гк . Уравнение регрессии примет вид: 170 Исходные данные для данного уравнения будут иметь вид ■ *1 У\ . У2 У - хг х=J J k 2 k 2 t *п Уп 4 *ш По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляет собой взвешен ную регрессию, в которой переменные у и х взяты с весами \ / 4 к . Оценка параметров нового уравнения с преобразованными переменными приводит к взвешенному методу наименьших ква дратов, для которого необходимо минимизировать сумму квадра тов отклонений вида S = ' L ~ ( y l -a -b -x ,)2. Кi Соответственно получим следующую систему нормальных уравнений: t - * a - Z - r +b' Z i h ’ z У Г * 1 -= к. XI a Y ^ - + Kt b - ' Z ^ r . К, Если преобразованные переменныех и у взять в отклонениях от средних уровней, то коэффициент регрессии b можно опреде лить как 1 При обычном применении метода наименьших квадратов к уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент регрессии b определяется по формуле b Z(*-y) Как видим, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии b представляет собой взвешенную величину по отношению к обычному МНК с весами 1/К. Аналогичный подход возможен не только для уравнения пар ной, но и для множественной регрессии. Предположим, что рас сматривается модель вида у = а + Ьх •х, + Ь2 •х2 + е, для которой дисперсия остаточных величин оказалась пропорци ональна К2,-. К, - представляет собой коэффициент пропорцио нальности, принимающий различные значения для соответству ющих / значений факторов х х и х2. Ввиду того, что о2,. = о2 • К2,-, рассматриваемая модель примет вид У/ = а + Ьх ■х х. + Ь2 ■х2. + К,- • Zj, где ошибки гетероскедастичны. Для того чтобы получить уравнение, где остатки е, гомоскедастичны, перейдем к новым преобразованным переменным, раз делив все члены исходного уравнения на коэффициент пропор циональности К. Уравнение с преобразованными переменными составит J\j J\ f Aj‘ J\j‘ Это уравнение не содержит свободного члена. Вместе с тем, найдя переменные в новом преобразованном виде и применяя обычный МНК к ним, получим иную спецификацию модели: Параметры такой модели зависят от концепции, принятой для коэффициента пропорциональности К,-. В эконометрических исследованиях довольно часто выдвигается гипотеза, что остатки е, пропорциональны значениям фактора. Так, если в уравнении к у = а + ft, •х, + b2 ■х2 + ... + Ь. •хр + Е предположить, что Е = е • х,, т. е. К = X] и = сг2 • х*, то обоб щенный МНК предполагает оценку параметров следующего трансформированного уравнения: — =6, +bj •— +...+Ь. —£-+е. Х| Xi Xi Если предположить, что ошибки пропорциональны хр, то мо дель примет вид: =bp +bf —L+ . . . + Й •—^-+8. Хр X. Хр Применение в этом случае обобщённого МНК приводит к то му, что наблюдения с меньшими значениями преобразованных переменных х/К имеют при определении параметров регрессии относительно больший вес, чем с первоначальными переменны ми. Вместе с тем следует иметь в виду, что новые преобразован ные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным. Пример. Пусть у —издержки производства, х, —объем продукции, х2 — основные производственные фонды, х3 - численность работни ков, тогда уравнение у —а + by ■х, + b2 ■х2 + bj •х3 + Е является моделью издержек производства с объемными фактора ми. Предполагая, что <ге. пропорциональна квадрату численнос ти работников х3, мы получим в качестве результативного при знака затраты на одного работника (у/х3), а в качестве факторов следующие показатели: производительность труда (х,/х3) и фондовооруженность труда (x^Jx3). Соответственно трансфор мированная модель примет вид 173 где параметры bx, Ь2, Ьъ численно не совпадают с аналогичными параметрами предыдущей модели. Кроме того, коэффициенты регрессии меняют экономическое содержание: из показателей силы связи, характеризующих среднее абсолютное изменение из держек производства с изменением абсолютной величины соот ветствующего фактора на единицу, они фиксируют при обоб щенном МНК среднее изменение затрат на работника; с измене нием производительности труда на единицу при неизменном уровне фондовооруженности труда; и с изменением фондовоору женности труда на единицу при неизменном уровне производи тельности труда. Если предположить, что в модели с первоначальными пере менными дисперсия остатков пропорциональна квадрату объема продукции, о2.. = о2 • х2,, можно перейти к уравнению регрессии вида В нем новые переменные: у /х х - затраты на единицу (или на 1 руб. продукции), x-Jxx—фондоемкость продукции, xj/jc, - тру доемкость продукции. Гипотеза о пропорциональности остатков величине фактора может иметь реальное основание: при обработке недостаточно однородной совокупности, включающей как крупные, так и мел кие предприятия, большим объемным значениям фактора может соответствовать большая дисперсия результативного признака и большая дисперсия остаточных величин. При наличии одной объясняющей переменной гипотеза а2,. = о2* 2 трансформирует линейное уравнение у ^ а + Ь 'Х + Е 'х в уравнение У L а —=Ь+—+Б, X X в котором параметры а и b поменялись местами, константа стала коэффициентом наклона линии рефессии, а коэффициент рег рессии —свободным членом. 174 Пример. Рассматривая зависимость сбережений у от дохода х, по первоначальным данным было получено уравнение регрес сии 1 у = —1,081 + 0Д17&Х. Применяя обобщенный МНК к данной модели в предполо жении, что ошибки пропорциональны доходу, было получено уравнение для преобразованных данных: —= 0,1026-0,8538-—. х х Коэффициент регрессии первого уравнения сравнивают со свободным членом второго уравнения, т. е. 0,1178 и 0,1026 — оценки параметра b зависимости сбережений от дохода. Переход к относительным величинам существенно снижает вариацию фактора и соответственно уменьшает дисперсию ошибки. Он представляет собой наиболее простой случай учета гетероскедастичности в регрессионных моделях с помощью обобщенного М НК Процесс перехода к относительным величи нам может быть осложнен выдвижением иных гипотез о пропор циональности ошибок относительно включенных в модель фак торов. Например, In о*е. = Inо2 + b • lnx + v, т. е. рассматривается характер взаимосвязи Ine2, от lnx. Использование той или иной гипотезы предполагает специальные исследования остаточных величин для соответствующих регрессионных моделей. Приме нение обобщенного МНК позволяет получить оценки парамет ров модели, обладающие меньшей дисперсией. Контрольные вопросы к главе 3 1. Назовите, в чем состоит спецификация модели множествен ной регрессии. 2. Сформулируйте требования, предъявляемые к факторам для включения их в модель множественной регрессии. 3. К каким трудностям приводит мультиколлинеарность факто ров, включенных в модель, и как они могут быть разрешены? 4. Назовите методы устранения мультиколлинеарности факто ров. 'См.: Л и зер С. Эконометрические методы и задачи/Пер. с англ. — М.: Статистика, 1971. - С. 23. 175