Регрессия и временные ряды

👀 2610 просмотров
📌 2566 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Регрессия и временные ряды», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Регрессия и временные ряды», Word формат

ЧАСТЬ J V Регрессия и временные ряды В этой части... Глава 11. “ Корреляция и регрессия: измерение и прогнозирование взаимосвязей” Гл а ва 12. “ М ножественная регрессия: прогнозирование одного фактора на основе нескольких других” Глава 13. “ Составление отчетов: представление результатов множественной регрессии” Гл а ва 14. “ Временные ряды: анализ изменений во времени” И так, вы уж е познакомились с основами статистики: вы знаете, как анализи ровать данные, вы числять и интерпретировать вероятности, как получить случай ную выборку и сделать статистический вывод. Теперь наша задача заклю чается в том, чтобы применить все эти концепции для вы явления различных взаимосвязей, скрываю щ ихся в сложных ситуациях реальной ж изни. В главе 11 будет показано, как статистика позволяет вы явить взаимосвязь ме жду двумя факторами на основе двумерной сово купности данных в виде двух столбцов чисел. П ока затель корреляции покажет, насколько сильна эта взаимосвязь, а регрессия позволит прогнозировать один фактор на основе другого. Самым важ ны м ста тистическим методом, возможно, является множе ственная регрессия, речь о которой пойдет в главе 12. Именно множественная регрессия позволяет ис пользовать все имеющиеся у вас факторы для пред сказания (т.е. снижения уровня неопределенности) некоторого важного, но неизвестного значения. По скольку общение представляет собой весьма важ ны й инструмент бизнеса, в главе 13 речь пойдет о том, как с максимальной эффективностью довести до сведения других людей полезную информацию, по лученную вами в результате анализа методом мно жественной регрессии. Несмотря на неизменность базовых концепций, для анализа временных рядов, представленного в главе 14, требуются такие новые способы применения статистических методов, кото рые позволяют извлечь дополнительную информа цию, содержащуюся во временной последовательно сти наблюдений. ГЛАВА 1 Л Корреляция и регрессия: измерение и прогнозирование взаимосвязей О кружаю щ ий нас мир полон всевозможных взаимосвязей: между отношением к труду и производительностью, между корпоративной стратегией и долей ры н ка, между вмеш ательством государства и состоянием экономики, между объе мом выпускаемой продукции и затратами, между сбытом и доходами и т.п. До сих пор нас интересовали главным образом такие статистические характеристики, как среднее значение и отклонение, которых обычно бывает дос таточно, когда приходится иметь дело с одномерны ми данными (т.е. лиш ь с одним измерением — на пример, заработной платой) о каждой элементарной единице (например, о служащ ем). Когда вы имеете дело с двумерными данными (например, заработной платой и образованием), всегда есть возможность изучать каждое измерение по отдельности — как часть одномерной совокупности данных. Однако ре альную отдачу можно получить лиш ь от совместно го изучения обоих измерений, что дает возможность вы яви ть взаимосвязь между ними. И зучая взаимосвязи в двумерных данных, следует всегда помнить о следующих трех основных целях. П ервая. Описание и понимание взаимосвязи. Это самая общая цель, обеспечивающая получение базовой информации, с помощью которой можно лучш е понять истинное устройство окружающ его нас мира. При изучении сложной системы очень важно знать, какие факторы наиболее тесно взаи модействуют друг с другом, а какие вообще не оказы ваю т вли ян ия друг на друга. Знание этой информации может оказать значительную помощь в долгосрочном планировании и принятии других стратегических решений. Вторая. Прогнозирование и предсказание нового наблюдения. Понимание не которой взаимосвязи может позволить использовать информацию об одном из измерений для более качественного предсказания другого измерения. Если , на пример, вам известно, что в этом квартале количество заказов на продукцию увеличилось, можно ожидать и увеличения объема сбыта. Если вы проанализи ровали взаим освязь между количеством заказов и объемами сбыта в прошлом, у вас есть все ш ансы сделать достоверный прогноз сбыта на будущее, основываясь на текущ ем количестве заказов. Третья. Регулирование и управление процессом. Когда вы вмешиваетесь в ка кой-либо процесс (например, регулируете уровень производства, вводя некоторые технологические изменения или новый тип обслуж ивания), необходимо опреде лить объем этого вмеш ательства. Если сущ ествует непосредственная взаимосвязь между вмеш ательством и результатом и вы эту взаимосвязь понимаете, то такое знание может помочь вам выполнить оптимальное регулирование. Двумерные данные могут иметь различную структуру; с некоторыми стр укту рами работать легко, с другими — труднее. Исследование данных с помощью диаграммы рассеяния позволяет увидеть то, что находится за привы чны ми ста тистическими характеристиками. Сущ ествую т два базовых инструмента, с по мощью которых анализирую т двумерные данные: корреляционный анализ, по зволяю щ ий оценить степень взаимосвязи между двумя факторами (если такая взаимосвязь вообще сущ ествует), и регрессионный анализ, показываю щ ий, как можно предсказать или управлять одной из двух переменных с помощью другой. Проверка статистических гипотез позволяет оценить взаимосвязь, которая, как вам каж ется, сущ ествует в изучаемых данных, и вы яснить, является ли она значимой или может бы ть объяснена исклю чительно случайностью . 11.1. Исследование взаимосвязей с помощью диаграмм рассеяния и корреляций Когда приходится иметь дело с двумерными данными, следует нарисовать диаграмму рассеяния, которая позволяет увидеть структуру. Так ж е ка к гисто грамма отображает структуру одномерных данных (нормальное распределение, асимметрия, выбросы и т.д .), диаграмма рассеяния показывает вам все, что про исходит с двумерными данными. Если ваш и данные содержат какие-то пробле мы (например, выбросы или какие-то неожиданные особенности), зачастую единственный способ их обнаружения состоит ка к раз в анализе соответствую щей диаграммы рассеяния. Корреляция является мерой силы взаимосвязи. Подобно всем статистическим характеристикам, корреляция одновременно и полезна, и ограничена. Если диа грамма рассеяния показывает, например, ярко выраженную линейную взаимо связь (о которой мы вскоре поговорим подробнее) или отсутствие какой-либо взаимосвязи, то корреляция превосходно это отражает. Но если данные содер ж ат определенные проблемы (о которых мы такж е поговорим ниже подробнее), такие ка к нелинейная взаимосвязь, неодинаковая изменчивость, наличие групп или выбросов, корреляция может вводить в заблуждение. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ . 519 Сама по себе корреляция носит ограниченный характер, поскольку ее интер претация зависит от типа взаимосвязи в данных. Вот почему столь большое значе ние придается диаграмме рассеяния: она либо подтверждает обычную интерпрета цию корреляции, либо показывает наличие в данных определенных проблем, ко торые приводят к тому, что корреляция лиш ь вводит нас в заблуждение. Диаграмма рассеяния демонстрирует взаимосвязь Д иаграмма рассеяния представляет каждое наблюдение (или элементарную единицу) в пространстве двух измерений, соответствующ их двум факторам. Если одна переменная рассматривается ка к “ причина” , влияю щ ая на другую перемен ную, она обозначается буквой X и ей соответствует горизонтальная ось. Реаги рую щ ая на это влияние переменная обозначается буквой Y , и ей соответствует вертикальная ось. Если нельзя четко указать, ка ка я переменная оказывает влияние, а ка ка я подвержена влиянию , то можно просто обозначить один ф ак тор X , а другой — Y . Диаграмма рассеяния для небольшой двумерной совокупности данных, пред ставленной в табл. 11.1.1, показана на рис. 11.1.1. П оскольку принято считать, что затраченные усилия влияю т на результаты , было бы вполне естественным отобразить число контактов с клиентами (т.е. затраченные уси лия) на горизон тальной оси, а объем продаж (результат) — на вертикальной. Иногда бывает удобно пометить точки, ка к это сделано на рис. 1 1 . 1 . 1 (хотя иногда подобная разметка лиш ь загромождает диаграмму и мешает восприятию общей картины ). Более привы чны й вид диаграммы рассеяния для этой совокупности данных по казан на рис. 1 1 . 1 .2 . Н а обоих рисунках представлена информация ка к о каждой отдельной пере менной, так и о взаимосвязи между ними. Во-первых, распределение количества контактов (см. горизонтальную ось) находится приблизительно в диапазоне от 150 до 220, причем типичное значение равно приблизительно 170. Во-вторых, распределение объемов сбыта (см. вертикальную ось) находится в диапазоне приблизительно от $130 ООО до $180 000, причем типичное значение равно при близительно $150 000. Наконец, взаим освязь между количеством контактов и объемом продаж оказалась положительной: точки на диаграмме выстраиваю тся снизу вверх при движении слева направо. Это свидетельствует о том, что сотруд ники, имеющие больше контактов с клиентами (соответствующ ие точки распо ложены на диаграмме правее), обеспечили фирме и большие объемы сбыта (соот ветствую щ ие точки расположены на диаграмме вы ш е). Д ля данных в целом ха рактерен такой рост, но это справедливо не для всех наблюдений. Это типично Таблица 11.1.1. Результаты работы по итогам первого квартала Контакты Объем продаж, дол. Билл 147 126 300 Марта 223 182 518 Коллин 163 141 775 Гэри 172 138 282 520 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ $200000 г Объем сбыта, обеспеченный Мартой ($182518) S VO $150000 $100000 150 200 А Количество контактов с клиентами 223 контакта Марты Рис. 11.1.1. Эта диаграмма рассеяния содержит по одной точке для каждой строки вашей двумерной совокупно сти данных. Каждая точка диаграммы имеет метку, свидетельствующую о ее “ происхождении” . Выделены выдающиеся достижения Марты — 223 контакта, результатом которых стал квартальный объем про даж на $182 518 $200000 $150000 VO О $100000 _ i_ 150 -J____ L. 200 Количество контактов с клиентами Рис. 11.1.2. Диаграмма рассеяния (как на предыдущем ри сунке), но без дополнительной информации. Рисунок позволяет увидеть распределение количества кон тактов (вдоль горизонтальной оси), распределение объема продаж (вдоль вертикальной оси) и общее от ношение возрастания объема продаж при росте коли чества контактов ( т.е. точки на диаграмме подни маются при движении вправо) для статистического анализа, когда исследователя интересует тенденция, “ общая картина” ; вы явленны е при этом закономерности полезны, хотя данные и не со ответствую т им идеально. Корреляция характеризует силу взаимосвязи Корреляция, или коэффициент корреляции, обозначаемый г, является чи с лом в диапазоне от -1 до 1, характеризующ им силу взаимосвязи в данных. Кор реляция, равная 1 , указы вает на идеальную взаимосвязь в виде прямой линии, ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 521 причем более высокие значения одной переменной соответствуют идеально пред сказуемым более высоким значениям другой переменной. Корреляция, равная 1 , указы вает на идеальную отрицательную взаимосвязь в виде прямой линии, причем одна переменная уменьшается с ростом другой. О бычная интерпретация промежуточных корреляций в диапазоне от -1 до 1 заклю чается в том, что величина (абсолютное значение) корреляции указы вает на “ силу” взаимосвязи, а знак (полож ительны й или отрицательный) указы вает направление (увеличение или уменьш ение). О бычная интерпретация корреля ции, равной 0 , заклю чается в том, что взаимосвязи нет, есть только случай ность. Однако к такой интерпретации следует относиться с осторожностью, по скольку нелинейность и выбросы могут искаж ать обычную интерпретацию кор реляции. Д аже беглого взгляда на диаграмму рассеяния бывает достаточно, чтобы подтвердить или исклю чить подобные неприятные возможности. В табл. 1 1 . 1 . 2 показано, как интерпретировать корреляцию в каждом конкретном случае. Напомним, что корреляция показывает, насколько близко к указанной прямой линии располагаются точки на диаграмме. Она вовсе не свидетельству ет о крутизне наклона этой линии. Чтобы вычислить корреляцию средствами Excel®, можно воспользоваться функ цией =CORREL () (=KOPPEJI ()), указав названия двух столбцов чисел (можно исполь зовать, например, команду меню Inserts Name^Define (Вставка^Имя^Присвоить), как показано на приведенном ниже рисунке. Ф ун кц ия C O R R EL вычисляет корреля цию между количеством контактов и объемом продаж, которая в данном случае равна 0,985. Формула для вычисления коэффициента корреляции Корреляция вы числяется на основе соответствующ их данных с помощью дос таточно простой формулы. Д ля проведения вычислений по этой формуле требу ется довольно много времени, что, впрочем, не составляет большой проблемы при наличии компьютера или даже хорошего карманного калькулятора. Ф орм у ла приведена скорее не для того, чтобы вы ее использовали, а для того, чтобы показать изнутри, как это все работает. 522 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 11.1.2. Интерпретация коэффициента корреляции Корреляция Общепринятая интерпретация Некоторые другие возможности 1 Идеальная положительная взаимосвязь. Все точки данных должны располагаться строго на прямой линии, направленной вверх и вправо Отсутствуют Близко к 1 Сильная положительная взаимосвязь. Точки данных довольно плотно сгруппированы (с небольшим случайным разбросом) вокруг прямой линии, направленной вверх и вправо Точки данных располагаются строго на кривой, направленной вверх (нелинейная структура). Близко к 0, но положительно Незначительная положительная взаимосвязь. Точки данных образуют случайное облако с незначительной ориентацией вверх и вправо Отсутствие взаимосвязи, совершенно случайное облако, не имеющее ориентации ни вверх, ни вниз при движении вправо Между точками данных взаимосвязи в основ ном нет, но один выброс данных (резко отклоняющаяся точка) исказил корреляцию. Корреляция искажена наличием в данных групп по-разному взаимосвязанных между собой объектов Точки данных располагаются строго на кри вой, имеющей наклон вверх с одной стороны и наклон вниз с другой Точки данных располагаются строго на прямой линии, но один выброс данных (резко отклоняющаяся точка) исказил корреляцию. Корреляция искажена наличием в данных групп по-разному взаимосвязанных объектов Близко к 0, но отрицательно Незначительная отрицательная взаимосвязь. Точки данных образуют случайное облако с незначительной ориентацией вниз и вправо Близко к -1 Сильная отрицательная взаимосвязь. Точки дан ных платно сгруппированы (с небольшим слу чайным разбросом) вокруг прямой линии, на правленной вниз и вправо Точки данных располагаются строго на кривой, направленной вниз (нелинейная структура). Точки данных в целом не образуют какой-либо структуры, но один выброс данных (резко отклоняющаяся точка) исказил корреляцию. Корреляция искажена наличием в данных групп по-разному взаимосвязанных между собой объектов -1 Идеальная отрицательная взаимосвязь. Все точки данных должны располагаться строго на прямой линии, направленной вниз и вправо Отсутствуют Не определено Точки данных располагаются строго на горизон тальной или на вертикальной линии Недостаточно данных (менее п = 2 различных пар значений X и Y) Форм ула для коэффициента корреляции вклю чает двумерные данные, начи ная с двух измерений ( X I , Y 1), сделанных для первого объекта, и заканчивая измерениями (X n , Y n ), сделанными для последнего объекта. Например, X I мо ж ет бы ть объемом сбыта компании IB M , а У1 — чисты м доходом IB M ; X n мо ж ет бы ть объемом сбыта компании G M , а 7п — чисты м доходом G M . Рассм ат ривая каж ды й столбец чисел по отдельности, можно, например, вы числить обычное стандартное отклонение выборки только для значений X , т.е. найти Sx; аналогично, Sy представляет собой стандартное отклонение только лиш ь для ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 523 значений Y . 1 Ф орм ула для вы числения коэффициента корреляции такж е вклю чает сум му попарных произведений значений X и Y , которая фиксирует их взаимозависимость, разделенную на п - 1 (к а к обычно поступают при вы числе нии стандартного отклонения). Слагаемые в числителе вы раж аю т взаимодействие двух переменных и опре деляют знак (положительной или отрицательной) корреляции. Если , например, между переменными сущ ествует сильная положительная взаимосвязь (увеличе ние одной переменной при увеличении второй), каждое слагаемое будет положи тельным числом: когда точка характеризуется высокими значениями X и Y , произведение будет положительным; когда точка характеризуется низким и зна чениями X и Y , произведение все равно будет положительным, поскольку оба сомножителя будут отрицательными (значения X и Y меньше соответствующ их средних), а произведение двух отрицательных чисел явл яется положительным числом. Аналогично, если между переменными сущ ествует сильная отрицатель ная взаим освязь, все слагаемые в числителе будут отрицательными числам и, что в результате дает отрицательное значение корреляции. Знаменатель вы раж ения для коэффициента корреляции просто нормирует числитель таким образом, что коэффициент корреляции оказы вается легко ин терпретируемым чисты м (т.е. не имеющим размерности) числом в диапазоне от -1 до 1. П оскольку в числителе вы раж ения присутствует произведение двух пе ременных, имеет смысл преобразовать его в “ чистое” число, разделив на произ ведение сомножителей, вклю чаю щ их эти переменные. Если бы мы не выполни ли такое деление, сам по себе числитель было бы трудно интерпретировать по причине возможной странности его единиц измерения. Если бы, например, X и Y измерялись в долларах, тогда числитель имел бы такую необычную размер ность, ка к “ доллары в квадрате” . Числитель вы раж ения для коэффициента корреляции, который трудно ин терпретировать из-за необычных единиц измерения, называется ковариацией X и Y . Несмотря на то что иногда он используется ка к самостоятельная характери стика (например, в теории финансов для описания совместного изменения кур сов акций на двух биржах), удобнее пользоваться коэффициентом корреляции. Корреляция и ковариация представляю т, по сути, одну и ту ж е информацию (при условии, что такж е известны отдельные стандартные отклонения), однако корреляция представляет эту информацию в более удобной форме. Обратите такж е внимание на возможность поменять местами X и Y в этой формуле; иными словами, формула симметрична относительно X и Y . Таким образом, корреляция X с Y — это то ж е самое, что и корреляция У с X , т.е. ка 1 Обратите внимание, что Sx и Sy представляют собой стандартные отклонения, отражающие изменчивость отдельных объектов ; их не следует путать со стандартными ошибками S* и Sf , отражающими изменчивость средних значений выборки — X и У соответственно. 524 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ ка я из двух переменных будет указана первой, значения не имеет. Это утвер ждение справедливо для корреляции, но не для регрессии (речь о которой пой дет в разделе 1 1 . 2 ). Различные типы взаимосвязей В последующих разделах будут рассмотрены различные типы взаимосвязей, которые можно вы яви ть, анализируя диаграмму рассеяния для двумерной сово купности данных. Д ля каждого типа взаимосвязей мы приведем по крайней ме ре по одному примеру, рассмотрим соответствующ ую диаграмму рассеяния, ко эффициент корреляции и дадим некоторые комментарии. Линейная взаимосвязь Одни виды двумерных совокупностей данных легче анализировать, чем другие. Легче всего анализировать двумерные совокупности данных с линейной взаимосвя зью. Эта взаимосвязь играет такую ж е особую роль для двумерных данных, как и нормальное распределение для одномерных данных. Линейная взаим освязь про является в двумерной совокупности данных, если точки на диаграмме рассеяния случайным образом концентрируются вокруг прямой линии . 2 Эти точки могут концентрироваться довольно тесно, почти точно попадая на прямую линию, или быть разбросаны достаточно широко, образуя некоторое облако. Но такая взаимо связь не должна быть криволинейной или воронкообразной, в данных не должно быть сильных выбросов (резко отклоняю щ ихся значений). Пример. Рейтинги телевизионных программ компании Nielsen и "пиплметры" Вы, наверное, слышали о рейтингах телевизионных шоу, которые измеряет компания Nielsen. Поскольку расценки на телевизионную рекламу непосредственно зависят от величины телевизионной аудитории, эти рейтинги имеют особое значение для сетей телевидения и рекламодателей. Действительно, поскольку демонстрация одного 30-секундного рекламного ролика может стоить сотни тысяч долларов (плюс стои мость производства), даже небольшое изменение в объеме зрительской аудитории может иметь большое влияние на бюджет. В течение приблизительно 30 лет рейтинги компании Nielsen основывались на записях в специальных дневниках, которые вели несколько тысяч американских семей. В этих дневниках семьи ежедневно ука зывали, какие передачи и в течение какого времени они смотрели. С появлением относительно недорого го электронного оборудования и компьютеров стало возможным использование так называемых "пиплметров", которые автоматически фиксируют соответствующую информацию. Переход от старой системы к новой оказался достаточно болезненным, поскольку два этих метода давали сильно различающиеся значения. Рассмотрим следующую ситуацию. Проблема заключается в том, что начальные испытания “пиппметров” свидетельствуют о том, что некоторые программы просматривает меньшее число людей, чем это следует из журналов, заполняемых вручную. Таким образом, рекламные агентства, которые ежегодно тратят на размещение рекламы на телевидении примерно 8 миллиардов долларов, хотели бы, чтобы рейтинги рекламы основывались исключительно на рейтингах “пиплметров”, что, по их мнению, должно заставить телевизионные сети снизить цены... Важность рейтингов 2 Говорят, что двумерная совокупность данных имеет двумерное нормальное распределение, ес ли есть линейная взаимосвязь между переменными и, кроме того, если каждая из переменных имеет нормальное распределение. Более технически строгое определение требует также, чтобы для каждого значения X соответствующие ему значения У были распределены нормально с од ним и тем же стандартным отклонением. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ .. 525 особенно очевидна для таких телешоу, как “Cosby” (стоимость показа 30-секундного рекламного ролика во время этого телешоу равняется примерно $380 ООО). По оценке с помощью “пиплметров” компании Nielsen в течение двух недель перед 23 ноября в число зрителей “Cosby” входило на 20% меньше женщин в возрасте от 18 до 49 лет и на 7% меньше мужчин из той же возрастной группе, чем следует из дневниковых записей за тот же период времени... Однако для других программ наблюдается обратная картина: показатели “пиплметров” превышают данные из дневниковых записей... Подобные расхождения могут оказывать значительное влияние на ход переговоров между рекламодателями и телевизионными сетями по поводу цен на рекламу... Nielsen стремится как можно скорее перейти к использованию пиплметров, причем эта поспешность в значительной степени объясняется конкуренцией со стороны AGB Television Research, Inc.3 В настоящее время Nielsen использует "пиплметры" в сочетании с записями в дневниках и по-прежнему остается авторитетной компанией в сфере исследований телевизионного рынка; однако Nielsen испыты вает всевозрастающую конкуренцию со стороны Statistical Research, Inc.4 В табл. 11.1.3 приведена двумерная совокупность данных, состоящая из индекса Nielsen (одна перемен ная) и индекса "пиплметра" (другая переменная), измеренных для каждого из п = 10 телешоу (элемен тарные единицы). Диаграмма рассеяния, представленная на рис. 11.1.3, соответствует линейной структуре, поскольку точ ки размещаются случайным образом вдоль прямой линии. Выявленная взаимосвязь является положитель ной, поскольку у телешоу с более высокими значениями индекса Nielsen, как правило, более высокие рейтинги "пиплметров". Высокая корреляция, г= 0,974, подтверждает факт существования сильной по ложительной (но не идеальной) связи. Здесь все же имеется некий элемент случайности, который может иметь немаловажное значение как для телесетей, так и для рекламодателей. Чтобы воспользоваться Excel® для построения диаграммы рассеяния, нужно выбрать оба столбца чисел (разместив данные, соответствующие горизонтальной оси X, слева) и затем выбрать в меню команду 1п- sert^Chart (Вставка^Диаграмма). Далее, в перечне типов диаграмм следует выбрать XY (Scatter) (Точечная). Продолжая выполнять последовательность шагов в Excel, можно создать диаграмму рассея ния в виде объекта рабочего листа. Ниже показано, как должно выглядеть начальное диалоговое окно, после того как вы выберете соответствующие данные и начнете вставлять диаграмму, а также показан окончательный вариант диаграммы на рабочем листе. S je a e s a t fftw Ipwrt Fgpwt loote pat» yftvdow jjrtp The Cosby Show _ Family Ties _ Cheers Standard Tjpae j Custom Types J _ Moonlighting _ Night Court Growing Pains Who's the Boss _ Family Ties (Special) \ Murder She Wrote JO Doughnut I 60 Minutes Й Surface [ft Bubble 4Stock J Cylnder |д Cone 300 -| 250 ♦ br. compare*pars of vaMw. 20 0 - / . ; i00 ■ 50 - 00 g 5Л 100 150 200 250 300 Barnes P. and Lipman J. “Networks and Ad Agencies Battle over Estimates of TV Viewership” , The Wall Street Journal, 1987, January 1, p. 25. 4 Pope K. “Networks to Launch a Rival to Nielsen Service” , The Wall Street Journal, 1998, Au gust 3, p. B l. 526 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 11.1.3. Телевизионные рейтинги Название телепередачи Индекс Nielsen Показания “ пиплметров” The Cosby Show 27,4 24,4 Family Ties 27,2 25,5 Cheers 24,1 23,0 Moonlighting 22,7 20,2 Night Court 22,1 20,1 Growing Pains 18,3 17,5 Who’s the Boss 17,5 16,1 Family Ties (Special) 17,5 13,3 Murder She Wrote 16,8 14,7 60 Minutes 16,5 13,6 P. Barnes and J. Lipman, “Networks and Ad Agencies Battle over Estimates of TV Viewership”, The WallStreetJournal, 1987, January 1, p. 25. В качестве источника использован NBC. Эти телешоу входили в десятку самых популярных в период с 10 по 23 октября. Один пункт рейтинга соответствует 1% от 97,7 миллиона телезрителей в возрасте от 25 до 54 лет. Корреляция равняется 0,974 30% 25% 20% 15% ■j0о/о {, ,1 J . J . ..i...1.1 . t - l- l 10% 15% 1. .1 20% I I 25% 1, t. -i....i 30% Индекс Nielsen Рис. 11.1.3. Линейная взаимосвязь на диаграмме рассеяния для д в ух видов телевизионных рейтингов для п = 10 самых популярных телешоу. Обратите внимание на сильную положительную связь , результатом которой является высокая корреляция г = 0,974 Пример. Слияние компаний Банкиры-инвесторы зарабатывают значительные суммы, предоставляя консультации и оказывая другие виды помощи компаниям, желающим объединиться или приобрести в собственность другие компании. Кто является крупнейшими участниками этой "игры "? Как много сделок и как много денег вовлечено в эту область деятельности? Ответы на эти вопросы можно найти, проанализировав двумерную совокуп ность данных из табл. 11.1.4, которая появилась примерно в то же время, когда некоторые из "звезд " вышли из состава First Boston, чтобы работать самостоятельно. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 527 Таблица 11.1.4. Самые успешные фирмы, консультирующие по вопросам слияния и приобретения компаний в собственность Название фирмы Сумма сделок, млн дол. Количество сделок Goldman Sachs 134 First Boston 174 55 091,8 Morgan Stanley 120 42 336,3 Merrill Lynch 101 34 324,5 Shearson Lehman Brothers 164 25 631,7 44 24 251,5 126 22 706,5 76 21 859,7 Lazard Freres Drexel Burnham Lambert Salomon Brothers 63 465,0 Kidder Peabody 70 13 518,9 Dillon Read 42 11 167,8 Donaldson, Lufkin & Jenrette 47 7 750,1 Bankers Trust 41 5 525,7 PaineWebber 67 4 788,1 6 4 603,8 36 4 555,9 Allen & Co. Bear Stearns Данные взяты из “Top Advisers for Mergers and Acquisitions”, The WallStreetJournal, 1988, February 3, p. 1. Источник данных: IDD Information Services. Корреляция равняется 0,790 $70 $60 $50 $40 $30 $2 0 $10 $0 ■ .1 50 LJ. i. i , t t 100 I 1 I f 150 1 ,t, i 200 Количество сделок Рис. 11.1.4. Линейная взаимосвязь между суммой (в долла ра х) и количеством сделок , осуществляемых с участи ем крупнейших фирм, консультирующих по вопросам слияния и приобретения компаний в собственность. Корреляция г = 0,790 выражает сильную тенденцию роста (преуспевающие фирмы участвуют во множест ве сделок с большими суммами денег), которая частич но скрадывается действием фактора “случайности” 528 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Диаграмма рассеяния, показанная на рис. 11.1.4, отражает линейную взаимосвязь, которая, однако, ха рактеризуется значительно большей степенью разброса или случайности, чем в предыдущем примере. На диаграмме достаточно выражена тенденция роста, где более преуспевающие фирмы участвуют в большем количестве сделок (направление — вправо), в которых задействованы более крупные суммы де нег (направление — вверх). Уже упоминавшаяся нами случайность касается довольно значительных де нежных сумм: если, например, говорить о фирмах, участвующих примерно в 120 сделках, то величина этих сделок может различаться на десятки миллиардов долларов. Корреляция г= 0,790 отражает эту тен денцию к росту при наличии значительного фактора случайности. Пример. Ставки процента и комиссионные по закладной При получении денег под залог возникает множество разных расходов. Крупнейшими из них обычно яв ляются ссудный процент (или ставка процента — годовой процент, который определяет размер вашего ежемесячного платежа) и комиссионные за кредит (одноразовая плата, которую с вас берут при предос тавлении ссуды). Некоторые финансовые организации предлагают заемщику снизить ссудный процент, выплатив вначале повышенные комиссионные за кредит, предполагая при этом определенную взаимо связь между этими двумя расходами. Эта взаимосвязь должна быть отрицательной, или понижающей, по скольку более высоким комиссионным за кредит должен соответствовать более низкий ссудный процент. В табл. 11.1.5 приведена двумерная совокупность данных, включающая размеры ссудного процента и комиссионных за кредит для фирм, предоставляющих ссуды под залог недвижимости с фиксированным процентом сроком на 15 лет. Диаграмма рассеяния, показанная на рис. 11.1.5, отражает линейную взаимосвязь, характеризующуюся значительным разбросом точек и понижающей связью между комиссионными за кредит и ссудным про центом. Отрицательная корреляция г= -0,654 подтверждает наличие предполагаемой нами понижаю щей взаимосвязи. О значительной доле случайности в этих данных свидетельствует то, что значение ко эффициента корреляции находится примерно посередине между -1 и 0. Корреляция равняется -0,654 8.5% г • • 7.5% 0% • ♦ • *♦ * • • • ••• •• »•• •• » • 1.0% 2.0% •• • 3.0% Комиссионные за кредит Рис. 11.1.5. Линейная взаимосвязь понижения между комис сионными за кредит и ссудным процентом для ссуды под залог недвижимости. Корреляция г = -0,654 от ражает эту взаимосвязь понижения: более высоким комиссионным за кредит соответствуют более низ кие значения ссудного процента. Поскольку значение коэффициента корреляции находится приблизительно посередине между -1 и 0, то данные характеризуются значительной случайностью ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 529 Таблица 11.1.5. Расходы, связанные с получением денег под залог недвижимости Название организации Комиссионные Ссудный процент, % за кредит, % 1,875 Home Mortgage Corp. 7,625 1,5 1,5 Horizon Mortgage & Inv. 7,875 1 1,5 Intercontinental Mortgage 7,25 2,5 7,75 1 JE Mortgages Inc. 7,875 Название организации Ссудный Комиссионные процент, % за кредит, % Abacus Mortgage 7,25 Advocate Mortgage 7,875 All American Mtg. 7,5 Alpine Mtg. Services Alternative Mortgage 7,625 2 Madison Mortgage 8,125 Arboretum Mortgage 7,75 1 Mariner Mortgage, Inc. 7,625 2 Bancplus Mortgage 7,75 1,5 Mortgage Associates 7,75 0,75 Bancshares Mortgage Co. 7,5 1,625 Mortgage Network 7,5 1,75 Barigar Meier & Assoc. 7,5 1,125 Mortgage Solutions 7,875 1 Barto& Associates 7,875 1,5 Mortgage Brokers Service 7,5 1,42 Bay Mortgage 7,5 2 New World Mortgage 7,875 0,25 Best Mortgage Svs. 7,5 1,3 Normandy Mortgage 7,75 1 Bismark Mortgage 7,875 1 orth American Mortgage Co. 7,75 Capital Mortgage 1,75 7,75 1 Nu-West Mortgage Carl I. Brown 7,625 1,875 Pacific Mountain Mortgage 7,375 2,375 Castle Mortgage Corp. 7,875 Principal Res. Mortgage 7,5 1,25 Chase Manhattan 7,625 1,75 Producers Mortgage Serv. 7,875 7,625 1 Concord Mortgage 7,75 1,5 Pro-West Fin. Group 7,5 2,25 Countrywide Funding 8,125 Qpoint Home Mortgage 7,5 2 Directors Mortgage 7,875 1,75 Raintree Fin. Network 7,625 Equity NW Inc. 7,875 1,25 Redmond Mortgage 7,875 First Am. Mtg. Group 7,5 1,5 Sammamish Mortgage 7,75 First Choice Financial 7,875 1,5 Select Mortgage 7,5 2,375 First Mark Mortgage 7,5 1 Sterling Mortgage 7,375 2 Fleet Mortgage Corp. 7,5 2 Stratford Home Mortgage 7.75 1,625 Group One Mortgage Inc. 8,125 0,625 Washington Mortgage 7,625 1,25 Guild Mortgage Co. 8 1,375 Wa. Womens Mortgage 8 1 Hallmark Mortgage 7,75 1 Western States Mortgage 7,5 1,5 Highland Res. Mortgage 7,875 Данные получены из “Spring Mortgage Rates”, TheSeattle Times, 1995, April 23, p. G1. Источник данных: Scotsman Publishing, Inc. 530 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Рис. 11.1.6. Предыдущая диаграмма рассеяния с добавлени ем эффекта дрожания” , позволяющего разделить пе рекрывающиеся точки и более отчетливо отобразить анализируемую совокупность данных Куда же делись многие из этих данных? В двумерной таблице перечислено 57 финансовых организаций, однако создается впечатление, что количество точек на диаграмме рассеяния намного меньше этой вели чины. Это объясняется тем, что некоторые сочетания значений характеризуют несколько организаций (например, комиссионные за кредит, составляющие 1%, в сочетании со ссудным процентом, равным 7 ,7 5 % ). Эти несколько перекрывающихся точек выглядят на простой диаграмме (такой, которая показа на на рис. 11.1.5) как одна точка. Добавив в диаграмму немного случайности, или "дрожания" (лишь для создания требуемого визуального эффекта, но не для анализа данных!), мы можем разделить эти пере крывающиеся точки и получить более отчетливое представление о соответствующих данных.5 Получен ная таким образом диаграмма разброса точек с "дрожанием" показана на рис. 11.1.6. Отсутствие взаимосвязи Взаимосвязь в двумерной совокупности данных полностью отсутствует, если соответствующ ая диаграмма рассеяния точек носит совершенно случайный харак тер, т.е. продвигаясь слева направо, мы не обнаруживаем тенденции направленно сти ни вверх, ни вниз. Случай полного отсутствия взаимосвязи представляет собой особый случай линейной взаимосвязи — без увеличения и уменьшения. Такая диа грамма рассеяния точек может иметь вид либо круглого, либо овального облака (причем овал может иметь вертикальную или горизонтальную ориентацию, однако не имеет наклона). Ф актически, изменяя ш калу той или другой переменной, мож но добиться того, что совокупность данных с полным отсутствием взаимосвязи бу дет иметь либо круговую, либо овальную диаграмму разброса точек. Пример. "Инерция" и фондовая биржа Обладает ли фондовая биржа какой-либо "инерцией"? Иными словами, должна ли цена акций сегодня расти только потому, что она росла вчера? Если существует какая-то взаимосвязь между поведением рынка вчера и его поведением сегодня, то можно надеяться на то, что эту взаимосвязь удастся выявить с Общее введение во множество различных методов визуализации данных (включая “дрожа ние” , описанное на с. 135) приведено в книге Chambers J. М., Cleveland W. S., Kleiner В., and Tukey P. A. Graphical Methods for Data Analysis (New York: Wadsworth, 1983). ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 531 помощью соответствующей диаграммы рассеяния. В конце концов, это наш наилучший статистический инструмент, с помощью которого и можно выявить взаимосвязь (если она, разумеется, существует) меж ду поведением рынка вчера (одна переменная) и его поведением сегодня (вторая переменная). Двумерная совокупность данных включает суточную прибыль в соответствии с индексом S& P 500 Stock M arket Index, т.е. процентные изменения (увеличение или уменьшение) индекса за день.6 Несмотря на то что рассматриваемый нами случай напоминает одномерный временной ряд, одни и те же по сути данные можно записать в два столбца, сместив эти столбцы относительно друг друга на одну строку так, чтобы результат работы биржи за нынешний день (левый столбец в табл. 11.1.6) находился в той же строке, что и результат работы биржи за вчерашний день (правый столбец в табл. 11.1.6). Диаграмма разброса точек, показанная на рис. 11.1.7, свидетельствует об отсутствии какой-либо взаи мосвязи между двумя указанными переменными! Налицо совершенно произвольный разброс точек без какой-либо явно выраженной тенденции ориентации либо вверх (что указывало бы на наличие опреде ленной "инерции" в поведении фондовой биржи), либо вниз (что указывало бы на то, что в какой-то день биржа проявила "чрезмерную реакцию", а затем просто "исправила" свое поведение) при перемеще нии по картинке слева направо. Корреляция г = 0,11 близка к 0, что свидетельствует об отсутствии сколько-нибудь значимой взаимосвязи.7 Корреляция равняется 0,11 3% £ 2% CD се I * • 1% • # .. . ..Т1•.. . .* * • • • • : . ..1 .......'*■— CD | а> • • • • - 1% •» не с о s • -2% ______ 1_____ -L._____ — ___ J ______ 1______ -3% -2% -1% 0% 1% 2% 3% Изменение за предыдущий день Рис. 11.1.7. М еж ду нынешними и вчерашними результатами торгов на фондовой бирже нет никакой взаимосвязи. Корреляция г = 0,11 близка к 0, что указывает на от сутствие сильной взаимосвязи. Даже если вчера день на бирже был “ хороший ” , нынешний день вполне может быть таким, будто вчера на бирже был “ плохой ” день Диаграмма рассеяния, подобная приведенной на рис. 11.1.7, вполне соответствует теории эффективного рынка и теории "случайного блуждания". Теория эффективного рынка гласит, что вся имеющаяся инфор мация или прогнозируемый ход событий немедленно отражаются на биржевых ценах. Поскольку трейде ры прогнозируют будущие изменения биржевых цен, говорить о каких-либо систематических взаимосвя зях не приходится — остается одна лишь случайность (т.е. "случайное блуждание"). "Случайное блужда 6 Формула суточной прибыли имеет следующий вид: (нынешняя цена - вчерашняя цена)/ (вчерашняя цена). 7 Подобный этому коэффициент корреляции, вычисленный для временного ряда и его собст венных предшествующих значений, называется автокорреляцией ряда, поскольку он опреде ляет корреляцию этого ряда с самим собой. Можно сказать, что этот временной ряд не являет ся сильно автокоррелированным, так как его коэффициент автокорреляции близок к нулю. 532 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ ние" порождает временной ряд данных, в которых нет взаимосвязи между предшествующим поведением и последующим шагом, или изменением.8 Изменяя масштаб по вертикальной или горизонтальной оси, облаку точек можно придать вид, более по хожий на линию. Однако поскольку такая линия будет либо вертикальной, либо горизонтальной — без какого-либо наклона, — это по-прежнему будет свидетельствовать об отсутствии взаимосвязи между пе ременными. Эти ситуации показаны на рис. 11.1.8 и 11.1.9. Таблица 11.1.6. Процентное изменение индекса S&P 500 Stock Market Index Сегодня, % 1 мая 1998 г. 0,83 Сегодня, % Вчера, % 1,56 0,21 Вчера, % 0,01 0,10 0,83 -0,96 0,21 -0,59 0,10 1,12 -0,96 -0,95 -0,59 1,74 1,12 -0,89 -0,95 0,17 1,74 1,19 -0,89 0,24 0,17 -0,14 1,19 -0,55 0,24 0,83 -0,14 -1,59 -0,55 0,28 0,83 0,39 -1,59 -0,13 0,28 -1,99 0,39 -0,77 -0,13 0,98 -1,99 -0,26 -0,77 1,79 0,98 0,33 -0,26 -0,07 1,79 0,86 0,33 -0,52 -0,07 -0,39 0,86 0,23 -0,52 -0,37 -0,39 1,48 0,23 -1,48 -0,37 1,20 1,48 -0,16 -1,48 -0,32 1,20 0,49 -0,16 0,35 -0,32 -0,62 0,49 0,47 0,35 0,01 -0,62 -0,41 0,47 30 июня 1998 г. Нелинейная взаимосвязь Теперь рассмотрим случай более сложного анализа двумерных совокупностей данных. В двумерной совокупности данных присутствует нелинейная взаим освязь, если точки на диаграмме рассеяния группируются вокруг некоторой кривой, а не вокруг прямой линии. П оскольку разновидностей такого рода кривых может быть чрезвычайно много, анализ такой взаимосвязи существенно сложнее, g Этому вопросу посвящена целая книга: Malkiel В. G. A Random Walk down Wall Street (New York: W. W. Norton, 1981). ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 533 Д ля совокупностей данных с нелинейной связью корреляционный и регресси онный анализ следует использовать с осторожностью. Применительно к некото рым задачам бывает полезно преобразовать одну или обе переменные таким об разом, чтобы получить между ними линейную взаимосвязь. Это позволяет упро стить анализ (поскольку корреляцию и регрессию удобнее применять именно к линейной взаим освязи), а полученные результаты , если удается, преобразовыва ют обратно в исходную форму. 9 10% Корреляция равняется 0,11 Корреляция равняется 0,11 3% 2% S >s 5% 1% \ лГ щтЛ% ... • ♦ 0% -5% - 2% - 10% —__1 — __1___ _ _____ 1__ -2% -1% 0% 1% 2% 3% Изменение за предыдущий день Рис. 11.1.8. В этом случае взаимосвязь между переменными также отсут ствует, несмотря на то, что на диаграмме рассеяния явно просмат ривается прямая линия. Дело в том, что эта линия — горизонтальная, без наклона. На этой диаграмме представлена та же совокупность данных, что и на рис. 11.1.7, но уменьшен масштаб по оси Y, что сделало внешний вид диаграммы бо лее плоским -3% - 20% -L. - 10% 0% 10% 20% Изменение за предыдущий день Рис. 11.1.9. На этой диаграмме взаимо связь между переменными также отсутствует, несмотря на то, что диаграмма рассеяния напоминает прямую линию. Дело в том, что эта линия — вертикальная , без накло на. На этой диаграмме уменьшен (по сравнению с рис. 11.1.7) мас штаб по оси X Пример. Индексные о п ц и о н ы Если вы покупаете так называемый о п ц и о н "к о л л ", то получаете право — но не обязательство — купить какое-то имущество (которое может быть земельным участком, 100 акциями компании IBM и т.п.) по фиксированной цене (цене и с п о л ь з о в а н и я о п ц и о н а ) в любой момент, когда вам это понадобится, но лишь до тех пор, пока не истечет срок действия вашего опциона. Предприниматели пользуются опциона ми, чтобы подстраховаться от риска (т.е. снизить риск), заплатив за это существенно меньшую цену в сравнении с покупкой и, возможно, последующей продажей соответствующего имущества. Опционы на акции можно использовать либо для снижения риска определенного портфеля, либо для создания порт феля высокого риска с высоким ожидаемым доходом. Чем выше цена использования опциона, тем меньше ценность этого опциона. Например, опцион на по купку плитки шоколада за $2000 бесполезен, но опцион на покупку этой же плитки за $0,25 имеет оп ределенную ценность. Действительно, если цена плитки шоколада устойчива и равняется примерно g Использование преобразований в регрессии будет рассмотрено в главе 12. 534 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ $0,45, тогда ценность опциона составит $0,45 - $0,25 = $0,20. Однако для большинства рынков неоп ределенность относительно будущего повышает ценность опционов. Например, 19 января 1999 г. пакет акций Microsoft стоил $156, а опцион на покупку этого пакета акций в течение трех месяцев по цене $ 160 стоил примерно $12,00. Какой смысл был в том, чтобы покупать этот пакет за $ 160 на основе оп циона, если его можно было купить за $156 прямо сейчас? Конечно, смысл во всем этом был бы лишь в том случае, если бы цена этого пакета поднялась до $170. Эта непредсказуемость поведения рынка (возможность повышения цен) частично объясняет ценность опциона. Итак, мы рассчитываем обнаружить отрицательную взаимосвязь между ценой использования опциона, указываемой в контракте на опцион, и заявочной ценой, по которой продается сам контракт на опцион. В табл. 11.1.7 представлена двумерная совокупность данных для самых популярных индексных опцио нов, основанная на индексе Standard & Poor's 100. Диаграмма рассеяния, представленная на рис. 11.1.10, иллюстрирует пример нелинейной взаимосвязи. Эта взаимосвязь носит отчетливо выраженный отрицательный характер, поскольку чем выше цена ис пользования опциона, тем ниже заявочная цена. Корреляция г= -0,895 служит подтверждением сильной отрицательной взаимосвязи. Поскольку эта взаимосвязь почти идеальна, а элемент случайности практи чески полностью отсутствует, можно было бы ожидать, что коэффициент корреляции будет еще ближе к -1. Однако это могло бы произойти лишь в том случае, если бы точки располагались строго на прямой линии. Поскольку же точки располагаются строго на кривой линии, корреляция отличается от -1. Более совершенные статистические методы, основанные на предположении о нормальном распределе нии и случайном блуждании цен акций, дали возможность аналитикам вычислить приблизительное зна чение цены для опциона "к о л л ".10 Эта сложная и продвинутая теория основана на тщательном вычисле нии математического ожидания (среднего значения) случайной переменной, представляющей макси мальную плату за соответствующий опцион. Таблица 11.1.7. Опционы “колл” для индекса S&P 100 Цена использования опциона, дол. Заявочная цена, дол. Цена использования опциона, дол. 470 80 565 5 510 40,375 570 3,375 515 35,625 575 3 520 Заявочная цена, дол. 33,875 580 1,75 525 27,875 585 1,125 530 23,75 590 0,875 535 21 595 0,5 540 17 600 0,375 545 14 605 0,1875 550 11 620 0,125 555 9 630 0,125 560 6,5 Данные об опционах, срок действия которых истекает в сентябре. Заимствовано из The WallStreetJournal, 1998, August 20, p. C14. 10 Обзор теории и практики опционов приведен в книге Сох J. С. and Rubenstein М. Options Markets (Englewood Cliffs, N.J.: Prentice Hall, 1985). ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 535 Корреляция равняется -0,895 $100 г $75 $50 $25 $0 $450 LJ» А А ■♦-4-4 $500 $550 $600 $650 Цена использования опциона (контракт на опцион позволяет вам покупать по этой цене) Рис. 11.1.10. Нелинейная взаимосвязь между ценой опциона и це ной использования опциона. На диаграмме прослеживается вполне ожидаемая отрицательная взаимосвязь — но нели нейная, поскольку линия, образуемая точками, оказывается кривой. Корреляция, г = -0,895, свидетельствует о сильной отрицательной взаимосвязи. Из-за криволинейноети коэф фициент корреляции не может равняться в точности —1, несмотря на то, что в данном случае мы имеем дело с практически идеальной взаимосвязью (случайного разброса точек почти нет) Пример. Объем выпускаемой продукции и температура Сильная нелинейная взаимосвязь может быть даже тогда, когда корреляция близка к нулю1 . Это может произойти в случае, если эта сильная взаимосвязь не является ни увеличивающейся, ни уменьшающейся (что бывает при наличии оптимального, или наилучшего из возможных значений). Рассмотрим данные, полученные в результате эксперимента, целью которого являлось определение такой температуры, кото рая обеспечивает для определенного промышленного процесса максимальный объем выпуска продукции. Соответствующие данные приведены в табл. 11.1.8. Диаграмма рассеяния, показанная на рис. 11.1.11, иллюстрирует сильную нелинейную взаимосвязь, ха рактеризующуюся незначительным случайным разбросом. Коэффициент корреляции, г= -0,0155, бес полезен в случае такой нелинейной связи: он не может решить, является связь увеличивающей или уменьшающей, поскольку в действительности есть и то и другое. В этом случае диаграмма рассеяния очень полезна, поскольку демонстрирует, что для максимального увеличения объема выпускаемой продукции температуру производственного процесса следует устано вить равной примерно 700 градусам. Объем продукции резко падает как при слишком высокой, так и при слишком низкой температуре. Этот важный вывод можно сделать, наблюдая на диаграмме сильную взаимосвязь между объемом продукции и температурой. Помните: близкое к нулю значение корреляции может означать как отсутствие взаимосвязи в данных, так и наличие нелинейной взаимосвязи без преобладания направленности вниз или вверх. Неодинаковая вариация Ещ е одна техническая трудность, которая, к сожалению, нередко встречается в данных, касаю щ ихся бизнеса и экономики, заклю чается в том, что изменчи вость (вариация) по вертикальной оси на диаграмме рассеяния может зависеть от 536 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 11.1.8. Температура и объем продукции для промышленного процесса Температура, градусы Объем продукции Температура, градусы Объем продукции 600 127 750 153 148 625 139 775 650 147 800 146 675 147 825 136 700 155 850 129 725 154 Корреляция равняется -0,0155 160 150 1 С 2 S \о о 140 130 120 600 700 800 900 Температура Рис. 11.1.11. Нелинейная взаимосвязь между объемом про дукции и температурой для некоторого промышленно го процесса. Существует сильная взаимосвязь, но она нелинейная. Коэффициент корреляции, г = - 0,0155, свидетельствует лишь о том, что в целом нет опре деленной направленности — ни вверх, ни вниз того, где вы находитесь в данный момент на горизонтальной оси. Когда речь идет об анализе деятельности крупны х компаний (или других элементарных единиц анализа), обнаруживается весьма значительная изменчивость, величина которой измеряется, возможно, миллионами или даже миллиардами долларов, но когда вы анализируете деятельность небольших предприятий, изменчивость может изм еряться величинами порядка десятков ты сяч долларов. Считается;, что у диаграммы рассеяния неравная вариация, если при перемещении по горизон тальной оси диаграммы рассеяния величина вариации по вертикальной оси из меняется очень сильно . 11 Проблема неодинаковой вариации заклю чается в том, что места, характери зую щ иеся высокой изменчивостью , представляют наименее точную информацию и в то ж е время, как правило, оказываю т наибольшее влияние на статистиче ские показатели. Поэтому, если вы получили диаграмму разброса точек с чрезТехнические термины гетероскедастичный (прилагательное) и гетероскедастичностъ (су ществительное) также описывают неодинаковую вариацию. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 537 вычайно неодинаковой изменчивостью , соответствующ ий коэффициент корреля ции (и другие характеристики такой взаим освязи) будет ненадежным. Эту проблему зачастую удается реш ить путем преобразования данных — воз можно, с помощью логарифмов. К счастью , такое преобразование, если его при менить к каждой переменной, нередко позволяет реш ить сразу несколько про блем. Во многих случаях удается не только вы ровнять изменчивость, но и при близить к нормальному распределения самих переменных. Логарифмы (можно использовать как натуральные по основанию е> так и привычные по основанию 1 0 ), как правило, очень хорошо подходят для работы с денежными суммами. Преобразование с помощью извлечения квадратного корня хорошо подходит для работы с количеством каких-либо вещей или событий. Пример. Оптический кабель Многие инвестиции в сферу высоких технологий являются достаточно рискованными: применяемые в них методы новы и еще неизвестно, как они себя проявят на практике, дорогостоящее оборудование относи тельно быстро устаревает, а конкуренция в этой сфере бывает весьма жесткой. Тем не менее миллиарды долларов инвестируются в создание магистральных коммуникационных сетей на основе оптических ка белей. Если вас интересует этот вид инвестиций, вам, наверное, интересно было бы узнать также, во сколько обходится создание таких оптоволоконных сетей связи. Соответствующая информация о веду щих компаниях, работающих в этой области, приведена в табл. 11.1.9. Диаграмма рассеяния, показанная на рис. 11.1.12, иллюстрирует в целом взаимосвязь увеличивающегося типа: фирмы, осуществляющие более крупные капиталовложения, как правило, создают сети связи с более высокой общей протяженностью. В то же время изменчивость характеризуется значительным неравенством, о чем свидетельствует воронкообразная форма соответствующих данных (с "раструбом", направленным вправо). Данные, относящиеся к более мелким фирмам, группируются внизу и слева, указывая на весьма не- Таблица 11.1.9. Оптоволоконные магистральные сети связи Капиталовложения, млн дол. Сетевые мили*, млн дол. AT&T 1300 1700 MCI 500 650 GTE 130 110 United Telecommunications 2000 1200 Fibertrak 1200 2400 LDXNet 110 165 Bectra Communications 40 72 Microtel 60 45 Litel Telecommunications Lightnet 57 85 500 650 SoutherNet 90 50 RCI 90 87 * Сетеваямиляопределяется как протяженность кабеля, способного передавать один речевой сигнал на расстояние в одну милю. Данные получены из статьи W. В. Johnston, “The Coming Glut of Phone Lines”, Fortune, 1985, January 7, p. 97-100. Источник данных: Hudson Institute. 538' ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ значительную изменчивость в общей протяженности создаваемых ими сетей; у более крупных фирм (спра ва) проявляется намного большая изменчивость в общей протяженности сетей, создаваемых ими на основе своих более крупных инвестиций. Рис. 11.1.13 демонстрирует, какие именно изменчивости являются нерав ными: изменчивости измерений по вертикали и касающиеся протяженности сетей. М ожет ли преобразование помочь решить эту проблему неодинаковой изменчивости? Попробуем, на пример, применить натуральные логарифмы. Капиталовложения AT&T, например, составляют $1 300 ООО ООО; соответствующий логарифм равен 21,0. Общ ая протяженность сетей у AT&T равняется 1 700 000 000; логарифм этого числа — 21,3. Результаты вычисления логарифмов всех значений приве дены в табл. 11.1.10. Диаграмма разброса точек, показанная на рис. 11.1.14, иллюстрирует неплохую линейную взаимосвязь между логарифмом суммы капиталовложений и логарифмом общей протяженности сетей. Эта диаграм ма выглядела бы точно так же, если бы мы использовали обычные логарифмы (по основанию 10) или если бы мы вместо реальных значений (например, $1 300 000 000) логарифмировали значения, выраженные в миллионах (например, $1 300). Таким образом, нам удалось избавиться от неодинаковой вариации. Как правило (хоть и не всегда), после использования подходящего преобразования коэффициент корре ляции несколько возрастает: в данном случае с 0,820 (до преобразования) до 0,957 (после логарифми ческого преобразования). Таким образом, в целом можно утверждать, что, поскольку корреляция в ис ходном масштабе так сильно зависит от небольшого количества очень крупных фирм, коэффициент кор реляции после преобразования данных является более надежным показателем связи. Корреляция равняется 0,820 Корреляция равняется 0,820 S 2 е; Здесь большая изменчивость 5 s < ; s= ЗЕ CD -I 3 1 О {Здесь малая изменчивость # 1 - 1__ I__ I__ i__ 1__ I__ 1__ 1__ t__ i__ i__ I О $1 $2 Капиталовложения, млрд Капиталовложения, млрд Рис. 11.1.12. Неодинаковая изменчивость во взаимосвязи между общей протя женностью линий и капиталовложе ниями. У крупных компаний (справа) наблюдается намного большая измен чивость, чем у небольших (слева) Рис. 11.1.13. Диаграмма рассеяния, опре деляющая взаимосвязь между общей протяженностью линий и капита ловложениями. Отчетливо обозна чена неодинаковая изменчивость у крупных и небольших компаний Таблица 11.1.10. Оптоволоконные магистральные сети связи Капиталовложения (логарифм денежных сумм) Сетевые мили (логарифм) AT&T 21,0 21,3 MCI 20,0 20,3 GTE 18,7 18,5 United Telecommunications 21,4 20,9 20,9 21,6 Fibertrak ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 539 Окончание табл. 11.1.10 Капиталовложения (логарифм денежных сумм) Сетевые мили (логарифм) ШХ Net 18,5 18,9 Bectra Communications 17,5 18,1 Microtel 17,9 17,6 Litel Telecommunications 17,9 18,3 Lightnet 20,0 20,3 SoutherNet 18,3 17,7 RCI 18,3 18,3 Корреляция равняется 0,957 с; 1? ---------------------1---------------------J--------------------- 1---------------------1— --------------- 1 17 18 19 20 21 22 Капиталовложения (натуральные логарифмы денежных сумм в долларах) Рис. 11.1.14. Результат преобразования в линейную взаимо связь между натуральными логарифмами общей протя женности линий и объемами капиталовложений. Восполь зовавшись подобным преобразованием, можно решить про блему неравной изменчивости. Эта совокупность данных — в логарифмическом масштабе — характеризу ется линейной взаимосвязью Разделение совокупности на группы Говорят, что в двумерной совокупности данных наблюдается разделение на группы (кластеринг), если на соответствующ ей диаграмме рассеяния видны от дельные, отличные одна от другой группы точек (кластеры ). Если в данных дей ствительно есть отдельные группы, но вы этого не осознаете, у вас могут быть серьезные проблемы, поскольку обычные статистические показатели взаим освя зи не могут учи ты вать такой вид взаимосвязи. Ваш а задача заклю чается в том, чтобы вы яви ть кластеринг в своих данных и (если он имеется) предпринять над лежащ ие меры, разделив, например, всю совокупность данных на две или не сколько частей, каж д ая из которых соответствует отдельному кластеру. 540 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Типичная проблема, которая возникает в случае кластеринга, заклю чается в том, что в каждом кластере сущ ествует четкая взаимосвязь, но коэффициент корреляции для всей совокупности данных указы вает на отсутствие взаим освя зи. Х у ж е того, коэффициент корреляции может показы вать взаимосвязь во всей совокупности данных, совершенно противоположную взаимосвязи в каждом от дельном кластере! Всегда старайтесь анализировать каж дую диаграмму рассея ния именно с точки зрения возможного наличия кластеров: сама по себе корре ляц и я еще ни о чем не говорит. Пример. "Цветочные" облигации Облигации Казначейства С Ш А принадлежат к числу наименее рисковых инвестиций — с точки зрения 12 вероятности того, что вы действительно получите все причитающиеся вам выплаты. Помимо проводи мой Казначейством публичной продажи облигаций на первичном рынке ценных бумаг, существует ак тивный вторичный рынок, на котором выставляются на продажу все нереализованные ценные бумаги. Не трудно предположить существование взаимосвязи увеличивающего типа между купоном облигации, ко торый указывает величину периодических выплат по этой облигации (дважды в год), и текущей ценой, по которой продается облигация. В табл. 11.1.11 показана двумерная совокупность данных: учетная ставка купона и цена покупателя (цена, или курс, по которой покупатель согласен приобрести ценную бумагу) для облигаций Казначейства С Ш А , срок погашения которых наступает в период с 1994 по 1998 гг. На диаграмме разброса точек, показанной на рис. 11.1.15, отчетливо виден кластеринг. Обычные обли гации образуют один кластер с очень сильной линейной взаимосвязью. Тщательный анализ позволяет ус тановить, что три особые облигации (долговые обязательства), образующие кластер в нижнем левом углу диаграммы, относятся к типу так называемых " цветочных" облигаций. Эти три "цветочные" облигации образуют кластер с особой взаимосвязью между купоном и ценой. Суммарная корреляция, г = 0,867, указывает на силу взаимосвязи между всеми точками данных во всех кластерах. Взаимосвязь между обычными облигациями оказывается намного сильнее и характеризуется коэффициентом корреляции г = 0,993, который вычисляется без учета трех цветочных облигаций. Что произошло бы, если бы мы не обратили внимание на наличие кластеров? Можно было бы, например, прийти к ошибочному заключению, что взаимосвязь между купоном и ценой просто "достаточно силь ная" и характеризуется коэффициентом корреляции г = 0,867, хотя на самом деле взаимосвязь между обычными облигациями оказывается намного сильнее (ее можно охарактеризовать как "очень сильную" с коэффициентом корреляции г= 0,993). Если эту совокупность данных использовать для определения цен или для принятия решения, какие из обычных облигаций следует продать, полученные результаты бы ли бы искажены наличием "цветочных" облигаций. В определенном смысле цветочные облигации пред ставляют собой иную разновидность защиты гарантии от риска, и было бы неправильным указывать их в одних списках с другими типами облигаций. Что же такое "цветочные" облигации и почему для них характерен столь большой разброс цен? О т об лигаций других типов их отличает то, что с их помощью решается вопрос уплаты налогов. Эти облигации погашаются по номиналу (т.е. по их номинальной стоимости) в порядке уплаты налогов на наследство. Если вы очень богатый человек и чувствуете приближение смерти (что повлечет за собой необходимость платить налоги на наследство), вам, может быть, имеет смысл приобрести по $94 облигации, номиналь ная стоимость которых равняется $ 100. Всем остальным вряд ли стоит задумываться о покупке таких об лигаций. В соответствии с диаграммой рассеяния (смотрим на взаимосвязь для обычных облигаций) по причине низких купонных выплат эти облигации должны стоить не более $80. Однако ценность этих об лигаций как средства уплаты налогов на наследство существенно поднимает их цену. Если, однако, вы примете решение продать облигацию до указанного срока ее погашения, вам придется столкнуться с так называемым “ процентным риском” , т.е. риском потерь в ре зультате изменения процентных ставок (например, стоимость облигации с фиксированной ставкой уменьшается по мере общего повышения процентных ставок). ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 541 Выбросы (резко отклоняющиеся значения) Точка данных на диаграмме рассеяния представляет собой выброс (резко от клоняю щ ееся значение), если она не соответствует взаимосвязи, присущей ос тальным данным. Выбросы могут так искаж ать статистические характеристики, что лиш ь вводят нас в заблуждение. Анализируя диаграмму рассеяния, вы все гда должны проверять данные на наличие выбросов. Если можно оправдать уда ление таких резко отклоняю щ ихся значений (полагая, например, что их появле ние носит исклю чительно случайны й характер), от них следует избавиться. Если вам все ж е придется оставить их, то по крайней мере следует помнить о пробле мах, которые эти точки могут порождать, и рассмотреть возможность получения статистических характеристик (например, коэффициента корреляции) как с уче том, так и без учета этих резко отклоняю щ ихся значений. Выброс может искаж ать корреляцию, которая в некоторых случаях может указы вать на сильную взаимосвязь, тогда как на самом деле ничего, кроме слу чайности и одного резко отклоняю щ егося значения, нет. Выброс может такж е искаж ать корреляцию таким образом, что создается впечатление отсутствия Таблица 11.1.11. Облигации Казначейства США Учетная ставка купона, % Цена покупателя, дол. Учетная ставка купона, % Цена покупателя, дол. 7,000 92,94 12,625 119,06 9,000 101,44 8,875 100,38 7,000 92,66 10,500 108,50 4,125 94,50 8,625 99,25 13,125 118,94 9,500 103,63 8,000 96,75 11,500 114,03 8,750 100,88 8,875 100,38 12,625 117,25 7,375 92,06 9,500 103,34 7,250 90,88 10,125 106,25 8,625 98,41 11,625 113,19 8,500 97,75 8,625 99,44 8,875 99,88 3,000 94,50 8,125 95,16 10,500 108,31 9,000 100,66 11,250 111,69 9,250 102,31 8,375 98,09 7,000 88,00 10,375 107,91 3,500 94,53 11,250 111,97 Данные получены из The Wall Street Journal, 1988, November 9, p. C19. Цены покупателя указаны из расчета на “номинальную стоимость”, равную $100 и выплачиваемую при погашении облигации. Половина купона оплачивается каждые шесть месяцев. Например, для первого элемента таблицы каждые шесть месяцев до наступления срока погашения выплачивается $3,50 (половина 7% купона); при погашении облигации выплачивается еще $100. 542 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ взаимосвязи, когда ф актически имеется сильная взаимосвязь и одно резко от клоняю щ ееся значение. М ожно ли защ ититься от подобных ловуш ек? М ожно, для этого нуж но лиш ь внимательно проанализировать диаграмму рассеяния. Корреляция равняется 0,867 $120 •• о; I со $110 а & Обычные облигации #• о | $100 / "Цветочные" облигации $90 # «£ Корреляция равняется 0,993 только для обычных облигаций j ___I___1__ 1__ 1__ i___I___I___I__ I__ I___1__ I__ I___1 0% 5% 10% 15% Выплата по купонам Рис. 11.1.15. Кластеринг во взаимосвязи между ценой поку пателя и выплатой по купонам облигаций. Цены обыч ных облигаций отличаются от цен “цветочных” обли гаций, поэтому каждый из кластеров характеризуется собственной взаимосвязью. Суммарная корреляция, г = 0,867, не учитывает взаимосвязи внутри каждого от дельного кластера. Корреляция для кластера обычных облигаций, г = 0,993, оказывается намного выше Пример. Количество произведенных изделий и затраты Рассмотрим количество изделий, выпускаемых каждую неделю на заводе, и общие затраты за ту же не делю. В данном случае должна наблюдаться достаточно сильная взаимосвязь между переменными. В те недели, когда завод работает с полной нагрузкой, выпускается большое количество изделий, для произ водства которых требуются большие объемы исходных материалов, — соответственно возрастают и за траты. Однако в имеющихся данных нас ожидают некоторые сюрпризы. В данных, представленных в табл. 11.1.12, имеется отрицательная корреляция г= -0,623. Почему корреляция отрицательна? Диаграмма рассеяния, показанная на рис. 11.1.16, содержит одно резко отклоняющееся значение. Этим и объясняется отрицательная корреляция — даже несмотря на то, что остальные данные демонстрируют определенную положительную связь (которая, однако, нивелируется имеющимся выбросом). Это лишний раз подтверждает наш вывод о том, что резко отклоняющиеся значения необходимо тщательно анализи ровать. В данном случае наличие такого значения объясняется пожаром, который произошел на заводе. Значительная часть исходных материалов была уничтожена огнем — именно это и стало причиной резко го скачка затрат на той неделе. Выпуск продукции резко упал из-за остановки производства в 11.00, и даже не всю продукцию, соответствующую этой точке, можно было использовать. Имеем ли мы право игнорировать это резко отклоняющееся значение? В данном случае, видимо, имеем. Несо мненно, имеем, если нас интересует взаимосвязь в обычные недели и если пожар рассматривается как исключи тельный случай, нетипичный для нормальных обстоятельств. Действительно, если мы отбросим это резко откло няющееся значение, корреляция станет положительной и близкой к 1 величиной (г= 0,869), указывая на доста точно сильную взаимосвязь увеличивающего типа между затратами и объемом выпускаемой продукции. Совокупность данных без выброса показана на рис. 11.1.17. Обратите внимание: отбросив резко отклоняю щееся значение, можно увеличить масштаб диаграммы и более подробно рассмотреть оставшиеся данные. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 543 Рис. 11.1.16. Резко отклоняющееся значение нарушило кор реляцию. Вместо того чтобы выявить в целом взаимо связь роста между объемом произведенной продукции и затратами, коэффициент корреляции, г = -0,623, ука зывает на наличие взаимосвязи уменьшения, при ко торой более высоким объемам производства соответ ствуют меньшие затраты $5000 г- Корреляция равняется 0,869 ••• ! $4000 $3000 2 со S со $2000 - $1000 - $0 1------- *------- 1------- 1------—1------- 1 10 20 30 40 50 Количество выпущенных изделий Рис. 11.1.17. Та же совокупность данных, но без резко от клоняющегося значения, иллюстрирует взаимосвязь между объемом произведенной продукции и затратами для “ обычных” недель (без чрезвычайных происшест вий ). Коэффициент корреляции, г = 0,869, в этом слу чае имеет положительное значение и приближается к 1, что указывает на взаимосвязь роста Корреляция — это не причинная обусловленность Очень часто корреляцию и причинную обусловленность считаю т синонимами. Такое представление имеет под собой определенные основания, поскольку, когда нечто является причиной чего-либо другого, можно говорить о связи первого и второго и, следовательно, об их коррелированности (например, действие и ре- 544 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 11.1.12. Недельный объем производства Количество изделий Затраты, дол. Количество изделий Затраты, дол. 22 3470 30 3589 30 3783 38 3999 26 3856 41 4158 31 3910 27 ОООО 36 4489 28 3885 30 3876 31 3574 22 3221 37 4495 45 4579 32 3814 4325 41 4430 38 3 14131 зультат, проверка и качество, капиталовлож ения и прибыль, окруж аю щ ая среда и производительность). Однако корреляция бывает и без причинной обусловленности. Это можно пред ставить себе так: корреляция — лиш ь число, которое указывает на то, что боль шим значениям одной переменной соответствуют большие (или, наоборот, малые) значения другой переменной. Корреляция не может объяснить, почему эти две пе ременные связаны между собой. Действительно, корреляция никак не объясняет, почему капиталовложения порождают прибыль (или наоборот)! Корреляция просто указы вает, что между этими величинами наблюдается определенное соответствие. Одним из возможных оснований для сущ ествования “ корреляции без причин ной обусловленности” является наличие некоторого скрытого, ненаблюдаемого, третьего фактора, создающего впечатление, будто одна переменная является причиной другой переменной, тогда как на самом деле причиной для каждой из этих двух переменных является эта неизвестная третья переменная. Термином лож ная корреляция обозначают высокую корреляцию, которая на самом деле обеспечивается действием некоего “ третьего фактора” . Допустим, вы обнаружили высокую корреляцию между приемом на работу новых менеджеров и созданием новых производственных мощностей. М ожет быть, именно новые менеджеры я в ляю тся “ причиной” капиталовложений в новые производственные мощности? И ли, наоборот, создание новых производственных мощностей послужило “ причиной” приема на работу новых менеджеров? Скорее всего, однако, здесь проявляется дей ствие третьего фактора: высокой, рассчитанной на длительную перспективу по требности в продукции фирмы, которая и послужила причиной и приема на рабо ту новых менеджеров, и создания новых производственных мощностей. Пример. Расходы в продовольственных магазинах и ресторанах Основываясь на данных из различных штатов, показанных на диаграмме рассеяния (рис. 11.1.18), не трудно прийти к выводу об очень высокой корреляции (г= 0,988) между суммой денежных расходов в продовольственных магазинах и ресторанах (в местах, где можно поесть и выпить), причем эта корреля- ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 545 ция имеет высокий уровень значимости (р< 0 ,0 0 1 ).13 Чтобы разобраться в этом, постараемся прежде всего ответить на следующий вопрос: "Является ли привычка тратить много денег в продовольственных магазинах "причиной", которая заставляет человека тратить много денег в ресторанах?" Лично я так не считаю. Что касается менЬ, то чем больше денег я трачу в продовольственных магазинах, тем реже по сещаю рестораны: действительно, зачем мне идти в ресторан, если у меня хватает еды дома? М ожет бьггь, здесь причинно-следственная связь имеет другую направленность: "Привычка тратить много денег в ♦ресторанах является "причиной", которая заставляет человека тратить много денег в продовольственных магазинах?" Однако рассуждения, подобные приведенным выше, заставляют нас и в этом случае дать отрицательный ответ, поскольку человеку, который тратит много денег в ресторанах, скорее всего нет нужды хранить у себя дома большой запас продуктов. Вообще говоря, экономисты считают, что рестора ны и продовольственные магазины в какой-то степени заменят друг друга. Если ни одна из переменных (расходы в продовольственных магазинах и расходы в ресторанах) не является непосредственной причиной изменения другой переменной, тогда, может бьггь, существует некий третий фактор, влияющий на обе эти переменные? Может быть, этим третьим фактором является численность насе ления штата?14 Соответствующие коэффициенты корреляции весьма высоки: г= 0,994 (между численностью населения и расходами в продовольственных магазинах) и г= 0,990 (между численностью населения и рас ходами в ресторанах). Весьма правдоподобным является такое объяснение: в штатах с большим населением тратят денег больше и в продовольственных магазинах, и в ресторанах, просто поскольку в этих штатах проживает больше людей! Связь между расходами в продовольственных магазинах и ресторанах является косвенной и объясняется достаточно просто наличием указанного третьего фактора.15 11.2. Регрессия: предсказание одного фактора на основании другого Регрессионный анализ позволяет предсказывать одну переменную на основа нии другой с использованием прямой линии, характеризующ ей взаимосвязь ме ж ду этими двумя переменными. Переменную, поведение которой прогнозирует ся, принято обозначать буквой Y ; переменную, которая используется для такого прогнозирования, принято обозначать буквой X . Очень важно, что вы опреде ляете как X и Y , поскольку X предсказывает У , и У предсказывается с помо щью X . В табл. 11.2.1 представлен ряд стандартных способов описания роли ка ждой из переменных и соответствующ ие примеры. 13 Основано на данных за 1995 г. о 50 штатах и Округе Колумбия, приведенных в таблице 1277 Бюро переписи населения США, Statistical Abstract of the United States: 19 97 , 117th edi tion (Washington, D.C.) 1997. Описание проверки значимости для двумерных данных будет рассмотрено в разделе 11.2. 14 Основано на данных переписи населения за 1996 г., приведенных в таблице 33 Бюро переписи на селения США, Statistical Abstract of the United States: 1997, 117th edition (Washington, D.C.) 1997. 15 В действительности с помощью остаточного анализа можно убедиться в отсутствии значимой взаимосвязи между изменением расходов в продовольственных магазинах и ресторанах после учета численности населения штатов. Это можно сделать, определив остатки от регрессии для прогнозирования расходов в продовольственных магазинах на основе численности населения (эти остатки показывают, насколько больше — или, наоборот, меньше — оказываются расходы в данном штате по сравнению с тем, что можно было бы ожидать от штата с такой численно стью населения) и вычислив их связь с остатками от регрессии для прогнозирования расходов в ресторанах на основе численности населения. В главе 12, посвященной множественной рег рессии, будет описан другой метод учета дополнительных переменных. 546 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ $50 г 4 5 $40 1 $30 $20 $10 J * * **' $Q $0 I $10 $20 $30 $40 $50 Расходы в продовольственных магазинах, млрд дол. Рис. 11.1.18. Корреляция без непосредственной причинно-следственной связи между расходами в продовольственных магазинах и ресторанах в различных штатах. Наблюдается очень сильная положительная взаимосвязь (г = 0,988), свидетель ствующая о том, что высоким расходам в ресторанах соответствуют высокие расходы в продовольственных магазинах, несмотря на то, что эти способы пи тания в известной степени являются экономически взаимозаменяемыми и что люди, часто посещающие рестораны, должны были бы тратить меньше денег на походы в продовольственные магазины. Высокие расходы в продовольственных магазинах не являются непосредственной " причиной” высоких расходов на пи тание в ресторанах; на взаимосвязь между этими расходами косвенно влияют различия в численности населения штатов: в штатах с большей численностью населения, как правило, отмечаются более высокие расходы как на питание в ресторанах, так и на покупки в продовольственных магазинах Прямая линия характеризует линейную взаимосвязь Термином линейный регрессионный анализ обозначают прогнозирование од ной переменной на основании другой, когда между этими переменными сущ ест вует линейная взаимосвязь. Точно так ж е как понятие “ среднего значения” можно использовать в качестве характеристики отдельной переменной, прям ая линия может вы ступать в качестве характеристики предполагаемой линейной связи между двумя переменными. Точно так ж е как для одномерных данных сущ ествует изменчивость относительно среднего значения, для двумерных дан ных сущ ествует изменчивость относительно соответствующ ей прямой линии. Так же как среднее значение, прям ая линия является весьма полезной, но все же не идеальной характеристикой, поскольку присутствует случайность. Н а рис. 11.2.1 показана прям ая линия, характеризую щ ая данные телевизи онных рейтингов, — пример линейной взаимосвязи, рассмотренный нами ранее в этой главе. Обратите внимание, как эта линия отражает взаимосвязь возраста ния. Она отражает основную структуру в этих данных: точки на диаграмме лиш ь случайно отклоняю тся от этой прямой линии (случайные ф луктуации). После краткого обсуждения таких прямых линий мы покажем, как вы чи с л ять и интерпретировать линию регрессии, как вы числить, насколько эта линия хорошо соответствует данным, как исходя из выборки делать правильный вывод относительно генеральной совокупности и как учи ты вать возможные сложности. ГЛАВА П. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 547 Таблица 11.2.1. Переменные в регрессионном анализе Роли Примеры X Y Прогнозирующая переменная (предиктор) Прогнозируемая переменная Независимая переменная Зависимая переменная Поясняющая переменная Поясняемая переменная Стимул Реакция Экзогенная переменная (внешняя) Эндогенная переменная (внутренняя) Сбыт Доходы Количество произведенной продукции Затраты Затраченные усилия Полученные результаты Капиталовложения Выпуск продукции Практический опыт Заработная плата Температура процесса Объем произведенной продукции Индекс Nielsen Рис. 11.2.1. Линия регрессии характеризует взаимосвязь ме жду двумя оценками величины телевизионной зритель ской аудитории. Эта линия показывает, как можно прогнозировать рейтинги, полученные с помощью “пиплметров” (Y), на основании индекса Nielsen (X ) Чтобы с помощью Excel® нанести на диаграмму рассеяния линию наимень ших квадратов, достаточно щ елкнуть правой кнопкой мыш и на какой-либо точ ке данных на диаграмме, выбрать в появивш емся на экране контекстно зависимом меню команду Add Trendline (Добавить линию тренда) и, наконец, пре жде чем щ елкнуть на кнопке ОК, выбрать в качестве типа линейную регрессию. Н иж е показан начальны й шаг (щ елчок правой кнопкой мы ш и на точке данных), за которым следует результат, полученный после добавления линии. 548 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Прямые линии П рям ая линия описывается двумя значениями: наклоном, Ь, и сдвигом, а. Н аклон указы вает на крутизну подъема (или сниж ения — если значение Ъотри цательно) линии. Если сместиться по горизонтали вправо ровно на 1 единицу измерения X , линия поднимется (или снизится, если Ъ<0) по вертикали на Ъ единиц измерения Y . Сдвиг — это просто значение Y , когда X равно 0. В случа ях, когда нулевое значение X лишено смысла, сдвиг следует рассматривать как технически необходимую характеристику линии и его не следует непосредствен но интерпретировать. 1 6 Уравнение прямой линии имеет следующий вид. Уравнение прямой линии У = Сд в и г + (Наклон) (Х ) = а+ Ь Х . Н аклон и сдвиг показаны на рис. 11.2.2-11.2.4. Построение линии на основе данных К а к исходя из двумерной совокупности данных найти наилучш ий вариант ли нии, которая предсказывала бы У по X ? Один из подходов заклю чается в том, чтобы найти линию, характеризующ уюся в некотором смысле наименьшей ошиб кой предсказания. Удобнее всего использовать для этого линию наименьших квадратов, которая характеризуется наименьшей суммой квадратов ошибок пред сказания (отклонений по вертикали реальных значений от линии), в сравнении с любой другой прямой линией, которую можно было бы такж е начертить. Д ля объ емов продаж из табл. 1 1 . 1 . 1 ошибки прогнозирования, сумму квадратов которых необходимо минимизировать, показаны на рис. 11.2.5 (для линии наименьших квадратов) и на рис. 1 1 .2 . 6 (для линии, выбранной не лучш им образом). Линию наименьших квадратов построить нетрудно. Компью теры и многие калькулятор ы позволяют автоматически вы чи слять методом наименьших квад ратов наклон, Ь, и сдвиг, а. Н аклон иногда называю т коэффициентом регрессии Y по Х у а сдвиг — постоянным членом, или константой регрессии. Н аклон, Ь, вы числяется как корреляция, г, умноженная на отношение стандартных откло- Линию можно определить, задав наклон и значение Y для X . При таком подходе оба числа, определяющие линию, всегда имеют содержательный смысл. Однако в настоящее время так поступают редко. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 549 у Линия Y=3+0;5X у Рис. 11.2.2. Прямая линия, Y = 3 + 0,5Х начинается в точке сдвига (а = 3) при X = 0 и поднимается на 0,5 (одно значение наклона, b = 0,5) при каждом сдвиге на одну единицу вправо Рис. 11.2.3. Линия с отрицательным на клоном. Прямая линия, Y = 4 0,5Х, начинается в точке сдвига (а = 4) при X = 0 и снижается на 0,5 (так как величина наклона от рицательна, Ъ= -0 ,5 ) при каждом сдвиге на одну единицу вправо 5 2 1 О / Х *° 1 У 4 3 Линия У=4-0,5Х ” Y =3 - 0,5Х^ Y= 2 +Х / "Y =0 / -1 / \ / Y— 3 +4X -2 -3 -4 -5 / 1 -5 -4 1 1 1 -3 -2 -1 / 1 О » | 1 j1 X 2 4 5 3 Рис. 11.2.4. Набор прямых линий и их уравне ния, показывающие наклон и сдвиг. Толь ко лишь вертикальную линию невозможно описать уравнением вида Y = а + ЪХ нений, S Y /S X (выраженное в единицах Y на единицу X ). Сдвиг, а, определяется таким образом, чтобы линия проходила через наиболее подходящую точку, а именно ( X , У ). Соответствующ ие формулы имеют следующий вид. Вычисление наклона и сдвига методом наименьших квадратов Наклон = Ь =г— . Sx Сдвиг = а = У - Ь Х = У - г - - Х . 550 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Линия наименьших квадратов — Sy — Sy (Прогнозируемое значение У) = a+ bX = [ Y - г — X ) + r — X . v>X Не рассчитывайте, что все точки попадут на линию. Эту линию можно счи тать обобщенной характеристикой взаимосвязи между переменными. Данные можно представить себе как линию с добавлением некоторой случайности. П ро гнозируемое значение У при заданном значении X равно высоте линии при этом значении X ; такое значение Y можно вы числить исходя из уравнения линии наименьших квадратов. Прогнозируемое значение Y можно найти либо для не которой точки имеющ ихся данных, либо для нового значения X . Д ля каждой точки имеющ ихся данных можно определить остаток, который указы вает, на сколько эта точка оказы вается выш е (или ниже — если значение остатка мень ше н ул я) линии. О статки позволяют вносить определенные коррективы, сравни вая ф актические значения Y с теми значениями, которые можно ожидать для соответствующ их значений X . Форм ула вы числения остатка для точки данных (X,Y) имеет следующий вид: остаток = (фактическое значение У ) - (прогнозируемое значение У ) = Y - (а + ЬХ). и Неудачная линия ■ Ошибки прогнозирования велики ■ Сумма квадратов ошибок равняется 6 002 064 073 ш Линия наименьших квадратов ■ Ошибки прогнозирования невелики ■ Сумма квадратов ошибок равняется 53 445 498 Количество контактов с клиентами Количество контактов с клиентами Рис. 11.2.5. Линия наименьших квад ратов характеризуется наимень шей из всех возможных линий суммой квадратов ошибок прогно зирования. Ошибки прогнозирова ния измеряются по вертикали Рис. 11.2.6. Необдуманный выбор линии бу дет характеризоваться значитель ными ошибками прогнозирования и не будет соответствовать линии наи меньших квадратов Таблица 11.2.2. Недельный объем производства Количество выпущенных изделий, X Затраты, Y 22 3470 30 3783 26 3856 31 3910 36 4489 ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 551 Окончание табл. 11.2.2 Количество выпущенных изделий, X Затраты, Y 30 3876 22 3221 45 4579 38 4325 30 3589 38 3999 41 4158 27 3666 28 3885 31 3574 37 4495 32 3814 41 4430 X = 32,50 К =$3951,06 Стандартное отклонение Sx = 6,5552 Sy = $389,6131 Корреляция г = 0,869193 Среднее значение Пример. Фиксированные и переменные затраты Вернемся к данным о производстве (см. один из предыдущих примеров), но не будем рассматривать рез ко отклоняющееся значение. Эти данные — с указанием X и У, а также соответствующих статистических характеристик — приведены в табл. 11.2.2. Естественно, что X обозначает количество произведенных изделий, а У — затраты, поскольку у менеджеров часто возникает потребность прогнозировать затраты, основываясь на текущих планах выпуска продукции. Наклон представляет переменные затраты (себестоимость производства еще одного изделия); его можно вычислить из имеющихся статистических характеристик следующим образом: переменные затраты = Ь = rSY/SX = (0,86919 3)(389,6131 )/6 ,5552 = $51,66. Другой член уравнения, сдвиг, определяет фиксированные затраты. Речь идет о таких базовых затратах, как, например, арендная плата, которая включается в расходы даже в том случае, если продукция вооб ще не выпускается. Сдвиг вычисляется следующим образом:17 фиксированные затраты = а = У - Ь Х = 3951,06-(51,66)(32,5) = $2272 . Выражение для линии наименьших квадратов можно представить в следующем виде: прогнозируемые затраты = =фиксированные затраты + (переменные затраты)(количество произведенных изделий) = = $2272 + $51,66 (количество произведенных изделий). 17 Чтобы иметь возможность интерпретировать вычисленное значение сдвига как фиксирован ные затраты, необходимо также предположить, что линейная связь присутствует даже за пре делами диапазона изменений имеющихся данных, поскольку, для того, чтобы линия пересекла ось У (при X = 0), нам необходимо продолжить построенную линию (другими словами, экст раполировать ее за пределы имеющихся у нас данных). 552 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Данные и соответствующая линия наименьших квадратов изображены на рис. 11.2.7. Эту оценку связи можно использовать при составлении бюджета. Если вы предполагаете, что на следую щей неделе понадобится выпустить 36 изделий, то можно прогнозировать соответствующие затраты, воспользовавшись связью в данных за предыдущий период, которую отражает линия наименьших квад ратов. Прогноз может бьггь следующим: прогнозируемые затраты на производство 36 изделий = а + (Ь)(3 6 ) = $2272 + ($51,66)(36) = $4132. ■ Линия наименьших квадратов ■ У= $2272 + $51,66Х Рис. 11.2.7. Линия наименьших квадратов характеризует данные о производственных затратах, определяя фиксированные затраты (сдвиг, а = $2272) и пере менные затраты на одно изделие ( наклон, b = $51,66 на одно произведенное изделие) Рис. 11.2.8. Линию наименьших квадратов можно использо вать для прогнозирования ( или предсказания) ожи даемого значения Y, если задано новое значение X. В данном случае вы планируете выпустить на следую щей неделе 36 изделий. Линия наименьших квадратов предполагает, что затраты в этом случае могут со ставить $4 132. Конечно, реальные затраты будут случайным образом отличаться от прогнозируемых, как, впрочем, и другие точки на диаграмме ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 553 Ваши прогнозируемые затраты равны высоте линии (по отношению к оси X) в точке, соответствующей выпуску 36 изделий, как показано на рис. 11.2.8. Естественно, трудно рассчитывать на то, что реальные затраты составят именно $4 132. В то же время вы можете ожидать затраты, размер которых будет лишь случайным образом отличаться от вашего наилучшего предположения $4132. Пример. Территория и продажи Ваши менеджеры по сбыту — вообще говоря, неравноценные работники. Разумеется, одни из них рабо тают усерднее, чем другие, и производственные показатели (объем продаж) у них оказываются лучше, чем у других. Однако ситуация сложнее, чем может показаться на первый взгляд. З а каждым из менед жеров закреплена определенная территория. Одни территории предоставляют более широкие возмож ности для ведения бизнеса, чем другие. Пытаясь выяснить, кто из менеджеров работает лучше, а кто — хуже, помимо анализа, сколько товара каждому из менеджеров удалось продать (что, конечно, очень важно), вы решаете сделать поправку на размер территории. М ожет оказаться, что некоторые из тех, кого вы считали хорошими работниками, достигли лучших, чем у других, показателей лишь за счет того, что за ними закреплены большие территории. Кроме того, вы можете открыть новые таланты тех менед жеров, уровень продаж которых выше среднего, но общий объем не очень высок по причине небольшой территории. Все эти поправки вам поможет внести регрессионный анализ. Соответствующая совокуп ность данных представлена в табл. 11.2.3. Линия наименьших квадратов бпределяется следующим выражением: ожидаемый объем продаж = $1 371 744 + $0,23675045 (территория). Подставляя в это уравнение размер территории, закрепленной за каждым из менеджеров по сбыту, можно определить ожидаемый (в зависимости от величины территории) объем продаж. Например, у Ансона ожи даемый объем продаж составляет $1 371 744 + ($0,23675045)х(4 956 512) = $2 545 ООО (результат ок руглен до ближайшей тысячи). Фактический объем продаж у Ансона (примерно $2 687 ООО) оказывается на $ 142 ООО больше, чем ожидаемый. Таким образом, значение остатка для Ансона ($ 142 ООО) свидетельст вует о его успешной деятельности. Ожидаемые объемы продаж и значения остатков можно вычислить для каждого из менеджера по сбыту; соответствующие данные представлены в табл. 11.2.4. Остатки представляют особый интерес. Наибольший из них, $791 ООО, указывает, что Бонни удалось обеспечить своей фирме примерно на $0,79 миллиона больший объем продаж, чем можно было бы ожидать для территории такого размера. Несмотря на то что абсолютное значение объема продаж, обеспеченного Бонни, оказалось не самым высоким по фирме, ею достигнут достаточно впечатляющий результат, если принять во внимание размер (вообще говоря, довольно небольшой) закрепленной за ней территории. Еще один также достаточно большой остаток $538 ООО свидетельствует о том, что впечат ляющий объем продаж ($5 149 127 — абсолютный рекорд), достигнутый Кларой, объясняется не только большим размером закрепленной за ней территории. Действительно, она заработала для своей фирмы примерно на $0,5 миллиона больше, чем можно было бы ожидать для территории такого размера. В то же время наименьшее значение остатка -$729 ООО является отрицательным и свидетельствует о серьез ных недостатках в работе Рода (учитывая размер закрепленной за ним территории, он должен был бы принести фирме примерно на $0,73 миллиона больше). Соответствующие данные, линия наименьших квадратов и комментарии относительно трех упомянутых нами менеджеров приведены на рис. 11.2.9. Не пытайтесь интерпретировать эти результаты слишком буквально. Несмотря на то что эти три особых случая действительно способны выявить двух "звезд " и одного неудачника, полученные результаты мож но объяснить и по-другому. Возможно, проблемы Рода возникли потому, что его территория является од ним из депрессивных регионов страны. В таком случае его относительно низкие результаты вовсе не объ ясняются слабыми профессиональными качествами или недостаточным усердием в работе. Возможно, требуется проведение более тщательного и сложного регрессионного анализа, который учитывал бы и другие, не менее важные факторы. 554 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 11.2.3. Территория и производительность менеджеров по сбыту Территория (численность населения) Объем продаж (за прошлый год), дрл. Объем продаж (за прошлый год), Территория (численность населения) ДОЛ. 13 683 663 5149127 2 024 809 Ансон 4 956 512 2 687 224 Клара Эшли 8 256 603 3 543 166 Бриттани 3 580 058 Джонатан 9 095 310 3 320214 Ян 2775 820 1 711 720 4 637 015 3 260464 Род Николас 12 250 809 3 542 722 4 735498 2 251 482 Бонни Таблица 11.2.4. Территория, фактическая и ожидаемая производительность, а также остатки Территория (численность населения) Ансон 4956512 Остаток (округленный), дол. Фактический объем продаж, дол. Ожидаемый объем продаж (округленный), дол. 2 687 224 2 545 000 142 000 Эшли 8 256 603 3 543 166 3 326000 217 000 Джонатан 9 095 310 3320214 3 525 000 -205 000 12 250 809 3 542 722 4272 000 -729 000 РОД 4 735 498 2 251 482 2 493 000 -241 000 13 683 663 5149127 4611 000 538 000 Бриттани 3 580 058 2024809 2219 000 -195 000 Ян 2 775 820 1711720 2 029 000 -317 000 4 637 015 3260464 2 470 000 791 000 Николас Клара Бонни Насколько полезна построенная линия В ы , наверное, уж е обратили внимание, что линия наименьших квадратов не является идеальным описанием данных. Она, несомненно, является полезной ха рактеристикой основной тенденции, но все ж е не учитывает случайные отклоне ния данных от линии. В связи с этим возникает следующий вопрос: “ Насколько полезна линия регрессии?” Ответ на этот вопрос основывается на двух важ ны х по казателях: стандартной ошибки оценки (абсолютная мера величины ошибок про гнозирования) и R2 (относительная мера того, как много удалось объяснить). Стандартная ошибка оценки: насколько велики ошибки предсказания Стандартная ош ибка оценки, которую мы будем обозначать Se (в компьютер ных распечатках часто встречается обозначение S ), является приближенным по казателем величины ошибок предсказания (остатков) для имеющ ихся данных и измеряется в тех ж е единицах, что и Y. Н асколько хорошо вы можете предска- ГЛАВА П. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 555 $6 Бонни: C j A r V A n n i l f f j n о п т и о 1) Клара: r i n f t n n f t W n f l U L lt< $5 I $4 Несмотря на неплохие показатели объема продаж, они все же ниже ожидаемых для столь большой территории $0 5 10 15 Территория, млн чел. Рис. 11.2.9. Рассматривая положение каждой точки дан ни х относительно линии регрессии, можно оценить производительность каждого менеджера с учетом по правки на некоторый другой фактор. В данном случае точки, расположенные над линией ( имеющие положи тельный остаток), представляют менеджеров, обес печивших более высокие объемы продаж, чем можно было бы ожидать, учитывая размер закрепленных за ними территорий. Точки, расположенные под линией, представляют объемы продаж ниже ожидаемых 18 зы вать Y ? Ответ: с точностью плюс-минус несколько Se. П оскольку, как правило, требуется, чтобы прогноз был как можно более точным, значение Se должно быть как можно меньшим. Se можно интерпретировать как стандартное откло нение в том смысле, что если ош ибки предсказания имеют нормальное распреде ление, то можно ожидать, что примерно 2/3 точек данных будут находиться на расстоянии не более Se выш е или ниже линии регрессии. Кроме того, около 95% значений данных должны находиться на расстоянии не более чем 2 Se от линии регрессии и т.д. Рис. 11.2.10 иллюстрирует это положение на примере данных о производственных затратах. Стандартную ош ибку оценки можно вы числить с помощью следующих формул. Стандартная ошибка оценки (для вычисления) Первая формула показывает, как вы чи слять Se путем уменьш ения SY с уче том корреляции и размера выборки. Действительно, Se, как правило, меньше S Y, поскольку линия а + ЪХ характеризует соответствующ ую взаимосвязь и, следо18 Более строгий, точный ответ на этот вопрос мы дадим в одном из следующих разделов, когда речь пойдет о прогнозировании нового значения Y для заданного значения X. 556 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Рис. 11.2.10. Стандартное отклонение оценки, Se, показы вает приблизительно, ошибку какой величины вы до пускаете, когда вместо фактического значения У ис пользуете прогнозируемое ( на линии наименьших квадратов) значение Y. Можно ожидать, что в случае обычной линейной связи ( такой, как показана на этом рисунке) примерно 2 /3 точки данных будет на ходиться выше или ниже линии наименьших квадра тов на расстоянии не более Se вательно, оказывается ближе к значениям У, чем более простая статистическая характеристика, У . Вторая формула показывает способ интерпретации Se как оценки стандартного отклонения остатков: возведенные в квадрат ошибки про гнозирования усредняются путем деления на п - 2 (соответствующее количество степеней свободы, поскольку выполнена оценка двух чисел, а и Ь), а корень квадратный позволяет получить результат в тех же единицах, в которых изме рена переменная У. В задаче о производственных затратах мы имели коэффициент корреляции г = 0,869193, изменчивость в отдельных значениях затрат SY = $389,6131 и раз мер выборки п = 18. В таком случае стандартная ошибка оценки равна St = SrJ(l - r2) ? — ± = 389,6131. (1 - 0 ,8691932) = V п -2 v 18-2 = 389,6131.1(0,0244503)— = 389,6131^/0,259785 = $198,58 . v 16 Этот результат свидетельствует о том, что в обычные недели фактические за траты отличались от прогнозируемых (методом наименьших квадратов) затрат примерно на $198,58. Несмотря на то что линия наименьших квадратов (линия прогноза) максимально учитывает взаимосвязь между затратами и объемом про изведенной продукции, прогнозы, которые можно делать на основе этой линии, далеки от совершенства. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 557 /Т2: как много объяснено R2 (произносится “ r -квадрат” ), который называю т такж е коэффициентом де терминации, показывает, в какой мере изменчивость У объясняется поведением X . 19 Этот показатель вы числяется путем простого возведения в квадрат коэффи циента корреляции, г (т.е. i f = г2). Таким образом, доля вариации У , опреде ляем ая выражением 1 - Л 2, оказы вается необъясненной. Обычно большие значе ния д 2 считаю тся более предпочтительными, поскольку указы ваю т на более сильную взаимосвязь между 1 и У , которую можно использовать для прогнози рования и других целей. Однако на практике малые значения i f вовсе необяза тельно указы ваю т на то, что X нельзя использовать для объяснения поведения У ; малые значения i f могут просто указы вать на то, что поведение У объясняет ся не только X , но и другими важ ны м и факторами. Например, коэффициент корреляции совокупности данных, относящихся к про изводственным затратам, равняется 0,869193. Следовательно, значение i f равно В2 = 0,8691932 = 0,755, или 7 5 ,5 % . Это значение i f говорит о том, что 75,5% вариации (изменчивости) недель ных затрат объясняется количеством изделий, выпущ енных за неделю. Осталь ная часть (2 4 ,5 % ) вариации общих затрат объясняется другими причинами. М ожно представить себе это таким образом. Каж д ую неделю наблюдается оп ределенная вариация (изм енчивость) величины производственных затрат (кото рая характеризуется показателем S y). Ч асть этой вариации объясняется тем, что в какие-то недели уровень производства оказы вается вы ш е (что и приводит к бо лее высоким затратам), а в какие-то недели — ниж е. Таким образом, количество произведенных изделий “ объясняет” определенную часть вариации недельного уровня затрат. Однако это не позволяет понять всю вариацию. Сущ ествую т и другие факторы (например, неожиданные поломки оборудования, сверхурочные работы, определенные ош ибки и т.п .), которые такж е сказы ваю тся на вариации уровня затрат. Такое значение i f свидетельствует о том, что 75,5% вариации недельных затрат можно отнести на счет объема производства, а оставш иеся 24,5% вариации все еще не объяснены. Доверительные интервалы и проверка гипотез для регрессии До сих пор мы занимались обобщением данных: оценивали силу взаимосвязи с помощью коэффициента корреляции, взаимосвязь с помощью линии наимень ш их квадратов, соответствие линии и данных с помощью стандартной ош ибки оценки и i f . Сейчас настало время сделать следующий ш аг и перейти от вы чи с ления характеристик данных выборки к статистическим выводам относительно более крупной генеральной совокупности, которая нас, собственно, и интересует. Но что необходимо рассматривать в случае регрессии как генеральную совокуп ность? Ответ на этот вопрос дает линейная модель. 19 2 Более точно, R является той частью дисперсии У, которая объясняется влиянием X . По оп ределенным техническим причинам (поскольку квадрат полной ошибки можно представить в виде квадратов двух компонентов: объясненной части и необъясненной) в статистике традици онно используют дисперсию (квадрат стандартного отклонения). 558 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Предположение о линейности определяет генеральную совокупность Чтобы статистический вывод был обоснованным, анализируемые данные должны представлять собой случайную выборку из интересующей нас генераль ной совокупности. Как всегда, это гарантирует, что данные точным и предска зуемым образом представляют интересующую нас генеральную совокупность. Кроме того, нам нужно сделать определенное техническое допущение, которое позволит использовать t-таблицу, в основе которой лежит нормальное распреде ление. С этой целью мы будем предполагать, что данные для обеих переменных извлечены независимо и соответствуют линейной модели, которая утверждает, что наблюдаемое значение У определяется в генеральной совокупности характе ризующейся прямой линией связью плюс случайная, имеющая нормальное рас пределение, ошибка. Линейность генеральной совокупности (линейная модель) У = (а + р Х )+ е = = (связь в генеральной совокупности) + случайность; где в имеет нормальное распределение со средним значением 0 и постоянным стандартным отклоне нием а . Эти допущения обеспечивают дополнительные гарантии того, что выбранная совокупность данных будет состоять из независимых наблюдений, характери зующихся линейной связью с одинаковой вариацией и приблизительно нормаль но распределенной случайностью. Связь в генеральной совокупности задается двумя параметрами: сдвигом (кон станта уравнения регрессии) в генеральной совокупности а и наклоном (коэффи циент регрессии) в генеральной совокупности (3 . Еще один параметр генеральной совокупности, а , указывает величину неопределенности в этой ситуации. Если бы ваши данные представляли, например, данные переписи всего населения, тогда со ответствующая линия наименьших квадратов представляла бы связь в генеральной совокупности. Как правило, в качестве оценки а используют вычисленный с по мощью метода наименьших квадратов сдвиг а; в качестве оценки (3 — вычислен ный методом наименьших квадратов наклон Ъ; в качестве оценки о — стандарт ную ошибку оценки, S €. Разумеется, со всеми этими оценками связаны определен ные ошибки, поскольку а, b и Se вычисляются на небольших выборках, а не на всей генеральной совокупности. В табл. 11.2.5 представлена сводка этих парамет ров генеральной совокупности и выборочных статистик. Линейность является базовым допущением для статистических выводов в регрессионном и корреляционном анализе. Построение доверительных интерва лов и проверка статистических гипотез для коэффициента регрессии предпола гают, что линейность справедлива для генеральной совокупности. В частности, доверительные интервалы и проверки гипотез будут необоснованны, если соот ветствующая взаимосвязь окажется нелинейной или будет характеризоваться неодинаковой вариацией. Вам необходимо учитывать эти особенности: если ли нейная модель не соответствует вашим данным, то выводы, сделанные на основе регрессионного анализа, могут оказаться неверными. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 559 Стандартные ошибки для наклона и сдвига Когда речь идет о параметрах генеральной совокупности и о выборочных оценках, естественно предположить, что где-то скрыты соответствующие стан дартные ошибки. Зная эти стандартные ошибки и количество степеней свободы, можно использовать уже известные из глав 9 и 10 методы для построения дове рительных интервалов и проверки статистических гипотез. Стандартная ошибка коэффициента регрессии, S b, указывает приблизитель ную величину вызванного случайностью выборки отклонения оценки наклона, b (коэффициент регрессии, вычисленный на основе выборки), от наклона в гене ральной совокупности, (3 . Обратите внимание, что S b является выборочной ста тистикой. Формула для S b выглядит следующим образом. Стандартная ошибка коэффициента регрегсии Sb 5 ; число степеней свободы равно п - 2 . Эта формула свидетельствует о том, что неопределенность b пропорциональна базовой неопределенности (Se) в данной ситуации, но (1) S b будет меньше, когда значение S X оказывается большим (поскольку линия будет определена лучше, если диапазон значений X будет больше), и (2) Sb будет меньше, когда размер выборки п будет больше (просто потому, что в этом случае у нас оказывается больше информации). Довольно часто используют такие термы, как корень квадратный из п в знаменателе формулы стандартной ошибки, которые отража ют влияние дополнительной информации. Число степеней свободы для этой стандартной ошибки равняется п - 2, по скольку при построении линии регрессии оцениваются два значения, а и Ь. В нашем примере с производственными затратами (без выброса!) для выбо рочных данных имеем коэффициент корреляции г = 0,869193, размер выборки п = 18 и наклон (переменные затраты) b — 51,66. Мы имеем дело с идеализиро ванной генеральной совокупностью, состоящей из всех тех недель, которые об стоятельствами и условиями работы ничем не отличаются от той недели, кото рую мы наблюдали. Тогда можно считать, что коэффициент регрессии в гене ральной совокупности, (3, равен тому коэффициенту регрессии, который вы могли бы вычислить, если бы у вас в распоряжении было намного больше дан ных. Стандартная ошибка Ъ равна: g _ Se _ 198,58 _ 198,58 _ ^ ^ Ь ~ Sx Jn - 1 _ 6,5552л/18-1 ~ 27,0278 “ Таблица 11.2.5. Параметры генеральной совокупности и выборочные статистики Генеральная совокупность (параметры: фиксированные и неизвестные) Выборка (оценки: случайные и известные) Сдвиг a a Наклон Р b Линия регрессии К= Неопределенность a 560 а + $Х Y = a + bX Se ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Исходя из этих же данных была вычислена оценка сдвига а. Следовательно, этот параметр также характеризуется стандартной ошибкой, указывающей на неопределенность его оценки. Стандартная ошибка сдвига, Sa, указывает при близительно, насколько далеко оценка а отстоит от а , истинной величины сдвига в генеральной совокупности. Эта стандартная ошибка, формула для вы числения которой приведена ниже, также имеет п - 2 степеней свободы и пред ставляет собой выборочную статистику. Стандартная ошибка сдвига Sa = SeJ —+—5-----; число степеней свободы равно п - 2. \п $х(п-1) Эта формула указывает на то, что неопределенность а пропорциональна базо вой неопределенности (Se), что неопределенность а уменьшается при увеличении размера выборки п и увеличивается, когда абсолютное значение X увеличивает ся в сравнении с S X (поскольку данные по X будут далеко отстоять от 0 — точ ки, в которой определяется сдвиг), и что существует “базовый” член 1/п , по скольку а было бы средним значением У при X = 0. В нашем примере с производственными затратами сдвиг а = $2272 служит оценкой фиксированных затрат. Стандартная ошибка этой оценки равна: = 198,58^1,5015 = 243,33. Доверительные интервалы для коэффициентов регрессии Этот материал должен быть уже вам знаком. Вы берете оценку (например, &), ее собственную стандартную ошибку (например, S b) и ^-значение из ^-таблицы (для п — 2 степеней свободы). Двусторонний доверительный интервал находится между Ъ - tSb и Ъ + tSb. Односторонний доверительный интервал утверждает ли бо то, что наклон в генеральной совокупности, (3 , будет не меньше, чем Ъ - tS b, или что наклон в генеральной совокупности, (3 , либо то, что он будет не больше, чем Ъ 4- tSb (с использованием, разумеется, соответствующих односторонних tзначений). Чтобы восстановить в памяти основные понятия, касающиеся довери тельных интервалов, вам, возможно, придется еще раз обратиться к резюме гла вы 9; единственное отличие в данном случае заключается в том, что вы оцени ваете не среднее значение в генеральной совокупности, а скорее взаимосвязь в генеральной совокупности. Таким же образом вывод о сдвиге а основывается на оценке а и ее стандарт ной ошибке Sa. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 561 Доверительные интервалы Для наклона (коэффициента регрессии) в генеральной совокупности, (3: от b - tSbдо b + tSb. Для сдвига в генеральной совокупности, а : от а - tSa до а + fSa. Пример. Переменные затраты производства Для данных о производственных затратах оценка наклона Ь= 51,66, ее стандартная ошибка 5Ь= 7,35, а двустороннее значение из f-таблицы для п - 2 = 16 степеней свободы на доверительном уровне 9 5 % равно 2,120. Таким образом, 9 5 % доверительный интервал для |3 находится между 5 1 ,6 6 (7 ,3 5 )(2 ,1 20) = 36,08 и 51,66 + (7 ,3 5 )(2 ,120) = 67,24. Утверждение о доверительном интервале в этом случае будет выглядеть так. “Мы на 95% уверены в том, что в долгосрочном плане (для генеральной совокупности) размер переменных затрат будет находиться между $36,08 и $67,24 на каждое произведенное изделие”. Как это часто бывает, доверительный интервал лишний раз напоминает нам о том, что оценка ($51,66) является весьма приблизительной. Рассматривая свои данные как случайную выборку из генеральной со вокупности объемов продукции и затрат, которые имели место ранее при сходных обстоятельствах, мы приходим к заключению, что, имея данные лишь за 18 прошлых недель, мы получаем существенную не определенность в размере переменных затрат. Односторонний доверительный интервал дает нам достаточно обоснованную верхнюю границу, которую можно использовать при составлении бюджета. Это отражает факт вашего незнания действительного размера переменных затрат: в вашем распоряжении имеется лишь их оценка. В этом примере односто роннее f-значение из таблицы равно 1/746, поэтому верхняя граница будет равна 51,66 + (7 ,3 5 )( 1,746) = 64,49. Утверждение об одностороннем доверительном интервале будет иметь следующий вид. “Мы на 95% уверены в том, что в долгосрочном плане (для генеральной совокупности) размер переменных затрат не превысит $64,49 на каждое произведенное изделие”. Обратите внимание, что эта граница ($64,49) оказывается меньше, чем верхняя граница двустороннего интервала ($67,24), поскольку вас интересует только эта (верхняя) сторона интервала. Таким образом, поскольку нас совершенно не интересует нижняя сторона интервала, мы получили верхнюю границу, ко торая ближе к значению оценки $51,66. Проверка того, является связь реальной или случайной Эта глава посвящена взаимосвязи между X и У. Корреляция характеризует силу этой взаимосвязи, а уравнение регрессии использует эту взаимосвязь для предсказания поведения У по X . Однако, как это нередко случается в статисти ке, можно вычислять характеристики связи даже тогда, когда в действительно сти ее нет. Задача проверки гипотез^ в том и заключается, чтобы выяснить, явля ется ли взаимосвязь, которая, как вам кажется, присутствует в данных, чистой случайностью или отражает реальную и значимую связь между X и У. Нулевая гипотеза утверждает, что между X и У никакой взаимосвязи нет и что выявленная нами взаимосвязь в данных — не что иное, как продукт случай ного сочетания определенных пар значений X и У. Единственный вариант, когда в рамках линейной модели У = а + (ЗХ + е У не зависит реально от X , имеет ме 562 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ сто лишь тогда, когда Р = 0, т.е. когда X исчезает и линейная модель сводится к У = а + е . Еще один способ сказать, что взаимосвязь между X и У отсутствует, заключается в том, чтобы сказать, что X и У независимы друг от друга. Альтернативная (исследовательская) гипотеза утверждает, что между X и У дей ствительно существует взаимосвязь, которая не является случайностью. Это воз можно тогда, когда Р Ф 0, т.е. в линейной модели для У сохраняется составляющая, зависящая от X . Математическая запись этих гипотез имеет следующий вид. Гипотезы для проверю* значимости взаимосвязи Н0:р = 0; н^р^о. Сама по себе эта проверка выполняется обычным способом — ничего нового для вас нет и в этом случае. 20 Можно использовать метод доверительного интер вала, чтобы выяснить, попадает ли в доверительный интервал заданное значение 0, и, если не попадает, принять решение о значимости взаимосвязи (принять Н 1). Или можно вычислить f-статистику b /S b, сравнить ее с ^-значением из таб лицы и принять решение о значимости взаимосвязи (принять Н 1), если абсо лютное значение ^-статистики окажется больше. Вернемся к примеру о переменных производственных затратах. Доверительный интервал в этом случае находится между $36,08 и $67,24. Поскольку заданное зна чение 0 в доверительный интервал не попадает, можно сделать вывод о том, что мы имеем дело со значимыми переменными затратами. То есть, исходя из имеющихся у нас данных, можно сказать, что между количеством произведенных в течение неде ли изделий и затратами действительно существует взаимосвязь. Столь очевидную за висимость (чем больше количество произведенной продукции, тем, как правило, выше затраты) невозможно объяснить одной лишь случайностью. Разумеется, подход, основанный на ^-статистике, дает тот же ответ, tстатистика в нашем случае определяется как t = b /S b = 51,66/7,35 = 7,03. По скольку абсолютное значение ^-статистики (7,03) оказывается больше, чем зна чение из t -таблицы (2,120) с п - 2 = 16 степенями свободы при проверке на уровне 5%, то можно сделать вывод о том, что коэффициент регрессии (51,66) действительно значимо отличается от 0. Другие методы проверки значимости взаимосвязи Существуют и другие методы проверки значимости взаимосвязи. Несмотря на то что на первый взгляд может показаться, что они существенно отличаются от описанного выше, ответ, полученный с их помощью, в любом случае будет та ким же, как в описанных выше методах, основанных на коэффициенте регрес сии. Эти альтернативные методы основаны на других статистических характери стиках: например, на коэффициенте корреляции, г, а не на коэффициенте на клона, Ь. Но поскольку основной вопрос остается тем же (есть взаимосвязь или нет?), ответы на него в любом случае также будут одними и теми же. Это можно доказать математически. 20 Бели вам требуется освежить в памяти основы проверки гипотез, обратитесь к резюме главы 10. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ. 563 Существуют два способа проверить значимость исходя из коэффициента кор реляции. Зная коэффициент корреляции, можно обратиться к специальной таб лице или преобразбвать коэффициент корреляции и найти f-статистику t = Гу](п - 2) /(1 - г2) , которую затем сравнить со значением из ^-таблицы с п - 2 степенями свободы. В конечном счете эти методы позволяют получить тот же ответ, что и проверка с помощью коэффициента наклона. Фактически tстатистика, определенная с помощью коэффициента корреляции, имеет то же значение, что и f-статистика, определенная с помощью коэффициента наклона (t = b /S b). Это означает следующее: вы можете прийти к выводу о наличии значимой (или, наоборот, незначимой) корреляции, основываясь на проверке значимости коэффициента регрессии, Ъ. Фактически мы делаем вывод о наличии значимой положительной корреляции, если соответствующая взаимосвязь является значи мой и b > 0. Или, если эта взаимосвязь является значимой, а Ъ < 0, мы делаем вывод о наличии значимой отрицательной корреляции. Есть специальная проверка значимости, называемая jF-тестом, которая позволя ет оценить суммарную значимость регрессионной связи. Мы рассмотрим эту про верку позже, в главе о множественной регрессии. Несмотря на то что эта проверка, на первый взгляд, также существенно отличается от описанных выше, в конечном счете она сводится к тому же, что и проверка на основе коэффициента наклона, когда есть только X и Y и никакие другие переменные не рассматриваются. Результаты компьютерных вычислений для данных о производственных затратах Многие из полученных нами результатов, касающихся данных о производст венных затратах, можно получить с помощью компьютера. Первым на компью терной распечатке выводится уравнение прогноза (“Уравнение регрессии” ). Далее выводятся коэффициенты (“Коэфф” ), а = 2272,1 и Ь — 51,661 со своими стан дартными ошибками (“СтнОш” ), Sa = 243,3 и S b = 7,347, своими t -статистиками, ta = 9,34 и tb = 7,03, и своими p-значениями (оба коэффициента чрезвычайно высоко значимы, поскольку р < 0,001 в обоих случаях). Затем выводится стан дартная ошибка оценки, Se = 198,6 и JR2 = 0,755. Уравнение регрессии: затраты = 2272 + 51,7 объем производства Независимая переменная Коэфф СтнОш t -коэффициент Константа 2272,1 243, 3 9,34 0, 000 7, 03 0, 000 Объем производства S = 198,6 564 51,661 R- sq = 75,5% 7, 347 Р R-sq (коррект. ) = 74,0%. ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Пример. Рассмотрим еще раз инерцию фондовой биржи Ранее в этой главе суточные изменения процентов на фондовой бирже использовались в качестве приме ра явного отсутствия взаимосвязи между Х= вчерашнее изменение и Y= сегодняшнее изменение. Попы таемся воспользоваться регрессией, чтобы оценить взаимосвязь между вчерашним и сегодняшним изме нениями, а затем воспользуемся проверкой гипотез, чтобы выяснить, является ли эта взаимосвязь значи мой. Соответствующая совокупность данных (с линией наименьших квадратов) показана на рис. 11.2.11. Линия наименьших квадратов определяется следующим выражением: сегодня = 0,0003984 + 0,111421 (вчера). Например, 30 июня 1998 г. X = 0 ,4 7 % = 0,0047, а Y = -0 ,4 1 % = -0,0041. Прогнозируемое на этот день значение У равняется 0,0003984 + 0,111421 х 0,0047 = 0,00092, или 0 ,09 2% . Следует ли доверять этому "уравнению прогноза"? Вообще говоря, задача этого уравнения — помочь вам прогнозировать нынешнее поведение фондовой биржи, основываясь на ее вчерашнем поведении (предполагая, что фондовая биржа продолжает вести себя так, будто данные, характеризующие это по ведение, взяты из той же генеральной совокупности). Ключевым является коэффициент наклона Ь = 0,1114, который свидетельствует о том, что в среднем вчерашний подъем (или падение) лишь при близительно на 11 % продолжится и сегодня. Однако насколько точно нам удалось оценить величину это го коэффициента? Ответ на этот вопрос можно найти, обратившись к доверительному интервалу, осно ванному на этой оценке (Ь = 0,1114), ее стандартной ошибке (S b= 0,1522) и значении из f-таблицы с 42 - 2 = 40 степенями свободы (что составляет 1,960 в f-таблице для бесконечного числа степеней сво боды, но мы воспользуемся более точным значением, 2,02, полученным с помощью компьютера). В этом случае можно сформулировать следующее утверждение о доверительном интервале. “Мы на 95% уверены в том, что в генеральной совокупности значение наклона р находится в диапазоне от 0,196 до 0,419”. 1 Линия наименьших квадратов: сегодня =0,000398 +0,1114(вчера) А. % • • 1 % — • • • • •_ it t Г S * в• ^ . - Г • •• — 1 • ........1....... 1... _ )/ol------1 -----------*------1 -----,1------1 ......1........ -3% -2% -1% 0% 1% 2% 3% Изменение за предыдущий день Рис. 11.2.11. Суточные изменения процентов на фондовой бирже ( X = вчера и Y = сегодня) с 1 мая по 30 июня 1998 г. Линия наименьших квадратов почти горизон тальна (с небольшим отклонением). Поскольку это небольшое отклонение может объясняться фактором случайности, проверка гипотез позволяет сделать вывод об отсутствии значимой связи между вчераш ним и сегодняшним поведением фондовой биржи ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 565 Это довольно широкий интервал; более того, он включает 0, что указывает на отсутствие взаимосвязи. Таким образом, мы приходим к выводу, что, поскольку этот интервал включает 0, отмеченный нами на клон не являетея значимым, т.е. значимой связи между вчерашним и нынешним поведением фондовой биржи нет. Можно также сказать, что нет значимого отличия значения коэффициента наклона от 0. Подход, основанный на использовании f-статистики, дает, разумеется, тот же ответ. Стандартная ошибка коэффициента регрессии Sb= 0,1522, поэтому f-статистика равняется: t = b /Sb= 0,1114/0,1522 = 0,732. При столь малом значении f-статистика является незначимой (сравниваем со значением 1,960 из tтаблицы или с более точным значением 2,02 для 40 степеней свободы). Чтобы выполнить регрессионный анализ с помощью Excel, нужно сначала присвоить имя каждому столбцу чисел, воспользовавшись командой меню Excel Insert^Name^Define (Вставка^Имя^Присвоить). Затем в меню Tools (Сервис) нужно выбрать команду Data Analysis (Анализ данных),21 а затем пункт Regression (Регрессия). В диалоговом окне, которое появится на экране, можно указать имя входного интервала для переменной У (в нашем примере — “Today” ) и для пере менной X (в нашем примере — “Yesterday” ). Выберите в диалоговом окне пере ключатель Output Range (Выходной диапазон) и укажите, в каком месте рабочего листа вы хотите поместить результаты; затем щелкните на кнопке ОК. На сле дующем рисунке приведено диалоговое окно для этого примера и полученные результаты, среди которых можно увидеть значение i f = 0 ,0 1 3 2 (или 1,32%), стандартную ошибку оценки S,,=0,0087, а также b = 0,1114, Sb = 0,1522, t = 0,732 и p -значение, равное 0,468. Проверки других гипотез о коэффициенте регрессии В некоторых приложениях может потребоваться проверить, насколько коэф фициент регрессии отличается от некоторого заданного значения р0> выполняю щего роль внешнего стандарта для сравнения. Источником такого заданного значения не может служить та же совокупность данных, которая используется для регрессии. Например, вы хотите проверить, в какой мере полученные вами недавно переменные затраты (наклон в регрессии У = затраты н а Х = количество произведенных изделий) отличаются от тех, которые вы использовали при со ставлении сметы в прошлом году (заданное значение). Проверка значимости взаимосвязи между X и У, речь о которой шла в пре дыдущем разделе, на самом деле сводится к проверке значимости отличия вели чины наблюдаемого наклона Ъ от заданного значения р0 = 0, которое выражает условие отсутствия взаимосвязи. В этом разделе мы допускаем, что р0 может быть ненулевой величиной. Проверка выполняется обычным способом. Гипотезы и результаты имеют следующий вид. 21 Если в меню Tools (Сервис) отсутствует пункт Data Analysis (Анализ данных), то сначала убе дитесь, что вы выбрали ячейку электронной таблицы (а не график, например). Если вы все же не можете найти Data Analysis (Анализ данных), поищите пункт меню Add-Ins (Надстройки) и по ставьте отметку возле Analysis ToolPak (Пакет анализа). Если это не поможет, то, видимо, необ ходимо переустановить Excel. 566 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Нулевая и альтернативная гипотезы для проверки значения коэффициента регрессии Двусторонняя проверка: н 0:р = ро; H t: (3 ^ РоОдносторонняя проверка: Но- Р < РЫ Н ,:р > р 0. или Но- Р > Ро; Н ,:Р< Ро- Результаты проверки Если ро не попадает в доверительный интервал для коэффициента регрессии, то полученный результат является значимым. В случае двусторонней проверки используется двусторонний интервал и делается вывод, что Ь значимо отличается от ро. Если коэффициент Ь больше, чем ро, можно сделать вывод, что он значимо больше; в противном случае он значимо меньше. В случае односторонней проверки ис пользуется односторонний доверительный интервал и делается вывод, что Ь либо значимо больше, ли бо значимо меньше, чем р0, — по обстоятельствам. Если ро попадает в доверительный интервал для коэффициента регрессии, то полученный результат не является значимым. В случае двусторонней проверки используется двусторонний интервал и делается вывод, что Ь значимо не отличается от р0. В случае односторонней проверки используется односторон ний доверительный интервал и делается вывод, что Ь либо не является значимо большим, либо не явля ется значимо меньшим, чем ро, в зависимости от выдвинутой гипотезы. Разумеется, можно использовать и £-тест. ^-статистика определяется следую щим образом: ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ ... 567 С помощью ^-статистики можно проверить эти гипотезы о коэффициенте регрес сии в генеральной совокупности р точно так же, как это было сделано в главе 10 для одно- и двусторонней проверки относительно среднего генеральной совокупности, (I. Возвращаясь к нашему примеру о переменных производственных затратах, допустим, что ваш процесс составления сметы предполагает переменные затраты в размере $100 на каждое произведенное изделие. Вычисленный ранее 95% до верительный интервал затрат простирается от $36,08 до $67,24 на каждое про изведенное изделие. Поскольку заданное значение, р0 = $100, не попадает в этот доверительный интервал, можно сделать вывод, что вычисленная величина оценки переменных затрат, b = $51,66, значимо отличается от предполагаемой в вашей смете. В действительности, поскольку оцениваемые затраты оказываются меньше, можно сделать вывод, что фактическая величина переменных затрат будет значимо меньше того , что предполагалось сметой . Продолжая этот пример, допустим, что знания и опыт подсказывают вам, что один из ваших конкурентов борется за право получить контракт исходя из пере менных затрат в размере $60 на каждое произведенное изделие. Поскольку это заданное значение, р0 = $60, попадает в доверительный интервал для ваших пе ременных затрат, о значимой разнице говорить не приходится. Можно сделать вывод, что ваши переменные затраты значимо не отличаются от переменных за трат конкурента. Несмотря на то что ваши оцениваемые переменные затраты ($51,66) ниже, это вполне может объясняться действием фактора случайности, а не какими-либо реальными преимуществами в затратах. Новое наблюдение: неопределенность и доверительный интервал Когда вы используете регрессию, чтобы сделать прогноз относительно значе ния нового наблюдения, желательно знать связанную с этим неопределенность. Возможно, потребуется даже сформировать соответствующий доверительный ин тервал, о котором известно, что он с вероятностью 95% включает следующее на блюдаемое значение. В этой ситуации вам известно значение Х 0, и вы прогнозируете значение а + ЪХ0 для У. Есть два источника неопределенности, объединив которые можно найти стандартную ошибку прогноза. Во-первых, поскольку а и Ъ представляют собой оценки, предсказанное значение а + ЬХ0 содержит элемент неопределенно сти. Во-вторых, всегда присутствует элемент случайности, е, являющийся частью линейной модели (со стандартным отклонением, которое оценивается стандартной ошибкой S e), и эту случайность следует учитывать, когда вы анализируете отдель ное наблюдение. Результатом сочетания этих неопределенностей является стан дартная ошибка У при заданном значении Х 0, обозначаемая как же базовой системы, которая сгенерировала имеющиеся у вас данные. Если же меняется сама система — либо в результате собственной эволюции, либо вследст вие вмешательства извне, — ваши прогнозы могут оказаться недействительными. Можно, например, построить линию регрессии для прогнозирования объема но вых заказов (в денежном выражении) на основании количества телефонных звон ков, поступивших в магазин. Наклон этой линии будет свидетельствовать о сред ней “ценности” каждого звонка. Следует ли приступать к реализации той или иной маркетинговой программы, направленной на стимулирование подобных об ращений по телефону? Если вы решитесь на такой шаг, это будет означать вмеша тельство в функционирование системы, что может привести к изменению структу ры заказов, принимаемых по телефону. Подобная маркетинговая программа может генерировать новые обращения по телефону, целью которых будет получение до полнительной информации о товаре, но не желание немедленно его заказать. Не исключено, разумеется, что подобная кампания приведет к росту количества зака зов; проблема заключается лишь в том, что вычисленный вами наклон (основан ный на предыдущих данных) может не отражать поведение новой системы. Сдвиг может быть лишен смысла Построив линию регрессии, связывающую данные о затратах (У) с количест вом произведенной продукции (X), сдвиг (отрезок, отсекаемый на оси У) мы ин терпретируем как фиксированные затраты, что очень важно для нас. Однако в других ситуациях сдвиг может и не иметь полезного смысла. Он может быть не обходим исключительно из технических соображений, чтобы получить опти мальное предсказание, но не иметь практической интерпретации. Рассмотрим, например, регрессию размера заработной платы (У) на возраст работника (X). Наклон этой линии указывает добавочную заработную плату, на которую можно (в среднем) рассчитывать, имея более старший возраст. Некото рый сдвиг необходим для установления некоторого базового уровня, что дает возможность прогнозировать фактическую заработную плату, например с помо щью уравнения а + ЪХ. Несмотря на то что без а нам здесь не обойтись, его ин терпретация весьма затруднительна. В буквальном смысле он соответствует ожидаемой заработной плате, которую должен получать человек в возрасте X = 0 , то есть новорожденный младенец! Вообще говоря, это не представляет собой проблемы. В случаях, подобных опи санному выше, об интерпретации этого отрезка можно вообще не задумываться.25 25 Одним из способов решения этой проблемы является использование вместо сдвига так назы ваемого центрального значения. Линия в этом случае описывается уравнением У = с + Ъ(X - X ) . Центральное значение с представляет собой ожидаемое значение У для наибо лее типичного значения X , а именно для X , поэтому интерпретация в таком случае не пред ставляет сложности. Наклон имеет тот же смысл, что и ранее. 576 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Y Рис. 11.2.18. Эти две линии регрессии соответствуют си туациям, когда У прогнозируется на основании X (обычная процедура) и когда X прогнозируется на ос новании Y. Поскольку в данной ситуации налицо зна чительный фактор случайности, линии сильно отли чаются друг от друга. Каждая из этих линий доста точно хорошо прогнозирует среднее значение ( X или Y ) соответствующей переменной ( т.е. горизонталь ной или вертикальной оси) Y Рис. 11.2.19. Две линии регрессии сближаются, когда уменьша ется фактор случайности и точки данных приближа ются к прямой линии. Когда точки данных окажутся точно на прямой линии, две линии регрессии совпадут Представление К на основании Х и представление X на основании Y Какая именно из двух переменных прогнозируется, а какая служит основанием для прогноза, действительно имеет большое значение: прогнозирование У на осно вании X отличается от прогнозирования X на основании У, причем каждому из ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 577 этих подходов соответствует своя линия регрессии. Это вполне объяснимо, так как каждому из этих случаев соответствуют свои ошибки. Например, прогнозирование производительности (на основании стажа работы связано с ошибками прогнозиро вания, выражающимися в единицах производительности, тогда как прогнозирова ние стажа работы на основании производительности связано с ошибками прогно зирования, выражающимися в единицах стажа работы. Разумеется, если все ваши точки данных попадают точно на прямую линию (в результате чего коэффициент корреляции будет равен 1 или -1 ), эту линию можно использовать для прогнози рования любой из двух переменных на основании другой. Однако в обычном случае приходится иметь дело с фактором случайности или неопределенности, который подталкивает ваши прогнозируемые значения в на правлении среднего значения той переменной, которая прогнозируется (X или У). В экстремальном случае, когда мы имеем дело с чистой случайностью, наи лучшим прогнозом У на основании X является У , а наилучшим прогнозом X — У является X . Помните формулу наклона b = rSY/ S x? Она указывает на то, что линия становится более пологой (менее крутой), когда возникает большая неоп ределенность (корреляция, г, приближается к 0). На рис. 11.2.18 и 11.2.19 показаны две линии регрессии. Обратите внимание: когда точки данных оказываются ближе к линии, линии регрессии также сбли жаются, поскольку линия в этом случае лучше определяется данными. Скрытый "третий фактор" может быть полезен Это последнее соображение представляет собой скорее не проблему, а некото рое предложение по улучшению. Несмотря на то что линия наименьших квадра тов представляет собой наилучший способ прогнозирования У на основании X, всегда есть возможность улучшить качество прогнозов У, получив в свое распо ряжение дополнительную информацию. Иными словами, X может не содержать достаточно информации об У, что не позволяет нам сделать качественный про гноз У; возможно, вам удастся выявить еще одну переменную (некий третий фактор), которая позволит повысить качество прогнозов. Если на место X можно подставить другую переменную, можно выполнить еще один регрессионный анализ, чтобы предсказать ту же переменную У. Срав нение членов R2 (или членов Se) из каждой регрессии показывает, какая из этих двух поясняющих переменных лучше прогнозирует поведение У. Если вы хотите объединить информацию из двух или больше Х-переменных, то вам следует воспользоваться множественной регрессией — чрезвычайно важ ным методом, применяемым в бизнесе и исследованиях. Этот метод рассматри вается в следующей главе. 11.3. Дополнительный материал Резюме Тремя основными целями анализа двумерных данных, представленных пара ми (Х,У)> являются (1) описание и понимание взаимосвязи, (2) прогнозирование и предсказание нового наблюдения и (3) корректировка и управление процессом. 578 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Корреляционный анализ позволяет сделать вывод о силе взаимосвязи, а регрес сионный анализ используется для прогнозирования одной переменной на осно вании другой (как правило, У на основании X ). Двумерные данные анализируют с использованием диаграммы рассеяния в ко ординатах У и X , которая дает визуальное представление взаимосвязи в данных. Корреляция, или коэффициент корреляции (г), представляет собой безразмерное (не имеющее единиц измерения) число в диапазоне от -1 до 1, которое характери зует силу взаимосвязи. Равенство коэффициента корреляции 1 свидетельствует об идеальной взаимосвязи в виде прямой линии с наклоном вверх. Равенство коэф фициента корреляции -1 свидетельствует об идеальной взаимосвязи в виде накло ненной вниз (отрицательно) прямой линии. Коэффициент корреляции говорит о том, насколько близко к этой наклоненной прямой линии расположены точки диаграммы, однако он не характеризует крутизну наклона этой линии. Формула вычисления коэффициента корреляции имеет следующий вид: 1 Ковариация X и У представляет собой числитель в формуле для коэффициен та корреляции. Поскольку единицы измерения ковариации трудно интерпрети ровать, удобнее работать с коэффициентом корреляции. При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшей, с точки зрения анализа, является линейная взаимо связь, которая выражается в том, что точки на диаграмме рассеяния с постоян ным разбросом группируются случайным образом вдоль прямой линии. Диа грамма свидетельствует об отсутствии взаимосвязи, если точки размещены слу чайно и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз). Двумерная диаграмма рассеяния характеризуется не линейной взаимосвязью, если точки на ней группируются вдоль кривой , а не прямой линии. Поскольку количество видов кривых практически безгранично, анализ нелинейной взаимосвязи оказывается намного сложнее, однако взаимо связь можно приблизить к линейной, применив к данным соответствующее пре образование. Проблема неравной вариации возникает тогда, когда при переме щении по горизонтали на диаграмме рассеяния вариация точек по вертикали сильно меняется. Неравная вариация приводит к снижению надежности коэф фициента корреляции и регрессионного анализа. Проблему неравной вариации можно решить с помощью соответствующих преобразований данных или с по мощью так называемой взвешенной регрессии. Проблема кластеринга (разделе ние совокупности на группы более однородных объектов) возникает в случае об разования на диаграмме рассеяния отдельных, ярко выраженных групп точек; в таких случаях каждую группу следует анализировать отдельно. Некоторая точка данных является выбросом (резко отклоняющимся значением), если она не со ответствует взаимосвязи между остальными данными; резко отклоняющиеся значения могут исказить статистические характеристики двумерной совокупно сти данных. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 579 Корреляцию нельзя рассматривать как причинную обусловленность. Коэффи циент корреляции характеризует связь между числами, но не объясняет ее. Кор реляция может быть вызвана тем, что переменная X влияет на У, или тем, что пе ременная У влияет на X . Кроме того, корреляция может быть вызвана также тем, что на X и У влияет некий скрытый “третий фактор” , что создает впечатление связи между X и У. Термином ложная корреляция обозначают высокую корреля цию, которая возникает благодаря действию некоторого третьего фактора. Регрессионный анализ заключается в прогнозировании одной переменной на основании другой. Линейный регрессионный анализ прогнозирует значение од ной переменной на основании другой с помощью прямой линии. Наклон этой линии, Ъ, выражается в единицах измерения У на одну единицу X и характери зует крутизну подъема или спуска (если Ь отрицательное) линии. Сдвиг, а, равен значению, которое принимает У при X , равном 0. Уравнение прямой линии име ет следующий вид: У = Сдвиг + (Н аклон)(Х ) = а + ЬХ . Линия наименьших квадратов характеризуется наименьшей из всех возмож ных линий суммой возведенных в квадрат ошибок прогнозирования по вертика ли и используется как лучшая линия прогнозирования, основанная на данных. Наклон Ъ называют также коэффициентом регрессии У по X , а сдвиг а (отрезок, отсекаемый на оси У) называют также постоянным членом регрессии. Ниже приведены уравнения для наклона и сдвига, соответствующие линии наимень ших квадратов. Наклон равен: Ъ= г — . Сдвиг равен: а = У - ЬХ - У - г — Х . Формула для линии наименьших квадратов имеет следующий вид: — S — S (Прогнозируемое значение У) = а + ЬХ = (У - г — X ) + г — X . Прогнозируемое значение для У при заданном значении X определяется пу тем подстановки этого значения X в уравнение для линии наименьших квадра тов. Каждая из1точек данных характеризуется остатком — ошибкой прогнозиро вания, указывающей, насколько выше или ниже линии находится точка. Существуют две меры соответствия линии наименьших квадратов имеющим ся данным. Стандартная ошибка оценки, которую обозначают Se9 приблизитель но указывает величину ошибок прогнозирования (остатков) для имеющихся данных в тех же единицах , в которых измерена переменная У. Соответствую щие формулы приведены ниже. (для вычисления) (для интерпретации). 580 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Значение R2, часто называемое коэффициентом детерминации, говорит о том, какой процент вариации У объясняется поведением X . Доверительные интервалы и проверка гипотез для коэффициента регрессии связаны с определенными предположениями относительно анализируемой сово купности данных, которые должны гарантировать, что она состоит из независи мых наблюдений, характеризующихся линейной взаимосвязью с равной вариа цией и приблизительно нормально распределенной случайностью. Во-первых, эти данные должны представлять собой произвольную выборку из интересующей нас генеральной совокупности. Во-вторых, линейная модель указывает, что на блюдаемое значение У определяется взаимосвязью в генеральной совокупности плюс случайная ошибка, имеющая нормальное распределение. Существуют па раметры генеральной совокупности, соответствующие наклону и сдвигу линии наименьших квадратов, построенной на данных выборки: У = (а + рХ) + е = = (Взаимосвязь в генеральной совокупности) + случайность. где г имеет нормальное распределение со средним значением, равным 0, и по стоянным стандартным отклонением а . Статистические выводы (использование доверительных интервалов и провер ки статистических гипотез) относительно коэффициентов линии наименьших квадратов основываются, как обычно, на их стандартных ошибках и значениях из ^-таблицы для п - 2 степеней свободы. Стандартная ошибка коэффициента наклона, S b, указывает приблизительную величину отклонения оценки наклона, b (коэффициент регрессии, вычисленный на основе данных выборки), от наклона в генеральной совокупности, (3 , вызванного случайным характером выборки. Стандартная ошибка сдвига, Sa, указывает приблизительно, насколько далеко оценка сдвига а отстоит от истинного сдвига а в генеральной совокупности. Со ответствующие формулы выглядят следующим образом: стандартная ошибка коэффициента регрессии: стандартная ошибка сдвига: Доверительный интервал для наклона в генеральной совокупности, Р : от Ъ - tSb до b + tSb. Доверительный интервал для сдвига в генеральной совокупности, а : от а - tSa до а + tSa. Один из способов проверки, является ли обнаруженная взаимосвязь между X и У реальной или это просто случайное совпадение, заключается в сравнении (3 с заданным значением р0 = 0. О значимой связи можно говорить в том случае, ес ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 581 ли 0 не попадает в доверительный интервал, базирующийся на Ъ и S b9 или если абсолютное значение t = b /S b превосходит соответствующее ^-значение в tтаблице. Эта проверка эквивалентна проверке значимости коэффициента корре ляции и означает, по сути, то же самое, что и .F-тест во множественной регрес сии (см. следующую главу) для случая, когда уравнение содержит только одну , переменную X . Разумеется, любой из коэффициентов (а или Ъ) можно сравнить с любым подходящим заданным значением, воспользовавшись одно- или двусто ронней проверкой (в зависимости от конкретных обстоятельств) и с использова нием тех же методов проверки, что были рассмотрены в главе 10 для среднего генеральной совокупности. Для прогнозирования значения нового наблюдения У при условии, что X = Х 0, неопределенность прогноза оценивают с помощью стандартной ошибки S(Y]Xo), которая также имеет п - 2 степеней свободы. Это позволяет построить до верительные интервалы и проверить гипотезы для нового наблюдения. Другая формула позволяет вычислить стандартную ошибку для прогнозирования сред него значения У при заданном Х 0: Доверительный интервал для нового наблюдения У при заданном значении Х 0 имеет следующий вид: от (а + ЬХ0) —tS(Y\x0) Д° (а + ЬХ0) + £ 0,05; р < 0,05; р < 0,01 или р < 0,001) для значимости коэффициента наклона. 10. Уравнение прогнозирования, построенное методом наименьших квадратов, имеет такой вид: прогнозируемые затраты = 35,2 + 5,3(количество изде лий), причем прогнозируемые затраты измеряются в долларах. Найдите прогнозируемое значение и остаток для ситуации, когда затраты равны $600, а количество изделий — 100. 11. Найдите значение из ^-таблицы, которое будет использоваться при по строении доверительного интервала для коэффициента наклона в регресси онном анализе для каждой из перечисленных ниже ситуаций. а) Для 95% доверительного интервала при размере выборки п — 298. б) Для 99% доверительного интервала при размере выборки п = 15. в) Для 95% доверительного интервала при размере выборки п — 25. г) Для 99,9% доверительного интервала при размере выборки п = 100. 12. В табл. 11.3.6 указаны вес и цена золотых монет. а) Насколько сильна связь между весом и ценой для этих монет? Вычис лите значение и дайте его словесную интерпретацию. б) Найдите уравнение регрессии для прогноза цены на основании веса. Таблица 11.3.6. Золотые монеты Цена, дол. Название Вес, тройские унции Кленовый лист 1 400,75 Мексиканская 1,2 482,00 Австралийская 0,9802 382,00 Американский орел 1 400,75 Американский орел 0,5 210,75 Американский орел 0,25 114,00 Американский орел 0,1 53,00 ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 593 в) Интерпретируйте коэффициент наклона как имеющий реальный смысл показатель цены. г) Насколько примерно различаются прогнозируемые и фактические цены (в долларах)? д) Найдите 95% доверительный интервал для коэффициента наклона. е) Отличается ли коэффициент наклона значимо от 0? Почему вы так счи таете? 13. Какова площадь пригодных для застройки участков на территории Сиэт ла? В табл. 11.3.7 указаны количество существующих домов и возможно сти застройки свободной земли в ряде районов Сиэтла. а) Насколько сильна связь между количеством существующих домов и возможностью застройки свободной земли? Укажите конкретное число и дайте его словесную интерпретацию. б) Найдите уравнение регрессии, позволяющее прогнозировать возможности застройки свободных земель на основании количества существующих домов. Таблица 11.3.7. Площадь под застройку Район Существующие дома Bear Creek East Sammamish Eastside Federal Way Green R. Valley Возможность застройки свободной земли 6 800 11 814 10900 5 800 600 153 11 200 5 340 1 050 186 Highline 33 600 8 265 Newcastle 16700 7 421 Northshore 24 500 6474 Данные из Seattle Post-Intelligencer, 1991, December 4, p. A8. Использован источник King County. Рис. 11.3.1 594 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Рис. 11.3.2 ___________ i___________ i___________ i___________ | Рис. 11.3.3 в) Найдите значение остатка для района Highline, прогнозируя возможности застройки свободной земли на основании количества существующих домов. г) Найдите 95% доверительный интервал для коэффициента наклона. д) Наблюдается ли значимая взаимосвязь между возможностями застройки и количеством существующих домов? Поясните свой ответ. 14. Для каждой из диаграмм рассеяния, показанных на рис. 11.3.1-11.3.3, укажите, к какому из перечисленных ниже значений ближе всего значе ние корреляции: 0,9; 0,5; 0,0; -0 ,5 или -0,9. 15. Рассмотрим розничную цену неэтилированного бензина, продающегося на автозаправочных станциях в разных местах и в разное время (соответст вующие данные приведены в табл. 11.3.8). а) Насколько сильна связь между ценами в ноябре и в феврале? Укажите конкретное число и дайте его словесную интерпретацию. б) Найдите уравнение регрессии, позволяющее прогнозировать более позд ние цены на основании цен, действовавших ранее. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 595 в) Найдите значение остатка для Линвуда (прогнозируя более поздние це ны на основании цен, действовавших ранее). г) Найдите 95% доверительный интервал для коэффициента наклона. д) Значимо ли отличается этот коэффициент наклона от 0? Почему вы так считаете? 16. Время от времени в средствах массовой информации обсуждаются высокие должностные оклады президентов и других руководителей различных благо творительных организаций. В табл. 11.3.9 приведена информация о благо творительной организации United Way в 10 крупнейших городах страны. а) Какой процент вариации должностных окладов президентов объясняет ся тем, что некоторым из них удается собрать больше пожертвований в расчете на душу населения, чем другим? Укажите конкретное число и дайте общепринятое статистическое название этого понятия. б) Найдите уравнение регрессии, позволяющее прогнозировать величину должностного оклада на основании собранной суммы пожертвований в расчете на душу населения. в) Найдите значение остатка для Сиэтла, прогнозируя величину должност ного оклада на основании собранной суммы пожертвований в расчете на душу населения. г) Найдите показатель, который характеризовал бы типичную ошибку, до пускаемую при использовании уравнения регрессии для прогнозирования величины должностного оклада на основании собранной суммы пожертво ваний в расчете на душу населения. д) Наблюдается ли значимая взаимосвязь между должностными окладами президентов и собранной суммой пожертвований в расчете на душу насе ления? Поясните свой ответ. 17. В табл. 11.3.10 приведены данные о величине списка почтовой рассылки (в тысячах фамилий) и объеме продаж (в тысячах долларов) по группе каталогов. а) Насколько сильна связь между этими двумя переменными? Найдите со ответствующий показатель и интерпретируйте его. б) Найдите уравнение регрессии, позволяющее прогнозировать объем про даж на основании величины списка почтовой рассылки. в) На какой уровень продаж можно рассчитывать в случае каталога, рас полагающего 5000 подписчиками? Таблица 11.3.8. Цены на бензин Район 596 Цена на 11/30/90, дол. Цена на 02/26/91} дол. Сиэтл 136,9 114,0 Бельвью 138,7 113,6 Эверетт 138,7 114,5 Линвуд 137,1 110,3 Рентон 137,9 112,7 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ г) Какой процент вариации размера списка можно объяснить тем, что неко торые из этих списков обеспечивают больший объем продажи, чем другие? д) Наблюдается ли значимая взаимосвязь между величиной списка почто вой рассылки и объемом продаж? Поясните свой ответ. 18. В табл. 11.3.11 фонды краткосрочных облигаций сравниваются по таким показателям, как средний срок погашения облигаций (измеряется в коли честве лет до наступления срока погашения облигаций фонда) и дивиден ды (в процентном выражении). а) Определите корреляцию между сроками погашения облигаций и диви дендами и интерпретируйте эту корреляцию. б) Постройте методом наименьших квадратов уравнение регрессии, позволяю щее прогнозировать дивиденды на основании срока погашения облигаций. в) На какие дивиденды можно рассчитывать при покупке облигаций фон да, срок погашения которых на данный момент составляет ровно один год? г) Найдите стандартную ошибку прогнозирования (для прогнозирования “дивидендов” при заданном сроке погашения облигаций) и дайте ее содер жательную интерпретацию. д) Наблюдается ли значимая взаимосвязь между сроком погашения обли гаций и дивидендами? Поясните свой ответ. 19. В табл. 11.3.12 представлены данные о суточном объеме производства и количестве занятых работников для некоторой совокупности дней. а) Найдите уравнение регрессии, позволяющее прогнозировать объем про изводства, исходя из количества занятых работников. Таблица 11.3.9. Благотворительные организации Город Должностной Собранная сумма пожертвований (в оклад расчете на душу президента, дол. населения), дол. Город Должностной оклад президента, дол. Атланта 161396 Хьюстон 146 641 15,89 17,35 Собранная сумма пожертвований (в расчете на душу населения), дол. Чикаго 189 808 15,81 Канзас-Сити 126 002 23,87 Кливленд 171 798 31,49 Лос-Анджелес 155192 9,32 Денвер 108 364 51,51 Миннеаполис 169 999 29,84 Детройт 201 490 16,74 Сиэтл 143 025 24,19 Таблица 11.3.10. Списки почтовой рассылки Величина списка Объем продаж Величина списка 168 5178 249 Объем продаж 7 325 21 2 370 43 2 449 94 3 591 589 15 708 39 2 056 41 2469 ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 597 б) Какой будет оценка объема производства, обеспечиваемого одним до полнительным работником? в) Изобразите диаграмму рассеяния и линию регрессии для рассматривае мой совокупности данных. г) Найдите ожидаемый объем производства и остаток для первой пары значений. Интерпретируйте оба полученных значения с экономической точки зрения. д) Найдите стандартную ошибку коэффициента наклона. Что означает это число? е) Найдите 95% доверительный интервал для ожидаемой предельной ценности дополнительного работника. (Так на языке экономистов называется наклон.) ж) Проверьте на уровне 5%, существует ли значимая взаимосвязь между объемом производства и количеством работников. 20. Известны коэффициент корреляции, г = -0,603, и построенное методом наименьших квадратов уравнение прогнозирования — Y = 38,2 - 5,ЗХ. Найдите прогнозируемое значений Y при X = 15. Таблица 11.3.11. Фонды краткосрочных облигаций Фонд Срок погашения облигаций Дивиденды, % Strong Short-Term Bond Fund 1,11 7,43 DFA One-Year Fixed-lncome Portfolio 0,76 5,54 Scudder Target Government Zero-Coupon 1990 2,3 5,01 IAI Reserve Fund 0,4 4,96 Scudder Target Fund General 1990 1,9 4,86 Vanguard Fixed-lncome Short-Term Bond Portfolio 2,3 4,86 Criterion Limited-Term Institutional Trust 1,3 4,8 Franklin Series Trust Short-lnt. U.S. Govt. 2 4,64 Benham Target Maturities Trust Series 1990 2,3 4,62 Delaware Treasury Reserves Investors Series 2,84 4,35 Таблица 11.3.12. Суточный объем производства 598 Количество работников Объем производства Количество работников Объем производства 7 483 9 594 6 489 9 575 7 486 6 464 8 562 9 647 8 568 8 595 9 559 6 499 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ 21. Известны коэффициент корреляции, г = 0,307, и построенное методом наименьших квадратов уравнение прогнозирования — У = 55,6 + 18,2 Х . Найдите прогнозируемое значение У при X = $25. 22. В один из дней на вашем заводе для производства 132 изделий было из расходовано электроэнергии на сумму $385. В другой день для производ ства 183 изделий было израсходовано электроэнергии на сумму $506. На третий день для производства 105 изделий было израсходовано электро энергии на сумму $261. Дайте оценку, сколько, по вашему мнению, будет израсходовано электроэнергии для производства 150 изделий? 23. Какой из перечисленных ниже коэффициентов корреляции соответствует умеренно сильной взаимосвязи, при которой большим значениям У соот ветствуют большие значения X: г = 1; г = 0,73; г = 0,04; г = -0,83 или г = -0,99? 24. В понедельник ваше предприятие выпустило 7 изделий, которые обошлись вам в $18. Во вторник вы выпустили 8 изделий стоимостью $17, в сре ду — 18 изделий стоимостью $32, в четверг — 3 изделия стоимостью $16. Воспользовавшись моделью линейной регрессии, учитывающей фиксиро ванные и переменные затраты, оцените, во сколько вам обойдется выпуск 10 изделий в пятницу. 25. На выходных днях (в конце недели) вы снизили цены на 5%, и объем продаж в вашем магазине составил $58 000. Во время следующих выход ных дней вы снизили цены на 15%, и объем продаж в вашем магазине достиг $92 000. Затем во время следующих выходных дней вы снизили цены на 17,5%, и объем продаж достиг $95 000. Основываясь на этой ин формации, оцените ожидаемый объем продаж во время будущих выход ных дней, после того как вы снизите цены на 10%. 26. Определите структуру точек диаграммы рассеяния на рис. 11.3.4. 27. Определите структуру точек диаграммы рассеяния на рис. 11.3.5. 28. Рассмотрим доходы на одну акцию и курс акций, регистрируемый в конце рабочего дня для некоторых фирм со значительной рыночной капитализа цией, работающих в области биотехнологий. Учитывая важность, прида ваемую многими аналитиками величине доходов на одну акцию, можно предположить наличие сильной корреляции между величиной доходов на одну акцию и курсом акций. Разумеется, в такой сравнительно новой и бурно развивающейся отрасли, как биотехнология, делать далеко идущие выводы было бы пока опрометчиво, поскольку биржевой курс может в значительной мере зависеть не столько от фактически достигнутых дохо дов, сколько от ожиданий будущих доходов (имеющих случайный харак тер). Давайте посмотрим, как это происходит. Соответствующие данные представлены в табл. 11.3.13. а) Изобразите диаграмму рассеяния для зависимости курса акций от вели чины доходов на одну акцию. б) Найдите коэффициент корреляции. Какого рода взаимосвязь — поло жительная или отрицательная — наблюдается между доходами и курсом акций? ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 599 в) Проверьте на уровне 5%, существует ли для этих фирм значимая взаи мосвязь между величиной доходов на одну акцию и курсом акций. г) Проверьте на уровне 10%, существует ли для этих фирм значимая взаимосвязь между величиной доходов на одну акцию и курсом акций. д) Кратко опишите результаты анализа. е) Вы являетесь главой фирмы, занимающейся биотехнологиями, которая собирается вскоре приступить к свободной продаже своих акций. Ваши доходы на одну акцию составляют $0,05. Основываясь исключительно на проведенном к настоящему времени регрессионном анализе, укажите, на какой курс акций вы можете рассчитывать. ж) Вычислите двусторонний 95% доверительный интервал для этого про гнозируемого курса акций. з) Вычислите двусторонний 95% доверительный интервал для среднего ожидаемого курса акций для генеральной совокупности всех таких фирм с доходом $0,05 на одну акцию. * • • • • * • Рис. 11.3.4 600 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 11.3.13. Акции фирм, работающих в области биотехнологий Доходы на одну акцию, дол. Цена на 01/27/89, дол. Genentech 0,24 17,88 AJza 0,50 24,75 Amgen 0,09 37,00 -0,22 11,38 Genetics Institute -0,81 18,75 Biogen -0,21 9,38 0,21 17,00 Cetus Centocor Chiron -0,97 15,00 Xoma -1,00 15,00 Nova Pharmaceutical -0,32 5,38 0,02 11,75 Immunex Collagen 0,12 11,38 California Biotech -0,87 5,25 Calgene -0,66 6,38 DNA Plant Technology -0,16 4,63 Repligen -0,57 7,25 Imreg -0,36 4,50 Celgene -0,90 8,75 Cytogen -1,10 3,63 Damon Biotech -0,27 1,75 Данные взяты из А.К Naj “Clouds Gather over the Biotech Industry; Firms Stumble on Regulation, Patent Problems”, TheWallStreetJournal, 1989, January 30, p. B1. Источник данных: IDD Information Services/Tradeline. 29. Рассмотрим тираж издания и тариф на размещение рекламы (цена строки одноразового рекламного объявления). Соответствующие данные для не скольких крупных газет приведены в табл. 11.3.14. а) Постройте диаграмму рассеяния для зависимости тарифа на размещение рекламы от тиража газеты. б) Найдите и интерпретируйте корреляцию тарифа на размещение рекла мы и тиража газеты. Можно ли объяснить эту корреляцию с экономиче ской точки зрения? в) Найдите уравнение регрессии, позволяющее прогнозировать тариф на размещение рекламы на основании тиража газеты. г) Проверьте, является ли связь между тарифом на размещение рекламы и тиражом газеты статистически значимой. д) Найдите прогнозируемое значение и остаток для New York Times. Ин терпретируйте эти значения. Ответьте, в частности, на вопрос, является ли ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 601 Таблица 11.3.14. Цена строки рекламы в крупнейших газетах Тираж, экз. Цена строки одноразовой рекламы, дол. TheWallStreetJournal 2 081 995 37,65 New YorkDailyNews 1 374 858 18,48 USA Today 1 284 613 14,50 LosAngeles Times 1 057 536 14,61 970 051 16,47 New York Times New YorkPost 963 069 16,07 Philadelphia Inquirer/News 828 236 13,82 Chicago Tribune 779 259 13,05 WashingtonPost 768 288 13,78 San Francisco Chronicle/Examiner 691 771 12,25 ChicagoSun-Times 663 693 10,53 DetroitNews 657 015 14,18 DetroitFree Press 645 623 12,83 LongIslandNewsday 533 384 7,81 Kansas City Times/Star 528777 5,17 MiamiHerald/News 514702 11,08 ClevelandPlain Dealer 492 002 6,58 MilwaukeeJournal 486 426 8,77 Houston Chronicle 443 592 6,03 Baltimore Sun 349182 6,77 Данные взяты из Bovee С. L and Arens W. F. ContemporaryAdvertising, 2nd ed. (Homewood, III.: Richard D. Irwin, 1986), p. 413. тариф на размещение одной строки рекламного объявления выше или ни же той величины, которую можно было бы ожидать для газеты с таким тиражом. 30. В предыдущей задаче на диаграмме рассеяния виден один возможный вы брос. Давайте выясним, принадлежит ли это значение той же генеральной совокупности, что и остальные, рассматривая его как новое наблюдение.26 а) Удалите The Wall Street Journal из рассматриваемой совокупности дан ных и найдите уравнение регрессии, позволяющее прогнозировать тариф на размещение рекламы на основании тиража для всех остальных газет. Более строгий анализ позволяет учесть тот факт, что газету The Wall Street Journal дейст вительно нельзя рассматривать как результат случайного выбора из некоторой идеализирован ной генеральной совокупности, поскольку она была выбрана, в частности, именно с учетом ее большого отличия от других газет. Подробный анализ проблем, связанных с резко отклоняю щимися значениями, и методы их решения приведены в книге Barnett V. and Lewis Т. Outliers in Statistical Data (New York: Wiley, 1978). 602 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ б) Вычислите двусторонний 95% доверительный интервал для нового на блюдения, когда Х 0 является размером тиража The Wall Street Journal. в) Проверьте, является ли The Wall Street Journal выбросом, выяснив, по падает ли тариф на размещение рекламы в этой газете в построенный до верительный интервал. 31. Тариф за миллион для рекламы в газетах определяется как тариф на раз мещение одной строки рекламы, деленный на тираж (в миллионах экзем пляров). Таким образом, этот тариф представляет собой затраты на одну строку рекламного объявления на каждый миллион экземпляров тиража. Эта поправка должна учитывать некоторые различия в тарифах на разме щение рекламы, обусловленные тиражом. Таким образом, одно из объяс нений тарифа на размещение одной строки рекламы заключается в том, что он пропорционален тиражу. Если же он действительно пропорциона лен тиражу, тогда в тарифе за миллион не остается ничего, что должно объясняться тиражом. С другой стороны, если в большом тираже есть ка кое-то дополнительное преимущество (или недостаток), то величина тира жа должна помочь объяснить вариацию тарифов за миллион. Давайте по пытаемся с помощью регрессионного анализа выяснить, остается ли в та рифе за миллион что-то такое, что объясняется тиражом. Воспользуемся данными, приведенными в табл. 11.3.15. а) Постройте диаграмму рассеяния тарифа за миллион в зависимости от тиража. б) Найдите и интерпретируйте корреляцию между тиражом и тарифом за миллион. в) Какой процент вариации тарифа за миллион объясняется тиражом? г) Проверьте, существует ли значимая взаимосвязь между тиражом и та рифом за миллион. д) Кратко поясните и интерпретируйте в письменном виде полученные ва ми результаты. 32. Ваша фирма, выпускающая ряд пластмассовых деталей для автомобилей, не может добиться нужного уровня качества своей продукции (слишком большой процент брака). Один из ваших инженеров полагает, что причи ной этого является недостаточно тщательный контроль температуры соот ветствующих технологических процессов. Другому инженеру кажется, что все дело в слишком частых остановках сборочной линии, которые проис ходят по не связанным между собой причинам. Вы решили проанализиро вать проблему и собрать необходимые для этого данные. В табл. 11.3.16 содержатся данные о проценте брака за несколько последних дней, о стан дартном отклонении температуры, измерявшейся каждый час на протяже нии этих дней (эти данные служат мерой контроля температуры), и о ко личестве остановок сборочной линии за каждый из этих дней. а) Найдите корреляцию между процентом брака и изменчивостью темпе ратуры. б) Найдите корреляцию между процентом брака и остановками сборочной линии. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 603 Таблица 11.3.15. Тарифы на размещение одной строки рекламных объявлений в газетах с поправкой на тираж Тираж, экз. Тариф за миллион, дол. TheWallStreetJournal 2 081 995 18,08 New YorkDailyNews 1374 858 13,43 USA Today 1284 613 11,29 LosAngeles Times 1057 536 13,81 New York Times 970051 16,98 New YorkPost 963 069 16,69 Philadelphia Inquirer/News 828 236 16,69 Chicago Tribune 779 259 16,75 WashingtonPost 768 288 17,94 San Francisco Chronicle/Examiner 691 771 17,71 ChicagoSun-Times 663 693 15,87 DetroitNews 657 015 21,58 DetroitFree Press 645 623 19,87 LongIslandNewsday 533 384 14,64 Kansas City Times/Star 528777 9,78 MiamiHerald/News 514702 21,53 ClevelandPlain Dealer 492 002 13,37 MilwaukeeJournal 486426 18,03 Houston Chronicle 443 592 13,59 BaltimoreSun 349182 19,39 Данные взяты из Bovee С. L and Arens W. F. ContemporaryAdvertising, 2nd ed. (Homewood, III.: Richard D. Irwin, 1986), p. 413. в) Какая из возможных причин — изменчивость температуры или оста новки сборочной линии — сказывается в большей степени на вариации процента брака в разные дни? Поясните свой ответ. г) Оцените статистическую значимость каждого из найденных вами коэф фициентов корреляции. д) Изобразите диаграмму рассеяния для процента брака в зависимости от количества остановок сборочной линии. Кратко интерпретируйте в пись менном виде полученную вами диаграмму и коэффициент корреляции. е) Изобразите диаграмму рассеяния значений процента брака в зависимо сти от изменчивости температуры. Кратко интерпретируйте в письменном виде полученную вами диаграмму и коэффициент корреляции. ж) Кратко резюмируйте в письменном виде свои выводы из полученных результатов и предложения, касающиеся повышения качества выпускае мых изделий. 604 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 11.3.16. Брак продукции и его возможные причины Процент брака Изменчивость температуры Остановки сборочной линии Процент брака Изменчивость температуры Остановки сборочной линии 0,1 11,94 5 0,0 10,10 2 0,1 9,33 4 5,2 13,08 2 8,4 21,89 4,9 17,19 0,0 8,32 1 0,1 10,76 1 4,5 14,55 6,8 13,73 3 2,6 12,08 8 4,8 12,42 2 3,2 12,16 0,0 12,83 2 0,0 12,56 2 0,9 5,78 5 Упражнения с использованием базы данных Обратитесь к базе данных служащих, приведенной в приложении А. 1. Рассмотрим годовую заработную плату как переменную У, а стаж рабо ты — как переменную X. а) Постройте диаграмму рассеяния и опишите взаимосвязь б) Найдите коэффициент корреляции. О чем свидетельствует его значение? Соответствует ли он диаграмме рассеяния? в) Найдите методом наименьших квадратов линию регрессии для прогноза У на основании X и начертите ее на диаграмме рассеяния. г) Найдите стандартное отклонение оценки. О чем свидетельствует этот показатель? д) Найдите стандартную ошибку коэффициента наклона. е) Найдите 95% доверительный интервал для коэффициента наклона. ж) Проверьте на уровне 5% значимость отличия от 0 коэффициента на клона. Интерпретируйте полученный результат. з) Проверьте на уровне 1% значимость отличия от 0 коэффициента наклона. и) Проверьте на уровне 5% значимость отличия от 0 коэффициента корре ляции. 2. а) Какая доля вариации заработной платы объясняется тем, что одни служащие имеют больший стаж работы, чем другие? б) Какую заработную плату можно ожидать для служащего со стажем ра боты 8 лет? в) Найдите 95% доверительный интервал для заработной платы нового служащего со стажем работы 8 лет, взятого из той же генеральной сово купности, из которой были извлечены исследуемые нами данные. ГЛАВА П. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 605 г) Найдите 95% доверительный интервал для средней заработной платы всех тех служащих в генеральной совокупности, которые имеют стаж ра боты 8 лет. 3. а) Какую заработную плату можно ожидать для служащего с трехлетним стажем работы? б) Найдите 95% доверительный интервал для заработной платы нового служащего с трехлетним стажем работы, взятого из той же генеральной совокупности, из которой были извлечены исследуемые нами данные. в) Найдите 95% доверительный интервал для средней заработной платы всех тех служащих в генеральной совокупности, которые имеют стаж ра боты 3 года. 4. а) На какую заработную плату может рассчитывать служащий с нулевым стажем работы (т.е. без стажа работы)? б) Найдите 95% доверительный интервал для заработной платы нового служащего без стажа работы, взятого из той же генеральной совокупности, из которой были извлечены исследуемые нами данные. в) Найдите 95% доверительный интервал для средней заработной платы всех тех служащих в генеральной совокупности, которые имеют нулевой стаж работы. 5. Будем рассматривать годовую заработную плату как переменную У, а воз раст — как переменную X. а) Постройте диаграмму рассеяния и опишите взаимосвязь. б) Найдите коэффициент корреляции. О чем свидетельствует значение это го коэффициента? Соответствует ли он диаграмме рассеяния? в) Найдите методом наименьших квадратов линию регрессии для прогнози рования У на основании X и начертите ее на вашей диаграмме рассеяния. г) Найдите стандартную ошибку оценки. О чем свидетельствует этот пока затель? д) Найдите стандартную ошибку коэффициента наклона. е) Найдите 95% доверительный интервал для коэффициента наклона. ж) Проверьте на уровне 5% значимость отличия коэффициента наклона от 0. Интерпретируйте полученный результат. з) Проверьте на уровне 1% значимость отличия коэффициента наклона от 0. 6. а) Какая доля вариации заработной платы объясняется тем, что у одних служащих возраст больше, чем у других? б) Какую заработную плату можно ожидать для служащего в возрасте 42 лет? в) Найдите 95% доверительный интервал для заработной платы нового служащего в возрасте 42 лет, взятого из той же генеральной совокупности, из которой были извлечены исследуемые нами данные. г) Найдите 95% доверительный интервал для средней заработной платы всех тех служащих в рассматриваемой генеральной совокупности, возраст которых составляет 42 года. 7. а) Какую заработную плату можно ожидать для служащего в возрасте 50 лет? 606 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ б) Найдите 95% доверительный интервал для заработной платы нового служащего в возрасте 50 лет, взятого из той же генеральной совокупности, из которой были извлечены исследуемые нами данные. в) Найдите 95% доверительный интервал для средней заработной платы всех тех служащих в рассматриваемой генеральной совокупности, возраст которых составляет 50 лет. 8. Будем рассматривать стаж работы как переменную У, а возраст — как пе ременную X. а) Постройте диаграмму рассеяния и опишите взаимосвязь. б) Найдите коэффициент корреляции. О чем свидетельствует значение этго коэффициента? Соответствует ли он вашей диаграмме рассеяния? в) Найдите методом наименьших квадратов линию регрессии для прогнози рования У на основании X и начертите ее на вашей диаграмме рассеяния. г) Найдите стандартную ошибку оценки. О чем свидетельствует этот пока затель? д) Найдите стандартную ошибку коэффициента наклона. е) Найдите 95% доверительный интервал для коэффициента наклона. ж) Проверьте на уровне 5% значимость отличия коэффициента наклона от 0. Интерпретируйте полученный результат. з) Проверьте на уровне 1% значимость отличия коэффициента наклона от 0. 9. а) Какая доля вариации стажа работы объясняется тем, что у одних слу жащих возраст больше, чем у других? б) Можно ожидать наличие стажа работы у служащего в возрасте 42 лет? в) Найдите 95% доверительный интервал для стажа работы нового слу жащего в возрасте 42 лет, взятого из той же генеральной совокупности, из которой были получены исследуемые нами данные. г) Найдите 95% доверительный интервал для среднего стажа работы всех тех служащих в генеральной совокупности, возраст которых составляет 42 года. 10. а) Наличие какого стажа работы можно ожидать у служащего в возрасте 50 лет? б) Найдите 95% доверительный интервал для стажа работы нового служа щего в возрасте 50 лет, взятого из той же генеральной совокупности, из которой были получены исследуемые нами данные. в) Найдите 95% доверительный интервал для среднего стажа работы всех тех служащих в генеральной совокупности, возраст которых составляет 50 лет. Проекты Используя Internet, газеты или журналы, подберите двумерную со вокупность данных с размером выборки п = 15 или больше, касаю щуюся вашей работы или бизнеса. 1. Выберите зависимую переменную (У) и независимую переменную (X) и кратко обоснуйте свой выбор. ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 607 2. Изобразите соответствующую диаграмму рассеяния и сделайте коммента рии относительно взаимосвязи. 3. Вычислите коэффициент корреляции и кратко интерпретируйте получен ное значение. 4. Возведите коэффициент корреляции в квадрат и кратко интерпретируйте полученное значение. 5. Найдите методом наименьших квадратов уравнение регрессии и начертите соответствующую линию на диаграмме рассеяния. 6. Вычислите прогнозируемые значения У и остатки для двух объектов ва шей совокупности данных. Сделайте комментарий. 7. Найдите доверительный интервал для коэффициента наклона. 8. Проверьте, можно ли что-нибудь объяснить на основании полученного ва ми уравнения регрессии. 9. Выберите какое-либо значение X . Найдите ожидаемое значение У для это го X . Найдите доверительный интервал для значения У у объекта с этим значением X . Найдите доверительный интервал для среднего значения У у генеральной совокупности объектов с этим значением X . Обобщите и про интерпретируйте полученные результаты. 10. Сделайте выводы из результатов применения корреляционного и регресси онного анализа к этой совокупности данных. Что нового вы узнали об ис следуемой совокупности данных? Ситуация для анализа Еще один этап производства: нужен ли он? Специалисты из научно-исследовательской лаборатории предлагают вам (и руководству компании в целом) добавить в производственный процесс еще один этап. Они увлечены этой идеей, однако вас одолевают сомнения, поскольку всем известно, что один из ее авторов является приятелем главы компании, работаю щей в области биотехнологий и занимающейся производством реагента, который предполагается использовать на дополнительном этапе производства. Но если внедрение нового этапа даст такие результаты, как ожидается, это должно по мочь вашей компании существенно сократить производственные расходы. Про блема, однако, заключается в том, что только что полученные результаты испы таний не вселяют в специалистов вашей компании чересчур большого оптимиз ма. В связи с этим предполагается провести совещание технических специалистов и руководства компании. Желая получить перед этим совещанием максимально объективную информацию, вы решаете самостоятельно проанали зировать имеющиеся данные. Ваша компания рассчитывает получить со стороны Комитета по продуктам питания и лекарственным препаратам (Food and Drug Administration — FDA) разрешение на продажу нового медицинского диагностического теста, основанно го на технологии моноклональных антител, а вы входите в группу специалистов, ответственных за производство. Естественно, эта группа занимается исследова нием способов повышения объемов производства и сокращения расходов. 608 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Суть рассматриваемого предложения сводится к добавлению в технологиче ский процесс еще одной реакции, обеспечивающей промежуточную очистку про дукта. Такой подход следует признать рациональным, поскольку ресурсы кон центрируются на последних стадиях производства продукта. Однако он порож дает проблему, связанную с любым дополнительным этапом производственного процесса: еще один вид обработки, еще одно вмешательство, еще один источник возможных сложностей и проблем. Что касается рассматриваемого нами случая, то высказывалось следующее предположение: в то время как небольшие количе ства упоминавшегося нами реагента могут действительно принести пользу, по пытки выполнить слишком глубокую очистку на самом деле приведут лишь к снижению объемов производства и повышению производственных расходов. Суть предлагаемой проверки заключается в проведении ряда производствен ных циклов, в каждом из которых используются разные количества веществаочистителя, причем в одном из производственных циклов этап очистки исклю чался полностью (т.е. количество вещества-очистителя равно 0). Последователь ность испытаний должна носить случайный характер, чтобы какие-либо времен ные тенденции ошибочно не воспринимались так, словно они вызваны процеду рой дополнительной очистки. Ниже приведены соответствующие данные, а также результаты регрессионного анализа. Количество веществаочистителя Наблюдаемый объем производства Количество веществаочистителя Наблюдаемый объем производства 13,39 6 37,07 1 11,86 7 51,07 2 27,93 8 51,69 3 35,83 9 31,37 4 28,52 10 21,26 5 41,21 Итоговый отчет Статистические характеристики регрессии Множественный R 0,516 R-квадрат 0,266 R-квадрат с поправкой 0,184 Стандартная ошибка 12,024 Наблюдения 11 AN0VA df MS F Значимость F 471,156 471,156 3,259 0,105 144,588 SS Регрессия 1 Остаток 9 1301,294 Итого 10 1772,450 ГЛАВА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ: ИЗМЕРЕНИЕ И ПРОГНОЗИРОВАНИЕ 609 Окончание таблицы Коэффициенты Стандартная ошибка t Р Нижний 95% Верхний 95% Сдвиг 21,578 6,783 3,181 0,011 6,234 36,922 Вещество-очиститель 2,070 1,146 1,805 0,105 -0,524 4,663 Вопросы для обсуждения 1. Можно ли сказать, исходя из проведенного регрессионного анализа, что объем вещества-очистителя оказывает существенное влияние на объем производства? Можно ли, основываясь на вашем ответе на данный вопрос, рекомендовать включение этапа очистки в производственный процесс? 2. Что бы вы порекомендовали? Есть ли какие-то соображения, способные изменить вашу точку зрения? 610 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ ГЛАВА Л2 Множественная регрессия: прогнозирование одного фактора на основе нескольких других Окружающий нас мир многомерен. В подавляющем большинстве реальных экономических задач приходится рассматривать данные более чем об одном или двух факторах. Однако это не является неразре шимой проблемой: следующий шаг, множествен ная регрессия , представляет собой относительно несложную процедуру, которая позволяет вам расширить свои возможности за пределы простей ших случаев одно- и двумерных данных. Более то го, с соответствующими базовыми идеями вы уже знакомы: понятия среднего значения, изменчиво сти, корреляции, прогнозирования, доверительных интервалов и проверки гипотез изложены в преды дущих главах. Прогнозирование единственной переменной Y на основании двух или нескольких переменных X на зывается множественной регрессией. Прогнозирова ние единственной переменной Y на основании един ственной переменной X называется простой регрес сией ; о простой регрессии речь шла в предыдущей главе. Пользуясь множественной регрессией, мы преследуем, по сути, те же цели, что и в случае простой регрессии. Ниже приведен краткий обзор этих целей, сопровождаемый простыми примерами. Первое. Описание и понимание взаимосвязи . а) Рассмотрим взаимосвязь между заработ ной платой (У) и рядом базовых характери стик служащих, таких как пол (Xi представ лен двумя значениями, 0 и 1 обозначают со- ответственно мужчин и женщин), стаж работы (Х 2) и образование (Х 3). Опи сание и понимание того, как эти Х-факторы влияют на У, позволяет, на пример, выстраивать систему доказательств в судебных процессах, касаю щихся дискриминации по признаку пола. Коэффициент регрессии по при знаку пола является оценкой величины разницы заработной платы между мужчинами и женщинами с учетом поправки на возраст и стаж работы. Даже если вашу фирму пока еще не обвиняют в дискриминации работников по признаку пола, все равно полезно было бы выполнить множественный регрессионный анализ, чтобы незначительные (пока еще!) проблемы не пере росли в крупные, решать которые будет значительно сложнее. б) Если ваша фирма участвует в конкурсе на реализацию тех или иных проектов, тогда — для тех проектов, конкурс на которые вам удалось вы играть — вы располагаете данными, касающимися фактических затрат (У), оценки прямых трудозатрат (Хх), оценки затрат на материалы (Х 2) и затрат на управленческие функции (Х 3). Допустим, что предложение цены, с которым вы выходите на конкурс, кажется вам неоправданно низким. Определив взаимосвязь между фактическими затратами и оценками, сде ланными ранее, на этапе переговоров о заключении контрактов, вы смо жете выяснить, какие из оценок вы систематически занижаете или, наобо рот, завышаете (с точки зрения их вклада в фактические затраты). Второе. Прогнозирование ( предсказание) нового наблюдения. а) Глубокое понимание структуры затрат в вашей фирме может быть по лезно во многих отношениях. Например, у вас может сложиться более правильное представление о том, какие дополнительные расходы следует запланировать на сезон повышенного спроса на продукцию вашей фирмы (в частности, можно учесть дополнительные затраты, связанные с выпол нением сверхурочных работ). Если ваш бизнес претерпевает определенные изменения, вы должны уметь прогнозировать влияние этих изменений на структуру затрат. Лучше разбираться в структуре затрат своей фирмы вам поможет множественная регрессия затрат (У) на каждый из потенциально значимых (на ваш взгляд) факторов, таких как количество выпускаемых изделий (Хх), количество работников (Х 2) и объем сверхурочных работ (Х 3). Результаты анализа, подобного этому, помогут вам принимать гораз до более продуманные решения, чем простое решение “посадить людей на сверхурочные работы на недельку-другую” . Такой анализ поможет вам выявить скрытые расходы, которые обнаруживают тенденцию к возраста нию с ростом объемов сверхурочных работ, и делать более точные прогно зы фактических затрат, основанные на имеющейся у вас информации. б) Ежемесячные объемы продаж в вашей фирме (временной ряд) могут объясняться сезонными колебаниями спроса. Один из способов анализа и прогнозирования объемов продаж заключается в использовании множест венной регрессии, позволяющей объяснять объемы продаж (У) на основа нии некоторого тренда (например, Х х = 1, 2, 3, ... , указывающего месяцы от начала регистрации объемов продаж) и переменной для каждого месяца (например, Х 2 равняется 1 для января и 0 в противном случае, Х 3 пред612 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ ставляет февраль, и т.д.). Множественную регрессию можно использовать для прогнозирования объемов продаж на несколько месяцев вперед, а также для уяснения долгосрочных тенденций и понимания, в какие меся цы объемы продаж, как правило, оказываются больше, чем в другие. Третье. Регулирование и управление процессом. а) На вход технологической цепочки, используемой на целлюлознобумажном комбинате, поступает целлюлозная масса, а на выходе получается готовая к употреблению бумага. Как управлять столь сложным комплексом оборудования? Одного лишь внимательного изучения технической докумен тации явно недостаточно — чтобы научиться правильно регулировать техно логический процесс (с точки зрения минимизации расхода электроэнергии), нужны многие годы практического опыта. Если этот опыт выражается в числах, то анализ множественной регрессии позволяет вам выяснить, какая именно комбинация параметров технологического процесса (X- переменные) позволяет добиться нужного результата (переменная У). б) Хеджирование (страхование) на рынке ценных бумаг подразумевает формирование портфеля ценных бумаг (чаще всего фьючерсов и опционов), который в максимальной степени учитывает риск тех или иных активов. Если, например, вы храните определенный запас товарно-материальных ценностей, следует позаботиться о хеджировании его риска. Банки исполь зуют контракты на казначейские фьючерсы и опционы для хеджирования риска потерь в результате изменения процентных ставок по их депозит ным счетам и ссудам. Сельскохозяйственные отрасли используют хеджи рование для снижения риска, связанного с флуктуациями цен на товары. Процесс выбора “хеджевого” портфеля можно осуществлять с помощью анализа множественной регрессии. Взяв за основу данные прошедшего пе риода, можно попытаться объяснять движение цен на ваши активы (У) изменениями курса ценных бумаг (Х х, Х 2 и т.д.) Соответствующие коэф фициенты регрессии покажут, какой процент ценных бумаг того или ино го вида следует включать в “хеджевой” портфель, чтобы как можно боль ше снизить риск. Таким образом, множественная регрессия будет исполь зоваться для регулирования и управления риском, которому подвергаются ваши активы. 12.1. Интерпретация результатов множественной регрессии Как будет выглядеть компьютерная распечатка результатов и как можно интер претировать эти результаты? Прежде всего мы приведем краткий обзор входных данных и основных результатов. Более подробное их объяснение будет дано позже. Пусть k означает количество поясняющих переменных (Х-переменных); k может быть любым разумным числом. Ваши элементарные единицы нередко на зываются наблюдениями; это могут быть клиенты, фирмы, выпускаемые изде ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 613 лия и т.п.1 Входные данные для обычного множественного регрессионного ана лиза представлены в табл. 12.1.1 Сдвиг, или постоянный член, а, определяет прогнозируемое значение У, ко гда все переменные X равны 0. Коэффициент регрессии для каждой Xпеременной определяет влияние этой Х-переменной на У при условии, что все остальные Х-переменные не меняются: коэффициент регрессии bj для у-й Xпеременной указывает, какое увеличение У ожидается, когда все Х-переменные остаются неизменными, за исключением переменной Х у, которая увеличивается на одну единицу. Взятые вместе эти коэффициенты регрессии составляют урав нение прогнозирования, или уравнение регрессии, вида (прогнозируемое значе ние У) = а + biXi + Ь2Х 2 + ... + bkX k, которое можно использовать в целях про гнозирования или управления. Эти коэффициенты (a, bi9 b2, ... , bk) обычно вы числяются методом наименьших квадратов, который минимизирует сумму квадратов ошибок прогнозирования. Ошибки прогнозирования, или остатки, оп ределяются как У - (прогнозируемое значение У). Как и в случае простой регрессии (с единственной X- переменной), стандарт ная ошибка оценки, S e9 указывает приблизительную величину ошибок прогно зирования. И как в случае простой регрессии, R2 является коэффициентом де терминации, который указывает, какой процент вариации У “объясняется” всеV 2 ми Х-переменными. Статистический вывод начинается с общей проверки, которую называют F тестом (F-test). Цель F-теста заключается в том, чтобы выяснить, объясняют ли Х-переменные значимую долю вариации У. Если ваша регрессия не является значимой, говорить больше не о чем. Если же регрессия оказывается значимой, можно продолжить анализ статистических выводов, используя t-тесты для от дельных коэффициентов регрессии, которые показывают, насколько значимой является влияние той или иной Х-переменной на У при условии , что все другие Х-переменные остаются неизменными . Построение доверительных интервалов и проверки гипотез для отдельного коэффициента регрессии будут, конечно же, основываться на его стандартной ошибке. Каждый коэффициент регрессии имеет свою стандартную ошибку; они обозначаются Sh , , ... , . В табл. 12.1.2 приведен перечень результатов множественного регрессионного анализа. Пример. Реклама в журналах Тарифы на размещение рекламных объявлений в журналах определяются каждым журналом самостоя тельно. Чем объясняются различия в тарифах? Возможно, здесь каким-то образом учитывается ценность рекламного объявления для рекламодателя. Журналы, располагающие большей читательской аудитори ей (при равных прочих условиях), наверное, вправе устанавливать большие тарифы. Кроме того, журна лы, рассчитанные на более состоятельные круги читателей, также вправе устанавливать более высокие тарифы. Несмотря то что наверняка имеются и другие, не менее важные факторы, мы ограничимся лишь 1 По “техническим” причинам у вас должно быть по крайней мере на одно наблюдение больше, чем имеется Х-переменных, т.е. n > k + 1. Практические соображения диктуют необходимость намного большего числа наблюдений. 2 Однако в данном случае речь идет не просто о квадрате коэффициента корреляции У с одной Х-переменной, а о квадрате коэффициента корреляции г переменной У (фактических значений) с прогнозами (которые вычисляются с помощью уравнения регрессии, найденного методом наименьших квадратов). Такой показатель учитывает все Х-переменные. 614 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ указанными двумя, добавив к ним еще один — предпочтения людей разного пола, и выясним, изменяют ли журналы свои тарифы в зависимости от соотношения мужчин и женщин в их читательской аудитории. Ответы на некоторые из этих вопросов можно получить с помощью множественного регрессионного ана лиза. Такой анализ поможет нам объяснить влияние на тарифы таких факторов, как величина читатель ской аудитории, структура читательской аудитории по полу и доходы читателей. В табл. 12.1.3 представлена соответствующая многомерная совокупность данных, которую нам предсто ит проанализировать. В качестве переменной Y (объясняемой) мы будем рассматривать стоимость одной страницы одноразовой полноцветной рекламы. Объясняющими переменными будут Х\, читательская ау дитория (планируемая в тысячах человек), Х 2, процент мужчин среди планируемой аудитории, и Хз, ме диана дохода семьи. Размер выборки п = 55. В табл. 12.1.4 представлена компьютерная распечатка результатов анализа множественной регрессии, полученная с помощью MINITAB®. Другие пакеты программного обеспечения для статистических расче тов позволяют получить в основном такую же базовую информацию. Например, с помощью Excel® также можно выполнить анализ множественной регрессии (найдите пункт Data Analysis (Анализ данных) в меню Tools (Сервис)3 и выберите команду Regression (Регрессия)). На рис. 12.1.1 ,а показано диало говое окно регрессии в Excel, а на рис. 12.1.1,6 — результаты анализа множественной регрессии в Excel. Эти результаты мы будем интерпретировать в следующем разделе. Таблица 12.1.1. Входные данные для множественной регрессии Y (зависимая, или объясняемая, переменная) Х1(первая независимая, или объясняющая, переменная) Х2(вторая независимая, или объясняющая, переменная) X* (последняя независимая, или объясняющая, переменная) Наблюдение 1 10,9 2,0 4,7 12,5 Наблюдение 2 23,6 4,0 3,4 12,3 Наблюдение п 6,0 0,5 3,1 7,0 Таблица 12.1.2. Результаты множественного регрессионного анализа Название Результат Описание Сдвиг или постоянный член а Прогнозируемое значение для У, когда все значения Xпеременных равны 0 Коэффициенты регрессии Ь\} fa ,..., bk Влияние каждой Лгпеременной на Кпри условии, что все другие Лгпеременные остаются неизменными Уравнение прогнозирования, или уравнение регрессии Прогнозируемое значе ние Y = а + t\Xi + th Прогнозируемое значение Кпри заданных значениях Xпеременных Х2 + ... + £>Л з Если в меню Tools (Сервис) отсутствует пункт Data Analysis (Анализ данных), то сначала убеди тесь, что вы выбрали ячейку электронной таблицы (а не график, например). Если вы все же не можете найти Data Analysis (Анализ данных), поищите пункт меню Add-Ins (Надстройки) и по ставьте отметку возле Analysis ToolPak (Пакет анализа). Если это не поможет, то, видимо, необ ходимо переустановить Excel. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ .. 615 Окончание табл. 12.1.2 Название Результат Описание Ошибки прогнозирования, или остатки У- прогнозируемое значение У Ошибка, возникающая для каждого наблюдения в результате использования уравнения прогнозирования вместо фактиче ского значения Кдля этого наблюдения Стандартная ошибка оценки Seили S Приблизительная величина ошибок прогнозирования (типич ная разница между фактическим значением Ки его прогно зом исходя из уравнения регрессии) Коэффициент детерминации R2 Процент изменчивости У, объясняемый всей группой Xпеременных F-тест Значимый или незначи мый Проверяет, может ли прогноз на основе ЛГ-переменных как группы быть лучше прогноза на основе простой случайности; по сути, проверяет, является ли # большим, чем в случае отсутствия взаимосвязи между А^перемеными и У /•тесты для отдельных коэф фициентов регрессии Значимый или незначи мый, для каждой X- пе ременной Проверяет, влияет ли на Кконкретная ^переменная при ус ловии, что все другие /^-переменные остаются неизменными; эту проверку выполняют только тогда, когда /^тест значим Стандартные ошибки коэф фициентов регрессии 5&I > «Sfc...... Sbk Указывает выборочную оценку стандартного отклонения каж дого коэффициента регрессии; используется обычным спо собом для нахождения доверительных интервалов и проверки гипотез для отдельных коэффициентов регрессии Число степеней свободы для стандартных ошибок коэффи циентов регрессии п—к- 1 Используется, чтобы найти в /-таблице соответствующее значение для построения доверительных интервалов и про верки гипотез для отдельных коэффициентов регрессии Таблица 12.1.3. Тарифы на размещение рекламы и характеристики журналов Y, тариф (одна страница цветной рекламы), дол. Audubon X1f планируемая аудитория, тыс. человек Х2, процент мужчин Х3, медиана дохода семьи, дол. 25 315 1645 51,1 38787 BetterHomes& Gardens 198 000 34 797 22,1 41933 BusinessWeek 103 300 4 760 68,1 63 667 Cosmopolitan 94100 15 452 17,3 44 237 B/e 55 540 3735 12,5 47 211 Entrepreneur 40355 2 476 60,4 47 579 Esquire 51559 3 037 71,3 44 715 FamilyCirde 147 500 24 539 13,0 38759 FirstForWomen 28 059 3 856 3,6 43 850 Forbes 59 340 4191 68,8 66 606 Fortune 60 800 3 891 68,8 58 402 Glamour 85080 10891 7,8 46 331 GolfDigest 98 760 6250 78,9 61 323 616 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Продолжение табл. 12.1.3 GoodHousekeeping Y, тариф (одна страница цветной рекламы), дол. X1t планируемая аудитория, тыс. человек Х2, Процент мужчин Х3| Медиана дохода семьи, дол. 166080 25 306 12,6 38335 Gourmet 49640 4 484 29,6 57 060 Harper’s Bazaar 52 805 2 621 11,5 44 992 Inc. 70825 2166 66,9 72 493 3 332 65,1 63 876 127 000 17040 6,8 38442 Life 63 750 14 220 46,9 41 770 Mademoiselle 55910 4 804 8,0 46 694 MarthaStewart’s Living 93 328 4849 16,6 61 890 113120 16 301 7,6 33 823 Kiplinger'sPersonalFinance 46 580 Ladies’HomeJournal McCalls Money 98 250 9 805 60,6 60 549 Motor Trend 79 800 5 281 88,5 48 739 159 345 32158 53,0 44326 20180 1 775 45,0 41499 148 800 20 720 53,5 53 025 ParentsMagazine 72 820 12 064 18,2 39 369 PCComputing 40 675 4606 67,0 57 916 125 000 33 668 34,0 46171 78685 9 036 86,9 40 802 NationalGeographic NaturalHistory Newsweek People PopularMechanics Reader’s Digest 193 000 51 925 42,4 38 060 Redbook 95 785 13 212 8,9 41 156 RollingStone 78920 8 638 59,8 43 212 60 222 Runner’s World 36 850 2 078 62,9 ScientificAmerican 37 500 2 704 70,0 62 372 Seventeen 71 115 5738 17,0 37 034 Ski 32480 2 249 64,5 58 629 SmartMoney 42 900 2 224 63,4 57170 Smithsonian 73 075 8 253 47,9 50 872 35 070 7 227 10,3 31 835 162 000 21602 78,8 45 897 Soap OperaDigest SportsIllustrated Sunset 56 000 5 276 38,7 52 524 Teen 53 250 3 057 15,4 42 640 TheNew Yorker 62 435 3 223 48,9 49 672 162 000 22 798 52,4 49166 Time ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 617 Окончание табл. 12.1.3 Y, тариф (одна страница цветной рекламы), дол. Хи планируемая аудитория, тыс. человек Х2, Процент мужчин Х3, Медиана дохода семьи, дол. TrueStory 17100 3 582 12,2 15 734 TVGuide 146 400 40 917 42,8 37 396 U.S. News& WorldReport 98 644 9825 57,5 52 018 VanityFair 67 890 4307 27,7 52 189 Vogue 63 900 8434 12,9 44 242 137 000 22 747 6,7 38 463 Working Woman 87 500 3312 6,3 44 674 Womanfs Day YM 73 270 3109 14,4 43 696 Среднее значение 83 534 10913 39,7 47 710 Среднеквадратическое отклонение 45 446 11 212 25,9 10 225 Размер выборки: п - 55. Данные взяты из Mediamark Research Magazine Qualitative Audiences Report, Spring 1996; и SDRS Consumer Magazine Advertising Source, July 1997, Volume 79 Number 7. Коэффициенты регрессии и уравнение регрессии Сдвиг, или постоянный член, а, и коэффициенты регрессии, Ъ2 и Ь3, вы числяются компьютером с использованием метода наименьших квадратов. Среди всех возможных вариантов уравнения регрессии с различными значениями этих коэффициентов именно уравнение, найденное таким методом, обеспечивает ми нимальную сумму квадратов ошибок про гнозирования для рассматриваемой нами jpagej inputllU ngr a J выборки журналов. Уравнение регрессии InputiRange: jtC$15:$E$69 'J Г constant* аго (или уравнение прогнозирования) имеет Гд**и» Г Confidence Lew) следующий вид: omput options gptputft«ige: i N*wWartahMtgly: (прогнозируемый тариф на размещение г Щ *Ч&*1оаок рекламы) = а + bxX i 4- Ь2Х 2 + Ь3Х 3 = $4 043 4- 3,79(читательская аудито рия) - 124(процент мужчин) + 0,903(медиана дохода). Сдвиг, а = $4 043, интерпретируется сле дующим образом: типичный тариф на раз мещение одностраничного цветного реклам ного объявления в журнале, у которого нет платных подписчиков, нет мужчин среди чи тателей и читатели не имеют дохода, состав ляет $4 043. Однако в рассматриваемой на618 Рис. 12.1.1.а) Диалоговое окно рег рессии в Excel®. Можно присвоить имя диапазона для Y (в данном слу чае — “page” ), но X-переменные должны находиться в смежных столбцах: можно протащить мышь по столбцам (только данные, без названий над ними) или ввести ад рес соответствующей ячейки ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ ми совокупности данных нет подобных журналов, поэтому сдвиг, а, следует рас сматривать лишь как вспомогательную величину, необходимую для получения оп тимальных прогнозов, но не интерпретировать это значение так буквально. t ’ SUMMARY OUTPUT "T * Э-.: 4 Regression Statistics Multiple R 0.887 S R Square 0.787 6 Adjusted R Square 0.775 7 Standard Error в Observations 21577.870 55 1$ ANOVA a IZ Regression MS SS df 87780133202 29260044401 465604493 23745829151 3 13 Residual 51 14 Total 54 Significance F F 0.000000 62.843 111525962353 IS I* 17 Intercept Coefficients tStat Standard Error P-value Lower 95% Upper 95% 4042.799 16884.039 0.239 0.812 -29853.298 1 * !X Variable 1 3.788 0.281 13.484 0.000 3.224 4.352 19 X Variable 2 -123.634 137.849 -0.897 0.374 -400.377 37938.895 153.108 20 i x Variable 3 0.903 0.370 2.442 0.018 0.161 1.645 Рис. 12.1.1.6) Полученные в Excel результаты регрессионного анализа данных о рекламных объявлениях в журналах Таблица 12.1.4. Результат множественного регрессионного анализа тарифов на размеще ние рекламы в журналах (вычисления сделаны компьютерным пакетом программ MINUAB) Уравнение регрессии имеет вид тариф на размещение рекламы = 4 043 + 3,79 (аудитория) - 124 (процент мужчин) + 0,903 (доход) Независимая переменная Коэффициент Стандартное отклонение t P Константа 4043 16884 0,24 0,812 Аудитория 3,7880 0,2809 13,48 0,000 Процент мужчин -123,6 137,8 -0,90 0,374 Доход 0,9026 0,3696 2,44 0,018 S = 21578 R-квадрат = 78,7% В-квадрат(кор.) = 77,5% Дисперсионный анализ Источник DF SS MS F P Регрессия 3 87780133202 29260044401 62,84 0,000 Ошибка остатка 51 23745829151 465604493 Итого 54 1,11526Е+11 Источник DF SeqSS Аудитория 1 84858244860 Процент мужчин 1 144950723 Доход 1 2776937619 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 619 Окончание табл. 12.1.4 Необычные наблодения Остаток Стандартное отклонение остатка Наблюде Аудитория ния Тариф на рекламу 31 33668 125000 169049 6939 -44049 -2.16R 33 51925 193000 229848 11268 -36848 -2.00RX 43 21602 162000 117556 6850 44444 2.17R Соответствие Стандартное отклонение соответствия 48 3582 17100 30305 11490 -13205 —0,72Х 49 40917 146400 187500 8582 -41100 -2.08R R обозначает наблюдение с большим стандартизованным остатком; X - наблюдение, Х-значение которого обеспечивает ему большое влияние. Интерпретация коэффициентов регрессии Коэффициенты регрессии интерпретируются как влияние каждой из пере менных на размер тарифа, если все другие независимые (“объясняющие”) пере менные остаются неизменными. Часто это значение включает “поправку на” другие независимые переменные, или “контролирование” этих других независи мых переменных. Поэтому коэффициент регрессии для конкретной Xпеременной может изменяться (иногда значительно) в результате включения в анализ или исключения других Х-переменных. В частности, каждый коэффици ент регрессии определяет среднее увеличение тарифа на размещение рекламы, приходящееся на единичное увеличение соответствующей ему Х-переменной (в данном случае термин “единичное” означает одну единицу измерения конкрет ной Х-переменной). Коэффициент регрессии для размера читательской аудитории, Ьг = 3,79, указы вает, что — при всех прочих равных условиях — журнал с дополнительной тыся чью читателей (поскольку у нас Х х измеряется в тысячах человек) берет (в сред нем) на $3,79 больше за размещение одностраничного цветного рекламного объяв ления. Можно также считать, что коэффициент регрессии для размера читательской аудитории означает, что каждый дополнительный читатель увеличи вает для этого журнала тариф на размещение рекламных объявлений на $0,00379, т.е. увеличение составляет чуть меньше половины цента на одного человека. По этому, если у какого-то другого журнала такой же процент читателей-мужчин и такой же показатель медианы дохода семьи читателей, но читательская аудитория на 3548 человек больше, то можно ожидать, что тариф на размещение рекламных объявлений в этом журнале будет (в среднем) на 3,79 х 3,548 = $13,45 больше благодаря такому отличию размера читательской аудитории. Коэффициент регрессии для процента мужчин, Ь2 = -124, указывает, что (при всех прочих равных условиях) тариф на размещение цветных рекламных объяв лений в журнале с дополнительным 1% читателей-мужчин окажется (в среднем) на $124 меньше. Это означает, что читательницы представляют для журнала большую ценность, чем читатели-мужчины. Статистический вывод должен под620 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ твердить или опровергнуть эту гипотезу путем сравнения величины влияния процента мужчин (т.е. -$ 1 2 4 ) с тем, на что можно было бы рассчитывать, если бы при данных обстоятельствах все определялось лишь чистой случайностью. Коэффициент регрессии для медианы дохода, Ь3 = 0,903, указывает, что (при всех прочих равных условиях) в журнале с дополнительным долларом медианы дохода его читателей тариф на размещение одностраничного цветного рекламно го объявления будет (в среднем) на $0,903 больше. Положительный знак этого коэффициента совершенно оправдан, поскольку люди с более высоким уровнем доходов могут позволить себе тратить больше на покупку рекламируемой про дукции. Если у какого-то другого журнала такой же процент читателей-мужчин и такая же величина читательской аудитории, но медиана дохода семей читате лей на $4 ООО выше, то можно ожидать, что тариф этого журнала на размеще ние рекламных объявлений будет на 0,903 х 4000 = $3612 выше (в среднем) благодаря более высокому уровню доходов его читателей. Помните, что коэффициенты регрессии отражают влияние на У одной Xпеременной при условии, что все другие Х-переменные остаются неизменными. Это следует понимать буквально. Например, коэффициент регрессии Ь3 отражает влияние медианы дохода читателей на рекламные тарифы; он вычисляется при неизменных величинах читательской аудитории и процента читателей-мужчин. В таком случае более высокие уровни доходов читателей, как правило, ведут к установлению более высоких тарифов на размещение рекламных объявлений (поскольку 63 является положительным числом) — при фиксированных размере читательской аудитории и проценте читателей-мужчин. Какой была бы эта взаимосвязь, если бы остальные переменные (размер чита тельской аудитории и процент читателей-мужчин) не фиксировались на посто янном уровне? На этот вопрос можно ответить, проанализировав обычный коэф фициент корреляции (или коэффициент регрессии, прогнозирующий У на осно вании только одной этой Х-переменной), вычисленный только для двух переменных: тарифа и медианы дохода. В нашем случае более высокое значение медианы дохода фактически ассоциируется с более низким тарифом (корреляция тарифа и медианы дохода является отрицательной: -0,167)! Чем это объяснить? Вполне приемлемое объяснение заключается в том, что журналы, ориентирую щиеся на читателей с более высоким средним уровнем доходов, не в состоянии обеспечить себе массовую аудиторию из-за того, что богатых людей среди насе ления страны в целом не так уж много. Если же эта читательская аудитория бо гатых людей окажется очень небольшой, это может вообще исказить эффект влияния высокого уровня доходов в расчете на одного читателя. Прогнозы и ошибки прогнозирования Уравнение прогнозирования, или уравнение регрессии, определяется в сле дующем виде: (прогнозируемое значение У) = а + b iX x + Ь2Х 2 + ... + bkX k. В нашем примере с рекламными объявлениями в журналах, чтобы найти прогнозируемую величину тарифа на размещение рекламных объявлений исходя из величины читательской аудитории, процента читателей-мужчин и медианы ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ . 621 дохода читателей для конкретного журнала, подобного тем, которые составляют рассматриваемую нами выборку данных, подставим в уравнение прогнозирова ния соответствующие;этому журналу значения Х-переменных: (прогнозируемый тариф на размещение рекламы) = = а + ЪгХг + Ъ2Х 2 + Ь3Х 3 = $4 043 + 3 ,7 9 Х г - 124Х 2 + 0,903 Х 3 = = $4 043 + 3,79(читательская аудитория) - 124(процент мужчин) + + 0,903(медиана дохода). Допустим, например, что вы собираетесь основать новый журнал, Популяр ная статистика, который рассчитан на читательскую аудиторию порядка 900 000 человек, 55% которых будут составлять женщины, а медиана дохода его читателей равна $50 000. Данные в уравнение прогнозирования необходимо под ставить в той же форме, что и в исходной совокупности данных (т.е. той, исходя из которой и строилось уравнение регрессии): Х г = 900 (читательская аудитория в тысячах человек), Х 2 = 45 (процент мужчин) и ! 3 = $50 000 (медиана дохода). Прогнозируемое значение для этой ситуации определяется следующим образом: прогнозируемый тариф на размещение рекламы в журнале Популярная статистика = 4 043 + 3,79(читательская аудитория) - 124(процент мужчин) + 0,903(медиана дохода) = 4 043 + 3,79 х х 900 - 124 х 45 + 0,903 х 50 000 = $47 024. Разумеется, рассчитывать на то, что тариф на размещение рекламы в журна ле составит ровно $47 024, не приходится. Во-первых, даже между журналами, данными о которых мы располагаем, наблюдаются случайные колебания, поэто му прогнозы не являются идеальными даже для них. Во-вторых, прогнозы могут быть полезны лишь в той мере, в какой прогнозируемый журнал подобен ж ур налам, принадлежащим к исходной совокупности данных. Если речь идет о но вом журнале, то тариф на размещение рекламы в этом журнале может опреде ляться не так, как для журналов с уже устоявшейся репутацией, которые мы использовали для построения уравнения регрессии. С помощью этого уравнения можно также прогнозировать тарифы для ж ур налов, принадлежащих к исходной совокупности данных. У первого журнала, Audubon, Х г = 1 645 (читательская аудитория равна примерно 1,6 миллиона че ловек), Х 2 = 51,1 (т.е. 51,1%' читателей этого журнала — мужчины) и Х 3 = 38 787 (медиана годового дохода читателей этого журнала составляет $38 787). Прогнозируемое значение для этого журнала можно найти по следую щей формуле: прогнозируемый тариф на размещение рекламы в журнале Audubon = = 4 043 + 3,79(читательская аудитория) - 124(процент мужчин) + + 0,903(медиана дохода) = 4 043 + 3,79 х 1 645 - 124 х 51,1 + + 0,903 х 38 787 = $38 966. Остаток, или ошибка прогнозирования, определяется по формуле: У (прогнозируемое значение У). Для журнала, принадлежащего к исходной сово купности данных, этот показатель равняется фактическому тарифу минус про гнозируемый тариф. Для журнала Audubon фактический тариф составляет 622 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ $25 315, а прогнозируемый тариф — $38 966. Таким образом, ошибка прогно зирования равна 25 315 - 38 966 = -$ 1 3 651. Отрицательный остаток указывает на то, что фактический тариф меньше прогнозируемого (в случае журнала Audu bon примерно на $14 ООО). Для многих из нас $14 ООО — огромные деньги; не плохо бы взглянуть на другие ошибки прогнозирования, чтобы понять, в какой мере прогнозирование отражает реальную ситуацию. Почему рекламные тарифы в журнале Audubon оказались намного меньше их ожидаемой величины? Скорее всего, потому, что для прогнозирования использовалось лишь k = 3 из множест ва возможных факторов, влияющих на величину рекламных тарифов (к тому же многие из этих факторов не очень понятны и их довольно сложно измерить). В табл. 12.1.5 показаны фактические тарифы и прогнозируемые тарифы (которые также называют ожидаемыми, или подогнанными, значениями), а также ошибки прогнозирования для каждого из журналов в исходной совокупности данных. Таблица 12.1.5. Прогнозируемые значения и остатки для тарифов на размещение рекламы в журналах Тариф на размещение Тариф на размещение рекламы (фактический), рекламы (прогнозируемый), дол. ДОЛ. Audubon Ошибки прогнозирования (остатки) 25 315 38 966 -13 651 BetterHomes& Gardens 198 000 170972 27 028 Business Week 103 300 71 120 32180 Cosmopolitan 94100 100 365 -6 265 Bie 55 540 59 258 -3 718 Entrepreneur 40 355 48 899 -8 544 Esquire 51559 47 092 4467 147 500 130 374 17126 FirstFor Women 28 059 57 783 -29 724 Forbes 59 340 71 531 -12191 Fortune 60 800 62 990 -2190 Glamour 85 080 86152 -1 072 FamilyCircle GolfDigest GoodHousekeeping Gourmet 98760 73314 25 446 166080 132 946 33134 49 640 68 871 -19 231 Harper’s Bazaar 52 805 53159 -354 Inc. 70825 69409 1416 Kiplinger’s Persona!Finance 46 580 66 271 -19691 Ladies’HomeJournal 127 000 102 448 24 552 Life 63 750 89 812 -26 062 Mademoiselle 55 910 63 398 -7 488 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 623 Окончание табл. 12.1.5 Тариф на размещение Тариф на размещение рекламы (фактический), рекламы ДОЛ. (прогнозируемый), дол. MarthaStewart’s Шпд Ошибки прогнозирования (остатки) 93 328 76221 17107 McCalls 113120 95 381 17 739 Money 98 250 88 344 9906 Motor Trend NationalGeographic NaturalHistory Newsweek Parents Magazine PC Computing People PopularMechanics Reader’s Digest 79800 57 098 22 702 159 345 159315 30 20180 42 660 -22 480 148 800 123 777 25 023 72 820 83 026 -10 206 40 675 65482 -24 807 125 000 169 049 -44 049 78 685 64 356 14 329 -36 848 193 000 229848 Redbook 95 785 90138 5 647 Rolling Stone 78 920 68 374 10546 Runner’s World 36 850 58 494 -21 644 ScientificAmerican 37 500 61 928 -24 428 Seventeen 71 115 57104 14 011 Ski 32 480 57 506 -25 026 SmartMoney 42 900 56231 -13 331 Smithsonian 73 075 75 301 -2 226 -23 810 Soap OperaDigest 35 070 58 880 162 000 117 556 44444 56 000 66 652 -10 652 Teen 53 250 52 206 1 044 TheNew Yorker 62 435 55 040 7 395 162 000 128 301 33 699 TrueStory 17100 30305 -13 205 TVGuide 146 400 187 500 -41 100 U.S. News& WorldReport 98644 81 103 17 541 VanityFair 67 890 64 039 3 851 Vogue 63 900 74329 -10429 137 000 124 098 12 902 Working Woman 87 500 56133 31 367 YM 73 270 53 480 19790 Sports Illustrated Sunset Time Woman’s Day 624 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Насколько хороши наши прогнозы Этот раздел следует рассматривать в основном как обзор, поскольку стан дартное отклонение оценки, S e, и коэффициент детерминации, R2, имеют для множественной регрессии, вообще говоря, ту же интерпретацию, что и для про стой регрессии, речь о которой шла в предыдущей главе. Единственное отличие заключается в том, что ваши прогнозы теперь базируются на нескольких Xпеременных. Но все остается очень похоже, поскольку вы по-прежнему прогно зируете только одну переменную У. Типичная ошибка прогнозирования: стандартная ошибка оценки Как и в случае простой регрессии, когда мы имеем дело лишь с одной Xпеременной, стандартная ошибка оценки указывает приблизительную величину ошибок прогнозирования. Возвращаясь к нашему примеру с тарифами на раз мещение рекламы в журналах, Se = $21 578. Это говорит о том, что фактиче ские тарифы на размещение рекламы в этих журналах, как правило, отклоня ются от прогнозируемых тарифов не более чем на $21 578 (речь идет о стандарт ном отклонении). Иными словами, если распределение ошибок является нормальным, то можно ожидать, что примерно 2 /3 фактических тарифов будут находиться в пределах Se от прогнозируемых тарифов; примерно 95% — в пре делах 2Se и т.д. Эта стандартная ошибка оценки, Se = $21 578, указывает остаток вариации та рифов после того, как вы использовали Х-переменные (величина читательской ау дитории, процент мужчин и медиана дохода) в уравнении регрессии для прогнози рования тарифов каждого журнала. Сравните этот показатель с обычным стан дартным отклонением одной переменной для тарифов, SY = $45 446, вычисленным без использования других переменных. Это стандартное отклонение, SY, указывает остаток вариации тарифов после того, как вы_ использовали для прогнозирования тарифов каждого журнала только значение У . Заметьте, что Se = $ 2 1 5 7 8 мень ше, чем SY = $45 446; ошибки, как правило, оказываются меньше, если для про гнозирования тарифов использовать уравнение регрессии, а не просто У . Как ви дите, Х-переменные полезны для объяснения размеров тарифов. Это можно представить себе следующим образом. Если вам ничего неизвестно об Х-переменных, вы будете использовать в качестве оптимальной приблизи тельной оценки среднее значение тарифа ( У = $83 534) и будете ошибаться при близительно на S y = $45 446. Но если вам известны такие характеристики, как величина читательской аудитории, процент мужчин и средний доход, то для прогнозирования тарифов можно воспользоваться уравнением регрессии; в этом случае вы ошибетесь примерно на S e = $21 578. Такое сокращение ошибки про гнозирования (с $45 446 до $21 578) и является одним из преимуществ исполь зования регрессионного анализа. Объясненный процент вариации: R2 Коэффициент детерминации (часто также используют термин “квадрат мно жественной корреляции”. — Прим. ред.), i?2, указывает, какой процент вариации У объясняется влиянием всех Х-переменных. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 625 Если вернуться к нашему примеру с тарифами на размещение рекламы в журналах, то коэффициент детерминации, R2 = 0,787, или 78,7% , указывает на то, что независимые переменные (Х-переменные величины читательской аудито рии, процент мужчин и средний доход) объясняют 78,7% вариации тарифов.4 При этом 21,3% остаются необъясненными и связываются с влиянием других факторов. 78,7% — довольно большое значение R2; во многих исследованиях приходится работать со значительно меньшими величинами, которые, тем не менее, обеспечивают достаточно качественные прогнозы. Желательно, чтобы значение i?2 было как можно большим (большие значения i?2 свидетельствуют о том, что исследуемая взаимосвязь является достаточно сильной). В идеальном случае Д2 = 100%; это возможно лишь в том случае, когда все ошибки прогно зирования равны 0 (что, как правило, свидетельствует о наличии ошибок в дру гом месте!). Статистический вывод в случае множественной регрессии Полученные нами к настоящему времени результаты регрессии представляют собой достаточно полное описание исследуемых (п = 55) журналов, однако ста тистический вывод помог бы нам обобщить этот случай на идеализированную популяцию подобных им журналов. Вместо того чтобы просто констатировать тот факт, что увеличение на один процент числа читателей-мужчин приводит к уменьшению тарифа на размещение рекламы в среднем на $124, можно сделать статистический вывод относительно большой генеральной совокупности журна лов такого типа, из которой вполне могли бы быть извлечены имеющиеся дан ные, и попытаться выяснить, существует ли в действительности какая-либо взаимосвязь между полом читателей журнала и тарифами на рекламу, или ко эффициент регрессии, равный -$ 1 2 4 , можно объяснить просто случайностью. Может ли быть так, что обнаруженное нами влияние процента читателеймужчин на стоимость рекламы — это просто случайное число, а не свидетельст во наличия систематической взаимосвязи? Ответ на этот вопрос можно получить с помощью статистического вывода. В табл. 12.1.6 содержится часть результатов работы компьютерной програм мы, приведенных в табл. 12.1.4. Здесь статистические выводы можно делать на основе р-значений как для общего .F-теста, так и для тестов относительно каж дой из независимых Х-переменных. Мы подробно обсудим все это в последую щих разделах — после определения генеральной совокупности, относительно ко торой мы собираемся сделать статистический вывод. Предположения Чтобы не усложнять пример, предположим, что мы располагаем случайной выборкой из намного большей генеральной совокупности. Допустим также, что эта генеральная совокупность характеризуется линейной взаимосвязью со слу чайностью, представленной моделью множественной линейной регрессии, в со ответствии с которой наблюдаемое значение У определяется взаимосвязью в ге 4 С технической точки зрения это та часть дисперсии (квадрат стандартного отклонения) У, ко торая объясняется Х-переменными. 626 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ неральной совокупности плюс нормально распределенная случайная ошибка. Предполагается также, что эти случайные ошибки для разных наблюдений (эле ментарных единиц наших данных) не зависят друг от друга. /Модель множественной линейной регрессии для генеральной совокупности У = (а + р,Х, + (32Х2 +... + (УС*) + в = = (взаимосвязь в генеральной совокупности) + случайность, где £ характеризуется нормальным распределением со средним значением 0 и постоянным стандарт ным отклонением а, причем эта случайность является независимой для разных наблюдений (элемен тарных единиц данных). Взаимосвязь в генеральной совокупности определяется k + 1 параметрами: ос представляет сдвиг (или постоянный член) для генеральной совокупности, a Pi, Р2, ... ,р* являются коэффициентами регрессии для генеральной совокупности, которые показывают среднее влияние каждой из Х-переменных на Y (в данной генеральной совокупности), при условии, что все остальные Х-переменные оста ются неизменными. Сводка параметров генеральной совокупности и характери стик выборки приведена в табл. 12.1.7. Если бы вы имели данные обо всей гене ральной совокупности, то полученные вами с помощью метода наименьших квадратов коэффициенты регрессии ничем не отличались бы от соответствующих коэффициентов, описывающих связь в генеральной совокупности. Как правило, однако, полученный методом наименьших квадратов сдвиг а является лишь статистической оценкой ос, а полученные методом наименьших квадратов ко эффициенты регрессии Ъ2, ... ,bk представляют лишь статистические оценки Pi, р2, ... ,р* соответственно. Существуют, конечно же, ошибки, обусловленные процессом оценивания, поскольку выборка намного меньше всей генеральной совокупности. Таблица 12.1.6. Статистический вывод для тарифов на размещение рекламы в журналах Независимая переменная Коэффициент t Стандартное отклонение Р Константа 4043 16884 0,24 0,812 Аудитория 3,7880 0,2809 13,48 0,000 Процент мужчин -123,6 137,8 -0,90 0,374 0,9026 0,3696 2,44 0,018 Доход S = 21578; R-квадрат = 78,7% В-квадрат(кор.) = 77,5%. Дисперсионный анализ MS F Р 87780133202 29260044401 62,84 0,000 465604493 Источник DF SS Регрессия 3 Ошибка остатка 51 * 23745829151 Итого 54 1.11526Е+11 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 627 Таблица 12.1.7. Параметры генеральной совокупности и характеристики выборки для множественной регрессии Генеральная совокупность (параметры: фиксированные и неизвестные) Выборка (статистические оценки: случайные и известные) Сдвиг, или постоянный член а a Коэффициенты регрессии р. А 02 th Р* Ьк а se Неопределенность Y Как на диаграмме рассеяния представить множественную линейную регресси онную взаимосвязь? Каждый раз, когда добавляется новая независимая пере менная X , добавляется еще одно измерение. Например, при наличии лишь одной Х-переменной (см. главу 11) мы имели линию прогнозирования в плоском, дву мерном пространстве. При наличии двух Х-переменных можно говорить о плос кости прогнозирования в трехмерном пространстве с измерениями Х ь Х 2 и У, как показано на рис. 12.1.2. Одно из предположений множественного регресси онного анализа заключается в том, что взаимосвязь в генеральной совокупности является, по существу, плоской, а не изогнутой. Значима ли модель? F-тест или тест R2 Статистический вывод начинается с F -теста, целью которого является выяс нение, объясняют ли Х-переменные значимую часть вариации У. F -тест исполь зуется как “входные ворота” в статистический вывод: если этот тест значим, следовательно, связь существует и можно приступать к ее исследованию и объ яснению. Если этот тест незначим, то мы имеем дело с набором не связанных между собой случайных чисел — объяснять, в сущности, нечего. Помните, что, когда вы принимаете нулевую гипотезу, это считается слабым заключением. Вы не доказали, что взаимосвязи нет: вам просто не хватает убедительных доводов в пользу наличия такой взаимосвязи. Взаимосвязь вполне может существовать, но из-за случайности или малого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении. Нулевая гипотеза для JP-теста утверждает, что в генеральной совокупности между Х-переменными и У прогнозирующая взаимосвязь отсутствует. Иначе говоря, У является чисто случайной величиной и значения Х-переменных не оказывают на У никакого влияния. Если посмотреть на модель множественной линейной регрессии, то это утверждение означает, что У = а + е, что может иметь место в том случае, если все коэффициенты регрессии в генеральной сово купности равны 0. 628 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Альтернативная гипотеза F -теста утверждает, что в генеральной совокупности между Х-переменными и У существует определенная прогнозирующая взаимо связь. Таким образом, переменная У уже не является чисто случайной величи ной и должна зависеть по крайней мере от одной из Х-переменных. Иными сло вами, альтернативная гипотеза утверждает, что по крайней мере один из коэф фициентов регрессии не равен 0 . Обратите внимание: вовсе не обязательно, чтобы каждая из Х-переменных влияла на У — достаточно, чтобы влияла хотя бы одна из них. Гипотезы дни Р^тесга Н0: Pi = P2= ... = Pke0. Н,: по крайней мере один из j3t, —/ Pk * 0. Y Рис. 12.1.2. Когда две независимые Х-переменные используются для прогнози рования У, уравнение прогнозирования можно представить в виде плоско сти, ближайшей к точкам данных в трехмерном пространстве. Сдвиг а определяется точкой, в которой эта плоскость прогнозирования пересе кает ось У. Коэффициенты регрессии Ь; и Ь2 определяют наклон плоско сти прогнозирования в двух соответствующих направлениях ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 629 Выполнить F -тест проще всего, отыскав в результатах работы компьютерной программы подходящее p-значение и интерпретировав результирующий уровень значимости, как мы делали это в главе 10. Если p-значение больше, чем 0,05, то полученный результат не является значимым. Если же это p -значение меньше, чем 0,05, то полученный результат является значимым. Если р < 0,01, тогда по лученный результат является высоко значимым, и т.д. Еще один способ выполнения F -теста заключается в сравнении значения R 1 (процент вариации У, который объясняется Х-переменными) со значениями из таблицы критических значений Я2 для подходящего уровня тестирования (на пример, 5%). Если значение R2 оказывается достаточно большим, тогда регрес сия считается значимой, т.е. удалось объяснить больше, чем просто случайную величину вариации У. Эта таблица индексирована по п (количество наблюдений) и k (количество Х-переменных). Традиционный способ выполнения F -теста интерпретировать несколько слож нее, но он всегда дает тот же результат, что и таблица критических значений i f . F-тест, как правило, выполняется путем вычисления F -статистики и сравнения ее с критическим значением из F -таблицы для соответствующего уровня тести рования.5 При этом используются два разных числа степеней свободы: число степеней свободы числителя k (количество Х-переменных, предназначенных для объяснения У) и число степеней свободы знаменателя п - k - 1 (мера случайно сти остатков после оценивания k + 1 коэффициентов а, Ьг, Ь2, ... , bk). В то же время F -статистика является излишним усложнением, поскольку значение R 2 молено проверить непосредственно. Более того, R2 имеет более непо средственную интерпретацию, чем F -статистика, поскольку i f говорит о той час ти вариации У, которая учитывается (или объясняется) Х-переменными, тогда как F не имеет столь простой и непосредственной интерпретации в терминах ис ходных данных. Какой бы подход — F или R2 — вы ни использовали, ответ (о значимости или не значимости) всегда будет одним и тем же на любом уровне тестирования. Почему же по традиции используется более сложная F -статистика, в то время как вместо нее можно было бы обратиться к тесту R2, допускающему более удобную и непосредственную интерпретацию? Возможно, все объясняется имен но сложившейся традицией, а возможно, и тем, что уже давно и с успехом на практике применяются F -таблицы. Использование осмысленного числа (такого как R2) позволяет глубже понять исследуемую ситуацию и выглядит предпочти тельнее, особенно когда речь идет о сфере бизнеса. g Для особо интересующихся заметим, что F-статистика получила свое название в честь сэра Рональда А. Фишера и определяется как “объясненное среднеквадратическое”, деленное на “необъясненное среднеквадратическое”. Большие значения F предполагают, что регрессионная модель является значимой, поскольку удалось объяснить довольно значительную долю вариа ции У в сравнении с долей необъясненной случайности. Большие значения R2 также предпола гают значимость. Связь между F и R2 состоит в том, что F = (п - k - 1)[1/(1 - RI2) - l ] /k , а R2 = 1 - 1/[1 + kF/(n - k - 1)], а значит, большим значениям F соответствуют большие значе ния R2 (и наоборот). Вот почему тесты на большие значения F полностью соответствуют тестам на большие значения R 2. 630 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Результат F-теста (реш ение принимается на основе р-значения) Если p-значение больше, чем 0,05, значит, соответствующая модель не является значимой (вы прини маете нулевую гипотезу о том, что Х>переменные не помогают прогнозировать У). Если p-значение оказывается меньше, чем 0,05, значит, соответствующая модель являею значимой (вы отвергаете нулевую гипотезу и принимаете альтернативную гипотезу о том, что Х-переменные по могают прогнозировать У). Результат F-теста (реш ение принимается на основе R2) Если значение R2 меньше, чем критическое значение в таблице R2, значит, соответствующая модель не является значимой. Если значение R2 больше, чем критическое значение в таблице R2, значит, соответ ствующая модель является значимой. Этот ответ в любом случае будет таким же, как результат, полу ченный с помощью р-значения. Результат F-теста (реш ение принимается непосредственно на основе F) Если значение F оказывается меньше, чем критическое значение в F-таблице, значит, соответствующая модель не является значимой. Если значение F оказывается больше, чем критическое значение в Fтаблице, — соответствующая модель является значимой. Этот ответ в любом случае будет таким же, как результат, полученный с помощью р-значения или R2. Помните, что статистический смысл термина значимый несколько отличается от его обыденного смысла. Когда вы находите значимую модель регрессии, то знаете, что взаимосвязь между Х-переменными и У оказывается сильнее, чем обычно можно было бы ожидать от чистой случайности. Другими словами, в этой ситуации можно говорить о наличии определенной взаимосвязи. Эта взаи мосвязь может быть сильной или полезной в том или ином практическом смысле (а может, и не быть таковой) — эти вопросы требуют специального рассмотре ния, — но она достаточно сильна, чтобы не выглядеть как чистая случайность. Если вернуться к нашему примеру с тарифами на размещение рекламы в жур налах, то соответствующее уравнение прогнозирования действительно объясняет значимую долю отклонения в тарифах, на что указывает в результатах работы компьютерной программы р-значение 0,000 справа от значения F, равного 62,84.6 Это говорит о том, что действительно обнаруживается устойчивая зависимость та рифов от этих факторов (или по крайней мере от одного из этих факторов), т.е. та рифы не являются чисто случайными величинами. Вам по-прежнему неизвестно, какие именно из этих Х-переменных реально участвуют в прогнозировании У, но вам доподлинно известно, что есть по крайней мере одна такая переменная. Чтобы выяснить с помощью i?2, действительно ли уравнение регрессии явля ется значимым, отметим, что коэффициент детерминации Я2 = 0,787, или 78,7% . Таблица R2 для тестирования на уровне 5% в случае п = 55 журналов и k = S переменных (табл. 12.1.8) дает критическое значение 0,141, или 14,1%. Для того чтобы уравнение было значимым на привычном уровне 5%, Xпеременные должны объяснять лишь 14,1% вариации тарифов (У). Поскольку они объясняют больше, регрессию следует признать значимой. 6 Когда в качестве р-значения указывается 0,000, его можно интерпретировать как р < 0,0005, поскольку p-значение, которое больше или равно 0,0005, будет округлено до 0,001. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 631 Обратившись к таблицам i?2 для уровней 1% и 0,1% (табл. 12.1.9 и 12.1.10) при п = 55 и k = 3, находим критические значения 19,8% и 27,1% соответст венно. Поскольку; наблюдаемое значение коэффициента детерминации Я2 = 78,7% превосходит оба этих показателя, можно прийти к выводу, что эти Х-переменные (величина читательской аудитории, процент мужчин и средний ♦доход) имеют очень высоко значимое влияние на У (тарифы). Используя терми нологию p -значений, можно сказать, что регрессия в данном случае является очень высоко значимой (р < 0,001). Чтобы убедиться в этом очень высоком уровне значимости, используя непо средственно F, можно сравнить F -статистику 62,84 (из компьютерной распечат ки) со значением из F -таблицы для уровня 0,1% (табл. В. 11 в приложении В), которое находится между 7,054 и 6,171 для k = 3 степеней свободы числителя и п - k - 1 = 51 степеней свободы знаменателя. (Поскольку значение 51 в таблице отсутствует, нам известно, что необходимое нам значение из F-таблицы находит ся в диапазоне от 7,054 для 30 степеней свободы знаменателя и 6,171 для 60 степеней свободы знаменателя.) Поскольку данная F -статистика (62,84) больше, чем значение из F -таблицы (значение из диапазона от 7,054 до 6,171), мы опять приходим к выводу, что полученный результат имеет очень высокую значимость (р < 0,001). Таблицы критических значений для тестирования /Т2 Таблицы 12.1.8-12.1.11 служат для тестирования значимости модели (F тест). Эти таблицы позволяют проводить тестирование на уровнях 0,05 (значимый), 0,01(высоко значимый), 0,001 (очень высоко значимый) и 0,1. На каждом уровне тестирования регрессию можно считать значимой, если коэф фициент детерминации R2 превосходит значение из таблицы для имеющегося у вас количества Х-переменных (k) и числа наблюдений (п). Если, например, вы имеете регрессию с k = 2 независимыми Х-переменными и п = 35 наблюдения ми, то она является значимой на уровне 0,05, при условии что F? превосходит критическое значение 0,171 (из таблицы для уровня 5%). На практике большинство компьютерных программ автоматически выполняет F -тест и делает вывод относительно его значимости, а также, если тест значим, — об уровне значимости. В подобных случаях таблицы R 2 не нужны. Их исполь зование преследует две цели: (1) выявить значимость, когда вы располагаете значением R2, но у вас нет информации о результате проверке значимости, и (2) показать, насколько сильно уровень значимости зависит от п и k. Критическое значение i?2, на основе которого принимается решение о значимости, оказывает ся меньшим (менее “требовательным”) при больших значениях я, поскольку в этом случае вы располагаете большей информацией. Однако критическое значе ние i?2, на основе которого принимается решение о значимости, оказывается большим (более “требовательным”) при больших значениях k из-за усилий, не обходимых для оценки дополнительных коэффициентов регрессии. Если у вас более 60 наблюдений, критические значения можно найти с по мощью двух множителей, указанных внизу таблицы R2. Для этого необходимо воспользоваться следующей формулой. 632 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Критические значения для В2, когда п >60 Множитель 1 Множитель 2 Критическое значение = ---------- +----------- . Таблица 12.1.8. Таблица R2: критические значения для уровня 5% (значимо) Количество наблюдений (п) 1 3 0,994 Количество Х-переменных (А) 2 3 4 4 0,902 0,997 5 0,771 0,950 0,998 6 0,658 0,864 0,966 0,999 7 0,569 0,776 0,903 0,975 5 6 7 8 9 10 0,999 8 0,499 0,698 0,832 0,924 0,980 0,999 9 0,444 0,632 0,764 0,865 0,938 0,983 0,999 10 0,399 0,575 0,704 0,806 0,887 0,947 0,985 0,999 11 0,362 0,527 0,651 0,751 0,835 0,902 0,954 0,987 1,000 12 0,332 0,486 0,604 0,702 0,785 0,856 0,914 0,959 0,989 1,000 13 0,306 0,451 0,563 0,657 0,739 0,811 0,872 0,924 0,964 0,990 14 0,283 0,420 0,527 0,618 0,697 0,768 0,831 0,885 0,931 0,967 15 0,264 0,393 0,495 0,582 0,659 0,729 0,791 0,847 0,896 0,937 16 0,247 0,369 0,466 0,550 0,624 0,692 0,754 0,810 0,860 0,904 0,593 0,659 0,719 0,775 0,825 0,871 17 0,232 0,348 0,440 0,521 18 0,219 0,329 0,417 0,494 0,564 0,628 0,687 0,742 0,792 0,839 19 0,208 0,312 0,397 0,471 0,538 0,600 0,657 0,711 0,761 0,807 0,297 0,378 0,449 0,514 0,574 0,630 0,682 0,731 0,777 20 0,197 21 0,187 0,283 0,361 0,429 0,492 0,550 0,604 0,655 0,703 0,749 22 0,179 0,270 0,345 0,411 0,471 0,527 0,580 0,630 0,677 0,722 23 0,331 0,394 0,452 0,507 0,558 0,607 0,653 0,696 0,171 0,259 24 0,164 0,248 0,317 0,379 0,435 0,488 0,538 0,585 0,630 0,673 25 0,157 0,238 0,305 0,364 0,419 0,470 0,518 0,564 0,608 0,650 26 0,151 0,229 0,294 0,351 0,404 0,454 0,501 0,545 0,588 0,629 0,484 0,527 0,569 0,609 27 0,145 0,221 0,283 0,339 0,390 0,438 28 0,140 0,213 0,273 0,327 0,377 0,424 0,468 0,510 0,551 0,590 29 0,135 0,206 0,264 0,316 0,365 0,410 0,453 0,495 0,534 0,573 30 0,130 0,199 0,256 0,306 0,353 0,397 0,439 0,480 0,518 0,556 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ. 633 Окончание табл. 12.1.8 Количество Количество ДГ-леременных (А) наблюдений -------------------------------------------4 1 2 3 7 5 6 (П) 8 9 10 31 0,126 0,193 0,248 0,297 0,342 0,385 0,426 0,466 0,503 0,540 32 0,122 0,187 0,240 0,288 0,332 0,374 0,414 0,452 0,489 0,525 33 0,118 0,181 0,233 0,279 0,323 0,363 0,402 0,440 0,476 0,511 34 0,115 0,176 0,226 0,271 0,314 0,353 0,391 0,428 0,463 0,497 35 0,111 0,171 0,220 0,264 0,305 0,344 0,381 0,417 0,451 0,484 36 0,108 0,166 0,214 0,257 0,297 0,335 0,371 0,406 0,440 0,472 37 0,105 0,162 0,208 0,250 0,289 0,326 0,362 0,396 0,429 0,461 38 0,103 0,157 0,203 0,244 0,282 0,318 0,353 0,386 0,418 0,449 39 0,100 0,153 0,198 0,238 0,275 0,310 0,344 0,377 0,408 0,439 40 0,097 0,150 0,193 0,232 0,268 0,303 0,336 0,368 0,399 0,429 41 0,095 0,146 0,188 0,226 0,262 0,296 0,328 0,359 0,390 0,419 42 0,093 0,142 0,184 0,221 0,256 0,289 0,321 0,351 0,381 0,410 43 0,090 0,139 0,180 0,216 0,250 0,283 0,314 0,344 0,373 0,401 44 0,088 0,136 0,176 0,211 0,245 0,276 0,307 0,336 0,365 0,393 45 0,086 0,133 0,172 0,207 0,239 0,271 0,300 0,329 0,357 0,384 46 0,085 0,130 0,168 0,202 0,234 0,265 0,294 0,322 0,350 0,377 47 0,083 0,127 0,164 0,198 0,230 0,259 0,288 0,316 0,343 0,369 0,225 0,254 0,282 0,310 0,336 0,362 48 0,081 0,125 0,161 0,194 49 0,079 0,122 0,158 0,190 0,220 0,249 0,277 0,304 0,330 0,355 50 0,078 0,120 0,155 0,186 0,216 0,244 0,272 0,298 0,323 0,348 51 0,076 0,117 0,152 0,183 0,212 0,240 0,267 0,293 0,318 0,342 52 0,075 0,115 0,149 0,180 0,208 0,235 0,262 0,287 0,312 0,336 53 0,073 0,113 0,146 0,176 0,204 0,231 0,257 0,282 0,306 0,330 54 0,072 0,111 0,143 0,173 0,201 0,227 0,252 0,277 0,301 0,324 55 0,071 0,109 0,141 0,170 0,197 0,223 0,248 0,272 0,295 0,318 56 0,069 0,107 0,138 0,167 0,194 0,219 0,244 0,267 0,290 0,313 57 0,068 0,105 0,136 0,164 0,190 0,215 0,240 0,263 0,285 0,308 58 0,067 0,103 0,134 0,161 0,187 0,212 0,236 0,258 0,281 0,303 59 0,066 0,101 0,131 0,159 0,184 0,208 0,232 0,254 0,276 0,298 60 0,065 0,100 0,129 0,156 0,181 0,205 0,228 0,250 0,272 0,293 9,49 11,07 12,59 14,07 15,51 16,92 18,31 -7,94 -12,84 -18,24 -23,78 -30,10 -36,87 -43,87 Множитель 1 3,84 5,99 7,82 Множитель 2 2,15 -0,27 -3,84 634 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.1.9. Таблица R2: критические значения для уровня 1% (высоко значимо) Количество Х-переменных (А) Количество наблюдений (п) 1 2 3 3 1,000 4 0,980 1,000 5 0,919 0,990 1,000 4 5 6 7 8 9 10 6 0,841 0,954 0,993 1,000 7 0,765 0,900 0,967 0,995 1,000 8 0,696 0,842 0,926 0,975 0,996 1,000 9 0,636 0,785 0,879 0,941 0,979 0,997 1,000 10 0,585 0,732 0,830 0,901 0,951 0,982 0,997 1,000 11 0,540 0,684 0,784 0,859 0,916 0,958 0,985 0,997 1,000 12 0,501 0,641 0,740 0,818 0,879 0,928 0,963 0,987 0,998 1,000 0,894 0,936 0,967 0,988 0,998 0,906 0,943 0,971 0,989 13 0,467 0,602 0,700 0,778 0,842 14 0,437 0,567 0,663 0,741 0,806 0,860 15 0,411 0,536 0,629 0,706 0,771 0,827 0,875 0,915 0,948 0,973 0,887 0,923 0,953 0,929 16 0,388 0,508 0,598 0,673 0,738 0,795 0,844 17 0,367 0,482 0,570 0,643 0,707 0,764 0,814 0,858 0,896 18 0,348 0,459 0,544 0,616 0,678 0,734 0,784 0,829 0,869 0,904 0,843 0,879 19 0,331 0,438 0,520 0,590 0,652 0,707 0,757 0,802 20 0,315 0,418 0,498 0,566 0,626 0,681 0,730 0,775 0,816 0,854 21 0,301 0,401 0,478 0,544 0,603 0,656 0,705 0,750 0,791 0,829 22 0,288 0,384 0,459 0,523 0,581 0,633 0,681 0,726 0,767 0,805 0,504 0,560 0,612 0,659 0,703 0,744 0,782 0,638 0,681 0,721 0,759 23 0,276 0,369 0,442 24 0,265 0,355 0,426 0,487 0,541 0,591 25 0,255 0,342 0,410 0,470 0,523 0,572 0,618 0,660 0,700 0,738 0,599 0,641 0,680 0,717 26 0,246 0,330 0,396 0,454 0,506 0,554 27 0,237 0,319 0,383 0,440 0,490 0,537 0,581 0,622 0,661 0,698 28 0,229 0,308 0,371 0,426 0,475 0,521 0,564 0,605 0,643 0,679 0,625 0,661 29 0,221 0,298 0,359 0,413 0,461 0,506 0,548 0,588 30 0,214 0,289 0,349 0,401 0,448 0,492 0,533 0,572 0,609 0,644 31 0,208 0,280 0,338 0,389 0,435 0,478 0,519 0,557 0,593 0,627 32 0,201 0,272 0,329 0,378 0,423 0,465 0,505 0,542 0,578 0,612 33 0,195 0,264 0,319 0,368 0,412 0,453 0,492 0,529 0,563 0,597 34 0,190 0,257 0,311 0,358 0,401 0,442 0,479 0,515 0,550 0,583 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 635 Окончание табл. 12.1.9 Количество ^-переменных (А) 35 1 2 3 4 5 6 7 8 9 10 0,185 0,250 0,303 0,349 0,391 0,430 0,468 0,503 0,537 0,569 0,556 36 0,180 0,244 0,295 0,340 0,381 0,420 0,456 0,491 0,524 37 0,175 0,237 0,287 0,332 0,372 0,410 0,446 0,480 0,512 0,543 38 0,170 0,231 0,280 0,324 0,363 0,400 0,435 0,469 0,501 0,531 39 0,166 0,226 0,274 0,316 0,355 0,391 0,426 0,458 0,490 0,520 40 0,162 0,220 0,267 0,309 0,347 0,382 0,416 0,448 0,479 0,509 41 0,158 0,215 0,261 0,302 0,339 0,374 0,407 0,439 0,469 0,498 42 0,155 0,210 0,255 0,295 0,332 0,366 0,399 0,430 0,459 0,488 0,289 0,325 0,358 0,390 0,421 0,450 0,478 43 0,151 0,206 0,250 44 0,148 0,201 0,244 0,283 0,318 0,351 0,382 0,412 0,441 0,469 45 0,145 0,197 0,239 0,277 0,311 0,344 0,375 0,404 0,432 0,460 0,367 0,396 0,424 0,451 0,416 0,443 46 0,141 0,193 0,234 0,271 0,305 0,337 47 0,138 0,189 0,230 0,266 0,299 0,330 0,360 0,389 48 0,136 0,185 0,225 0,261 0,293 0,324 0,353 0,381 0,408 0,435 0,401 0,427 49 0,133 0,181 0,221 0,256 0,288 0,318 0,347 0,374 50 0,130 0,178 0,217 0,251 0,283 0,312 0,341 0,368 0,394 0,419 51 0,128 0,175 0,213 0,246 0,278 0,307 0,335 0,361 0,387 0,412 52 0,125 0,171 0,209 0,242 0,273 0,301 0,329 0,355 0,381 0,405 53 0,123 0,168 0,205 0,238 0,268 0,296 0,323 0,349 0,374 0,398 54 0,121 0,165 0,201 0,233 0,263 0,291 0,318 0,343 0,368 0,391 55 0,119 0,162 0,198 0,229 0,259 0,286 0,312 0,337 0,362 0,385 0,226 0,254 0,281 0,307 0,332 0,356 0,379 0,350 0,373 56 0,117 0,160 0,194 57 0,115 0,157 0,191 0,222 0,250 0,277 0,302 0,326 58 0,113 0,154 0,188 0,218 0,246 0,272 0,297 0,321 0,345 0,367 0,316 0,339 0,361 59 0,111 0,152 0,185 0,215 0,242 0,268 0,293 60 0,109 0,149 0,182 0,211 0,238 0,264 0,288 0,311 0,334 0,356 6,63 9,21 11,35 13,28 15,09 16,81 18,48 20,09 21,67 23,21 -84,60 -97,88 -111,76 -5,81 -15,49 -25,66 -36,39 -47,63 -59,53 -71,65 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.1.10. Таблица R2: критические значения для уровня 0,1% (в высшей степени значимо) Количество Х-переменных (А) Количество наблюдений 2 3 4 5 6 7 8 9 10 (п) 1 3 1,000 4 0,998 1,000 5 0,982 0,999 1,000 6 0,949 0,990 0,999 7 0,904 0,968 0,993 0,999 1,000 8 0,855 0,937 0,977 0,995 1,000 1,000 9 0,807 0,900 0,952 0,982 0,996 1,000 10 0,761 0,861 0,922 0,961 0,985 0,996 1,000 1,000 11 0,717 0,822 0,889 0,936 0,967 0,987 0,997 1,000 1,000 12 0,678 0,785 0,856 0,908 0,945 0,972 0,989 0,997 1,000 13 0,642 0,749 0,822 0,878 0,920 0,952 0,975 0,990 0,997 1,000 0,958 0,978 0,991 0,998 0,980 0,992 1,000 1,000 1,000 14 0,608 0,715 0,790 0,848 0,894 0,930* 15 0,578 0,684 0,759 0,819 0,867 0,906 0,938 0,962 16 0,550 0,654 0,730 0,790 0,840 0,881 0,916 0,944 0,966 0,982 0,949 0,968 0,930 0,953 17 0,525 0,627 0,702 0,763 0,813 0,856 0,893 0,923 18 0,502 0,602 0,676 0,736 0,787 0,831 0,869 0,902 19 0,480 0,578 0,651 0,711 0,763 0,807 0,846 0,880 0,910 0,935 0,859 0,890 0,917 20 0,461 0,556 0,628 0,688 0,739 0,784 0,824 21 0,442 0,536 0,606 0,665 0,716 0,761 0,801 0,837 0,869 0,897 22 0,426 0,517 0,586 0,644 0,694 0,739 0,780 0,816 0,849 0,878 0,859 23 0,410 0,499 0,567 0,624 0,674 0,718 0,759 0,795 0,829 24 0,395 0,482 0,548 0,605 0,654 0,698 0,739 0,775 0,809 0,839 25 0,382 0,466 0,531 0,587 0,635 0,679 0,719 0,756 0,790 0,821 26 0,369 0,452 0,515 0,570 0,618 0,661 0,701 0,737 0,771 0,802 27 0,357 0,438 0,500 0,553 0,601 0,644 0,683 0,719 0,753 0,784 28 0,346 0,425 0,486 0,538 0,585 0,627 0,666 0,702 0,735 0,767 29 0,335 0,412 0,472 0,523 0,569 0,611 0,649 0,685 0,718 0,750 0,596 0,634 0,669 0,702 0,733 0,581 0,619 0,654 0,686 0,717 30 0,325 0,401 0,459 0,510 0,555 31 0,316 0,389 0,447 0,496 0,541 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ. 637 Окончание табл. 12.1.10 Количество Количество Х-леременных (А) наблюдений -------------------------------------------4 7 5 6 1 2 3 (П) 8 9 10 32 0,307 0,379 0,435 0,484 0,527 0,567 0,604 0,639 0,671 0,702 33 0,299 0,369 0,424 0,472 0,515 0,554 0,590 0,625 0,657 0,687 34 0,291 0,360 0,414 0,460 0,503 0,541 0,577 0,611 0,643 0,673 35 0,283 0,351 0,404 0,450 0,491 0,529 0,564 0,598 0,629 0,659 36 0,276 0,342 0,394 0,439 0,480 0,517 0,552 0,585 0,616 0,646 37 0,269 0,334 0,385 0,429 0,469 0,506 0,540 0,573 0,604 0,633 38 0,263 0,326 0,376 0,420 0,459 0,495 0,529 0,561 0,591 0,620 39 0,257 0,319 0,368 0,411 0,449 0,485 0,518 0,550 0,580 0,608 40 0,251 0,312 0,360 0,402 0,440 0,475 0,508 0,539 0,569 0,597 0,558 0,586 41 0,245 0,305 0,352 0,393 0,431 0,465 0,498 0,529 42 0,240 0,298 0,345 0,385 0,422 0,456 0,488 0,518 0,547 0,575 43 0,235 0,292 0,338 0,378 0,414 0,447 0,479 0,509 0,537 0,564 0,554 44 0,230 0,286 0,331 0,370 0,406 0,439 0,470 0,499 0,527 45 0,225 0,280 0,324 0,363 0,398 0,431 0,461 0,490 0,518 0,544 46 0,220 0,275 0,318 0,356 0,391 0,423 0,453 0,482 0,509 0,535 47 0,216 0,269 0,312 0,349 0,383 0,415 0,445 0,473 0,500 0,526 48 0,212 0,264 0,306 0,343 0,377 0,408 0,437 0,465 0,491 0,517 49 0,208 0,259 0,301 0,337 0,370 0,401 0,429 0,457 0,483 0,508 50 0,204 0,255 0,295 0,331 0,363 0,394 0,422 0,449 0,475 0,500 0,387 0,415 0,442 0,467 0,492 51 0,200 0,250 0,290 0,325 0,357 52 0,197 0,246 0,285 0,320 0,351 0,381 0,408 0,435 0,460 0,484 53 0,193 0,242 0,280 0,314 0,345 0,374 0,402 0,428 0,453 0,477 0,446 0,469 54 0,190 0,237 0,276 0,309 0,340 0,368 0,395 0,421 55 0,186 0,233 0,271 0,304 0,334 0,362 0,389 0,414 0,439 0,462 56 0,183 0,230 0,267 0,299 0,329 0,357 0,383 0,408 0,432 0,455 57 0,180 0,226 0,262 0,294 0,324 0,351 0,377 0,402 0,426 0,448 58 0,177 0,222 0,258 0,290 0,319 0,346 0,371 0,396 0,419 0,442 59 0,174 0,219 0,254 0,285 0,314 0,341 0,366 0,390 0,413 0,436 60 0,172 0,215 0,250 0,281 0,309 0,336 0,361 0,384 0,407 0,429 Множитель 1 10,83 13,82 16,27 18,47 20,52 22,46 24,32 26,12 27,88 29,59 Множитель 2 -31,57 -54,02 -75,12 -96,26 -117,47 -138,94 -160,86 -183,33 -206,28 -229,55 638 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.1.11. Таблица R2: критические значения для уровня 10% Количество Х-переменных (А) Количество наблюдений 2 3 4 5 6 (п) 1 3 0,976 4 0,810 0,990 5 0,649 0,900 0,994 6 0,532 0,785 0,932 0,996 7 0,448 0,684 0,844 0,949 0,997 0,959 0,997 7 8 9 8 0,386 0,602 0,759 0,877 9 0,339 0,536 0,685 0,804 0,898 0,965 0,998 10 0,302 0,482 0,622 0,738 0,835 0,914 0,970 0,998 0,925 0,974 0,998 10 11 0,272 0,438 0,568 0,680 0,775 0,857 12 0,247 0,401 0,523 0,628 0,721 0,803 0,874 0,933 0,977 0,998 13 0,227 0,369 0,484 0,584 0,673 0,753 0,825 0,888 0,940 0,979 0,842 0,899 0,946 14 0,209 0,342 0,450 0,545 0,630 0,708 0,779 15 0,194 0,319 0,420 0,510 0,592 0,667 0,736 0,799 0,857 0,907 16 0,181 0,298 0,394 0,480 0,558 0,630 0,697 0,759 0,816 0,868 0,778 0,830 17 0,170 0,280 0,371 0,453 0,527 0,596 0,661 0,721 18 0,160 0,264 0,351 0,428 0,499 0,566 0,628 0,687 0,742 0,794 19 0,151 0,250 0,332 0,406 0,474 0,538 0,598 0,655 0,709 0,760 20 0,143 0,237 0,316 0,386 0,452 0,513 0,571 0,626 0,679 0,729 21 0,136 0,226 0,301 0,368 0,431 0,490 0,546 0,599 0,650 0,699 22 0,129 0,215 0,287 0,352 0,412 0,469 0,523 0,575 0,624 0,671 23 0,124 0,206 0,275 0,337 0,395 0,450 0,502 0,552 0,600 0,646 0,482 0,530 0,577 0,622 24 0,118 0,197 0,263 0,323 0,379 0,432 25 0,113 0,189 0,253 0,310 0,364 0,415 0,464 0,511 0,556 0,599 26 0,109 0,181 0,243 0,298 0,350 0,400 0,447 0,492 0,536 0,579 0,518 0,559 27 0,105 0,175 0,234 0,287 0,338 0,386 0,431 0,475 28 0,101 0,168 0,225 0,277 0,326 0,372 0,417 0,459 0,501 0,541 29 0,097 0,162 0,218 0,268 0,315 0,360 0,403 0,444 0,484 0,523 0,507 30 0,094 0,157 0,210 0,259 0,305 0,348 0,390 0,430 0,469 31 0,091 0,152 0,203 0,251 0,295 0,337 0,378 0,417 0,455 0,492 32 0,088 0,147 0,197 0,243 0,286 0,327 0,366 0,405 0,442 0,478 33 0,085 0,142 0,191 0,236 0,277 0,317 0,356 0,393 0,429 0,464 34 0,082 0,138 0,185 0,229 0,269 0,308 0,346 0,382 0,417 0,451 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 639 Окончание табл. 12.1.11 Количество ; Количество ^-переменных (А) (П) 1 2 3 4 5 6 7 8 9 10 35 0,080 0,134 0,180 0,222 0,262 0,300 0,336 0,371 0,406 0,439 36 0,078 0,130 0,175 0,216 0,255 0,291 0,327 0,361 0,395 0,427 37 0,075 0,127 0,170 0,210 0,248 0,284 0,318 0,352 0,385 0,416 0,375 0,406 38 0,073 0,123 0,166 0,205 0,241 0,276 0,310 0,343 39 0,071 0,120 0,162 0,199 0,235 0,269 0,302 0,334 0,366 0,396 40 0,070 0,117 0,157 0,194 0,229 0,263 0,295 0,326 0,357 0,387 0,378 41 0,068 0,114 0,154 0,190 0,224 0,257 0,288 0,319 0,348 42 0,066 0,111 0,150 0,185 0,219 0,250 0,281 0,311 0,340 0,369 43 0,065 0,109 0,146 0,181 0,214 0,245 0,275 0,304 0,333 0,361 44 0,063 0,106 0,143 0,177 0,209 0,239 0,269 0,297 0,325 0,353 45 0,062 0,104 0,140 0,173 0,204 0,234 0,263 0,291 0,318 0,345 46 0,060 0,102 0,137 0,169 0,200 0,229 0,257 0,285 0,312 0,338 47 0,059 0,099 0,134 0,166 0,196 0,224 0,252 0,279 0,305 0,331 0,220 0,247 0,273 0,299 0,324 0,268 0,293 0,318 48 0,058 0,097 0,131 0,162 0,191 49 0,057 0,095 0,128 0,159 0,188 0,215 0,242 50 0,055 0,093 0,126 0,156 0,184 0,211 0,237 0,263 0,287 0,312 0,282 0,306 0,277 0,300 51 0,054 0,092 0,123 0,153 0,180 0,207 0,233 0,258 52 0,053 0,090 0,121 0,150 0,177 0,203 0,228 0,253 53 0,052 0,088 0,119 0,147 0,174 0,199 0,224 0,248 0,272 0,295 0,267 0,290 54 0,051 0,086 0,116 0,144 0,170 0,196 0,220 0,244 55 0,050 0,085 0,114 0,142 0,167 0,192 0,216 0,239 0,262 0,284 56 0,049 0,083 0,112 0,139 0,164 0,189 0,212 0,235 0,257 0,279 0,275 57 0,049 0,082 0,110 0,137 0,162 0,185 0,209 0,231 0,253 58 0,048 0,080 0,108 0,134 0,159 0,182 0,205 0,227 0,249 0,270 59 0,047 0,079 0,107 0,132 0,156 0,179 0,202 0,223 0,245 0,266 0,261 60 0,046 0,078 0,105 0,130 0,153 0,176 0,198 0,220 0,241 Множитель 1 2,71 4,61 6,25 7,78 9,24 10,65 12,02 13,36 14,68 15,99 Множитель 2 3,12 3,08 2,00 0,32 -1,92 -4,75 -7,59 -11,12 -14,94 -19,05 Например, при п = 135 наблюдений и k = 6, объясняющих Х-переменных, чтобы выполнить тестирование на уровне 0,05, нужно использовать два множи теля 12,59 и -1 8 ,2 4 внизу столбца для k = 6 таблицы для уровня 5%. Восполь зовавшись приведенной выше формулой, найдем соответствующее критическое значение для Л2: 640 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Множитель 1 Множитель 2 Критическое значение = ------------------- + ----------- ;-------- = п = 135 + п ' - = 0,09326 - 0,00100 = 0,0923. 135 Если i f для вашей совокупности данных (из компьютерной распечатки) пре восходит это значение (0,0923, или 9,23% ), F -тест является значимым; в про тивном случае — нет. Какие переменные являются значимыми: f-тест для каждого коэффициента Если F -тест является значимым, то вам известно, что одна или несколько Xпеременных могут быть полезны в прогнозировании Y и, следовательно, можно продолжать анализ с помощью t-тестов для отдельных коэффициентов регрессии с целью выяснять, какие именно из Х-переменных действительно полезны. Эти t-тесты определяют, оказывает ли значимое влияние на Y та или иная Xпеременная, если все другие Х-переменные остаются при этом неизменными. Следует помнить, что, приняв нулевую гипотезу, вы сделали слабое заключение и, по сути, тем самым не доказали бесполезность Х-переменной, а просто у вас не хватило убедительных доказательств наличия взаимосвязи. Таким образом, взаимосвязь может существовать, но вследствие действия фактора случайности или из-за небольшого размера выборки вы не в состоянии обнаружить ее с по мощью тех данных, которые имеются в вашем распоряжении. Если же F -тест не является значимым, то использовать t-тесты для отдель ных коэффициентов регрессии нельзя. В редких случаях эти t-тесты могут быть значимыми даже тогда, когда F -тест не является значимым. При этом F -тест считается более важным и необходимо делать вывод о том, что все коэффициен ты являются незначимыми. Поступив иначе, вы повысите ошибку I рода выше объявленного уровня (например, 5%). t-тест для каждого коэффициента основан на оценке коэффициента регрессии и его стандартной ошибке и использует критическое значение из t-таблицы для п - k - 1 степеней свободы. Доверительный интервал для какого-либо конкрет ного коэффициента регрессии в генеральной совокупности (например, ;-го — р;) определяется обычным способом. Доверительный интервал для /-го коэффициента регрессии, р, От b j-tS bj до bj + tSbj, где t берется из f-таблицы для п - к - 1 степеней свободы. t-тест является значимым, если заданное значение 0 (указывающее на отсут ствие влияния) не попадает в этот доверительный интервал. Здесь нет ничего но вого: это обычная процедура для двустороннего тестирования. Как альтернативный вариант можно сравнить t-статистику b} / Sb. со значени ем из t-таблицы и сделать вывод о значимости, если абсолютное значение этой tстатистики оказывается больше. Если посмотреть на последние значения в каж ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ . 641 дом из столбцов t -таблицы, можно увидеть достаточно простой, приблизитель ный способ определения значимости коэффициентов: значимыми будут те коэф фициенты регрессии; для которых t -статистика по абсолютному значению равна или больше 2, поскольку для достаточно больших п и уровня значимости 5% значение из ^-таблицы приблизительно равно 2. Как всегда, оба метода, и на ис пользовании f-статистики, и на использовании доверительного интервала, долж ны в любом случае обеспечивать одинаковый результат (значимость или не зна чимость) для каждого теста. Что же именно в данном случае тестируется? В результате J-теста для Р, мы должны принять решение, оказывает ли Х;- значимое влияние на У в исследуе мой генеральной совокупности, когда все другие Х-переменные остаются неиз менными. В этом случае речь не идет о корреляции между Х; и У, которая игно рирует все остальные Х-переменные. Скорее, это проверка влияния Х7 на У по сле внесения поправки на все остальные факторы. Например, в исследованиях уровня заработной платы, цель которых заключается в выявлении возможных фактов дискриминации по признаку пола, обычно делают поправку на уровень образования и стаж работы. Несмотря на то что мужчины в компании могут (в среднем) получать более высокую заработную плату, чем женщины, очень важно понять, не объясняются ли эти различия какими-либо другими факторами, по мимо пола. В результате включения всех этих факторов в множественную рег рессию (регрессия У = заработная плата на Х х = пол, Х 2 = образование и Х 3 = стаж работы) коэффициент регрессии для пола будет отражать влияние по ла на уровень заработной платы с учетом поправок на уровень образования и стаж работы.7 Ниже приведены формулы для гипотез, касающихся проверки значимости уго коэффициента регрессии. Гипотезы для f-теста j-ro коэффициента регрессии Н0: р ,-0 ; Н>: р, * 0 . Если вернуться к нашему примеру с тарифами на размещение рекламных объявлений в журналах, то соответствующий t-тест будет иметь п - k - 1 = 5 5 3 - 1 = 51 степеней свободы. Двустороннее критическое значение из ^-таблицы равно 1,960 (или, точнее, 2,008).8 В табл. 12.1.12 приведена соответствующая информация из компьютерной распечатки в табл. 12.1.6. 7 Переменную пола, Хь можно представить как 0 — для женщин и 1 — для мужчин. В таком случае коэффициент регрессии будет представлять дополнительную оплату в среднем для муж чины в сравнении с женщиной, имеющей тот же уровень образования и стаж работы. Если же переменную пола представить как 1 — для женщин и 0 — для мужчин, то коэффициент рег рессии будет представлять дополнительную оплату для женщины в сравнении с мужчиной, имеющим тот же уровень образования и стаж работы. К счастью, выводы окажутся одинако выми, независимо от того, каким представлением мы будем пользоваться, g Помните, что использование t-значения для бесконечного числа степеней свободы (т.е. в случае, когда речь идет о 40 и более степенях свободы) представляет собой лишь аппроксимацию. В этом случае истинное значение из f-таблицы равно 2,008, а 1,960 — лишь удобное приближение. 642 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Две из трех Х-переменных являются значимыми, поскольку для них рзначения оказываются меньше 0,05. Еще один (эквивалентный) способ проверки значимости заключается в том, чтобы выяснить, какие f-статистики (в компью терной распечатке соответствующий столбец обозначен просто t) оказываются большими, чем 2,008. И еще один (тоже эквивалентный) способ проверки зна чимости состоит в том, чтобы выяснить, какие из 95% доверительных интерва лов для коэффициентов регрессии не включают 0. Как мы и предполагали ранее, величина читательской аудитории оказывает огромное влияние на рекламные тарифы в журналах. Столь высокое значение t (13,48) означает, что влияние ве личины читательской аудитории на рекламные тарифы является очень высоко значимым (при условии, что процент читателей-мужчин и средний доход оста ются постоянными). Влияние среднего дохода на рекламные тарифы в журналах также является значимым (при условии, что процент читателей-мужчин и вели чина читательской аудитории остаются постоянными). Очевидно, что процент читателей-мужчин не оказывает на тарифы значи тельного влияния (при условии, что величина читательской аудитории и средний доход остаются постоянными), поскольку соответствующий t-тест не является значимым. Не исключено, что этот процент оказывает на тарифы определенное влияние только через доход (средний доход у мужчин может быть выше, чем у женщин). Таким образом, после внесения поправки на средний доход можно ожидать, что переменная, соответствующая проценту мужчин, уже не будет не сти дополнительной информации для прогнозирования тарифов. Несмотря на то что оцениваемое влияние процента читателей-мужчин составляет -$ 1 2 3 ,6 , его отклонение от 0 носит лишь случайный характер. Строго говоря, этот коэффи циент, -$ 1 2 3 ,6 , не подлежит интерпретации; поскольку он не является значи мым, вы “не имеете права” объяснять его. Иными словами, его значение ( $123,6) — лишь видимость, и, по сути, ничем не отличается от $0,00; более то го, в действительности вы не можете даже сказать, положительное это число или отрицательное! Константа, а = $4 043, не является значимой. Она не отличается существенно от нуля. Нельзя сказать ничего определенного и о знаке соответствующего пара метра генеральной совокупности, а, поскольку его вполне можно считать рав ным нулю. В приложениях, связанных с калькуляцией затрат, а зачастую слу жит оценкой фиксированных затрат производства. Доверительные интервалы и проверки гипотез покажут вам, существует ли в действительности значимый фиксированный компонент в вашей структуре затрат. Таблица 12.1.12. Компьютерная распечатка результатов множественной регрессии Независимая переменная Коэффициент Стандартное отклонение P 0,24 0,812 0,2809 13,48 0,000 137,8 -0,90 0,374 0,3696 2,44 0,018 4043 16884 Аудитория 3,7880 Процент мужчин -123,6 Доход 0,9026 Константа t ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 643 Другие проверки, касающиеся коэффициента регрессии Другие проверки применительно к коэффициенту регрессии можно выпол нить точно так же, йак это делается и в случае средних значений. Если для од ного из коэффициентов регрессии существует некоторое заданное значение (ис точником которого не являются рассматриваемые данные), можно проверить, значимо ли оценка коэффициента регрессии отличается от этого заданного зна чения. Для этого достаточно проверить, попадает ли это заданное значение в до верительный интервал, и если не попадает, то, как обычно, принять решение о “значимом отличии”. В качестве альтернативного варианта можно воспользо ваться t-статистикой (b j - заданное значение)/ S bj , приняв решение о “значимом отличии”, если абсолютное значение этой статистики превышает значение из tтаблицы для п - k - 1 степеней свободы. Допустим, вы решили (до того как вам встретилась эта совокупность данных), что дополнительные затраты на рекламу составляют $2,00 из расчета на каждую тысячу человек. Чтобы проверить это предположение, можно использовать $2,00 в качестве заданного значения. Поскольку доверительный интервал расходов на рекламу для читательской аудитории (от $3,22 до $4,35) не включает это заданное значение, можно прийти к выводу, что влияние читательской аудитории на рек ламные затраты (с поправкой на процент читателей-мужчин и средний доход) ока зывается существенно большим, чем $2,00 на каждую тысячу человек. Обратите внимание, что мы делаем односторонний вывод на основе двустороннего теста. Двусторонний тест в данном случае вполне уместен, поскольку соответствующая оценка могла бы оказаться и по другую сторону от значения $2,00. Односторонние доверительные интервалы можно вычислять обычным спосо бом для одного (или нескольких) коэффициента регрессии, что дает возможность делать одностороннее утверждение об интересующем нас коэффициенте (или о коэффициентах) регрессии для соответствующей генеральной совокупности. При этом следует обязательно использовать односторонние t-значения из t-таблицы для п - k - 1 степеней свободы, а доверительный интервал для р; обязательно должен включать коэффициент регрессии bj. Например, коэффициент регрессии для дохода равняется Ь3 = 0,9026 , а это свидетельствует о том, что (при всех прочих равных условиях) каждый дополни тельный доллар среднего дохода приводит к повышению цены полностраничного рекламного объявления в среднем на $0,9026. Стандартная ошибка равно S bз = 0,3696 , а одностороннее значение из t-таблицы для п - k - 1 = 51 степеней свободы составляет t = 1,645, поэтому нижней границей одностороннего интер вала является Ьз - tS b3 = 0,9026 - 1,645 х 0,3696 = 0,2946 . Ваше заключение будет иметь следующий вид. “Мы на 95% уверены в том, что каждый дополнительный доллар среднего дохода приводит к повышению средних затрат на страницу рекламы по меньшей мере на $0,29”. Эти 29 центов, определяющие одностороннюю доверительную границу, ока зываются намного меньше, чем оценочное значение $0,9026, поскольку мы сде лали поправку на случайные ошибки оценки. Воспользовавшись не двусторон ним, а односторонним интервалом, мы можем принять решение о 29, а не о 16 центах, которые определяют нижнюю границу двустороннего интервала. 644 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Односторонние тесты по отношению к коэффициентам регрессии можно вы полнять обычным способом при условии, что вас интересует лишь одна сторона эталонного значения и что вы не измените эту интересующую вас сторону, если оценки окажутся другими. Какие переменные оказывают большее влияние Какая из Х-переменных оказывает наибольшее влияние на У? Хороший во прос! К сожалению, исчерпывающего ответа на этот вопрос нет, ввиду того, что наличие взаимосвязей между Х-переменными может сделать принципиально не возможным выяснение того, какая именно из Х-переменных в действительности “отвечает” за поведение переменной У. Ответ на поставленный вопрос зависит от конкретной ситуации (в частности, можно ли изменять Х-переменные по от дельности). Ответ определяется также наличием взаимосвязи (или корреляции) между Х-переменными. Ниже мы рассмотрим два полезных (хоть и неполных) ответа на этот непростой вопрос. Сравнение стандартизованных коэффициентов регрессии Поскольку все коэффициенты регрессии Ьх, ... , bk могут быть выражены в разных единицах измерения, непосредственное их сравнение весьма затрудни тельно: небольшой коэффициент может на самом деле оказаться более важным, чем большой. Короче говоря, здесь мы имеем дело с классической проблемой “попытки сравнения яблок и апельсинов”. Стандартизованные коэффициенты регрессии позволяют решить эту проблему за счет представления коэффициентов регрессии в терминах единого множества имеющих статистический смысл еди ниц измерения, что позволяет по крайней мере попытаться проводить сравнение. Коэффициент регрессии Ъь указывает влияние изменения X* на переменную У, когда все другие Х-переменные остаются неизменными. Коэффициент регрессии bt измеряется в единицах измерения У на одну единицу измерения X*. Если, напри мер, У представляет собой объем продаж в долларовом выражении, а Х г — коли чество торгового персонала, то выражается в количестве долларов (объем про даж) на одного человека. Допустим, что следующий коэффициент регрессии, Ъ2, выражается в количестве долларов (объем продаж) на суммарный километраж ра бочих поездок торговых представителей компании. Непосредственное сравнение Ьг и Ь2 не позволит нам ответить на вопрос, какой из этих двух факторов (уровень торгового персонала или командировочные расходы компании) оказывает большее влияние на объем продаж, потому что разные единицы измерения (доллары на че ловека и доллары на километр) непосредственно сравнивать нельзя. Стандартизованный коэффициент регрессии, который вычисляется путем умножения коэффициента регрессии bt на SXi и деления полученного произведе ния на S Y, представляет собой ожидаемое изменение У (в стандартизованных единицах S y), вызванное увеличением X* на одну соответствующую стандартизо ванную единицу (т.е. Sx. ), когда все другие Х-переменные остаются неизменны ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ . 645 ми. Абсолютные значения .стандартизованных коэффициентов регрессии можно сравнивать, получая при этом некоторое представление об относительной важности соответствующих переменных.10 Каждый стандартизованный коэффициент регрес сии измеряется в единицах стандартных отклонений Y на одно стандартное откло нение X t. Это обычные выборочные стандартные отклонения для каждой перемен ной, о которых мы уже говорили в главе 5. Использование таких единиц вполне естественно, поскольку они создают шкалу измерений, соответствующую фактиче ской вариации каждой переменной в вашей совокупности данных. Стандартизованный коэффициент регрессии biSXi/S Y. Каждый коэффициент регрессии корректируется с помощью отношения обычных выборочных стан дартных отклонений. Абсолютные значения позволяют получить приблизительное представление об относительной важности Х-переменных. Чтобы стандартизировать коэффициенты регрессии в примере о рекламных объявлений в журналах, нужно сначала вычислить стандартные отклонения для каждой из переменных, как показано ниже. Стандартные отклонения Стоимость страницы Читательская аудитория Процент читателей-мужчин Средний доход Sy~=45446 S^ = ТУ2Т 2 S^~=T0225 SX2= 25^883 Вам также требуются коэффициенты регрессии, приведенные ниже. Коэффициенты регрессии __________________ Читательская аудитория Процент читателей-мужчин Средний доход ^ Г^ ЗГ7 8 8 0 Ь2 =-123,6 Ь3= 0,9026 Наконец, можно вычислить стандартизованные коэффициенты регрессии. Стандартизованные коэффициенты регрессии Читательская аудитория Процент читателей-мужчин Средний доход biSXl / Sy — b2SX2/ Sy — b3Sx3/ Sy — = 3,7880x11212/45446= =-123,6x25,883/45446= =0,9026x10225/45446 = = 0,935 =-0,070 =0,203 9 Стандартизованные коэффициенты регрессии иногда называют бета-коэффициентами. Мы постараемся не прибегать к использованию этого термина, поскольку его легко спутать с ко эффициентами регрессии в генеральной совокупности (также р, или бета) и недиверсифицируемым компонентом риска в финансах (который называется бета ценных бумаг и представ ляет собой обычный, нестандартизованный коэффициент регрессии выборки, где X является процентным изменением рыночного индекса, a Y — процентным изменением стоимости серти фиката на ценные бумаги). 10 Напомним, что абсолютное значение просто игнорирует знак “минус”. 646 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Приведем непосредственную интерпретацию одного из этих стандартизован ных коэффициентов. Значение 0,935, относящееся к читательской аудитории, свидетельствует о том, что увеличение аудитории на одно ее стандартное откло нение (11 212) приведет к ожидаемому увеличению тарифа на размещение рек ламы в журналах на 0,935 его (тарифа) стандартных отклонений (45 446). Ины ми словами, увеличение аудитории на 11 212 (одно стандартное отклонение) приведет к ожидаемому увеличению тарифа на размещение рекламы в журналах на 0,935 х 45 446 = $42 492 (несколько меньше, 0,935, чем одно стандартное отклонение тарифа на размещение рекламы). Гораздо важнее, однако, то обстоятельство, что эти стандартизованные коэф фициенты регрессии теперь можно сравнивать между собой. Наибольшим по аб солютному значению является коэффициент 0,935 для читательской аудитории; это свидетельствует о том, что данная переменная является самой важной из трех Х-переменных. Далее следует средний доход, для которого коэффициент равен 0,203. Наименьшее абсолютное значение коэффициента |-0,070| = 0,070 соответствует проценту читателей-мужчин. Было бы неправильным сравнивать коэффициенты регрессии непосредствен но, не стандартизовав их предварительно. Обратите внимание, что проценту чи тателей-мужчин соответствует наибольший (по абсолютному значению) коэффи циент регрессии, |-123,6| = 123,6. Однако поскольку он выражается в единицах измерения, отличных от единиц измерения других коэффициентов регрессии, непосредственное сравнение лишено смысла. Абсолютные значения стандартизованных коэффициентов регрессии можно сравнивать друг с другом, что позволяет получить грубое представление о важно сти соответствующих переменных. Еще раз следует подчеркнуть, что эти резуль таты не являются идеальными, поскольку взаимосвязи между Х-переменными могут сделать принципиально невозможным выяснение того, какая из Xпеременных в действительности “отвечает” за поведение переменной У. Сравнение коэффициентов корреляции Нас вообще могут не очень-то интересовать коэффициенты регрессии, полу ченные из множественной регрессии и представляющие влияние каждой пере менной при условии, что все другие переменные остаются неизменными. Если нас интересует лишь то, в какой мере каждая из Х-переменных влияет на У при условии, что все другие Х-переменные продолжают “вести себя естественным об разом” (т.е. мы не пытаемся принудительно зафиксировать их), можно сравни вать по очереди абсолютные значения коэффициентов корреляции между У и каждой из Х-переменных. Корреляция служит мерой силы такой взаимосвязи (о чем мы уже говорили в главе 11), однако почему следует использовать абсолютные значения? Вспомни те, что корреляция, близкая к 1 или - 1 , указывает на сильную взаимосвязь, а корреляция, близкая к нулю, свидетельствует об отсутствии взаимосвязи. Абсо лютное значение корреляции указывает на силу взаимосвязи, не определяя ее направления. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 647 Множественная регрессия делает поправку на другие переменные, а коэффи циент корреляции — нет.11 Если вам требуется учитывать влияние других пере менных, тогда следуем пользоваться множественной регрессией. Если вам не нуж но учитывать такую поправку, можно воспользоваться анализом корреляций. Ниже приведены коэффициенты корреляции У с каждой из Х-переменных для примера с рекламными объявлениями в журналах. Например, корреляция между тарифом на размещение рекламы в журналах и медианой дохода читате лей равна -0 ,1 6 7 . Корреляция со стоимостью страницы рекламы Читательская аудитория Процент читателей-мужчин Медиана дохода 0,872 -0081 -0,167 С точки зрения взаимосвязи с тарифом на размещение рекламы в журналах (без поправки на другие Х-переменные), размер читательской аудитории имеет наибольшее абсолютное значение корреляции, 0,872. Следующим по абсолютной величине корреляции является медиана дохода — |-0,167| = 0,167. Проценту чи тателей-мужчин соответствует наименьшее абсолютное значение корреляции — |-0,081| = 0,081. Все выглядит так, будто именно величина читательской ауди тории практически полностью определяет величину тарифа на размещение рек ламы в журналах. Действительно, ни одна из двух других переменных (сама по себе, без фиксации оставшихся переменных) не определяет значимую долю та рифа на размещение рекламы в журналах. Множественная регрессия дает несколько иную картину, поскольку она по зволяет контролировать значения других переменных. После внесения поправки на величину читательской аудитории коэффициент множественной регрессии для медианы дохода свидетельствует о значимом влиянии соответствующей пе ременной на величину рекламного тарифа. Это можно интерпретировать сле дующим образом. Поправка на величину читательской аудитории учитывает тот факт, что более высокие доходы сопутствуют меньшим читательским аудитори ям. Влияние величины читательской аудитории нивелируется — остается лишь влияние дохода в чистом виде (которое проявляется благодаря тому, что снима ется маскирующий эффект величины читательской аудитории). Хотя коэффициенты корреляции указывают на индивидуальные взаимосвязи с У, стандартизованные коэффициенты регрессии из множественной регрессии могут предоставить вам важную дополнительную информацию. Существует более совершенная статистическая концепция коэффициента частной корреля ции , которую мы не будем описывать в этой книге. Такой коэффициент определяет корреля цию между двумя переменными с учетом поправки на одну или несколько дополнительных переменных. 648 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ 12.2. Сложности и проблемы, связанные с множественной регрессией К сожалению, на практике множественная регрессия не всегда позволяет по лучить результаты, о которых пишут в учебниках. В этом разделе приведен пе речень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно). Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание. 1. Проблема мультиколлинеарности возникает в тех случаях, когда некото рые из ваших объясняющих переменных (X) оказываются слишком схо жими. Несмотря на то что эти переменные могут хорошо пояснять и про гнозировать Y (на что указывают высокое значение R2 и значимый F -тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некото рые из переменных с целью избавиться от сомнений. Другое решение за ключается в том, чтобы переопределить какие-то из переменных (возмож но, путем деления), чтобы отличать одну переменную от другой. 2. Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х-переменных и необходимо решить, какие из этих пере менных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х-переменных, лишние из них будут снижать качество результатов (возможно, по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нуж ную Х-переменную, снизится качество прогнозов, поскольку вы проигно рируете полезную информацию. Одно из возможных решений состоит в том, чтобы хорошенько подумать, почему важна та или иная Xпеременная, чтобы быть уверенным в том, что каждая включаемая в рас смотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической проце дурой, которая старается отобрать наиболее важные переменные. 3. Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моде лью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может по лучиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя дан ные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющих ся значений. Однако даже наличие подобных проблем еще ни о чем не го ворит. Несмотря на то что гистограммы некоторых переменных могут ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 649 быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной рег рессии и в такцх случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, дейст вительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений за ключается в создании новых Х-переменных, которые формируются на ос нове существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к кото рому допущение модели линейной множественной регрессии о независимо сти отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выпол нить, используя вместо исходных данных процентные изменения между различными временными периодами. Мультиколлинеарность: не слишком ли схожи между собой объясняющие переменные? Когда какие-то из объясняющих Х-переменных слишком схожи между собой, у вас может возникнуть проблема мультиколлинеарности, поскольку множест венная регрессия не в состоянии отличить влияние одной переменной от влия ния другой переменной. Последствия мультиколлинеарности могут быть стати стическими или вычислительными . 1. Статистические последствия мультиколлинеарности связаны с трудно стями проведения статистических тестов для отдельных коэффициентов регрессии вследствие увеличения стандартных ошибок. Результатом может быть невозможность объявить ту или иную Х-переменную значимой даже в том случае, если эта переменная (сама по себе) имеет сильную взаимо связь с У. 2. Вычислительные последствия мультиколлинеарности связаны с трудно стями в организации вычислений на компьютере, вызванными “неустой чивостью вычислений”. В крайних случаях компьютер может пытаться выполнить деление на нуль и, таким образом, неудачно завершить анализ данных. Хуже того, компьютер может завершить анализ и выдать бес смысленные и неверные результаты.12 Мультиколлинеарность может порождать проблемы, а может и не порождать их — все зависит от конкретных целей выполняемого вами анализа и степени мультиколлинеарности. Небольшая или средняя мультиколлинеарность обычно не представляет проблемы. Очень сильная мультиколлинеарность (например, Деление на нуль невозможно с математической точки зрения: например, результат выпол нения 5/0 является неопределенным. Однако из-за небольших ошибок округления в процессе вычислений компьютер может разделить не 5 на 0, а 5,0000000000968 на 0,0000000000327. В этом случае, вместо того чтобы остановиться и сообщить об ошибке, компьютер использует в дальнейших вычислениях бессмысленный и огромный результат такого деления: 152 905 198 779,72. 650 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ включение одной и той же переменной дважды) всегда будет представлять про блему и может приводить к серьезным ошибкам (вычислительные последствия). К счастью, если вашей целью является в основном предсказание или прогнози рование У, сильная мультиколлинеарность может не представлять серьезного препятствия, поскольку качественная программа множественной регрессии мо жет и в этом случае делать оптимальные прогнозы У (по методу наименьших квадратов), основанные на всех Х-переменных. Однако если вы хотите использо вать индивидуальные коэффициенты регрессии для выяснения того, как каждая из Х-переменных влияет на У, то статистические последствия мультиколлинеар ности, по-видимому, вызовут определенные проблемы, ввиду того что эти влия ния невозможно отделить друг от друга. В табл. 12.2.1 подытоживается влияние мультиколлинеарности на результаты регрессионного анализа. Как выяснить, действительно ли существует проблема мультиколлинеарно сти? Один из простейших способов ответить на этот вопрос заключается в анали зе обычных двумерных корреляций для каждой пары переменных.13 Корреляци онная матрица представляет собой таблицу, которая содержит коэффициенты корреляции для каждой пары переменных из вашей многомерной совокупности данных. Чем выше коэффициент корреляции между двумя Х-переменными, тем больше мультиколлинеарность. Это объясняется тем, что высокая корреляция (близкая к 1 или -1 ) указывает на сильную связь и свидетельствует о том, что эти две Х-переменные измеряют очень схожие характеристики, привнося тем самым в анализ “пересекающуюся” информацию. Основной статистический результат мультиколлинеарности заключается в росте стандартных ошибок некоторых или всех коэффициентов регрессии ( Sb ). Это вполне естественно: если две Х-переменные содержат “пересекаю щуюся” информацию, трудно определить влияние каждой из них в отдельности. Высокое значение стандартной ошибки приводит к тому, что компьютер сообща ет вам приблизительно следующее: “Я вычислил для вас коэффициент регрес сии, но результат неточный, поскольку трудно сказать, эта или какая другая пе ременная является определяющей”. В результате доверительные интервалы для соответствующих коэффициентов регрессии значительно расширяются, a t -тесты вряд ли будут значимыми. В случае сильной мультиколлинеарности может оказаться, что регрессия очень высоко значима (исходя из результатов F -теста), однако ни один из tтестов для отдельных Х-переменных значимым не является. Компьютер сообща ет вам о том, что Х-переменные, рассматриваемые как единая группа, весьма сильно влияют на У, но практически невозможно определить важность какой-то конкретной переменной. Следует помнить, что t-тест для конкретной Xпеременной измеряет ее влияние на У при условии, что значения других пере менных остаются неизменными. Таким образом, t-тест для переменной X* выяв ляет только дополнительную информацию, привнесенную переменной X t помимо 13 К сожалению, исчерпывающий диагноз мультиколлинеарности оказывается гораздо слож нее, чем описываемый здесь способ, поскольку необходимо рассматривать все Х-переменцые одновременно, а не попарно. Полное техническое описание соответствующих методов можно найти, например, в книге Belsley D. A., Kuh Е., and Welsch R. Е. Regression Diagnostics: Iden tifying Influential D ata and Sources of Collinearity (New York: Wiley, 1980). ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 651 Таблица 12.2.1. Влияние мультиколлинеарности на регрессию Степень мультиколлинеарности Влияние на регрессионный анализ Незначительная Вообще не представляет проблемы Средняя Как правило, не представляет проблемы Сильная Статистические последствия: зачастую представляет собой проблему, если требуется оценить влияние отдельных Л1переменных (т.е. коэффициенты регрессии); может не представлять проблемы, если цель заключается в предсказании или прогнозировании К Чрезвычайно сильная Численные последствия: всегда представляет собой проблему; компьютерные вычисления могут даже оказаться неправильными из-за неустойчивости вычислений той информации, которую несут другие Х-переменные. Если какая-то другая пе ременная очень близка к X,, тогда переменная X t не привносит в регрессию зна чимо новую информацию. Одно из решений заключается в том, чтобы проигнорировать те Xпеременные, которые дублируют информацию, уже присутствующую в других Х-переменных. Если, например, ваши Х-переменные включают три различные измерения размера, попробуйте либо избавиться от двух из них, либо объеди нить все три переменные в единую меру размера (например, воспользовавшись их средним значением). Другое решение заключается в том, чтобы переопределить некоторые из пе ременных с тем, чтобы каждая из Х-переменных выполняла четкую, присущую только ей одной роль в определении У. Распространенный способ применения этой идеи к группе близких друг к другу Х-переменных заключается в том, что бы взять для представления этой группы одну Х-переменную (можно либо вы брать одну из этих Х-переменных, либо сформировать из них индекс) и предста вить остальные переменные как относительные показатели (например, величина на единицу другого показателя), построенные из этой представляющей Xпеременной. Например, можно представлять зависимость размера объема про даж (У) с помощью численности населения (Xi) и общего дохода (Х 2) для каждо го региона. Однако эти переменные являются мультиколлинеарными (т.е. чис ленность населения и общий доход — высоко коррелированные величины). Эту проблему можно решить, объясняя объем продаж (У) с помощью численности населения (Х х) и размера дохода на одного человека (новая переменная Х 2). В результате численность населения будет выполнять роль представляющей пере менной, отражая общую величину территории, а доход, вместо того чтобы по вторять уже известную нам информацию (о величине соответствующей террито рии), переопределяется и несет новую информацию (о благосостоянии людей). Пример. Прогнозирование рыночной стоимости на основании величины активов и количества служащих Какова рыночная стоимость фирмы и как она определяется? Рыночная стоимость фирмы представляет со бой суммарную стоимость всех выпущенных в обращение акций, которую легко найти, умножив общее количество выпущенных в обращение акций на текущую цену акции. Она определяется соотношением 652 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ предложения и спроса на рынке ценных бумаг. Финансисты-теоретики говорят, что она представляет те кущую стоимость (неопределенных, рисковых) будущих денежных потоков данной фирмы. Но как связа на рыночная стоимость с другими характеристиками фирмы? Чтобы ответить на этот вопрос, можно вос пользоваться множественной регрессией. Рассмотрим информацию, представленную в табл. 12.2.2. В этой таблице сопоставляется рыночная стои мость фирмы (переменная У — зависимая, "объясняемая") и две независимые ("объясняющие") Xпеременные: стоимость активов, которыми владеет фирма, и количество служащих фирмы. Эти данные от носятся к компаниям из перечня Fortune 500, которые производят компьютеры и офисное оборудование. Нетрудно догадаться, что с этой совокупностью данных у нас наверняка возникнет проблема мультикол линеарности, поскольку каждая Х-переменная, в принципе, обозначает размер компании. Эти Xпеременные несут схожую, "пересекающуюся" информацию, поскольку крупные компании являются крупными во всех отношениях: рыночной стоимости, величине активов и количестве служащих. И наобо рот, небольшие компании, как правило, являются небольшими во всех отношениях. В табл. 12.2.3 подве дены итоги результатов множественной регрессии. Обратите внимание, что в соответствии с F-тестом регрессия является значимой. Свыше трех четвертей [R2 = 8 1 ,7 % ) вариации рыночной стоимости объясняются Х-переменными как единой группой, и этот результат является высоко статистически значимым. Однако вследствие мультиколлинеарности ни одна отдельно взятая Х-переменная значимой не является. Таким образом, Х-переменные объясняют рыноч ную стоимость, но мы не можем сказать, какая именно из Х-переменных оказывает наибольшее влияние. Некоторую полезную информацию о мультиколлинеарности можно получить из корреляционной матри цы (табл. 1 2 .2 .4 ), которая отражает корреляции для каждой пары переменных нашей многомерной со- Таблица 12.2.2. Компании из перечня Fortune 500, производящие компьютеры и офисное оборудование Рыночная стоимость (млн дол.), Y Активы (млн дол.), X, Количество служащих, Х2 Intl. Business Machines 98 322 81 449 269465 Hewlett-Packard 65 060 31 749 121 900 Compaq Computer 36052 14631 37 004 Xerox 31 829 27 732 91 400 7101 9 693 54 900 Dell Computer 41 294 4268 16160 Sun Microsystems 16614 4697 21 500 3449 4 233 9306 Digital Equipment Apple Computer NCR 3 386 5 293 38300 Gateway 2000 6 242 2 039 13 369 Pitney Bowes 14036 7 893 29 901 2 636 3345 10 930 Data General 869 1 135 5100 Intergraph 452 727 7 653 Silicon Graphics Данные получены из in d 8 . h tm l, осень 1998. h t t p : //www. p a t h f i n d e r .с о т / for tune / fortune 5 0 0 / ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ. 653 вокупности данных. Обратите внимание на чрезвычайно высокую корреляцию между двумя Xпеременными: 0,991 между величиной активов и количеством служащих. Столь высокая корреляция сви детельствует о том, что по «крайней мере с точки зрения чисел эти две Х-переменные несут практически идентичную информацию. Нет ничего удивительного в том, что регрессионный анализ не делает разли чия между этими переменными. Если бы мы сохранили только одну из двух Х-переменных, то получили бы регрессию с очень высоко зна чимым f-тестом для этой переменной, независимо от того, какую из двух переменных X мы решили оставить. Иными словами, каждая из этих переменных сама по себе вносит весомый вклад в определение ры ночной стоимости. Если вы хотите сохранить всю информацию, содержащуюся в обеих Х-переменных, одну из них можно ис пользовать в качестве переменной, представляющей величину компании, а другую определить как некое от ношение. Давайте выберем в качестве переменной, представляющей величину компании, ее активы, по скольку они указывают на фиксированные капиталовложения, необходимые соответствующей компании. После этого вторую переменную можно заменить на отношение количества служащих к величине активов (указывает количество служащих на миллион долларов активов). Теперь активы являются единственной пе ременной, характеризующей величину компании, а другая переменная несет новую информацию об эф фективности использования служащих. Новая совокупность данных представлена в табл. 12.2.5. Таблица 12.2.3. Регрессионный анализ компаний, производящих компьютеры и офисное оборудование Множественная регрессия для прогнозирования рыночной стоимости на основании активов и количества служащих. Уравнение прогнозирования имеет следующий вид: рыночная стоимость = 6998,40 + 1,68 (активы) - 0,1442 (количество служащих). 0,817 R в квадрате 13428 Стандартная ошибка оценки 14 Количество наблюдений 24,61 F-статистика 0,00009 р-значение Коэффициент Нижняя граница Стандартная Верхняя граница 95% доверительного 95% доверительного ошибка интервала интервала Константа Активы Количество служащих 6998,40 -3660,98 17657,77 1,68 -1,17 4,53 -0,14 -1,01 0,72 t Р 1,45 0,176 1,30 1,30 0,221 0,39 -0,37 0,720 4843,00 Таблица 12.2.4. Корреляционная матрица для компаний, производящих компьютеры и офисное оборудование Рыночная стоимость, Y Рыночная стоимость, Y Активы, Х1 Количество служащих, Х2 1,000 0,903 0,888 Активы, Х1 0,903 1,000 0,991 Количество служащих, Х2 0,888 0,991 1,000 654 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Посмотрим теперь снова на корреляционную матрицу, представленную в табл. 12.2.6, и выясним, нет ли у нас проблем с мультиколлинеарностью. Эти корреляции выглядят намного лучше. Корреляция между Xпеременными (-0,317) уже не является такой большой, как раньше, и она статистически незначима. На что можно рассчитывать, получив результаты множественной регрессии? Регрессия по-прежнему должна быть значимой, а f-тест для активов на сей раз должен быть значимым по причине отсутствия "конкурирующих" переменных, характеризующих величину компании. Нам осталось разрешить сле дующую неопределенность: можно ли, располагая данными об активах, утверждать, что соотношение между количеством служащих и активами в значительной степени влияет на рыночную стоимость? Соот ветствующие результаты представлены в табл. 12.2.7. Эти результаты подтверждают наши ожидания. Регрессия (F-тест) является значимой, а f-тест для активов теперь, когда нам удалось избавиться от сильной мультиколлинеарности, также является значимым. Кро ме того, нам удалось установить, что другая переменная (количество служащих на миллион долларов ак тивов) значимой не является. Таблица 12.2.5. Определение новых ^-переменных для компаний, производящих компьютеры и офисное оборудование; использование отношения количества служащих к размерам активов Рыночная стоимость, Активы, (млн дол.), X, (млн дол.), Y Intl. Business Machines 98 322 81449 Отношение количества служа щих к размерам активов, Х2 3,308 Hewlett-Packard 65 060 31749 3,839 Compaq Computer 36 052 14631 2,529 Xerox 31 829 27 732 3,296 7101 9 693 5,664 Dell Computer 41 294 4268 3,786 Sun Microsystems 16614 4697 4,577 Apple Computer 3449 4 233 2,198 NCR 3386 5 293 7,236 Gateway 2000 6242 2 039 6,557 Pitney Bowes 14036 7 893 3,788 Digital Equipment 2 636 3 345 3,268 Data General 869 1 135 4,493 Intergraph 452 727 10,527 Silicon Graphics Таблица 12.2.6. Корреляционная матрица для компаний, производящих компьютеры и офисное оборудование (используются новые ^-переменные) Рыночная стоимость (млн дол.), Y Активы (млн дол.),Х1 Отношение количества служа щих к размерам активов, Х2 Рыночная стоимость, Y 1,000 0,903 -0,400 Активы, X, 0,903 1,000 -0,317 -0,400 -0,317 1,000 Отношение количества слу жащих к размерам активов, Х2 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 655 Таблица 12.2.7. Регрессионный анализ компаний, производящих компьютеры и офисное оборудование (используются новые ^-переменные) Множественная регрессия для прогнозирования рыночной стоимости на основании объема активов и количества служащих на миллион долларов активов. Уравнение прогнозирования имеет вид рыночная стоимость = 14673,67 + 1,154 (активы) - 1655,524 (количество служащих на миллион долларов активов). 0,830 R в квадрате 12967 Стандартная ошибка оценки 14 Количество наблюдений 26,787 F-статистика 0,00006 р-значение Коэффициент Нижняя граница "Верхняя граница Стандартная 95% доверительного 95% доверительного ошибка интервала интервала Константа Активы 14673,67 -6637,27 35984,61 9682,45 t Р 1,52 0,158 1,15 0,77 1,54 0,18 6,57 0,000 -1655,52 Количество служащих на миллион дол ларов активов -5413,44 2102,39 1707,38 -0,97 0,353 Очевидно, для этой небольшой группы (п = 14) крупных компаний, производящих компьютеры и офисное оборудование, большая доля вариации рыночной стоимости может объясняться объемом активов этих компаний. Более того, информация о людских ресурсах (количестве служащих) практически не содержит новой информации о рыночной стоимости этих процветающих компаний. Возможно, анализ более круп ной выборки компаний позволил бы выявить влияние и этой переменной. Выбор переменной: может быть, мы пользуемся "не теми" переменными? Результаты статистического анализа в значительной мере зависят от имею щейся информации, т.е. от использованных для анализа данных. В частности, особое внимание следует обратить на выбор независимых (“объясняющих”) Xпеременных для множественного регрессионного анализа. Включение как можно большего числа Х-переменных “просто так, на всякий случай” или потому, что “создается впечатление, будто каждая из них как-то влияет на Y” — далеко не лучшее решение. Поступая таким образом, вы обрекаете себя на возможные трудности при определении значимости для регрессии (i^-тест), или — вследствие мультиколлинеарности, вызванной наличием избыточных переменных, — у вас могут возникнуть трудности при решении вопроса о значимости для некоторых отдельных коэффициентов регрессии. Что происходит, когда вы включаете одну лишнюю, неуместную Xпеременную? Значение i f в этом случае окажется несколько большим, так как несколько большую долю Y можно объяснить за счет случайности этой новой 656 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ переменной.14 Однако F -тест значимости регрессии учитывает это увеличение, поэтому такое увеличение R 2 нельзя считать преимуществом. На самом деле включение дополнительной Х-переменной может принести не большой или даже умеренный вред. Оценка того или иного неуместного пара метра (в данном случае неуместного коэффициента регрессии) оставляет меньше информации для стандартной ошибки оценки, S e. По техническим причинам следствием этого является менее мощный .F-тест, который может не обнаружить значимость даже в том случае, когда Х-переменные в генеральной совокупности на самом деле объясняют У. А что произойдет в случае, когда вы проигнорируете необходимую X- перемен ную? В результате из совокупности данных выпадет важная и полезная информа ция и ваше прогнозирование Y будет менее точным, чем в случае использования этой Х-переменной. Стандартная ошибка оценки, Sef в этом случае, как правило, оказывается больше (что указывает на большие ошибки прогнозирования), a jR2, как правило, оказывается меньшим (что указывает на объяснение меньшей доли вариации Y). Естественно, если вы проигнорируете критически важную Xпеременную, то, возможно, F-тест для этой регрессии просто будет незначим. Ваша задача в данном случае — включить ровно столько Х-переменных, сколь ко нужно (т.е. не слишком много и не слишком мало), причем включить именно те Х-переменные, которые необходимы. Если у вас есть сомнения, можно вклю чить некоторые из Х-переменных, относительно которых вы не уверены. В таком случае полезен субъективный метод (основанный на приоритетном перечне Xпеременных). Существует также множество различных автоматических методов. Классификация перечня Х-переменных по приоритетам Хороший способ определить круг важных Х-переменных заключается в том, что бы внимательно проанализировать решаемую задачу, имеющиеся данные и цели, которых вы хотите добиться. Затем необходимо составить список Х-переменных, классифицированных по приоритетам. Сделать это можно следующим образом. 1. Выберите переменную У, которую вам необходимое объяснить, понять или прогнозировать. 2. Выберите Х-переменную, которая, как вам кажется, является наиболее важной в определении или объяснении У. Если это вызывает у вас затруд нения, поскольку все Х-переменные кажутся вам одинаково важными, примите волевое решение. 3. Выберите самую важную среди оставшихся Х-переменных, задав себе во прос: “Принимая во внимание первую переменную, какая из оставшихся Х-переменных несет больше новой информации, объясняющей поведение переменной У?” 14 Несмотря на то что R2 в любом случае будет либо таким же, либо большим, существует ана логичная величина i?2, называемая скорректированным Л2, которая при включении ненужной Х-переменной может оказаться либо большей, либо меньшей. Скорректированное R 2 увеличит ся лишь в том случае, если данная Х-переменная объясняет больше, чем можно было бы ожи дать вследствие всего лишь случайности от неуместной Х-переменной. Скорректированное R2 можно вычислить на основании обычного, нескорректированного значения R2 по формуле 1 (п - 1)(1 - R2)/(n - k - 1). ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ .. 657 4. Продолжайте выбирать по этому принципу самые важные из оставшихся Х-переменных до тех пор, пока не классифицируете по приоритетам весь перечень Х-переменных. На каждой стадии задавайте себе вопрос: “При нимая во внимание уже отобранные Х-переменные, какая из оставшихся Х-переменных несет больше новой информации, объясняющей поведение переменной У?” Затем вычислите регрессию, используя лишь те Х-переменные из составлен ного вами списка, которые кажутся вам важнейшими. Вычислите еще несколько регрессий, включая в свой анализ некоторые из оставшихся Х-переменных (или все эти переменные), и выясните, действительно ли они влияют на прогнозиро вание переменной У. Наконец, выберите тот результат регрессии, который ка жется вам наиболее полезным. Несмотря на то что описанная процедура выглядит достаточно субъективной (поскольку зависит в основном от вашего субъективного мнения), ей присущи два важных преимущества. Во-первых, когда необходимо сделать выбор между двумя Х-переменными, которые практически одинаково объясняют поведение переменной У, окончательный выбор остается за вами (автоматизированная про цедура может в этом случае сделать менее содержательный выбор). Во-вторых, тщательно классифицировав по приоритетам свои независимые Х-переменные, вы можете глубже разобраться в исследуемой ситуации. Такое прояснение ре шаемой задачи может оказаться не менее полезным, чем результаты множест венной регрессии! Автоматизация процесса выбора переменных Если вы не хотите тратить время на глубокие размышления над исследуемой ситуацией и предпочитаете автоматизировать процесс выбора Х-переменных на основе имеющихся у вас данных, в вашем распоряжении есть немало способов достижения требуемого результата. К сожалению, “наилучшего” во всех отноше ниях способа автоматизации выбора переменных не существует. Ученые про должают поиск такого способа, однако уже сейчас имеются достаточно хорошие автоматические методы, позволяющие получить относительно компактный пере чень Х-переменных, обеспечивающих вполне качественное прогнозирование У. Наилучшим методом автоматического выбора переменных является анализ всех подмножеств Х-переменных. Если, например, вы располагаете тремя неза висимыми Х-переменными, из которых вам нужно сделать свой выбор, тогда, как показано в табл. 12.2.8, необходимо исследовать восемь подмножеств этих переменных. Если вы располагаете десятью Х-переменными, придется исследо вать уже 1024 различных подмножеств.15 Даже если у вас есть возможность вы числить такое количество регрессий, как вы узнаете, какое из подмножеств яв ляется наилучшим? Ученые-статистики предложили ряд технических методов, основанных на формулах, которые учитывают как дополнительную информа 15 Общая формула имеет следующий вид: из k Х-переменных можно сформировать 2 подмно жеств. 658 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ цию, содержащуюся в более крупных подмножествах, так и дополнительные сложности оценки.16 Один из широко практикуемых подходов называется пошаговым выбором. На каждом шаге переменная либо добавляется в список, либо удаляется из спи ска — в зависимости от своей “полезности”. Этот процесс продолжается до тех пор, пока список переменных не стабилизируется. Эта процедура выполняется быстрее, чем анализ всех подмножеств переменных, но в некоторых случаях он может не привести к нужному результату. Вот некоторые подробности, касаю щиеся процедуры пошагового выбора. 1. Инициализация. Существует ли такая Х-переменная, которая помогает объяснить У? Если нет, остановить процедуру пошагового выбора и сооб щить о том, что полезных Х-переменных обнаружить не удается. Если же такую переменную удалось обнаружить, поместите эту наиболее полезную Х-переменную в список (это одна из тех переменных, которые характери зуются наибольшим абсолютным значением корреляции с У). 2. Шаг включения переменной. Проанализируйте все Х-переменные, не включенные в список. Рассмотрите, в частности, ту Х-переменную, кото рая в наибольшей мере дополнительно объясняет У. Если это объяснение кажется вам достаточно важным, включите соответствующую Xпеременную в список. 3. Шаги удаления переменных. Имеется ли в созданном списке такая Xпеременная, которая в данный момент (после пополнения списка новыми переменными) кажется вам бесполезной? Если такая переменная в списке имеется, удалите ее, однако учтите, что, возможно, ее придется включить в список в дальнейшем. Продолжайте удалять бесполезные Х-переменные до тех пор, пока их не останется в списке. 4. Повторное выполнение до завершения процедуры. Повторяйте действия, указанные в пп. 2 и 3 до тех пор, пока в список нечего будет добавить и нечего будет удалить. Таблица 12.2.8. Список всех возможных подмножеств JT-переменных для Лг= 3 1 Пустое множество (для прогнозирования Кможно использовать только Y ) 2 л; 3 % 4 * 5 ХЬ Х, 6 7 КЛ 8 л ; ,* .* Хорошей мерой для выбора наилучшего подмножества Х-переменных в регрессии является Ср статистика М эллоуза (Mallow’s Ср statistic). Этот и другие подходы приведены в книге Draper N. R. and Smith Н. Applied Regression Analysis (New York: Wiley, 1981), Chapter 6; и в книге Seber G. A. F. Linear Regression Analysis (New York: Wiley, 1977), Chapter 12. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 659 Конечный результат процедуры пошагового выбора, как правило, представля ет собой весьма полезный и достаточно компактный список независимых (“объ ясняющих”) Х-переменных, который можно использовать в множественном рег рессионном анализе для объяснения У. Неправильный выбор модели: возможно, уравнение регрессии имеет неправильную форму? Даже если вам удалось получить хороший список Х-переменных, который содержит необходимую для объяснения У информацию, это вовсе не значит, что все проблемы уже решены. Вы можете столкнуться с неправильным выбором мо дели, т.е. с неудачным представлением конкретной исследуемой ситуации с по мощью модели множественной линейной регрессии. Ниже перечислены некото рые случаи неправильного выбора регрессионной модели. 1. Ожидаемая реакция У на Х-переменные может оказаться нелинейной. Иными словами, уравнение регрессии а + b iX t 4- Ь2Х 2 + ... + bkX k может неадекватно описывать истинную взаимосвязь между У и Х-переменными. 2. Может наблюдаться неравная изменчивость У. Тем самым нарушается предположение о том, что стандартное отклонение, о, в модели множест венной линейной регрессии является постоянным независимо от значений Х-переменных. 3. В данных не исключено наличие одного или нескольких резко отклоняю щихся значений или кластеров, что может серьезно исказить оценки рег рессии. 4. Вы можете иметь дело с временным рядом. Тогда случайная компонента модели множественной линейной регрессии уже не будет независимой от различных периодов времени. Вообще говоря, анализ временных рядов достаточно сложен (см. главу 14). Однако у вас есть возможность и в этом случае работать с множественной регрессией, пользуясь вместо исходных переменных соответствующими процентными изменениями переменных (между различными периодами времени). Некоторые из этих проблем можно выявить, проанализировав все диаграммы рассеяния, построенные для каждой возможной пары переменных (например, в случае k = 3 можно построить шесть диаграмм рассеяния: [Х 1?У], [Х 2,У], [Х 3,У], [X i, Х 2], [Х ь Х 3], [Х 2, Х 3]). Чтобы анализ ситуации получился полным, все эти диаграммы рассеяния необходимо хотя бы кратко исследовать, чтобы постарать ся выявить потенциальные проблемы и трудности. При этом следует помнить, что эти диаграммы рассеяния могут преувеличивать необходимость коррекции. Например, зависимость У от Х х может оказаться нелинейной, что само по себе может не представлять для вас проблемы. К счастью, существует более прямой метод, который зачастую позволяет вы явить наличие серьезных проблем. Диагностическая диаграмма представляет со бой отдельную диаграмму рассеяния остаточных значений в зависимости от про гнозируемых значений; такая диаграмма может позволить обнаружить наиболее 660 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ серьезные проблемы, включая нелинейность, неравную изменчивость и наличие выбросов (резко отклоняющихся значений). Таким образом, в качестве базовой информации можно использовать все диаграммы рассеяния для основных пере менных, а затем воспользоваться диагностической диаграммой как основой для принятия решения о необходимости внесения в анализ тех или иных изменений. Анализ данных с целью выявления нелинейности или неравной изменчивости Анализируя все возможные диаграммы рассеяния (каждая диаграмма соот ветствует определенной паре переменных), можно исследовать большую часть структуры взаимосвязей между этими переменными. Такой анализ зачастую может дать весьма полезные сведения об изучаемой ситуации. Однако всю структуру взаимосвязей исследовать таким способом все же невозможно. Напри мер, вы наверняка упустите из виду совместное влияние двух переменных на некоторую третью переменную, поскольку в каждом отдельном случае рассмат риваете только две переменные.17 Тем не менее основные диаграммы рассеяния дают немало полезной исходной информации. Вернемся к нашему предыдущему примеру с рекламными объявлениями в журналах, когда величину тарифа на размещение рекламы в журналах (У) необ ходимо объяснить величиной читательской аудитории (Х х), процентом читате лей-мужчин (Х 2) и средним доходом (Х3). Рассмотрим диаграммы рассеяния значений каждой из этих четырех переменных в зависимости от другой пере менной (рис. 12.2.1-12.2.6). Пригодится нам и корреляционная матрица, поскольку она позволяет полу чить общее представление о силе и направленности связи в каждой из этих диа грамм рассеяния (табл. 12.2.9). Как можно было бы подвести итог этого исследования диаграмм рассеяния и анализа корреляций? Самая сильная связь наблюдается между размером чита тельской аудитории и величиной тарифа на размещение рекламы в журналах (рис. 12.2.1); достаточно сильная связь наблюдается также между величиной средних доходов и процентом читателей-мужчин (рис. 12.2.6). Из диаграмм рас сеяния мы также узнаем, что журналы с наибольшей читательской аудиторией и самыми большими тарифами на размещение рекламы, как правило, ориентиро ваны на группу читателей со средними доходами, что приводит к проявлениям неравной изменчивости (рис. 12.2.3, 12.2.5). Представляет ли это проблему? Диагностическая диаграмма поможет вам ра зобраться, какие проблемы (если таковые действительно существуют) требуют особого внимания, и покажет, работает ли выбранное вами решение проблемы. 17 Некоторые компьютерные системы могут поворачивать диаграмму разброса точек в реаль ном времени, что позволяет визуально анализировать трехмерные диаграммы сразу для трех переменных! Различные методы исследования многомерных данных рассматриваются в книге Chambers J. М., Cleveland W. S., Kleiner В., and Tukey P. A. Graphical Methods for D ata A naly sis (Boston: Duxbury Press, 1983). ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 661 Использование диагностической диаграммы для выяснения наличия проблем Диагностическая диаграмма для множественной регрессии представляет со бой диаграмму рассеяния ошибок прогнозирования (остатков) в зависимости от прогнозируемых значений; она позволяет выяснить, можно ли повысить качест во прогнозирования, избавившись от соответствующих проблем в исходных дан18 ных. Значения остатков, У - [а + bxX i + Ь2Х 2 + ... + bkX k], откладываются по вертикальной оси, а прогнозируемые значения, а + bxX i + Ъ2Х 2 + ... + bkX k9 — по горизонтальной. Поскольку методы решения проблем достаточно сложны (уда ление резко отклоняющихся значений, преобразования данных и т.п.), проблему можно определить лишь в том случае, если она ясна и ярко выражена. Внимание! Не предпринимайте действий, если диагностическая диаграмма не дает ясного и четкого представления о проблеме. Диагностическая диаграмма “читается” в основном так же, как и любая дру гая двумерная диаграмма рассеяния (см. главу 11). В табл. 12.2.10 показано, как интерпретировать полученные результаты. Почему все происходит именно так, а не иначе? Остаточные значения пред ставляют собой необъясненные ошибки прогнозирования У, которые невозможно учесть с помощью модели множественной линейной регрессии, включающей Xпеременные. Прогнозируемые значения представляют собой текущее объяснение исходя из X ^переменных. Если в диагностической диаграмме наблюдается опре деленная достаточно сильная взаимосвязь, текущее объяснение можно и нужно улучшить, внеся изменения, учитывающие эту видимую взаимосвязь. На рис. 12.2.7 показана диагностическая диаграмма, относящаяся к примеру с рекламными объявлениями в журналах. Здесь величина тарифа на размещение рекламы в журналах (У) объясняется величиной читательской аудитории (Х х), процентом читателей-мужчин (Х 2) и средним доходом (Х 3). На диаграмме виден наклон; в нижнем правом углу отчетливо выделяются три резко отклоняющихся значения (выброса). Эти резко отклоняющиеся значения могут существенно ухудшать качество прогнозирования для остальных данных; если нам удастся каким-то образом избавиться от них, мы, возможно, повысим качество уравне ния прогнозирования. Гистограмма величины читательской аудитории, показанная на рис. 12.2.8, демонстрирует очень большую асимметрию, тогда как в гистограммах других переменных (эти гистограммы не показаны) такая асимметрия отсутствует. Не смотря на то что преобразовывать Х-переменные лишь по причине асимметрии нет большой необходимости, мы все же посмотрим, что произойдет, если преоб разовать переменную величины читательской аудитории (X х). 18 Прогнозируемые значения иногда называют подогнанными значениями (или вычисленными значениями). 662 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ На рис. 12.2.9 показана гистограмма для натуральных логарифмов величины читательской аудитории, log Х г (можно воспользоваться функцией LN в Excel).19 В результате такого преобразования нам в основном удалось избавиться от асимметрии распределения. Теперь посмотрим, улучшает ли такое преобразова ние величины читательской аудитории результат регрессии. Таблица 12.2.9. Корреляционная матрица для данных о размещении рекламных объявлений в журналах Рекламный тариф, К Читательская аудитория, Х1 Процент читателей- Медиана мужчин, Х2 дохода, Аз 0,872 -0,081 -0,167 -0,134 -0,353 Рекламный тариф, У 1,000 Читательская аудитория, А! 0,872 1,000 Процент читателеймужчин, Х2 -0,081 -0,134 1,000 0,564 Медиана дохода, Лз -0,167 -0,353 0,564 1,000 Таблица 12.2.10. Как интерпретировать диагностическую диаграмму зависимости значений остатков от прогнозируемых значений для множественной регрессии Структура в диагностической диаграмме Интерпретация Взаимосвязь отсутствует; совершенно случайное распределение, без наклона Вам повезло: никаких проблем не обнаружено. Возможно, некоторые улучше ния и необходимы, но диагностическая диаграмма не может их определить Линейная взаимосвязь с наклоном Невозможна сама по себе, поскольку найденное методом наименьших квадра тов уравнение регрессии, скорее всего, уже учитывает любую чисто линейную взаимосвязь Линейная взаимосвязь с наклоном и резко отклоняющимся значением (зна чениями) Резко отклоняющееся значение (значения) исказило коэффициенты регрессии и прогнозы. Прогнозы для той части данных, которые “ведут себя хорошо”, можно улучшить, если вы чувствуете, что резко отклоняющиеся значения мож но контролировать (возможно, с помощью некоторого преобразования) или проигнорировать* Нелинейная взаимосвязь, как правило, U-образной формы или повернутой llобразной формы В данных обнаружена нелинейная взаимосвязь. Качество ваших прогнозов можно повысить, либо выполнив преобразование, либо включив дополнитель ную переменную, либо воспользовавшись нелинейной регрессией Неравная изменчивость Оценка уравнения прогнозирования является недостаточно эффективной. Слишком большое значение имеет менее надежная часть данных, а наиболее надежная часть данных не имеет должного значения. Эту проблему можнр ре шить, преобразовав Y (возможно, наряду с некоторыми из Х-переменных) ^Преобразование никогда не следует применять исключительно для контроля резко отклоняющихся значений. Вы можете выполнить преобразование с целью снижения чрезмерной асимметрии и обнаружить, что прежние резко отклоняющиеся значения уже не являются таковыми. 19 Например, величина читательской аудитории журнала Audubon равна 1 645 (в тысячах че ловек). Натуральный логарифм (иногда обозначаемый как In) числа 1 645 равен 7,405. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 663 Рис. 12.2.1. Диаграмма рассеяния Y Рис. 12.2.2. Диаграмма рассеяния Y (тариф на размещение рекламы в (тариф на размещение рекламы в журналах) в зависимости от Х 1 журналах) в зависимости от Х 2 (величина читательской аудито ( процент читателей-мужчин ) де рии) демонстрирует сильную взаи монстрирует практически полное мосвязь увеличивающего типа отсутствие структуры Медиана дохода, тыс. Процент читателей-мужчин Рис. 12.2.3. Диаграмма рассеяния Y Рис. 12.2.4. Диаграмма рассеяния ( тариф на размещение рекламы в (величина читательской аудито журналах) в зависимости от Х 3 рии) в зависимости от Х 2 (про цент читателей-мужчин) демон (медиана дохода), на первый взгляд, демонстрирует практиче стрирует практически полное от ски полное отсутствие структу сутствие структуры ( в лучшем ры. Более пристальное ее исследо случае такая структура едва про вание, однако, указывает на суще сматривается ) ствование некоторой тенденции к использованию низкого тарифа на размещение рекламы в журналах в двух крайних точках ( низкие и высокие доходы), а также к высо кой изменчивости рекламного та рифа для группы читателей со средними доходами. Может ока заться достаточно затрудни тельным использовать высокие рекламные тарифы на нижнем конце шкалы доходов ( поскольку такие читатели просто мало тратят), а также на ее верхнем конце ( поскольку читателей с такими доходами слишком мало) 664 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Читательская аудитория, млн Медиана дохода, тыс. Рис. 12.2.5. Диаграмма рассеяния X t ( величина читательской аудито рии) в зависимости от Х 3 (медиа на дохода) показывает, что жур налы, располагающие большой чи тательской аудиторией, как правило, ориентируются на чи тателей со средними доходами, но внутри этой группы наблюдается значительная изменчивость. Крайним значениям (высокие и низкие доходы) обычно соответ ствует незначительная по вели чине аудитория Рис. 12.2.6. Диаграмма рассеяния Х 2 ( процент читателей-мужчин) в зависимости от Х 3 (медиана дохо да) свидетельствует о существо вании связанных с полом различий в уровне дохода. Журналы, ориен тированные на читателей с высо ким уровнем доходов, как правило, располагают более высоким про центом читателей-мужчин; среди читателей журналов, ориентиро ванных на читателей с низким уровнем доходов, как правило, встречается больше женщин. У журналов, ориентированных на читателей со средним уровнем до ходов, наблюдается большой раз брос по признаку пола читателей Рис. 12.2.7. Эта диагностическая диаграмма демонстриру ет некоторую возможно необъясненную структуру в остатках: обратите внимание на наклон вверх ос новной части диаграммы рассеяния, действительной причиной которого может быть наличие трех резко отклоняющихся значений внизу справа. Это — диаг ностическая диаграмма множественной регрессии ос новных переменных для объяснения тарифа на разме щение рекламы в журналах (Y ) с помощью величины читательской аудитории (Xj ), процента читателеймужчин ( Х 2) и медианы дохода ( Х 3) ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 665 40 30 20 10 U _______ ________ ____ I___ ___ _____________________________ 25 50 Читательская аудитория Рис. 12.2.8. Гистограмма размера читательской аудито рии (Х х ) демонстрирует очень большую асимметрию 20 , 15 10 5 i__ 1 6 7 I 8 I I 9 1 I I___________ 10 11 12 Логарифм величины читательской аудитории Рис. 12.2.9. Н а гистограмме логарифма размера ч и т а тельской аудитории асимметрия о т с у т с т в у е т В табл. 12.2.11 представлены результаты множественной регрессии после пре образования величины читательской аудитории с помощью натурального логариф ма. Теперь переменные представляют собой величину тарифа на размещение рек ламы в журналах (У), объясняемую натуральным логарифмом величины читатель ской аудитории (новая переменная Х х), процентом читателей-мужчин (Х 2) и медианой дохода (Х3). Можно отметить несколько небольших улучшений: улуч шилось (т.е. увеличилось, что свидетельствует о лучшем объяснении Y ) с 78,7 до 80,5% значение i f , а стандартная ошибка оценки несколько уменьшилась с $21 578 до $20 662. Можно сказать, что выполненное нами преобразование позво ляет лучше понять и прогнозировать тариф на размещение рекламы в журналах. Диагностическая диаграмма для этой регрессии, представленная на рис. 12.2.10, определенно отличается от диагностической диаграммы для исход ных данных (рис. 12.2.7): в частности, три потенциально резко отклоняющихся значения теперь находятся среди остальных данных. Однако возникла новая проблема: в данных просматривается определенная нелинейность (с обеих сторон диаграммы наблюдается некоторый подъем). Здесь есть определенный потенциал для улучшения соответствия между уравнением и данными. 666 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Теперь давайте попытаемся преобразовать все переменные, которые измеряют количество (т.е. тариф на размещение рекламы в журналах, медиану дохода и размер читательской аудитории), одинаковым способом — с помощью натураль ных логарифмов.20 В табл. 12.2.12 представлены результаты множественной регрессии после преобразования с помощью натурального логарифма тарифа на размещение рекламы в журналах, медианы дохода и величины читательской ау дитории. Теперь мы имеем логарифм тарифа на размещение рекламы в журна лах (новая переменная У), который объясняется с помощью логарифма величи ны читательской аудитории (новая переменная Х^), процента читателей-мужчин (Х 2) и логарифма медианы дохода (новая переменная Х 3). Значение В2 повыша ется весьма несущественно, что свидетельствует о незначительном общем улуч шении. Стандартное отклонение оценки теперь представлено в логарифмической шкале для тарифа на размещение рекламы в журналах, и поэтому его невоз можно непосредственно сравнивать с предыдущими значениями.21 Диагностиче ская диаграмма подскажет, насколько полезными оказались выполненные пре образования. Диагностическая диаграмма для этой регрессии, показанная на рис. 12.2.11, свидетельствует о том, что с проблемой нелинейности нам удалось справиться, преобразовав с помощью логарифма величину тарифа на размещение рекламы в журналах, величину читательской аудитории и медиану дохода. Таблица 12.2.11. Результаты множественной регрессии после логарифмирования размера читательской аудитории Уравнение регрессии имеет следующий вид: тариф на размещение рекламы = -370068 + 45730 log (аудитория) + 6 (процент мужчин) + 0,823 (доход). Независимая переменная Коэффициент Стандартное отклонение t Р Константа -370068 37101 -9,97 0,000 log Аудитория 46730 3281 14,24 0,000 Процент мужчин 6,2 131,5 0,05 0,963 Доход 0,8232 0,3516 2,34 0,023 S = 20662 R-квадрат = 80,5% Р-квадрат(коррект.) = 79,3% 20 Если какая-либо переменная (в другой ситуации) содержит как положительные, так и отри цательные значения, выполнение преобразования может вызвать некоторые затруднения и ло гарифм в этом случае невозможно использовать, поскольку для нулевого и отрицательных значений он не определен. В некоторых ситуациях можно попытаться переопределить пере менную таким образом, чтобы она всегда была положительной. Если, например, она представ ляет собой прибыль (= доход - затраты), можно попытаться использовать вместо такой пере менной отношение “доход/затраты”. Тогда соответствующий логарифм примет следующий вид: 1о£(доход/затраты) = 1о£(доход) - 1о£(затраты). Этот логарифм можно представить себе как ото бражение прибыли на процентной, а не на абсолютной “долларовой” шкале. 21 Интерпретация результатов множественной регрессии в случае использования логарифмов будет изложена ниже в этой главе. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 667 Окончание табл. 12.2.11 Дисперсионный анализ Источник DF SS MS F Р Регрессия 3 89752141196 29917380399 70,07 0,000 Ошибка остатка 51 21773821157 426937670 Итого 54 1.11526Е+11 Источник DF SeqSS log Аудитория 1 86384353889 Процент мужчин 1 1027578479 Доход 1 2340208827 Необычные наблюдения Наблю дения 2 log Аудитория 10,5 Тариф на рекламу Соответствие 198000 153262 Стандартное отклонение соответствия Остаток Стандартизованный остаток 5754 44738 2.25R 20 9,6 63750 111463 4158 -47713 —2,36R 48 8,2 17100 25386 11147 -8286 -0,48Х 54 8,1 87500 45511 5541 41989 2,11R R помечает наблюдение с большим стандартизованным остатком. X помечает наблюдение, Х-значение которого обеспечивает ему существенное влияние. 'аГ I 60 г 6 3 9 30 3 2Е Л Iе 0 ° -30 -60 50 100 150 200 25С Прогнозируемые значения, тыс. Рис. 12.2.10. Диагностическая диа грамма после логарифмирования величины читательской аудито рии. В данном случае проблему может представлять нелиней ность ( наблюдается тенденция к подъему кривой на обоих концах) 668 Прогнозируемые значения (логарифмическая шкала) Рис. 12.2.11. На этом рисунке представ лена прекрасная диагностическая диаграмма — без каких-либо потен циальных проблем в данных. После логарифмирования тарифа на раз мещение рекламы в журналах ( Y), величины читательской аудитории ( Xi ) и медианы дохода ( Х3) какойлибо взаимосвязи не наблюдается. Только процент читателей-мужчин ( Х2) остался не преобразованным ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.2.12. Результат множественной регрессии после логарифмирования тарифа на размещение рекламы в журналах, величины читательской аудитории и медианы дохода Уравнение регрессии имеет следующий вид: log Тариф на размещение рекламы = -3,44 +0,578 (log Аудитория) - 0,00163 (процент мужчин) + 0,890 (log Доход). Независимая переменная Коэффициент Стандартное отклонение t р -1,71 0,093 Константа -3,441 2,011 log Аудитория 0,57847 0,04023 14,38 0,000 - 0,001635 0,001613 -1,01 0,316 0,8897 0,1793 4,96 0,000 Процент мужчин log Доход S = 0,2603 R-квадрат (коррект.) = 79,4% R-квадрат = 80,5% Дисперсионный анализ Источник DF SS MS F Р Регрессия 3 14,2737 4,7579 70,22 0,000 Ошибка остатка 51 3,4557 0,0678 Итого 54 17,7294 Источник DF SeqSS log Аудитория 1 12,4115 Процент мужчин 1 0,1945 log Доход 1 1,6677 Необычные наблодения Соответствие Стандартное отклонение соответствия Остаток Стандартизованный остаток Наблюдения log log Тариф Аудитория на рекламу 9 8,3 10,2421 10,8394 0,0705 -0,5973 -2,38R 48 8,2 9,7468 9,8707 0,1889 -0,1239 -0.69Х 0,6158 2,46R 0,5079 2,01 R 54 8,1 11,3794 10,7636 0,0707 55 8,0 11,2019 10,6940 0,0629 R помечает наблюдения с большим стандартизованным остатком. X помечает наблюдение, Х-значение которого обеспечивает ему существенное влияние. Использование процентных изменений для моделирования экономических временных рядов Одно из предположений относительно модели множественной линейной рег рессии заключается в том, что случайная компонента (е) не зависит от конкрет ных значений данных. Когда вы имеете дело с данными временного ряда, это ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 669 предположение часто необоснованно, поскольку изменения при переходе от од ного периода к следующему, как правило, весьма незначительны; тем не менее, за более длительные периоды времени возможны более значительные изменения. Еще одним способом понять эту проблему является признание того факта, что многие экономические временные ряды с течением времени возрастают: напри мер, валовой национальный продукт, доход после уплаты налогов и,-смеем на деяться, объем продаж вашей фирмы. Множественная регрессия одной такой пе ременной (У) на другие (Х-переменные) будет характеризоваться высоким значе нием i f , что предполагает наличие сильной связи. Но если каждый такой временной ряд возрастает с течением времени самостоятельно, присущим лишь ему одному способом и безотносительно остальных, это может привести к за блуждению. На самом деле вывод о наличии значимой связи можно сделать лишь в том случае, если способ увеличения У с течением времени можно прогно зировать на основе увеличения Х-переменных. Один из способов решения этой проблемы заключается в том, чтобы работать с процентными изменениями каждой переменной, которые определяются соот ношением (текущее - предыдугцее)/предыдущее и представляют собой процент приращения соответствующей переменной за один период. Поступая так, вы ни чего не теряете, поскольку проблему прогнозирования можно рассматривать ли бо как прогнозирование изменения по отношению к текущему уровню Y, либо как прогнозирование будущего уровня У. Представим себе систему, которая в каждый период времени пребывает в со стоянии относительного равновесия, но претерпевает определенные изменения при переходе от одного периода к следующему. В действительности вас интересует, как воспользоваться информацией об Х-переменных для прогнозирования очередного значения интересующей вас переменной У. Одна из проблем заключается в том, что ваша совокупность данных представляет прошлую “историю” Х-значений, ко торые уже не имеет смысла рассматривать как возможности. Работая с процент ными изменениями, вы делаете эту прошлую “историю” более пригодной для сво его текущего опыта. Иными словами, несмотря на то что объем продаж вашей фирмы наверняка существенно отличается от того, каким он был пять лет назад, процентные изменения объемов продаж между одним годом и следующим могут не очень существенно отличаться на протяжении длительного периода времени. Либо, если вы используете валовой национальный продукт (ВНП) для прогнозиро вания какой-то другой переменной, то, несмотря на то что абсолютное значение ВНП наверняка не будет таким же, каким оно было 10 лет назад, можно вполне рассчитывать примерно на такой же прирост (процентное изменение) ВНП. Это можно представить себе следующим образом. Система в состоянии равно весия может обнаруживать тенденцию примерно к одинаковому изменению на протяжении длительного времени — несмотря на то, что с течением времени ее состояние может существенно измениться. Может оказаться, что ваше значение i f пострадает, если вы воспользуетесь процентными изменениями вместо исходных значений данных. В некоторых слу чаях регрессия может потерять свою значимость. Поначалу это может “произвести плохое впечатление” (ну кто же не любит больших значений ifl), но более внима тельный анализ нередко показывает, что первоначальное значение Я2 было черес чур оптимистическим, а новое, меньшее значение оказывается ближе к истине. 670 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Пример. Прогнозирование дивидендов Как американские фирмы устанавливают свои дивиденды? На первый взгляд, можно прийти к выводу, что дивиденды в точности соответствуют ежегодному уровню продаж товаров недлительного пользования. Если, однако, пользоваться методом процентных изменений, то можно прийти к выводу, что объяснить изменения дивидендов не так-то просто. Обратите внимание, что каждый из столбцов в табл. 12.2.13 свидетельствует об общем увеличении соот ветствующих переменных с течением времени. Следует, таким образом, предположить наличие сильной корреляции между этими переменными, поскольку высокие значения одной из них соответствуют высоким значениям других. Именно это мы и наблюдаем в корреляционной матрице, показанной в табл. 12.2.14. Ничего удивительного нет и в чрезвычайно высоком значении R2, указывающем на то, что впечатляющие 94,7% вариации дивидендов объясняются объемами продаж товаров недлительного и долговременного пользования. Однако это не имеет ничего общего с действительностью! Точнее говоря, в историческом контексте это, конечно, правильно, однако для прогнозирования будущих уровней дивидендов это мало что дает. В табл. 12.2.15 показаны процентные изменения этих переменных. Например, величина изменения ди видендов в 1991 г. составляет (163 - 152)/152 = 7,24%. (Обратите внимание, что данные за 1990 г. отсутствуют, поскольку в исходной совокупности нет данных за предшествующий год.) Матрица корре ляций, представленная в табл. 12.2.16, свидетельствует о значительно более умеренной связи между из менениями этих переменных при переходе от одного года к следующему. В сущности, при столь малом размере выборки (п = 6 для процентных изменений) ни одна из этих парных корреляций даже не является значимой. Величина R2 для множественной регрессии процентных изменений снизилась до 24,7%, Таблица 12.2.13. Дивиденды, объемы продаж товаров недлительного и долговременного пользования Год Дивиденды (млрддол.), К Объемы продаж товаров долговре Объемы продаж товаров недли тельного пользования (млрд дол.), Х1 менного пользования (млрд дол.), Х2 1990 152 1454 1357 1991 163 1457 1304 1992 170 1 500 1 390 1993 197 1 524 1490 1994 211 1 601 1 660 1995 227 1 715 1 804 1996 244 1 820 1934 Данные взяты из таблиц 877 и 881 Бюро переписи населения США, Statistical Abstract of the United States: 1997(\ 17th edition) Washington, DC, 1997. Таблица 12.2.14. Матрица корреляций для дивидендов, объемов продаж товаров недлительного и долговременного пользования Дивиденды, Товары недлительного Товары долговременного пользования, Х2 пользования, Xf К Дивиденды, Y 1,000 0,955 0,973 Товары недлительного пользования, Х1 0,955 1,000 0,986 Товары долговременного пользования, Х2 0,973 0,986 1,000 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 671 а F-тест уже не является значимым. Это указывает на то, что изменения в уровне объемов продаж това ров недлительного и долговременного пользования не позволяют пояснить изменение величины дивиден дов при переходе от одного года к следующему. С экономической точки зрения регрессионный анализ с помощью процентных изменений можно считать более оправданным. Колебания уровня дивидендов в экономике представляют собой сложный процесс, включающий взаимодействие множества факторов. Вследствие особенностей американской налоговой системы и явной неприязни инвесторов к внезапным изменениям в уровне дивидендов вряд ли можно рассчитывать на то, что колебания уровня дивидендов будут почти полностью объясняться исключительно объемами продаж. Таблица 12.2.15. Годовые процентные изменения дивидендов, объемов продаж товаров недлительного и долговременного пользования Год Дивиденды (годовое изменение), К % Объемы продаж товаров недлительного пользования (годовое изменение), Хи % Объемы продаж товаров долговременного пользования (годовое изменение), X % - - 1991 7,24 0,21 -3,91 1992 4,29 2,95 6,60 1993 15,88 1,60 7,19 1994 7,11 5,05 11,41 1995 7,58 7,12 8,67 1996 7,49 6,12 7,21 1990 - Таблица 12.2.16. Матрица корреляций для процентных изменений дивидендов, объемов продаж товаров недлительного и долговременного пользования Дивиденды, Товары недлительного Товары долговременного пользования, Х^ К пользования, Хл Дивиденды, Y Товары недлительного пользования, Товары долговременного пользования, Х1 1,000 -0,287 0,077 -0,287 1,000 0,718 0,077 0,718 1,000 12.3. Нелинейные взаимосвязи и неравная изменчивость Методы множественной регрессии, которые мы до сих пор обсуждали, осно вываются на линейной модели множественной регрессии, которая характеризу ется постоянной изменчивостью. Если вашей совокупности данных не присуща подобная линейная взаимосвязь, на что может указывать диагностическая диа грамма, которую мы исследовали выше, у вас есть три варианта действий. Пер вые два предусматривают применение множественной регрессии и описаны в на стоящем разделе. 672 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ 1. Преобразовать некоторые ( или все) переменные. Преобразуя одну или не сколько переменных (например, с помощью логарифмов), иногда удается получить новую совокупность данных, характеризующуюся линейной взаимосвязью. Помните, что логарифмы можно использовать для преобра зования лишь положительных чисел. Если ваша совокупность данных ха рактеризуется неравной изменчивостью, с этой проблемой можно спра виться путем преобразования У и (возможно) некоторых из Х-переменных. 2. Ввести новую переменную. Ввод дополнительной, необходимой перемен ной X (например, X I , “Х г в квадрате”) иногда позволяет получить линей ную взаимосвязь между У и новой совокупностью Х-переменных. Такой метод может быть удачным, когда вам требуется найти оптимальное зна чение У, например максимизировать прибыль или выпуск продукции. В других ситуациях можно использовать произведения переменных (напри мер, определив Х 5 = Х х х Х 2), чтобы уравнение регрессии отражало взаи модействие между этими двумя переменными. 3. Использовать нелинейную регрессию. Иногда в данных может присутство вать важная нелинейная взаимосвязь (возможно, имеющая под собой оп ределенное теоретическое обоснование), которую необходимо оценить не посредственно. В таких случаях можно воспользоваться более сложными методами нелинейной регрессии — если нам известны вид этой взаимосвя« 22 зи и вид случайности. Преобразование взаимосвязи в линейную форму: интерпретация результатов Выполняя преобразование своих данных, следует иметь в виду одну полезную рекомендацию. Чтобы избежать чрезмерного усложнения задачи, пытайтесь ис пользовать одно и то же преобразование для всех переменных, которые измеря ются в одних и тех же единицах. Если, например, вы логарифмируете объем продаж (который измерен в долларах или тысячах долларов), вам, вероятно, следует преобразовать таким же способом и все другие переменные, измеренные в долларах. При этом долларовые величины для всех соответствующих перемен ных будут измеряться по процентной шкале, а не по абсолютной “долларовой” шкале (именно в этом и заключается результат логарифмирования). Правило соответствия дня преобразования многомерных данных Ко всем переменным, измеренным в одинаковых базовых единицах, желательно применять одно и то же преобразование. Если вы выполняете множественный регрессионный анализ после преобразова ния всех или некоторых из переменных, то некоторые результаты могут требовать новой интерпретации. В этом разделе будет показано, как интерпретировать ре зультаты множественного регрессионного анализа, когда либо (1) У не подвергает 22 Введение в нелинейную регрессию можно найти в книге Draper N. R. and Smith Н. Applied Regression Analysis, 2nd ed. (New York: Wiley, 1981), Chapter 10. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 673 ся преобразованиям (т.е. преобразуются лишь некоторые или все Х-переменные), либо (2) У преобразуется с помощью натурального логарифма (независимо от того, преобразуются все или некоторые из Х-переменных). Переменная У играет особую роль, поскольку именно ее мы пытаемся прогнозировать. Поэтому преобразование У переопределяет смысл ошибки прогнозирования. Табл. 12.3.1 содержит интерпретацию основных результатов компьютерных вычислении: коэффициента детерминации, i f ; стандартной ошибки оценки, Se; коэффициентов регрессии, bt; и проверки значимости для bt в случае использова ния преобразований.23 Включена также процедура нахождения с помощью урав нения регрессии прогнозируемых значений У. Значение i f имеет одну и ту же базовую интерпретацию, независимо от того, как именно вы преобразуете свои переменные.24 Это значение говорит о том, ка кая доля изменчивости вашего текущего У (в любой — преобразованной или не преобразованной — форме) объясняется текущей формой Х-переменных. Стандартная ошибка оценки, S e, имеет разную интерпретацию в зависимости от того, выполнялось ли преобразование У. Если переменная У не преобразовы валась, применяется обычная интерпретация (типичная величина ошибок про гнозирования), поскольку прогнозируется сама переменная У. Однако если в регрессионном анализе используется log У, то У фигурирует в регрессии в про центах, а не в абсолютных значениях соответствующих единиц измерения. Под ходящей мерой относительной изменчивости, в соответствии с материалом главы 5, является коэффициент вариации, поскольку та же изменчивость процентов будет как для высоких, так и для малых прогнозируемых значений У. Формула для этого коэффициента вариации в табл. 12.3.1 базируется на теории логнормального распределения. 2 5 Коэффициенты регрессии, Ьь если переменная У не подвергалась преобразова ниям, имеют обычную интерпретацию: они показывают ожидаемое влияние уве личения X t на У, причем единица увеличения X f зависит от того, какому преобра зованию подвергалась X t. Если же переменная У подвергалась преобразованиям, то bt указывает на изменение в преобразованной переменной У. Если вы использовали и логарифм переменной У, и логарифм X i9 то Ьь имеет специальную экономиче скую интерпретацию эластичности. Эластичность У по отношению к X* представ ляет собой ожидаемое процентное изменение У, связанное с увеличением X* на 1% при неизменных значениях других Х-переменных; эластичность оценивается с по мощью коэффициента регрессии из уравнения, где используются натуральные ло 23 Взаимосвязи между переменными легче интерпретировать, если для преобразования У ис пользовать натуральный логарифм (по основанию е = 2,71828..., иногда, в отличие от лога рифма по основанию 10, в таком случае используют обозначение “In”). Здесь мы предполагаем, что каждое преобразование является “приемлемым” — в том смыс ле, что оно не изменяет взаимной упорядоченности наблюдений и является относительно “гладкой” функцией. Считается, что случайная переменная имеет логнормальное распределение , если распределе ние ее логарифма является нормальным. Можно указать несколько превосходных технических описаний этого распределения, в том числе книги Johnson N. L. and Kotz S. Continuous Uni variate Distributions (New York: Wiley, 1970), Chapter 14; и Aitchison J. and Brown J. A. C. The Lognormal Distribution (London: Cambridge University Press, 1957). Логнормальное распределе ние также имеет большое значение в теории ценообразования финансовых опций. 674 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ гарифмы как У, так и X*. Таким образом, эластичность — это почти то же самое, что и коэффициент регрессии, за исключением того, что изменения выражаются в процентах, а не в исходных единицах измерения. Проверка значимости для коэффициента регрессии bt сохраняет свою обыч ную интерпретацию для любых приемлемых вариантов преобразования. Глав ный вопрос заключается в следующем: оказывает ли X* ощутимое влияние на Y (при условии, что другие Х-переменные остаются неизменными) или Y ведет се бя случайно по отношению к X*? Поскольку ответом на этот вопрос является не подробное описание, а лишь “да” или “нет”, основной предмет проверки остается тем же, независимо от того, выполняем мы логарифмическое преобразование или нет. Разумеется, в каждом отдельном случае проверка значимости выполня ется по-своему, а полученные результаты оказываются наилучшими в том слу чае, когда используемые вами преобразования приводят к линейной модели множественной регрессии для ваших данных. Прогнозирование Y весьма существенно зависит от того, подвергалась ли Y преобразованиям. Если переменная Y не подвергалась преобразованиям, уравне ние регрессии прогнозирует Y непосредственно. Достаточно для каждой X* взять соответствующим образом преобразованные значение, умножить его на коэффи циент регрессии bi9 сложить все эти произведения, добавить а — и вы получаете прогнозируемое значение У. Преобразование переменной Y с помощью натурального логарифма может привести к коррекции имеющейся до преобразования у переменной Y асиммет рии. Использование в уравнении регрессии надлежащим образом преобразован ных значений Х-переменных дает прогноз log У. Новая процедура прогнозирова ния исходной (непреобразованной) переменной У, представленная в приведенной выше таблице, делает две вещи. Во-первых, путем экспоненцирования прогнози рованное значение log У преобразуется к исходным единицам У. Во-вторых, кор рекция асимметрии (основанная на S e) увеличивает это значение, отражая тот факт, что среднее значение больше, чем медиана или мода для этого вида асим метричного распределения. Пример. Рекламные объявления в журналах: использование преобразования и интерпретация В табл. 12.3.2 представлены результаты множественной регрессии для нашего примера с рекламными объявлениями в журналах после преобразования с помощью логарифма тарифа на размещение рекла мы в журналах, величины читательской аудитории и медианы дохода. Теперь мы имеем дело с логариф мом тарифа на размещение рекламы в журналах (новая переменная У), который объясняется логариф мом величины читательской аудитории (новая переменная X]), процентом читателей-мужчин (перемен ная Х2) и логарифмом медианы дохода (новая переменная Х3). Попытаемся интерпретировать полученные результаты. Значение R2=80,5% интерпретируется обычным образом, как и в терминах исходных (непреобразованных) переменных. Это значение свидетельствует о том, что 80,5% изменчивости величины тарифа на размещение рекламы в различных журналах могут объясняться известными для каждого журнала значе-2 6 ниями размера читательской аудитории, процента читателеи-мужчин и медианы дохода читателей. 26 т я Конкретной мерой изменчивости, используемои в нашем случае, является дисперсия изме ренного на логарифмической шкале тарифа на размещение рекламы в журналах, объясняемая ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 675 Смысл R2 не меняется, независимо от того, проводились ли логарифмические преобразования, но детали несколько разнятся. Стандартная ошибка оценки, Se = 0,2603, получает новую интерпретацию. Чтобы придать смысл этому числу (которое буквально означает типичную величину ошибок прогнозирования на логарифмической шкале), воспользуемся следующим уравнением: л/2,71828,s*' -1 = V2,71828|0-2,S03J|-1 = V 2-71828006774-1 = ,/1,0701-1 = 0,265, или 26,5%. Таблица 12.3.1. Интерпретация множественной регрессии с использованием преобразования Если переменная Кне преобразовывалась Если использовалось натуральное логарифмирование К ft Обычнаяинтерпретация. Процент изменчивости У, объясняемый Xпеременными (возможно, преобразованными) Обычнаяинтерпретация. Процент изменчивости перемен ной К(преобразованной), который объясняется X- перемен ными (возможно, преобразованными) Se Обычнаяинтерпретация. Приблизительная величина ошибок прогнозирования У Ы Обычнаяинтерпретация. Ожидаемое влия ние единичного изменения (возможно, преобразованного) на У, когда все осталь ное не меняется Тест значиОбычнаяинтерпретация. Влияет ли X,на У, мости для bj когда все другие /переменные остаются неизменными? Новаяинтерпретация. Коэффициентвариацииошибок про гнозирования У который задается выражением* Л2,71828([(Sf) 1 Аналогичнаяинтерпретация. Ожидаемое влияние единично го изменения ^(возможно, преобразованного) на log К Ес ли и ^преобразовано с помощью логарифма, то Ь,также называются эластичностью Кпо отношению к X- ожидаемое влияние (в процентных единицах У) изменения Xfна 1%, ко гда все остальное не меняется Обычнаяинтерпретация. Влияет ли % на У, когда все другие /-переменные остаются неизменными? Прогнозиров Обычнаяпроцедура. Использовать уравне- Новаяпроцедура. Начните с использования уравнения рег рессии для прогнозирования log Кна основании / ание У ние регрессии для прогнозирования Кна основании /переменных, сначала преобра переменных, сначала преобразовав /переменные. Затем найдите прогнозируемое значение Y, воспользовавшись зовав /-переменные следующим выражением1: 2 71828[(1/2)^ +Прооюэируемоезначениедля100 * Предостережение. Этот коэффициент вариации может оказаться недостоверным в случае, если он принимает значения, существенно превышающие 1 (или 100%), поскольку в таких случаях очень большая асимметрия затрудняет оценивание средних и стандартных отклонений. *Это выражение прогнозирует ожидаемое (т.е. среднее) значение К для заданных значений ^переменных. Если же требуется прогнозировать медианное значение У, можно воспользоваться следующей, более простой формулой: о 7 1 Q о «(Прогнозируемое значение для log У) в рамках модели множественной линейной регрессии с помощью логарифма величины чита тельской аудитории, процента читателей-мужчин и логарифма среднего дохода. 676 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.3.2. Распечатка результатов множественной регрессии после логарифмического преобразования тарифа на размещение рекламы в журналах, величины читательской аудитории и среднего дохода Уравнение регрессии имеет следующий вид: log Тариф на размещение рекламы = -3,44 +0,578 (log Аудитория) - 0,00163 (процент мужчин) + 0,890 (log Доход). Независимая переменная Коэффициент -3,441 Константа log Аудитория Процент мужчин 2,011 t р -1,71 0,093 0,57847 0,04023 14,38 0,000 -0,001635 0,001613 -1,01 0,316 0,8897 0,1793 4,96 0,000 log Доход S = 0,2603 Стандартное отклонение R-квадрат (коррект.) = 79,4% R-квадрат = 80,5% Дисперсионный анализ Источник DF SS MS F Р 70,22 0,000 Регрессия 3 14,2737 4,7579 Ошибка остатка 51 3,4557 0,0678 Итого 54 17,7294 Источник SeqSS DF log Аудитория 1 12,4115 Процент мужчин 1 0,1945 log Доход 1 1,6677 Необычные наблюдения Наблюдения log log Тариф Соответствие Стандартное отклонение Аудитория на рекламу соответствия 9 8,3 10,2421 Остаток Стандартизованный остаток 10,8394 0,0705 -0,5973 -2.38R 48 8,2 9,7468 9,8707 0,1889 -0,1239 -0,69Х 54 8,1 11,3794 10,7636 0,0707 0,6158 2.46R 55 8,0 11,2019 10,6940 0,0629 0,5079 2,01 R Rобозначает наблюдение со значительным стандартизованным остатком. X обозначает наблюдение, на которое Х-значение обеспечивает существенное влияние. Это свидетельствует о том, что ваша ошибка прогнозирования в типичном случае составляет 2 6,5% от прогнозируемого значения. Если, например, ваш прогнозируемый тариф на размещение рекламы в жур нале равен $100 ООО, вариация составляет 26,5% от этого значения, или $26 500, что дает стандартную ошибку оценки для тарифа на размещение рекламы в журналах, которое вполне применимо к такого рода очень большим журналам. Если же ваш прогнозируемый тариф на размещение рекламы в журна лах равен $20 ООО, взяв 26,5% от этого значения, получим $5 300 как соответствующую стандартную ошибку для подобного рода небольших журналов. В том, что стандартная ошибка оценки должна зави ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ . 677 сеть от масштаба журнала, есть определенный смысл, поскольку большие журналы имеют гораздо боль ше возможностей для изменчивости, чем небольшие. Коэффициент регрессии I?] = 0,578 (для логарифма величины читательской аудитории) представляет со бой эластичность, поскольку преобразование с помощью натуральных логарифмов использовалось и для У. Таким образом, увеличение читательской аудитории на 1% позволяет нам рассчитывать на увеличение тарифа на размещение рекламы в журнале на 0,578%. Это указывает на наличие эффекта уменьшенно го отклика, в результате которого увеличение читательской аудитории на 1% приводит к несколько меньшему (т.е. меньше, чем на 1% ) увеличению тарифа на размещение рекламы. У вас может возник нуть вопрос, действительно ли это уменьшение является значимым или коэффициент Ь, = 0,578, по суще ству, равен 1 — если не принимать во внимание действие случайного фактора. Ответ заключается в том, что указанное заданное значение 1 находится за пределами доверительного интервала для Ь, (который расположен между 0,498 и 0,659), а это свидетельствует о значимом уменьшении. К этому выводу мож но было бы прийти и другим путем — вычислив f-статистику: t = (0,578 - 1J/0.0402 = -10,5. Оказывает ли величина читательской аудитории значимое влияние на величину рекламного тарифа, если процент читателей-мужчин и средний доход остаются неизменными? Ответ на этот вопрос является по ложительным, о чем свидетельствует обычный f-тест значимости в данной множественной регрессии. К этому выводу можно прийти на основе р-значения (в табл. 12.3.2 это значение равняется 0,000 для не зависимой переменной "lo g Аудитория"). И наконец, давайте определим прогнозируемое значение У для журнала Audubon. Это значение будет несколько отличаться от прогнозируемого значения, вычисленного намного раньше в этой главе; к тому же оно оказывается несколько лучшим, так как до преобразования исследуемые данные не соответство вали модели линейной множественной регрессии. Прогнозирование У выполняется в два этапа: сначала мы прогнозируем log У непосредственно из уравнения регрессии, а затем используем 5е для получения прогнозируемого значения. Журнал Audubon характеризуется следующими значениями: X, = 1 645 (т.е. читательская аудитория этого журнала равна 1,645 миллиона человек), Х2 = 51,1 (указывает на то, что среди читателей этого журнала 51,1% мужчин) и ХЗ = $38 787 (указывает медиану дохода семьи читателей этого журнала). Преобразуя в уравнении регрессии величины читательской аудитории и среднего дохода с помощью ло гарифма, находим прогнозируемое значение для log (тариф на размещение рекламы в журналах) для журнала Audubon. Прогнозируемое значение log (тариф на размещение рекламы в журналах) = -3,441 + 0,57847 х 1од(Аудитория) - 0,001635(процент читателей-мужчин) + + 0,8897 х1од(Доход) = -3,441 + 0,57847 х log(l 645)-0,001635(51,1) + + 0,8897 х 1од(38 787) = -3,441 + 0,57847 х 7,4055 - 0,001635(51,1) + + 0,8897 х 10,5658 = -3,441 + 4,2839-0,0835 + 9,4004= 10,160. Чтобы найти прогнозируемое значение тарифа на размещение рекламы в журналах, нужно выполнить следующий этап: прогнозируемый тариф на размещение рекламы в журналах = в Н1/2)5^+прогнозирУвмов значение для log y \ = 2,71828l(1/2,0,26032+10,1601 = 2,7182810'1939 = $26 739 . Это прогнозируемое значение сравнимо с фактической величиной рекламного тарифа для этого журна ла — $25 315. Нам повезло, что эти значения достаточно близки друг к другу. Соответствующая стан дартная ошибка для сравнения фактического и прогнозируемого значений составляет 26,5% от $26 739, что равняется $7 086. Если вы вычислите прогнозируемую величину рекламного тарифа для других жур налов, то окажется, что они, как правило, не настолько близки к фактическим значениям, как в рассмот ренном нами случае. Для сравнения можно взглянуть на относительные ошибки прогнозирования для первых десяти журналов из всего перечня журналов в нашем примере: -5,6%; 11,3%; 27,7%; -23,3%; 1,9%; 0,9%; 18,8%; 8,0%; -88,0% и -21,6%. Исходя из этого величина 26,5% представляется вполне приемлемым вариантом типичной величины ошибок. 678 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Подгонка кривой с помощью полиномиальной регрессии Рассмотрим нелинейную двумерную взаимосвязь. Если диаграмма рассеяния У в зависимости от X демонстрирует наличие нелинейной взаимосвязи, можно попытаться воспользоваться множественной регрессией, введя сначала новую Xпеременную, взаимосвязь которой с переменной X также является нелинейной. Простейшим вариантом является введение переменной X 2 — квадрата исходной переменной X . Теперь вы имеете дело с многомерной совокупностью данных, ко торая характеризуется наличием трех переменных: У, X и X 2. Когда вы прогно зируете У на основании одной переменной X и некоторых из ее степеней (X 2, X 3 и т.д.), вы имеете дело с полиномиальной регрессией. Рассмотрим случай ис пользования переменной X вместе с X 2. В случае использования этих переменных обычное уравнение множественной регрессии, У = а + b i Xx + Ъ2Х 2, превращается в квад ратичны й полином — У = а + bi X + Ъ2Х 2.27 Такая взаимосвязь по-прежнему рассматривается как линейная, поскольку отдельные члены складываются. Точнее говоря, вы имеете дело с ли нейной взаимосвязью между У и парой переменных (X, X 2), которые вы исполь зуете для объяснения нелинейной взаимосвязи между У и X . Начиная с этого момента вы можете просто вычислить множественную рег рессию У по двум переменным X и X 2 (таким образом, количество переменных увеличивается до k = 2, в то время как количество наблюдений, п , не изменяет ся). При этом используется вся рассмотренная ранее техника: прогнозы, остатки, R 2 и S e, как меры качества регрессии, тесты для коэффициентов регрессии и т.д. На рис. 12.3.1 представлены некоторые из множества кривых, которые могут порождаться квадратичными полиномами. Если ваша диаграмма рассеяния У в зависимости от X похожа на одну из этих кривых, то введение X 2 в качестве но вой переменной может быть полезным для объяснения и прогнозирования соот ветствующей взаимосвязи. Пример. Оптимизация объема производимой продукции Проанализируем данные из табл. 12.3.3, представляющие собой часть эксперимента для определения температуры, позволяющей получить наибольший объем продукции, выпускаемой в ходе некоторого производственного процесса. Эти данные могут оказаться чрезвычайно полезными для вашей фирмы, по скольку они свидетельствует о том, что для максимизации объема выпускаемой продукции температуру процесса следует установить около 700 градусов. Объем выпускаемой продукции заметно снижается, если температура существенно отличается от указанного значения (в ту или другую сторону). Диаграмма рассеяния, показанная на рис. 12.3.2 с помощью линии наименьших квадратов, демонстри рует, сколь неподходящей может оказаться линейная регрессия при попытках ее использования для про гнозирования нелинейной взаимосвязи. Структуру, которая в данном случае просматривается совершен но четко, можно использовать для прогнозирования объема выпускаемой продукции на основе темпера туры и для определения температуры, обеспечивающей максимальный объем продукции, но прямая линия в данном случае совершенно неуместна! 27 Слово полином обозначает любую сумму неотрицательных целых степеней некоторой пере менной, умноженных на постоянные коэффициенты, например 3 + Ьх —4х2 - 15х3 + 8х6. Сло во квадратный означает, что в соответствующем полиноме не может быть степеней, больших 2, например: 7 - 4х + 9х2 или 9 - Зх2. Несмотря на то что для моделирования более сложных нелинейных взаимосвязей, в принципе, можно использовать полиномы более высоких степе ней, в случае степеней, превышающих 3, результаты зачастую оказываются нестабильными. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 679 Рис. 12.3.1 Квадратичные полиномы можно использовать для моделирования самых различных нелинейных взаимосвязей. На этом рисунке представлено лишь не сколько возможных вариантов. Переворачивание любой из этих кривых по горизонтали или по вертикали попрежнему дает вам квадратичный полином Таблица 12.3.3 Температура и объем продукции производственного процесса Температура, X Объем продукции, К Температура, X Объем продукции, К 600 127 750 153 625 139 775 148 650 147 800 146 675 147 825 136 700 155 850 129 725 154 Эту проблему способна решить полиномиальная регрессия; кроме того, она даст вам надежную оценку оптимальной температуры, обеспечивающей максимальный объем выпускаемой продукции. В табл. 12.3.4 представлена многомерная совокупность данных, которая будет использоваться в этом слу чае. Обратите внимание, что новой является лишь последняя переменная (квадрат температуры). Ниже представлено уравнение прогнозирования, полученное методом множественной регрессии. На рис 12.3.3 представлен соответствующий график и данные. Объем продукции = -712,10490 + 2,39119 (температура) - 0,00165 (температура2). Коэффициент детерминации для этой множественной регрессии, R2 = 0,969, свидетельствует, что очень большая часть вариации объема выпускаемой продукции, а именно 96,9%, объясняется температурой и ее (температуры) квадратом. (В действительности сама по себе прямая линия объясняет менее 1%.) Стандартное отклонение оценки Se= 1,91 указывает на то, что объем выпускаемой продукции можно прогнозировать с точностью в несколько единиц (сравните с соответствующим намного большим значе нием 10,23 для прямой линии). Как проверить, действительно ли нам необходим дополнительный член (квадрат температуры)? f-тест для соответствующего коэффициента регрессии (Ь2 =-0,00165), основанный на стандартной ошибке S* =0,000104 с 8 степенями свободы, указывает на очень высокую значимость этого члена уравнения. Разумеется, это было очевидно из сильной кривизны на диаграмме рассеяния. Соответствующие резуль таты представлены в табл. 12.3.5. 680 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Какую температуру лучше всего использовать для оптимизации объемов выпуска продукции? Если ко эффициент регрессии Ь2 для квадрата переменной X является отрицательным (как в данном случае), то квадратичный полином принимает максимальное значение при -Ь,/2Ь2. В нашем случае температура, обеспечивающая максимальный объем выпускаемой продукции, определяется следующим образом: оптимальная температура = -Ь 1/2 Ь 2 = -2,39119/[2(-0,00165)] = 724,6. Таким образом, правильным будет установить температуру на уровне 725 градусов. 160 Фактический объем . выпуска продукции^) 150 О о 7 140 Прогнозируемый объем выпуска продукции 130 120 600 700 800 900 Температура Рис. 12.3.2. Нелинейная взаимосвязь между объемом выпус каемой продукции и температурой производственного процесса чрезвычайно плохо описывается линией наи меньших квадратов. Прогнозируемые значения не име ют почти ничего общего с фактическими значениями 160 а. Фактический объем выпуска— продукции Прогнозируемый 150 объем выпуска продукции с 140 130 120 _L_ 600 700 800 900 Температура Рис. 12.3.3. Результаты регрессии с помощью квадратично го полинома хорошо объясняют объем выпускаемой продукции на основе температуры и квадрата темпе ратуры. Теперь прогнозы можно считать почти иде альными 28 Если Ьг является положительным числом, тогда в той же точке (-&1/ 2 &2) полином будет иметь минимальное значение. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 681 Таблица 12.3.4. Создание новой переменной (квадрат температуры) для использования полиномиальной регрессии Объем продукции, К Температура, Хл- Х Квадрат температуры, Х ^ Х 2 127 600 360000 J39 625 390625 147 650 422 500 147 675 455 625 155 700 490000 154 725 525 625 153 750 562 500 148 775 600625 146 800 640000 136 825 680625 129 850 722 500 Моделирование взаимодействия между двумя ^-переменными В модели линейной множественной регрессии каждая из Х-переменных ум ножается на свой коэффициент регрессии; затем все эти компоненты (и констан та а) складываются, обеспечивая требуемый прогноз: а + bi X t + Ь2Х 2 + ... + bkX k. В этом выражении никак не учитывается взаимодействие между Xпеременными. Говорят, что между двумя переменными наблюдается взаимодей ствие, если изменение значений обеих этих переменных приводит к ожидаемому изменению У, которое отличается от суммы изменений У, вызываемых измене нием каждой из этих Х-переменных по отдельности. Взаимодействие наблюдается во многих системах, особенно если для успеха требуется правильное сочетание ингредиентов. Рассмотрим крайний случай. До пустим, X i — порох, Х 2 — нагрев и У — реакция. Фунт пороха сам по себе не представляет опасности, да и зажженная спичка не дает сильного эффекта сама по себе. Но вот если эти две переменные соединить вместе, они вступят во взаи модействие и приведут в качестве реакции к сильному взрыву. В сфере бизнеса взаимодействие проявляется в тех случаях, когда “целое оказывается больше (или меньше), чем сумма его составных частей”. Одним из распространенных способов моделирования взаимодействия в рег рессионном анализе является использование произведения, образуемого путем умножения одной Х-переменной на другую для определения новой Xпеременной, которая включается — наряду с другими — в вашу множественную регрессию. Такое произведение представляет взаимодействие этих двух перемен ных. Более того, можно будет выполнить проверку на наличие взаимодействия, воспользовавшись f-тестом значимости коэффициента регрессии для этого терма взаимодействия. Если вы имеете дело с каким-либо важным взаимодействием, но оно не учи тывается в уравнении регрессии, ваши прогнозы окажутся весьма далекими от 682 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.3.5. Результаты множественной регрессии с использованием квадрата темпе ратуры в качестве переменной для получения полиномиальной регрессии 8 = 1,907383 R2 = 0,969109 Статистический вывод на уровне 5% относительно объема выпускаемой продукции Уравнение прогнозирования действительно объясняет значимую долю вариации объема выпускаемой продукции. F = 125,4877 с 2 и 8 степенями свободы 95% доверительный интервал Влияние на объем выпускаемой продукции Проверка гипотез Стандартная ошибка tстатистика коэффициента СЕ Значимый? Стандартная ошибка t Константа -712,104 -837,485 -586,723 Да 54,37167 Температура 2,391188 2,042414 2,739963 Да 0,151246 15,80988 Температура2 -0,00165 -0,00189 -0,00141 Да 0,000104 -15,8402 о Коэффициент 6 Переменная -13,0969 действительности. Рассмотрим, например, прогнозирование объема продаж (Y) на основе протяженности командировок (Х ь мили) и количества контактов (Х 2, количество людей, с которыми были встречи) для некоторой группы коммивоя жеров. Обычное уравнение регрессии, которое можно было бы использовать для прогнозирования объема продаж, а + Ъг (мили) + Ъ2 (контакты), не учитывает возможность взаимодействия “ миль” и “ количества контактов” . Ценность допол нительной “ командировочной мили” (сама по себе) оценивается как — незави симо от количества встреч с людьми при этом . Аналогичным образом ценность дополнительной встречи (сама по себе) оценивается как Ь2 — независимо от ко личества потребовавшихся для этого миль командировок . Если вам кажется, что между “ милями” и “ количеством контактов” сущест вует какое-то взаимодействие, в результате которого коммивояжеры, имеющие больше контактов с людьми, более продуктивно использовали свои “ командиро вочные мили” , то указанная модель не отражает действительности. Один из спо собов исправить ее состоит в том, чтобы ввести новую Х-переменную, представ ляющую собой произведение Х 3 = X i х Х 2 = контакты х мили. Результирующая модель по-прежнему является линейной и может быть представлена в двух раз личных, но эквивалентных формах: прогнозируемый объем продаж = = а + bi (мили) + Ъ2 (контакты) + Ьг (контакты х мили) = = а + [&х+ Ьг (контакты)] (мили) + Ъ2 (контакты). Это выражение говорит о том, что дополнительная “командировочная миля” значит для объема продаж больше, если количество контактов оказывается боль шим (при условии, что Ь3 > 0). Вы можете использовать f-тест для Ь3 для опреде ления значимости этого влияния; если это влияние не значимо, дополнительную переменную Х 3 можно просто отбросить и строить регрессию У по X i и Х 2. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 683 Еще один способ моделирования взаимодействия в регрессионном анализе за ключается в преобразовании некоторых или всех переменных. Поскольку лога рифмирование преобразует умножение в сложение, мультипликативное уравне ние с взаимодействием, У = А Х ?Х ? , после логарифмирования всех переменных преобразуется в следующее линейное аддитивное уравнение без взаимодействия: log У = log А + Ьг log Х г + b2 log Х 2 = а + Ьг log Х х + Ъ2 log Х 2. 12.4. Индикаторные переменные: прогнозирование на основе категорий Множественная регрессия базируется на арифметике и, следовательно, требу ет осмысленных чисел (количественных данных). А что делать, если не все пе ременные являются количественными? Индикаторная переменная, которую также называют фиктивной переменной (dummy variable), — это количествен ная переменная, которая принимает только два значения, 0 и 1, и используется для представления качественных категориальных данных. Например, у вас мо жет быть переменная, представляющая пол, которая равна 1 для женщин и О для мужчин (или наоборот, если вам так нравится больше). В анализе множест венной регрессии можно использовать одну или несколько индикаторных пере менных в качестве независимых (X ) переменных.29 Если качественная Х-переменная включает в точности две категории (напри мер, мужчины/женщины, покупать/прицениваться или негодный/годный), ее можно представить непосредственно как индикаторную переменную. Вы можете принять волевое решение по поводу того, какая из категорий будет соответство вать 1, а какая — 0 (база). Несмотря на то что ваш выбор на данном этапе явля ется произвольным, необходимо помнить, что вариант кодирования влияет на интерпретацию результатов, которые вы получите впоследствии. В табл. 12.4.1 показан пример категориальной переменной, которая представляет пол каждого из респондентов (1 соответствует женщинам, 0 — мужчинам). Если качественная Х-переменная включает более двух категорий, то чтобы заменить ее, вам придется воспользоваться несколькими индикаторными пере менными. Прежде всего выберите одну из категорий, которая будет служить в 29 Если ваша зависимая переменная (У) является качественной, то ситуация оказывается на много более сложной, поскольку тогда терм ошибки, е, в модели линейной множественной рег рессии не может иметь нормального распределения. Если У имеет два возможных значения, можно воспользоваться так называемой логит-моделью {множественная логистическая регрес сия) или пробит-моделью. Если переменная У может принимать более двух различных значе ний, вам может подойти полиномиальная логит-моделъ (multinomial logit model) или полино миальная пробит-модель (multinomial probit model). Эти вопросы освещены в книге Kmenta J. Elements of Econometrics (New York: Macmillan, 1986), Section 11-5. 684 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ качестве базового значения, по отношению к которому будет измеряться влия ние всех других категорий. Н е используйте в регрессионном анализе индикатор ную переменную для базовой категории, поскольку эта категория будет пред ставлена в уравнении регрессии постоянным членом. Для каждой из всех ос тальных (т.е. отличных от базовой) категорий необходимо создать отдельную индикаторную переменную. Для каждой элементарной единицы (человека, фир мы или чего-нибудь другого) из выборки у вас будет не более одного значения 1 в группе индикаторных переменных; все они будут равны 0, если эта элементар ная единица принадлежит к базовой категории. Помните следующее правило. Таблица 12.4.1. Индикаторная переменная, представляющая пол человека Категориальная переменная Индикаторная переменная Мужчина Мужчина Женщина 1 Мужчина Женщина 1 Женщина 1 Правило использования индикаторны х переменных Количество индикаторных переменных, используемых во множественной регрессии для замены пере менной качественного типа, должно быть на одну меньше количества категорий. Оставшаяся категория определяет базу. Базовая категория представляется в уравнении регрессии постоянным членом. Какую категорию выбрать в качестве базовой? Можно выбрать ту, с которой вы хотели бы сравнивать все остальные категории.30 Можно, например, выбрать категорию, которая встречается чаще других. Вот пример категориальной переменной, которая представляет в выборке тип объектов, обрабатываемых отделом почтовой корреспонденции фирмы. Исполь зуется четыре категории: бизнес-конверт, большой конверт, небольшая коробка и большая коробка. Поскольку большинство почтовой корреспонденции фирмы составляет бизнес-конверты, именно этот .вид корреспонденции выбран в качест ве базовой категории. Эту качественную переменную (тип объекта) предполагает ся использовать в анализе множественной регрессии для объяснения У = время обработки. В табл. 12.4.2 показаны три индикаторные переменные, которые не обходимо создать и использовать вместе с другими Х-переменными. 30 А что если вам придется выполнять сравнение с несколькими категориями? Одно достаточно простое решение заключается в том, чтобы выполнить несколько анализов множественной рег рессии — каждый с использованием своей собственной базовой категории. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 685 Интерпретация и проверка значимости коэффициентов регрессии для индикаторных переменных j После того как категориальные Х-переменные заменены на индикаторные пе ременные, множественную регрессию можно выполнять обычным способом. Не смотря на то что и в этом случае регрессию можно интерпретировать обычным образом, существует несколько особых способов интерпретации коэффициентов регрессии и их f-тестов в случае использования индикаторных переменных (табл. 12.4.3). Помните: если X* является индикаторной переменной, она пред ставляет только одну категорию исходной качественной переменной (а именно категорию, для которой она равна 1). Таблица 12.4.2. Использование трех индикаторных переменных для представления четырех категорий, исключая бизнес-конверт как базовую категорию Индикаторные переменные Категориальная переменная: тип объекта Большой конверт, Хл Небольшая коробка, Х^ Большая коробка, Х^ Бизнес-конверт Небольшая коробка 1 Бизнес-конверт Бизнес-конверт Большая коробка 1 Большой конверт 1 Бизнес-конверт Большой конверт 1 Бизнес-конверт Таблица 12.4.3. Интерпретация коэффициента регрессии для индикаторной переменной X; Ь/ Коэффициент регрессии Ь,представляет среднюю/ш /м/узначений Кв двух категориях — той, которую представляет Хп и базовой категорией (другие ^-переменные ЛГпри этом остаются не изменными). Если ^ является положительным числом, эта категория имеет болеевысокоезиаY чение оценки среднего Y, чем базовая категория. Если д/ - отрицательное число, то среднее для этой категории оказывается ниже, чем для базы (при всех прочих равных) Проверка значимости для Ь/ 686 С точки зрения ожидаемого значения К(другие ^переменные при этом остаются неизменными), есть ли какая-то разница (кроме случайности) между категорией, которую представляет Л' и ба зовой категорией? ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Пример. Оценка влияния пола работника на уровень заработной платы (с поправкой на стаж работы) Руководство вашей фирмы озабочено возможностью обвинений в дискриминации сотрудников по при знаку пола. Кое у кого возникают подозрения, что в вашем отделе сотрудники-мужчины зарабатывают больше, чем женщины. Краткий анализ заработной платы 24 мужчин и 26 женщин, работающих в ва шем отделе, показывает, что в среднем мужчина получает за год на $4 214 больше женщины. Более то го, принимая во внимание стандартную ошибку, равную $1 032, можно утверждать, что эта разница яв ляется высоко статистически значимой (р < 0 , 001).31 Означает ли это, что дискриминация сотрудников по признаку пола действительно имеет место в вашей фирме? Вообще говоря, необязательно. Указанные статистические результаты действительно суммируют заработные платы двух категорий работников и сравнивают полученную разницу с тем, что можно было бы воспринимать как результат действия фактора случайности. С точки зрения статистики можно было бы сде лать вывод о том, что различия работников по полу в определенной мере (значительно выходящей за рамки простой случайности) влияют на уровень их заработной платы. Однако статистика ничего не говорит по по воду возможных причин этой разницы в заработной плате. Несмотря на то что в вашей фирме действительно может быть дискриминация (более или менее значительная) по признаку пола при найме сотрудников, су ществуют и другие возможности объяснения указанных различий. Могут найтись даже определенные эко номические обоснования более высокого уровня оплаты мужчин в конкретной ситуации. На собрании возникает предположение, что стаж работы также следует принимать во внимание как воз можное объяснение различий в уровне заработной платы. Анализ этой причины поручается вам, и вы решаете воспользоваться множественным регрессионным анализом, чтобы понять влияние пола сотруд ника на уровень заработной платы с учетом стажа работы. Множественная регрессия является подходя щей для данного случая процедурой, поскольку коэффициент регрессии всегда включает поправку на другие Х-переменные. Коэффициент регрессии для индикаторной переменной, представляющей пол со трудника, даст вам ожидаемую разницу в уровне заработной платы между мужчиной и женщиной с оди наковым рабочим стажем. Переменными вашей множественной регрессии являются заработная плата (У), рабочий стаж (Х}) и пол (Х2). Пол будет представлен как индикаторная переменная, для которой женщина — ?, а мужчина — 0. Соответствующая многомерная совокупность данных представлена в табл. 12.4.4. Здесь показаны результаты исследования данных. Диаграмма рассеяния (заработная плата как функция от стажа работы), представленная на рис. 12.4.1, свидетельствует о сильной взаимосвязи (корреляция г= 0,803) между этими переменными. Сотрудники с большим рабочим стажем, как правило, получают большую заработную плату. Здесь также просматривается определенная тенденция к нелинейности (возможно, сказывается "эффект насыщения" или содержится указание на "убывающ ее преимущество", когда каждый дополнительный год рабочего стажа "весит" все меньше по мере накопления все большего опыта). В любом случае можно рассчитывать на то, что стаж работы будет объяснять значительную долю вариации заработной платы. Диаграмма рассеяния значений заработной платы в зависимости от пола, показанная на рис. 12.4.2, подтверждает тот факт, что труд мужчин, вообще говоря, оплачивается выше. Однако выводы из этих данных можно сделать намного проще, если представить их в виде блочной диаграммы с двумя прямо угольными блоками — по одному для каждого пола, — как это показано на рис. 12.4.3. Можно наблю дать отчетливую взаимосвязь между полом и уровнем заработной платы, причем труд мужчины оплачи вается в среднем выше, чем труд женщины. Несмотря на то что эти два прямоугольника частично пере крываются, разница в среднем уровне заработной платы является очень высоко значимой (если воспользоваться f-тестом для двух независимых выборок из главы 10 ). Взаимосвязь между полом и стажем работы, представленная на рис. 12.4.4, свидетельствует о том, что в среднем у мужчин стаж работы больше, чем у женщин. Нижняя часть прямоугольника для женщин пока зывает, что 2 5 % женщин имеют очень незначительный стаж работы или вообще не имеют его. 31 Это стандартная ошибка разности для двух независимых выборок. См. главу 10. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 687 Таблица 12.4.4. Заработная плата, стаж работы и пол сотрудников Стаж работы (г.), Хл Пол (1 —женщины, 0 — мужчины), 39700 16 28 500 2 1 30 650 2 1 1 Заработная плата (дол.), К 688 31000 3 33 700 25 33 250 15 35 050 16 1 22 800 1 36 300 33 35 600 29 1 32 350 3 1 31 800 16 26 900 37 250 19 30 450 1 1 31 350 2 1 1 38 200 32 38 200 21 1 28 950 1 33 950 34 34100 8 1 32 900 11 1 30150 5 1 30 800 1 31 300 11 1 33 550 18 1 37 750 44 31 350 2 1 27 350 1 35 700 19 1 32 250 7 25 200 35 900 15 1 36 700 14 1 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Окончание табл. 12.4.4 Заработная плата (дол.), У Стаж работы (г.), 32 050 4 38 050 33 36100 19 35 200 20 34 800 24 26 550 3 26 550 32 750 17 39 200 19 30 450 38 800 21 41 000 31 29 900 6 40 400 35 37 400 20 35 500 23 Среднее значение 33 313 13,98 Стандартное отклонение 4188 11,87 Пол (1 —женщины, О — мужчины),^ 52,0% Размер выборки: /7 = 50. £ $40 $40 $35 $35 $30 $30 !г I * I I * I • $25 $25 ___ I___ I___ 1 10 i I 20 1___ I___ 1____I 30 40 _____ 1_____ L_____ I_____ I_____ I_____ J_____ I_____ I_____ I____J f Стаж работы Рис. 12.4.1. Диаграмма рассеяния значе ний заработной платы в зависимо сти от рабочего стажа свидетель ствует о наличии сильной взаимо связи нарастающего типа. Труд более опытных работников оплачи вается соответствующим образом 0,5 Мужчины 1 Женщины Пол Рис. 12.4.2. Диаграмму рассеяния значе ний заработной платы в зависимо сти от пола трудно интерпрети ровать , поскольку пол является ин дикаторной переменной. В этом случае лучше воспользоваться блоч ной диаграммой из прямоугольников, показанной на следующем рисунке ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ ... 689 45 40 35 30 25 20 15 10 5 Мужчины Рис. 12.4.3. Блочная диаграмма для зара ботной платы ( по одному прямо угольнику для каждого пола) облег чает исследование взаимосвязи ме жду полом и заработной платой. Труд мужчин в среднем оплачива ется выше , чем труд женщин, хотя уровни их заработной платы в значительной мере перекрываются Женщины Рис. 12.4.4. В среднем мужчины имеют больший стаж работы , чем жен щины. Н а этой блочной диаграмме представлена взаимосвязь между полом и стажем работы Итак, какой вывод можно сделать? Наблюдается сильная взаимосвязь между всеми парами переменных. Дополнительный стаж работы компенсируется повышенной заработной платой, и у женщин отмечается более низкая заработная плата и меньший рабочий стаж. Невыясненным остается один важный вопрос: когда вы делаете поправку на стаж работы (чтобы иметь возможность сравнивать заработную плату мужчин и женщин с одинаковым стажем работы), существуют ли обусловленные полом различия в заработной плате? Такой информации на диаграммах нет, посколь ку вопрос включает все три переменные одновременно. Ответ на этот вопрос можно получить с помощью множественной регрессии. Соответствующие результаты представлены в табл. 12.4.5. Коэффициент регрессии для пола, -488,08, указывает, что ожидаемая разница в уровне заработной платы между мужчиной и женщиной с одинаковым рабочим стажем равна $488,08, причем труд женщи ны оплачивается ниже, чем труд мужчины. Это объясняется тем, что увеличение индикаторной перемен ной Х 2 на 1 приводит к переходу от 0 (мужчина) к 1 (женщина), результатом чего является ожидаемое отрицательное изменение (-$488,08) заработной платы. Обратите внимание, что коэффициент регрессии для пола не является значимым. Более того, он весьма далек от значимости! f-тест значимости этого коэффициента направлен на выявление разницы в заработ ной плате мужчин и женщин с одинаковым стажем работы. Полученный результат свидетельствует о том, что — с поправкой на рабочий стаж — не наблюдается сколько-нибудь значимой разницы между средни ми уровнями заработной платы мужчин и женщин. Очевидные различия в уровнях заработной платы представителями разных полов можно объяснить различиями в их стаже работы. Итак, вы получили убе дительное доказательство того, что если в вашей фирме и есть дискриминация, она основана на стаже работы, но не на признаке пола. Но можно ли утверждать, что в вашей фирме вообще нет дискриминации по признаку пола? Вряд ли на этот вопрос можно ответить положительно. Можно лишь утверждать, что у вас нет доказательств такой дискриминации. Поскольку принятие нулевой гипотезы (обнаружено "отсутствие значимости") приводит к слабому выводу (этот вопрос обсуждался в главе 10 ), отсутствие дискриминации доказать сложно. Показывает ли этот анализ, что в обществе в целом отсутствует дискриминация по признаку пола? Нет, потому что приведенные данные относятся лишь к одному отделу одной фирмы и не являются репрезента тивными для общества в целом. 690 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Однако не объясняется ли меньший стаж работы женщин дискриминацией по признаку пола, бытовавшей в нашем обществе в прошлом? Это вполне возможно, однако выполненный нами статистический анализ не дает никаких оснований для подобных утверждений. Данные, которыми мы оперировали в настоящем примере, не содержат информации ни о каких возможных причинах очевидной дискриминации в зара ботной плате, кроме рабочего стажа сотрудников. Таблица 12.4.5. Результаты множественной регрессии для заработной платы, стажа работы и пола сотрудников Уравнение регрессии имеет следующий вид: Заработная плата = 29776 + 271,15 * стаж работы - 488,08 * пол Стандартная ошибка оценки, S = 2 538,76, указывает типичную величину ошибок прогнозирования для этой совокупности данных. Значение R-квадрат, R2 = 64,7%, указывает, какая часть дисперсии заработной платы объясняется данной регрессионной моделью. Статистический вывод на уровне 5% относительно заработной платы Уравнение прогнозирования действительно объясняет значимую долю вариации заработной платы. F = 43,1572 с 2 и 47 степенями свободы Влияние на заработную плату Переменная Константа Стаж работы Пол 95% доверительный интервал Коэффициент От До Проверка гипотез Стандартная ошибка коэффициента t- Значимый? Стандартная ошибка t статистика 29776 27867 31685 Да 948,86 31,38 271,15 195,46 346,84 Да 37,63 7,21 1292,90 Нет 885,29 -0,55 -488,08 -2269,06 Раздельные регрессии Другой подход к анализу множественной регрессии многомерной совокупно сти данных, которая включает качественную переменную, заключается в разде лении этой совокупности данных на категории с последующим выполнением от дельной множественной регрессии для каждой категории данных. Можно, на пример, выполнить два анализа: один для мужчин, а другой для женщин. Или — воспользуемся другим примером —отдельно проанализировать тепловые, ядерные и гидроэлектростанции. Использование индикаторных переменных — лишь один шаг в направлении раздельных регрессий. Пользуясь индикаторными переменными, вы, в сущно сти, получаете отдельный для каждой категории постоянный член, но одни и те же значения для всех коэффициентов регрессии. Используя раздельные регрес сии, вы получаете разные постоянные члены и разные коэффициенты регрессии для каждой категории. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 691 12.5. Дополнительный материал Резюме Прогнозирование одной переменной У на основании двух или нескольких X переменных называется множественной регрессией. Целями множественной рег рессии являются: (1) описание и понимание соответствующей взаимосвязи, (2) прогнозирование (предсказание) нового наблюдения, (3) регулирование и управ ление процессом. Сдвиг, или постоянный член, а, определяет прогнозируемое значение У при условии, что все Х-переменные равны 0. Коэффициент регрессии bj для у-й X переменной определяет влияние переменной Х ;- на У с учетом поправок на дру гие Х-переменные; bj указывает, какое ожидается изменение У, когда не изме няются все Х-переменные, за исключением переменной Х ;, которая увеличивает ся на одну единицу. Взятые вместе, эти коэффициенты регрессии составляют уравнение прогнозирования, или уравнение регрессии, (прогнозируемое значе ние У) = а + biX i + Ь2Х 2 + ... + bkX k, которое можно использовать для прогнози рования или управления. Эти коэффициенты (а, Ь1у Ь2, ... , bk) обычно вычисляют методом наименьших квадрат ов , который минимизирует сумму квадратов оши бок прогнозирования. Ошибки прогнозирования, или остатки, определяются выражением У - (прогнозируемое значение У). Существуют два способа определения качества регрессионного анализа. Стан дартная ошибка оценки, S e, указывает приблизительную величину ошибок про гнозирования. Коэффициент детерминации, Я2, указывает, какой процент ва риации У объясняется (или представляется) Х-переменными. Статистический вывод начинается с проверки общей гипотезы, которую на зывают F -тестом CF-test). Цель F -теста заключается в том, чтобы выяснить, объ ясняют ли Х-переменные значимую долю вариации У. Если ваша регрессия не является значимой, говорить больше не о чем. Если же регрессия оказывается значимой, можно приступать к статистическому выводу, используя t-тесты для отдельных коэффициентов регрессии. Доверительные интервалы и проверки ги потез для отдельных коэффициентов регрессии основываются на соответствую щих им стандартных ошибках, , ... , . При этом используют критиче ское значение из f-таблицы для п - k - 1 степеней свободы. Статистический вывод базируется на модели множественной линейной рег рессии, в соответствии с которой наблюдаемое значение У равно взаимосвязи в генеральной совокупности плюс независимые случайные ошибки, которые имеют нормальное распределение: У = (а + PiXx + р2Х 2 + ... + р*Х*) + 8 = (взаимосвязь в генеральной совокупности) + случайность, где е характеризуется нормальным распределением со средним значением 0 и постоянным стандартным отклонением а, причем эта случайность является не зависимой для каждого из наблюдений. Для всех параметров генеральной сово купности (a, Pi, р2, •••> Рь Ф имеются соответствующие выборочные, оценки (а, Ьи Ь2, ... , bk> Se). 692 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ В .F-тесте используются следующие статистические гипотезы: Я 0: Pi = р2 = ... = Р* = 0; Н г: по крайней мере один из коэффициентов регрессии рх, р2, ••• > Ра ^ 0. Результат F-теста определяется следующим образом. Если значение i f оказывается меньш им , чем критическое значение в таблице, то соответствующая модель является незначимой (следует принять нулевую ги потезу о том, что Х-переменные не позволяют прогнозировать У). Если значение i f оказывается большим , чем критическое значение в таблице, то соответствующая модель является значимой (следует отвергнуть нулевую ги потезу и принять альтернативную гипотезу о том, что Х-переменные дейст ви тельно позволяют прогнозировать У). Доверительный интервал для отдельного коэффициента регрессии, р,, опреде ляется следующим образом: от bj - tSb. до bj + tSb. где t берется из t-таблицы для п - k - 1 степеней свободы. Гипотезы для t-теста у-го коэффициента регрессии имеют следующий вид: Я 0: ру = 0; Н г: р; * 0. Существуют два подхода к решению трудной проблемы — принятию решения о том, какие из Х-переменных вносят наибольший вклад в уравнение регрессии. Стандартизованный коэффициент регрессии, btSXi / Sy , представляет собой ожи даемое изменение У, вызванное изменением X* и измеренное в единицах стан дартных отклонений У на стандартное отклонение X*, когда все другие X переменные не изменяются. Если вы не хотите делать поправку на все другие X переменные (удерживая их без изменения), можно вместо этого сравнивать абсо лютные значения коэффициентов корреляции У с каждым из X . Существует несколько потенциальных проблем, связанных с анализом мно жественной регрессии. 1. Проблема мультиколлинеарности возникает в тех случаях, когда некото рые из ваших объясняющих переменных (X ) оказываются слишком близ ки между собой. Отдельные коэффициенты регрессии при этом оценивают ся плохо, поскольку нет достаточной информации, чтобы решить, какая (или какие) из Х-переменных собственно объясняют У. Необходимо ис ключить из рассмотрения какие-то из переменных или переопределить какие-то из переменных (возможно, используя деление одних переменных на другие), что позволило бы увеличить различие между переменными. 2. Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных независимых Х-переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. Использование слишком большого коли чества Х-переменных приведет к снижению качества полученных резуль татов, поскольку информация будет понапрасну расходоваться на оцени ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 693 вание ненужных параметров. Если же вы отбросите одну или несколько важных Х-переменных, то качество ваших прогнозов также снизится, по скольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы включить только те переменные, необходи мость которых не вызывает сомнений, воспользовавшись для этого спи ском, предварительно упорядоченным в соответствии с приоритетами. Другое решение заключается в том, чтобы воспользоваться одной из авто матических процедур, таких как, например, все подмножества или поша говая регрессия. 3. Проблема неправильного выбора модели включает множество различных потенциальных несоответствий между вашей конкретной задачей и моделью линейной множественной регрессии. Анализируя данные, можно выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то что гистограммы некоторых переменных могут быть сильно скошенными, а не которые диаграммы рассеяния могут быть нелинейными, модель линейной множественной регрессии и в этих случаях может быть вполне применима. Так называемая диагностическая диаграмма помогает понять, действитель но ли обнаруженная проблема является настолько серьезной, что требует решения. Еще одна существенная проблема возникает в случае, когда при ходится иметь дело с временными рядами. В подобной ситуации можно применять множественный регрессионный анализ, используя для каждой переменной вместо исходных значений процентные изменения значения этой переменной между различными периодами времени. Диагностическая диаграмма для множественной регрессии представляет со бой диаграмму рассеяния значений ошибок прогнозирования (остатков) в зави симости от прогнозируемых значений; она позволяет выяснить, действительно ли есть такие проблемы в данных, которые требуют решения. Вмешательство рекомендуется лишь в тех случаях, когда диагностическая диаграмма ясно и оп ределенно демонстрирует наличие проблемы. Существуют три способа решения проблемы нелинейности и/или неравной изменчивости: (1) преобразовать некоторые или все переменные; (2) ввести но вую переменную или (3) воспользоваться нелинейной регрессией. Если вы вы полняете преобразование, то каждую группу переменных, которые измеряются в одних и тех же базовых единицах, лучше преобразовывать одинаковым спосо бом. Если вы преобразовываете лишь некоторые из Х-переменных, но не преоб разовываете У, тогда интерпретация результатов анализа множественной регрес сии в основном не меняется. Если же вы используете натуральный логарифм У, тогда интерпретация R2 и тестов на значимость для отдельных коэффициентов регрессии также остается неизменной, отдельные коэффициенты регрессии име ют похожую интерпретацию, a Se нуждается в новой интерпретации. Эластичность У по отношению к X* представляет собой ожидаемое процент ное изменение У, связанное с увеличением на 1% переменной X* (при этом дру гие Х-переменные остаются неизменными); эластичность оценивается с помощью 694 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ коэффициента регрессии из уравнения, в котором применяются натуральные ло гарифмы и для У, и для X t. Еще одним способом решения проблемы нелинейности является использова ние полиномиальной регрессии для прогнозирования У на основании единствен ной переменной X вместе с какими-то из ее степеней (X 2, X 3 и т.д.). Говорят, что между двумя переменными наблюдается взаимодействие, если изменение в обеих этих переменных приводит к ожидаемому изменению в У, ко торое отличается от суммы изменений в У, вызываемых изменением каждой из этих Х-переменных по отдельности. Взаимодействие зачастую моделируется в регрессионном анализе с помощью произведения , образуемого путем умножения одной Х-переменной на другую для создания новой Х-переменной, которая включается — наряду с другими — в множественную регрессию. Взаимодействие также можно зачастую моделировать, используя преобразования некоторых или всех переменных. Индикаторная переменная — которую также называют фиктивной перемен ной — это количественная переменная, принимающая лишь два возможных зна чения (0 или 1); такая переменная используется в качестве независимой (объяс няющей) Х-переменной для представления качественных категориальных дан ных. Количество индикаторных переменных во множественной регрессии для замены качественной переменной должно быть на единицу меньше количества категорий. Оставшаяся категория определяет базу . Базовая категория представ ляется в результирующем уравнении регрессии постоянным членом. Вместо использования индикаторных переменных можно находить раздель ные уравнения регрессии для каждой из категорий. Это приводит к более гибкой модели с различными коэффициентами регрессии для каждой из Х-переменных по каждой категории. Основные термины ■ Множественная регрессия (multiple regression), 611 ■ Сдвиг (intercept), или постоянный член (constant term), 614 ■ Коэффициент регрессии (regression coefficient), 614 ■ Уравнение прогнозирования (prediction equation), или уравнение регрессии (regression equation), 614 ■ Ошибки прогнозирования (prediction errors), или остатки (residuals), 614 ■ Стандартная ошибка оценки (standard error of estimate), 614 ■ Коэффициент детерминации (coefficient of determination), 614 ■ F-тест (F-test), 614 ■ t -тесты для отдельных коэффициентов регрессии (t-tests for individual regression coefficients), 614 ■ Модель множественной линейной регрессии (multiple regression linear model), 626 ■ Стандартизованный коэффициент регрессии (standardized regression coeffi cient), 645 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 695 ■ Мультиколлинеарность (multicollinearity), 649 ■ Выбор переменных (variable selection), 649 ■ Диагностическая диаграмма (diagnostic plot), 662 ■ Эластичность (elasticity), 674 ■ Полиномиальная регрессия (polynomial regression), 679 ■ Взаимодействие (interaction), 682 ■ Индикаторные переменные (indicator variable), 684 Контрольные вопросы 1. Ответьте на следующие вопросы, касающиеся множественной регрессии. а) Какие три цели множественной регрессии вы можете указать? б) Какого рода данные требуются для множественной регрессии? 2. Ответьте на следующие вопросы, касающиеся уравнения регрессии. а) Для чего используется это уравнение? б) Откуда берется уравнение регрессии? в) Как интерпретируется постоянный член уравнения регрессии? г) Как интерпретируется коэффициент регрессии? 3. Опишите два критерия, свидетельствующие о качестве анализа множест венной регрессии. 4. а) О чем свидетельствует результат F-теста? б) Запишите две гипотезы JP-теста. в) Какое значение R2 — высокое или низкое — требуется, чтобы F -тест оказался значимым? Почему? 5. а) Что представляет собой £-тест для отдельного коэффициента регрессии? б) Каким образом такой тест учитывает другие Х-переменные? в) Если F-тест незначим, можно ли продолжать анализ и тестировать от дельные коэффициенты регрессии? 6. а) Как вычисляются стандартизованные коэффициенты регрессии? б) Для чего они используются? в) В каких единицах они измеряются? 7. а) Что такое мультиколлинеарность? б) В чем заключается искажающее влияние высокой мультиколлинеарности? в) Каким образом умеренная мультиколлинеарность может сделать ваш Fтест значимым даже в том случае, когда ни один из ваших t-тестов не яв ляется значимым? г) Каким образом решается проблема мультиколлинеарности? 8. а) Если вы стремитесь получить наилучшие прогнозы, почему бы не вклю чить в число Х-переменных все потенциально полезные переменные? 696 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ б) Каким образом упорядоченный по приоритетам список переменных мо жет помочь в решении проблемы выбора переменных? в) Кратко опишите два автоматических метода выбора переменных. 9. а) Что такое модель линейной множественной регрессии? б) Перечислите три случая, когда модель линейной множественной регрес сии неприменима. в) Какая диаграмма рассеяния может помочь вам в выявлении проблем с моделью линейной множественной регрессии? 10. а) Назовите оси диагностической диаграммы. б) Чем полезно отсутствие структуры в диагностической диаграмме? 11. Почему все переменные, измеряемые в одних и тех же базовых единицах, необходимо преобразовывать одинаково? 12. а) Что такое эластичность? б) При каких обстоятельствах коэффициент регрессии указывает эластич ность У по отношению к X f? 13. Как полиномиальная регрессия помогает справиться с нелинейностью? 14. а) Что такое взаимодействие? б) Что можно сделать, чтобы включить члены взаимодействия в уравнение регрессии? 15. а) Какие переменные следует создать, чтобы включить информацию о ка тегориальной переменной, которая находится среди ^-переменных? Как называются эти переменные и как они создаются? б) Сколько индикаторных переменных необходимо создать для категори альной переменной с четырьмя категориями? в) Что показывает коэффициент регрессии индикаторной переменной? Задачи 1. Вашу фирму интересуют результаты размещения рекламы в журнал ах как одна из составляющих оценки ее маркетинговой стратегии. По каждому рекламному объявлению вы располагаете информацией о его стоимости, объеме и количестве запросов, вызванных его появлением в журнале. В частности, вы хотите выяснить, связано ли количество потен циальных клиентов, появившихся у вашей фирмы вследствие размещения этого объявления, с его размером и затратами на его размещение. Укажите для данной задачи переменную У, Х-переменные, а также соответствую щую статистику или тест. 2. Снова наступило время составления бюджета, и вы хотели бы знать ожи даемую величину отдачи (выраженную в собранной сумме) от затрат каждо го дополнительного доллара на сбор неоплаченных счетов — с учетом обще го количества неоплаченных счетов. Укажите для данной задачи перемен ную У, Х-переменные, а также соответствующую статистику или тест. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ . 697 3. Чтобы обосновать судебный иск о возмещении убытков, вам нужно оценить выгоду, утраченную вашей фирмой в результате трехмесячной задержки (не по вине вашей фирмы) открытия нового лесопильного завода. Вы распола гаете данными об аналогичных фирмах, касающиеся их суммарных активов, производственной мощности лесопильного завода и доходов. Что касается вашей фирмы, то вам известны ее суммарные активы и проектная производ ственная мощность нового лесопильного завода, но вам нужно оценить воз можные доходы фирмы. Укажите для данной задачи переменную У, Xпеременные, а также соответствующую статистику или тест. 4. Производительность труда — это вопрос, заботящий всех руководителей. Вы располагаете данными о производительности труда каждого сотрудни ка и о других характеризующих его факторах. Вы хотели бы знать, в ка кой мере эти факторы объясняют вариацию производительности труда у разных сотрудников вашей фирмы. Укажите для данной задачи перемен ную У, Х-переменные, а также соответствующую статистику или тест. 5. В табл. 12.5.1 представлены данные о цене, площади холста и годе создания нескольких картин Пикассо. Д а) Составьте уравнение регрессии для прогнозирования цены картины на основании площади холста и года ее создания. б) Интерпретируйте коэффициент регрессии для площади холста. в) Интерпретируйте коэффициент регрессии для года создания картины. г) Какой, по вашему мнению, должна быть ожидаемая продажная цена картины, созданной в 1954 г. и имеющей площадь холста, равную 4 ООО квадратных сантиметров? д) Какова примерно величина ошибок прогнозирования для этих картин? е) Какой процент вариации цен картин Пикассо можно объяснить разме ром холста и годом создания этих картин? ж) Является ли эта регрессия значимой? Представьте результаты соответ ствующего теста и интерпретируйте их. з) Оказывает ли площадь холста значимое влияние на цену картины (с по правкой на год ее создания)? В частности, стоят ли более крупные полотна в среднем значимо больше или значимо меньше, чем полотна меньшей площади, написанные в том же году? и) Оказывает ли год создания картины значимое влияние на цену картины (с поправкой на площадь ее холста)? Какой из этого можно сделать вывод о цене картин с точки зрения года их создания? 6. Рассмотрим анализ множественной регрессии для 50 штатов, который объясняет количество новых рабочих мест исходя из количества новых фирм и процента быстро развивающихся компаний. Используются сле дующие переменные: “ новые рабочие места” (в тысячах), “ новые фирмы” (фактическое количество фирм) и “ процент быстрых” (в процентных еди- 698 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.5.1. Цена, площадь холста и год создания картин Пикассо Цена, тыс. дол. Площадь, см2 Год Цена, тыс. дол. Площадь, см2 Год 100 768 1911 360 1 141 1943 50 667 1914 150 5 520 1944 120 264 1920 65 5 334 1944 400 1 762 1921 58 1 656 1953 375 10109 1921 65 2 948 1956 28 945 1922 95 3 510 1960 35 598 1923 210 6500 1963 750 1 748 1965 5 256 1923 32 145 869 1932 55 3 441 1968 260 7 876 1934 80 7 176 1969 78 1 999 1940 18 6 500 1969 90 5 980 1941 Данные получены из Е. Mayer, InternationalAuction Records, vol. XVII (Caine, England: Hilmarton Manor Press, 1983), p. 1056-1058. Таблица 12.5.2. Результаты множественной регрессии для быстро развивающихся компаний Уравнение регрессии имеет следующий вид: новые рабочие места = -144,764 + 0,099109 * (новые фирмы) + 78,61557 * (процент быстрых) S = 133,7854 R2 = 81,0% Влияние на 95% доверительный новые рабочие интервал места Проверка гипотез Стандартная ошибка коэффициента tстатистика До Значимый? Стандартная ошибка t -6,57 Да 68,6944 -2,11 Да 0,0082 12,04 Да 29,1152 2,70 Переменная Коэффициент От Константа -144,76 -282,96 Новые фирмы Процент быстрых 0,0991 78,62 0,0825 20,04 0,1157 137,19 ницах; таким образом, например, 3,15% представляется числом 3,15). Ре зультаты множественной регрессии представлены в табл. 12.5.2.32 а) Какая приблизительно часть вариации количества созданных новых ра бочих мест между различными штатами объясняется количеством новых фирм и процентом быстро развивающихся фирм? 32 Анализируемые данные взяты из “Ratings the States 1987: New Jobs, New Companies, and the Climate for Growth” , INC, October 1987, p. 77. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ. 699 б) Объясняют ли переменные “ Новые фирмы” и “ Процент быстрых” зна чимую долю изменчивости переменной “ Новые рабочие места” ? Поясните свой ответ. I в) Найдите прогнозируемое значение переменной “ Новые рабочие места” и остаток для штата Вашингтон при условии, что для этого штата новые ра бочие места = 242 (тысяч), Новые фирмы = 1 741 и процент быст рых = 2,44% . г) О чем свидетельствует коэффициент регрессии 0,0991 для “Новых фирм” ? д) Оказывает ли, по вашему мнению, процент быстро развивающихся фирм влияние на создание новых рабочих мест — с учетом поправки на количество новых компаний? Поясните свой ответ. е) Кратко опишите (в письменном виде), что нового вы узнали о создании новых рабочих мест в результате проведенного анализа множественной регрессии. 7. Можно предположить, что цена палатки отражает различные ее характе ристики. Например, можно ожидать, что большие палатки — при прочих равных условиях — должны стоить больше (поскольку в них может раз меститься большее количество людей), а более тяжелые палатки — при прочих равных условиях — должны стоить меньше (поскольку они менее удобны при переноске и, следовательно, менее привлекательны для поку пателей). В каталоге REI — компании, занимающейся продажей туристи ческого снаряжения по почтовым заказам, — указывается цена, вес и площадь 30 видов палаток. Результаты анализа множественной регрессии для прогнозирования цены представлены в табл. 12.5.3. а) Стоят ли более тяжелые палатки в среднем дороже или дешевле, чем легкие, если речь идет о палатках заданного размера (т.е. площади)? Таблица 12.5.3. Результаты множественной регрессии для цен на палатки Уравнение регрессии имеет следующий вид: цена = 120 + 73,2 (вес) - 7,52 (площадь). t -отношение р Независимая переменная Коэффициент Стандартное отклонение Константа 120,33 54,82 2,19 73,17 15,37 4,76 0,000 -2,95 0,006 Вес -7,517 Площадь s = 99,47 R-квадрат = 56,7% 2,546 0,037 R-KBaflpaT(Koppeicr.) = 53,5% Дисперсионный анализ Источник DF SS MS F Р Регрессия 2 349912 174956 17,68 0,000 Ошибка 27 267146 9894 Итого 29 617058 700 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ б) Какой показатель из приведенной компьютерной распечатки может служить ответом на п. “ а” ? Интерпретируйте этот показатель и укажите его единицы измерения. Является ли он значимым? в) Соответствует ли результат из п. “ а” ожиданиям относительно цены па латки, указанным при изложении условий настоящей задачи? Поясните свой ответ. г) Стоят ли большие палатки в среднем дороже или дешевле, чем меньшие палатки, если речь идет о палатках заданного веса? д) Какой показатель из приведенной выше компьютерной распечатки дает ответ на п. “ г” ? Интерпретируйте этот показатель и укажите его единицы измерения. Является ли он значимым? е) Соответствует ли результат из п. “ г” ожиданиям относительно цены па латки, указанным при изложении условий настоящей задачи? Поясните свой ответ. 8. Быстродействие компьютеров, объединенных в сеть, при возникновении перегрузок, как правило, снижается. Время реакции равняется интервалу с момента нажатия вами клавиши до момента выдачи компьюте ром ответа на введенный вами запрос. Естественно, чем больше загрузка компьютера (в результате обращений со стороны других пользователей или выполнения какой-то другой работы), тем большим должно быть время реакции. Это время реакции (в секундах) измерялось в различные момен ты времени наряду с количеством пользователей в системе и загрузкой компьютера (процент времени, в течение которого машина занята выпол нением высокоприоритетных задач). Соответствующие данные представле ны в табл. 12.5.4. а) Проанализируйте эти данные, предложив собственный комментарий по поводу взаимосвязей в трех диаграммах рассеяния, которые вы можете изобразить, рассматривая попарно указанные переменные. В частности, выглядят ли, по вашему мнению, эти взаимосвязи разумными? б) Вычислите корреляционную матрицу и сравните ее с взаимосвязями, которые вы наблюдаете на диаграммах рассеяния. в) Составьте уравнение регрессии для прогнозирования времени реакции исходя из количества пользователей и загрузки компьютера. (Для выпол нения этого и последующих пунктов этой задачи вам, вероятно, придется воспользоваться компьютером.) г) В каких приблизительно пределах (количество секунд) для этой сово купности данных можно прогнозировать время реакции исходя из количе ства пользователей и загрузки компьютера? д) Является ли .F-тест значимым? О чем это говорит вам? е) Являются ли значимыми коэффициенты регрессии? Интерпретируйте (в письменном виде) для каждой переменной ее поправочное влияние на вре мя реакции. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 701 ж) Обратите внимание, что два коэффициента регрессии очень отличаются между собой. Вычислите стандартизованные коэффициенты регрессии с целью их сравнения. Представьте в письменном виде комментарий об от носительной важности количества пользователей и загрузки компьютера с точки зрения их влияния на время реакции. 9. В последние годы американская экономика более тесно интегрировалась с экономикой других стран. Но насколько тесно связанными оказываются американские и глобальные фондовые биржи в краткосрочном плане? В табл. 12.5.5 и 12.5.6 представлены соответствующие данные и результаты множественной регрессии для прогнозирования эффективности акций аме риканских промышленных компаний по состоянию на 8 января 1993 г. на основании эффективности акций европейских промышленных компаний ( Х г) и эффективности акций промышленных компаний стран Азиатскотихоокеанского региона (Х 2). Резюмируйте в письменном виде степень этой взаимосвязи. В частности, в какой мере эффективность в Европе и странах Азиатско-тихоокеанского региона объясняет эффективность в США? 10. В табл. 12.5.7 представлены некоторые результаты анализа множественной регрессии, объясняющей сумму денег, расходуемых на приобретение кухонно го оборудования для приготовления пищи в домашних условиях (У), исходя из величины дохода (Х х), уровня образования (Х 2) и величины расходов на приобретение спортивного инвентаря (Х 3). Все “денежные” переменные пред ставляют общие суммы (в долларах) за прошедший год; уровень образования указан в количестве лет учебы. Рассматривается 20 наблюдений. а) Сколько, по вашему мнению, будет тратить человек на приобретение кухонного оборудования для приготовления пищи, если он зарабатывает $25 ООО в год, проучился 14 лет и потратил в прошлом году $292 на при обретение спортивного инвентаря? б) Насколько удачно данное уравнение регрессии объясняет затраты на приобретение оборудования для приготовления пищи дома? В частности, Таблица 12.5.4. Время реакции компьютера, количество пользователей и уровень загрузки Время реакции 702 Количество пользователей Загрузка компьютера, % 0,31 1 20,2 0,69 8 22,7 2,27 18 41,7 0,57 4 24,6 1,28 15 20,0 0,88 8 39,0 2,11 20 33,4 4,84 22 63,9 1,60 13 35,8 5,06 26 62,3 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ на какой показатель в представленных здесь результатах следует обратить внимание и является ли он статистически значимым? в) С какой приблизительно точностью (в долларах за год) можно прогнози ровать затраты на приобретение оборудования для приготовления пищи дома применительно к людям, охваченным настоящим исследованием? г) Для каждой из трех Х-переменных укажите, оказывает ли она значимое влияние на затраты, связанные с приобретением оборудования для приго товления пищи дома (с учетом поправки на другие Х-переменные). Таблица 12.5.5. Эффективность американских, европейских и азиатско-тихоокеанских промышленных акций по состоянию на 8 января 1993 г. США, % Европа, % Азиатско-тихоокеанский регион, % Воздушные перевозки -0,41 0,09 -1,17 Строительные материалы -0,29 -0,18 -1,02 —0,87 -0,44 -0,74 0,02 -0,29 -0,50 -0,51 0,25 -0,59 Тяжелые конструкции 0,48 -0,10 -0,31 Тяжелое машиностроение 0,67 -0,53 -1,81 -0,27 -0,66 -1,21 Контейнеры Электротехнические компоненты Заводское оборудование Промышленные, диверсифицированные Морской транспорт 0,16 -0, -1,47 Контроль загрязнения окружающей среды -0,71 0,15 -1,14 Другие промышленные услуги -0,64 -0,49 -1,68 Железные дороги Транспортное оборудование Автомобильные перевозки 1,10 0,09 -1,74 0,62 1,37 -1,16 -0,12 -5,43 -0,71 Данные взяты из The WallStreetJournal, 1993, January 11, p. C12. Таблица 12.5.6. Результаты множественной регрессии, касающиеся эффективности акций промышленных групп Уравнение регрессии имеет следующий вид: США = -0,417 + 0,029 (Европа) - 0,344 (Азиатско-тихоокеанский регион). Независимая переменная Константа Европа Азиатско-тихоокеанский регион s = 0,6119 Коэффициент Стандартное отклонение t -отношение Р -0,4166 0,4393 -0,95 0,363 0,0295 0,1138 0,26 0,801 -0,3443 0,3628 -0,95 0,363 R-квадрат = 9,0% В-квадрат(коррекг.) = 0,0% ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ ... 703 Окончание табл. 12.5.6 Дисперсионный анализ Источник DF SS MS F Р 0,55 0,594 Регрессия 2 0,4087 0,2043 Ошибка 11 4,1189 0,3744 Итого 13 4,5276 Источник DF SeqSS Европа 1 0,0714 Азиатско-тихоокеанский регион 1 0,3373 Таблица 12.5.7. Результаты множественной регрессии, касающиеся оборудования для приготовления пищи Уравнение регрессии имеет следующий вид: Y = -9,26 + 0,00137 Х1 + 10,8 Х2 + 0,00548 ХЗ Коэффициент Стандартное отклонение коэффициента Т-отношение = коэф./ст.о. -9,26247 13,37258 -0,69264 0,001373 0,000191 7,165398 Х2 10,76225 0,798748 13,47389 ХЗ 0,005484 0,025543 0,214728 Столбец Х1 S= 16,11 R-квадрат = 94,2% 11. Рассмотрим результаты множественной регрессии, представленные в табл. 12.5.8, с помощью которой предпринята попытка объяснить величи ну заработной платы высших руководителей 11 крупнейших топливных компаний, основываясь на объеме продаж и прибыли на собственный (ак ционерный) капитал (return on equity — ROE) соответствующей фирмы.33 Например, данные по компании Exxon включают величину заработной платы, равную 1 207 (в тысячах долларов), для председателя совета ди ректоров, величину ROE, равную 15,0 (в процентах), и объем продаж, равный 77 721 (в миллионах долларов). а) С какой примерно точностью (в долларах) можете вы прогнозировать величину заработной платы высших руководителей этих фирм, основыва ясь на их объеме продаж и ROE? б) Найдите прогнозируемую величину и остаточную ошибку прогнозирова ния для заработной платы высшего руководства Exxon, выразив оба этих показателя в долларах. 33 Данные взяты из “Executive Compensation Scoreboard” , Business Week, May 2, 1988, p. 76. Форма этого анализа предложена Рольфом Р. Андерсоном (Rolf R. Anderson) (личный контакт, 1989 г.). 704 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.5.8. Результаты множественной регрессии для заработной платы руководителей Уравнение регрессии имеет следующий вид: заработная плата = 583,3609 + 0,0044 * (объем продаж) + 30,3880 * (ROE) S = 149,3560 R2= 0,770379 F = 13,42005 с 2 и 8 степенями свободы Влияние на заработную плату 95% доверительный интервал Проверка гипотез Стандартная ошибка коэффициента t- статистика Переменная Коэффициент От До Значимый? Стандартная ошибка t Константа 583,3609 389,5154 777,2064 Да 84,06136 6,939704 ROE 30,38801 11,13718 49,63883 Дэ 8,348146 3,640090 Объем продаж 0,004369 -0,00038 0,009128 Нет 0,002063 2,117528 в) Если ROE интерпретируется как показатель эффективности работы фирмы, существует ли значимая связь между эффективностью и величи ной заработной платы (с поправкой на объем продаж в соответствующей фирме)? Поясните свой ответ. г) О чем именно свидетельствует коэффициент регрессии 30,38801 для ROE? д) Почему объем продаж не оказывает значимого влияния на величину за работной платы (с поправкой на ROE), несмотря на достаточно большое значение 2,12 ^-статистики для него? 12. Некоммерческие корпорации во многих отношениях функционируют по добно предприятиям других типов. Благотворительные организации, вы полняющие больший объем операций, как правило, располагают большим штатом сотрудников, хотя у одних накладные расходы оказываются боль ше, чем у других. В табл. 12.5.9 представлено количество оплачиваемых штатных сотрудников благотворительных организаций, а также денежные суммы (в миллионах долларов), получаемые в результате частных пожерт вований, государственных платежей и прочих источников дохода. а) Составьте уравнение регрессии для прогнозирования количества штат ных сотрудников исходя из размеров вкладов каждого типа для этих бла готворительных организаций. (Для этого вам, вероятно, придется восполь зоваться компьютером.) б) Сколько дополнительных оплачиваемых штатных сотрудников в сред нем должно, по вашему мнению, работать в благотворительной организа ции, которая получает в результате частных пожертвований на $5 ООО ООО больше, чем другая благотворительная организация (при прочих равных условиях)? в) С какой примерно точностью составленное вами уравнение регрессии может прогнозировать количество штатных сотрудников в этих благотво рительных организациях на основании получаемых ими денежных сумм? ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 705 г) Найдите прогнозируемое количество штатных сотрудников и соответст вующий остаток для American Red Cross. д) Каким буд!ет результат F-теста? О чем он свидетельствует? е) Оказывают ли частные пожертвования значимое влияние на количество штатных сотрудников (при условии, что размер других пожертвований не изменяется)? Поясните свой ответ. 13. В табл. 12.5.10 представлена компьютерная распечатка части анализа, объясняющего конечную стоимость того или иного проекта на основе наи более удачного выбора руководством фирмы величины затрат на оплату труда и сырье в момент подачи предложения о заключении контракта на выполнение этого проекта (подсчет производился на основе 25 недавно за ключенных контрактов). Все переменные измеряются в долларах. а) Какой процент вариации затрат объясняется информацией, доступной ру ководству фирмы в момент подачи предложения о заключении контракта? б) С какой примерно точностью мы можем прогнозировать затраты, если нам известны другие переменные? в) Найдите прогнозируемые затраты на выполнение проекта, оплата1труда для которого планируются в размере $9 ООО, а затраты на сырье — $20 ООО. г) Является ли значимым F -тест? О чем он свидетельствует? д) Оказывает ли стоимость сырья существенное влияние на затраты? Таблица 12.5.9. Количество штатных сотрудников и размеры взносов (в миллионах долларов) для благотворительных организаций Прочие Благотворительная организация Штат Salvation Army 29350 473 92 $300 American Red Cross 22100 341 30 602 Planned Parenthood 8 200 67 106 101 CARE 7 087 45 340 12 Easter Seals 5 600 83 51 78 Association of Retarded Citizens 5 600 28 80 32 Volunteers of America 5 000 14 69 83 American Cancer Society 4 453 271 37 Boys Clubs 3 650 103 9 75 American Heart Association 2 700 151 1 27 UNICEF 1 652 67 348 48 March of Dimes 1600 106 6 American Lung Association 1 500 1 17 Частные пожертвования 80 Государственные платежи Данные взяты из G. Kinkead, “America’s Best-Run Charities”, Fortune, 1987, November 9, p. 146. 706 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ 14. Интерпретируйте применительно к предыдущему примеру коэффициент регрессии для размера оплаты труда, оценив среднее значение конечных затрат на каждый доллар, планируемый руководством фирмы на оплату труда по соответствующему проекту. 15. Ваш коллега оказался чрезвычайно доволен: ему удалось выяснить, что зна чение i f равно 100%, указывая на то, что уравнение регрессии полностью объясняет изменчивость Y (“прибыль” ) на основании двух Х-переменных — “доходов” и “ затрат” . Вы поражаете его воображение, высказав очень точ ный прогноз относительно величины коэффициентов регрессии. а) Объясните, почему полученный вашим коллегой результат (# 2= 100% ) в данном случае является вполне ожидаемым — более того, тривиальным. б) Каковы величины коэффициентов регрессии? 16. При вводе в эксплуатацию новой сборочной линии возникли проблемы с контролем качества. Чтобы выявить источник этих проблем, было решено воспользоваться анализом множественной регрессии. Суточный “ процент брака” обозначили как переменную Y, которую требовалось прогнозиро вать на основании следующих переменных (которые, по предположению многих сотрудников, являлись причиной возникших проблем): “ процент перегруженности” (степень перегруженности системы в сравнении со своей номинальной производительностью), “уровень буферного запаса” (степень накопления запасов между рабочими станциями) и “ изменчивость на вхо де” (стандартное отклонение весов для важнейшего исходного компонен та). На что должны быть направлены усилия руководства предприятия, если исходить из результатов множественной регрессии, представленных в табл. 12.5.11? Представьте свой ответ в форме докладной записки своему начальнику. Таблица 12.5.10. Регрессионный анализ конечных затрат на реализацию проекта Коэффициенты корреляции Оплата работников Затраты Оплата работников 0,684 Стоимость сырья 0,713 0,225 Уравнение регрессии имеет следующий вид: затраты = 13975 + 1,18 (оплата работников) + 1,64 (стоимость сырья). Независимая переменная Коэффициент Стандартное отклонение t -отношение Р Константа 13975 4286 3,26 0,004 Оплата работников 1,1806 0,2110 5,59 0,000 0,2748 5,97 0,000 Стоимость сырья s = 3860 1,6398 R-квадрат = 79,7% В-квадрат(коррект.) = 77,8% ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ ... 707 Окончание табл. 12.5.10 Дисперсионный анализ Источник DF >' SS MS F Р Регрессия 2 1286267776 643133888 43,17 0,000 Ошибка 22 327775808 14898900 Итого 24 1614043648 Источник DF SEQSS Оплата работников 1 755914944 Стоимость сырья 1 530352896 Таблица 12.5.11.. Результаты множественной регрессии для новой производственной сборочной линии Уравнение регрессии имеет следующий вид: брак = -1,62 + 11,7 (перегрузка) + 0,48 (буфер) + 7,29 (вход). Независимая переменная Коэффициент Константа -1,622 Перегрузка 11,71 Стандартное отклонение t -отношение р -0,90 0,381 1,806 0,53 0,605 Буфер 0,479 2,305 0,21 0,838 Вход 7,290 2,287 3,19 0,005 s = 2,954 22,25 R-квадрат = 43,8% Р-квадрат(коррекг.) = 34,4% Дисперсионный анализ Источник Регрессия DF SS MS F Р 4,67 0,014 3 122,354 40,785 Ошибка 18 157,079 8,727 Итого 21 279,433 17. Сменив поставщиков, вы надеетесь, что стандартное отклонение важней шего исходного компонента удастся снизить с 0,62 до 0,38 (в среднем). Основываясь на результатах множественной регрессии из предыдущего примера, ответьте на следующий вопрос: на какое снижение уровня брака следует рассчитывать, если вы все же решите сменить поставщиков? (Уро вень брака измеряется в процентных единицах; таким образом, “ брак” = 5,3 соответствует 5,3% бракованных изделий.) 18. В табл. 12.5.12 представлены уровни капиталовложений и результаты, достигнутые крупнейшими производителями оптоволоконного кабеля для удаленной связи. а) Составьте уравнение регрессии для прогнозирования количества миль оптоволоконного кабеля исходя из величины капиталовложений. 708 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ б) Изобразите диагностическую диаграмму остатков в зависимости от про гнозируемых значений. Какую взаимосвязь вы усматриваете (если усмат риваете) на этой диагностической диаграмме? Какие корректирующие дей ствия следует предпринять в этом случае? в) Найдите натуральный логарифм (по основанию е) для каждого значения данных. г) Найдите уравнение регрессии для прогнозирования логарифма количе ства миль кабеля на основании логарифма капиталовложений. д) Постройте диагностическую диаграмму для такой регрессии с использо ванием логарифмов. Требуются ли еще какие-то корректирующие дейст вия? Поясните свой ответ. е) О чем именно свидетельствует коэффициент регрессии? ж) Найдите двусторонний 95% доверительный интервал для коэффициента регрессии (для логарифмов обеих переменных). з) Действительно ли фирмы, осуществляющие большие капиталовложе ния, выпускают значительно больше миль оптоволоконного кабеля? Пояс ните свой ответ. и) Для регрессии, подобной этой, при использовании логарифмов обеих переменных коэффициент регрессии, меньший 1, означает наличие эконо мии, обусловленной ростом масштаба производства, а коэффициент регрес сии, больший 1, означает наличие дополнительных затрат на одну милю кабеля в случае более крупных проектов. Какой тип экономии предлагает Таблица 12.5.12. Фирмы, производящие оптоволоконный кабель для удаленной связи Капиталовложения, млн дол. AT&T MCI Сетевые мили,* млн 1300 1 700 500 650 130 110 United Telecommunications 2 000 1 200 Fibertrak 1 200 2400 LDXNet 110 165 Electra Communications 40 72 Microtel 60 45 GTE 57 85 500 650 SoutherNet 90 50 RCI 90 87 Litel Telecommunications Lightnet * Сетевая миля определяется как протяженность кабеля, способного передавать один речевой сигнал на расстояние в одну милю. Данные взяты из W. В. Johnston, “The Coming Glut of Phone Lines”, Fortune, 1985, January 7, p. 97-100. Источник: Hudson Institute. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 709 найденный нами для этой совокупности данных коэффициент регрессии? Является ли эта экономия статистически значимой? 19. В чем, по вашему мнению, заключается суть проблемы некоторой множе ственной регрессии, для которой значение R2 велико и статистически зна чимо, но ни для одной из Х-переменных f-тест не является значимым? 20. В табл. 12.5.13 частично представлены результаты множественного регрес-^ сионного анализа, объясняющего годовые объемы продаж в 25 гастроно мах на основании некоторых их характеристик. Переменная “ торговая улица” равна 1, если соответствующий гастроном находится на оживлен ной торговой улице, и 0 — в противном случае. Переменная “ посетители” равняется количеству посетителей гастронома за год. а) С какой примерно точностью (в долларах) можно прогнозировать объем продаж на основе данной регрессионной модели? б) Найдите прогнозируемый объем продаж для гастронома, находящегося на оживленной торговой улице и имеющего 100 ООО покупателей за год. в) Оказывают ли эти независимые переменные существенное влияние на объем продаж? Поясните свой ответ. г) О чем именно свидетельствует коэффициент регрессии для количества покупателей? д) Оказывает ли место расположения гастронома (оживленная торговая улица или более тихое место) существенное влияние на объем продаж, ес ли сравнивать два гастронома с одинаковым количеством покупателей за год? Поясните кратко, почему такое влияние может иметь место. е) Какой (примерно) дополнительный годовой объем продаж обеспечивает себе гастроном, находящийся на оживленной торговой улице, в сравнении с подобным ему гастрономом, расположенным в более тихом месте? 21. Ценообразование, как правило, — непростая задача. Заниженная цена обычно способствует повышению объема продаж, однако прибыль в расче те на одну продажу в этом случае оказывается ниже. Завышенная цена обеспечивает более высокую прибыль в расчете на одну продажу, однако в целом объем продаж снижается. Обычно фирма стремится выбрать такую цену, которая максимизирует общую прибыль, однако при этом следует учитывать существование значительной неопределенности в отношении спроса. В табл. 12.5.14 представлены гипотетические результаты исследо вания прибыли на сопоставимых тестовых рынках одинакового размера, где меняется лишь цена. а) Составьте уравнение регрессии в следующей форме: прогнозируемая прибыль = а + &(цена). б) Проверьте, значима ли данная регрессия. Можно ли считать логически обоснованным полученный вами результат? в) С какой примерно точностью (в долларах) можно прогнозировать прибыль на основании цены, если воспользоваться предложенным здесь способом? 710 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Таблица 12.5.13. Результаты множественной регрессии для годового объема продаж в гастрономах Уравнение регрессии имеет следующий вид: объем продаж = -36589 + 209475 (торговая улица) + 10,3 (покупатели). Независимая переменная Коэффициент Стандартное отклонение t -отношение Р Константа -36589 82957 -0,44 0,663 0,013 0,031 Торговая улица 209475 77040 2,72 Покупатели 10,327 4,488 2,30 s = 183591 R-квадрат = 39,5% В-квадрат(коррект.) = 34,0% Таблица 1 2 .5 .1 4 . Цена и прибыль на тестовых рынках (в долларах) Цена Прибыль 8 6 486 9 10 928 10 15 805 11 13 679 12 12758 13 9 050 14 5702 15 -109 г) Проанализируйте диагностическую диаграмму и выясните, присутствует ли в ней еще какая-нибудь структура, которая помогла бы объяснить прибыль на основании цены. Опишите структуру, которую вам удалось выявить. д) Создайте еще одну Х-переменную, используя квадрат цены, и составьте уравнение множественной регрессии для прогнозирования прибыли исходя из цены и ее квадрата. е) С какой примерно точностью (в долларах) можно прогнозировать при быль на основании цены, если воспользоваться двумя указанными выше Х-переменными? ж) Проверьте, объясняют ли взятые вместе цена и ее квадрат значимую долю вариации прибыли. з) Найдите цену, при которой прогнозируемая прибыль достигает макси мума. Сравните полученное значение с ценой, при которой наблюдаемая прибыль достигла наивысшего значения. 22. В табл. 12.5.15 представлены результаты анализа множественной регрессии, целью которой является объяснение уровня заработной платы высших должностных лиц на основании объемов продаж в их фирме и на основании ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 711 Таблица 12.5.15. Результаты множественной регрессии, касающиеся заработной платы руководителей фирм Уравнение регрессии имеет следующий вид: заработная плата = 931,8383 +0,01493 * (объем продаж) -215,747 * (аэрокосмическая отрасль) -135,550 * (банковская сфера) -303,774 * (полезные ископаемые) S = 401,8215 Ft2 = 0,423469 Переменная Коэффициент Стандартная ошибка Константа 931,8383 163,8354 Объем продаж 0,014930 0,003047 Аэрокосмическая отрасль -215,747 222,3225 Банковская сфера -135,550 177,0797 Полезные ископаемые -303,774 187,4697 промышленной группы.34 Переменная Y представляет величину заработной платы руководителя фирмы (в тысячах долларов). Переменная Х х представ ляет объем продаж в соответствующей фирме (в миллионах долларов). Х 2, Х 3 и Х 4 являются индикаторными переменными, которые представляют со ответственно промышленные группы аэрокосмической отрасли, банковской сферы и отрасли добычи полезных ископаемых (группа добычи полезных ископаемых включает крупные нефтяные компании). Индикаторная пере менная для базовой промышленной группы — автомобилестроение — не включена. Совокупности данных содержат п = 49 наблюдений. а) Оказывают ли объем продаж и промышленная группа значимое влияние на размер заработной платы высших руководителей фирм? б) Каково оцениваемое влияние каждого дополнительного миллиона дол ларов объема продаж на уровень заработной платы руководителя фирмы (с поправкой на промышленную группу)? в) Является ли статистически значимой оцененная вами разница в уровнях заработной платы руководителей, вызванная разницей в объемах продаж (см. п. “б” )? Какие практические выводы можно сделать, исходя из этой разницы в уровнях заработной платы? г) Учитывая соответствующий коэффициент регрессии, ответьте, насколь ко больше (или, наоборот, меньше) оплачивается труд руководителя банка в сравнении с оплатой труда руководителя автомобилестроительной ком пании сопоставимого масштаба? 34 Использованные данные взяты из статьи “ Executive Compensation Scoreboard” , Business Week , 1988, May 2, p. 57. 712 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ д) Является ли статистически значимой оцененная вами в п. “ г” разница в уровнях заработной платы руководителей фирм банковской и автомобиле строительной отраслей? Какие практические выводы можно сделать исхо дя из этой разницы в уровнях заработной платы? 23. Рассмотрите пример с затратами на размещение рекламных объявлений в журналах из раздела 12.1. а) Какая из Х-переменных наименее полезна с точки зрения объяснения ве личины тарифа на размещение рекламы в журналах? Поясните свой ответ. б) Выполните еще раз регрессионный анализ, отбросив эту Х-переменную. в) Сравните следующие результаты без использования Х-переменной с ре зультатами в случае использования Х-переменной: F -тест, i f , коэффици енты регрессии и t-статистики. 24. Рассмотрите ставки процента по ценным бумагам с различными сроками погашения (соответствующие данные представлены в табл. 12.5.16). а) Найдите уравнение регрессии для прогнозирования долгосрочной ставки процента (долгосрочные казначейские обязательства) на основании двух других ставок процента (с меньшими сроками погашения). Таблица 12.5.16. Ставки процента Казначейские векселя (трехмесячная процентная ставка) Долгосрочные казначейские обязательства (десятилетняя процентная ставка) Год Федеральные фонды (однодневная процентная ставка) 1980 13,35 11,39 11,43 1981 16,39 14,04 13,92 1982 12,24 10,60 13,01 1983 9,09 8,62 11,1 1984 10,23 9,54 12,46 1985 8,10 7,47 10,62 1986 6,80 5,97 7,67 1987 6,66 5,78 8,39 1988 7,57 6,67 8,85 1989 9,21 8,11 8,49 1990 8,10 7,50 8,55 1991 5,69 5,38 7,86 1992 3,52 3,43 7,01 1993 3,02 3,00 5,87 1994 4,21 4,25 7,69 1995 5,83 5,49 6,57 1996 5,30 5,01 6,44 Данные взяты из таблиц 806 и 807 Бюро переписи населения США, Statistical Abstract of the United States: 1997{117th edition.) Washington, DC, 1997. ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ .. 713 б) Создайте новую переменную (“ взаимодействие” ), перемножив два вида ставок процента с меньшими сроками погашения. Найдите уравнение рег рессии для прогнозирования долгосрочной ставки процента (долгосрочные казначейские обязательства) на основании двух других ставок процента (с меньшими сроками погашения) и переменной “ взаимодействие” . в) Проверьте, есть ли какое-либо взаимодействие двух видов ставок про цента с меньшими сроками погашения, которое являлось бы частью взаи мосвязи между краткосрочными и долгосрочными ставками процента. Упражнения с использованием базы данных Обратитесь к базе данных служащих, приведенной в приложении А. 1. Рассмотрите прогнозирование годовой заработной платы исходя из возраста и стажа работы. а) Найдите и интерпретируйте уравнение регрессии и коэффициенты регрессии. б) Найдите и интерпретируйте стандартную ошибку оценки. в) Найдите и интерпретируйте коэффициент детерминации. г) Является ли данная модель значимой? О чем это свидетельствует? д) Проверьте каждый коэффициент регрессии на значимость и интерпре тируйте полученные результаты. е) Найдите и интерпретируйте стандартизованные коэффициенты регрессии. ж) Проанализируйте диагностическую диаграмму и выявите серьезные проблемы — если таковые действительно имеются. 2. Продолжайте использовать прогнозы годовой заработной служащих исходя из их возраста и стажа работы. платы ^ а) Найдите прогнозируемую годовую заработную плату и ошибку прогно зирования для служащего под номером 33 и сравните полученный резуль тат с его фактической годовой заработной платой. б) Найдите прогнозируемую годовую заработную плату и ошибку прогнозирования для служащего с номером 52 и сравните полученный результат с его фактической годовой заработной платой. в) Найдите прогнозируемую годовую заработную плату и ошибку прогно зирования для самого высокооплачиваемого служащего и сравните полу ченный результат с его фактической годовой заработной платой. О чем свидетельствуют результаты этого сравнения? г) Найдите прогнозируемую годовую заработную плату и ошибку прогно зирования для самого низкооплачиваемого служащего и сравните полу ченный результат с его фактической годовой заработной платой. О чем свидетельствуют результаты этого сравнения? 3. Рассмотрите прогнозирование годовой заработной платы исходя из одного лишь возраста (сравните с упражнением 1, где в качестве Х-переменной также использовался стаж работы). 714 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ а) Найдите уравнение регрессии для прогнозирования годовой заработной платы исходя из возраста служащего. б) Используя результаты, полученные в п. “ а” упражнения 1 и настоящего упражнения, сравните влияние возраста на годовую заработную плату с поправкой на стаж работы и без такой поправки. в) Проверьте, оказывает ли возраст служащего значимое влияние на годо вую заработную плату с поправкой на рабочий стаж и без такой поправки. Кратко обсудите полученные результаты. 4. Теперь проанализируйте влияние пола служащего на его годовую заработ ную плату с поправками на его возраст и стаж работы и без таких поправок. а) Найдите среднюю годовую заработную плату для мужчин и для женщин и сравните полученные значения. б) Используя двусторонний тест на уровне 5% , выясните, зарабатывают ли мужчины значимо больше, чем женщины. (Возможно, чтобы найти подхо дящий для данного случая тест, вам придется вернуться к материалу гла вы 10.) в) Найдите уравнение множественной регрессии для прогнозирования го довой заработной платы исходя из возраста, стажа работы и пола служа щего, воспользовавшись индикаторной переменной для пола (выбрав для женщин значение переменной, равное 1). г) Проанализируйте и интерпретируйте коэффициент регрессии для пола служащего. д) Оказывает ли пол служащего значимое влияние на годовую заработную плату — с поправкой на возраст и стаж работы? е) Сравните и обсудите результаты, полученные вами в пп. “ б” и “ д” на стоящего примера. 5. Теперь проанализируйте влияние уровня подготовки служащего на его го довую заработную плату с поправками на его возраст и стаж работы и без таких поправок. а) Найдите среднюю годовую заработную плату для каждого из трех уров ней подготовки и сравните полученные результаты. б) Найдите уравнение множественной регрессии для прогнозирования го довой заработной платы исходя из возраста, стажа работы и уровня подго товки служащего, воспользовавшись индикаторными переменными для уровня подготовки. Используйте уровень А в качестве базы и не исполь зуйте соответствующую индикаторную переменную. в) Проанализируйте и интерпретируйте коэффициент регрессии для каж дой индикаторной переменной, которая соответствует одному из уровней подготовки. г) Оказывает ли уровень подготовки служащего значимое влияние на его годовую заработную плату — с поправкой на возраст служащего и его стаж работы? ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 715 д) Сравните и обсудите среднюю разницу в заработной плате между уров нями подготовки А и С — как с поправкой на возраст и стаж работы, так и без нее. 6. Рассмотрите прогнозирование годовой заработной платы исходя из возрас та, стажа работы и терма взаимодействия. а) Создайте новую переменную (“ взаимодействие” ), умножив для каждого служащего его возраст на стаж работы. б) Найдите уравнение регрессии для прогнозирования годовой заработной платы исходя из возраста служащего, его стажа работы и терма взаимо действия. в) Проверьте, насколько значимым является данное взаимодействие, вос пользовавшись f-тестом для коэффициента регрессии, относящегося к пе ременной взаимодействия. г) Какое среднее влияние на годовую заработную плату оказывает каждый дополнительный год стажа работы у 40-летнего служащего? д) Какое среднее влияние на годовую заработную плату оказывает каждый дополнительный год стажа работы у 50-летнего служащего? е) Интерпретируйте взаимодействие между возрастом и рабочим стажем, сравнив свои ответы на пп. “ г” и “д” настоящего упражнения. Проект Найдите в Internet, в вашей библиотеке, в газете или в журнале многомерную совокупность данных, касающуюся вашей работы или интересов вашего бизнеса. Размер выборки должен составлять п = 25 или больше; кроме того, F-тест, а также по меньшей мере один из tтестов для этой совокупности данных должны быть значимыми. а) Выберите зависимую переменную (У) и кратко поясните причины, кото рые заставили вас остановить свой выбор именно на ней. б) Исследуйте и прокомментируйте диаграммы рассеяния, представляю щие собой зависимость переменной У от каждой из X - переменных. в) Вычислите и кратко интерпретируйте матрицу корреляций. г) Составьте уравнение регрессии. д) Для двух элементарных единиц вашей совокупности данных вычислите прогнозируемые значения У и остатки. е) Интерпретируйте каждый коэффициент регрессии и его доверительный интервал. ж) Какие из коэффициентов регрессии являются значимыми? Какие из них не являются значимыми (если таковые имеются)? Имеют ли смысл полученные вами результаты? з) Укажите, что нового относительно влияния Х-переменных на перемен ную У вы узнали из анализа множественной регрессии. 716 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Ситуация для анализа Контроль качества продукции По поводу того, почему так много изделий после их изготовления приходится переделывать или вообще выбрасывать, единого мнения не существует. Некоторые утверждают, что все дело в температуре соответствующего производственного про цесса, которую необходимо поддерживать постоянной (ее колебания возможны лишь в допустимых пределах). Другие заявляют, что главное — плотность мате риала, из которого производятся изделия: если применять более прочный матери ал, проблемы исчезнут сами собой. А есть еще и Оле, который в свое время преду преждал, что нельзя использовать производственное оборудование в режимах, не предусмотренных его техническими характеристиками. Это условие можно выпол нить довольно просто: нужно просто снизить производительность системы; однако в этом случае придется смириться с ростом себестоимости продукции. Интересно отметить, что многие работники утренней смены полагают, что проблема заключа ется в “низкой квалификации работников дневной смены” (впрочем, то же самое работники дневной смены говорят и о своих коллегах). После того как производственный процесс был автоматизирован (компьюте ры, управляющие процессом, объединены в сеть, а на каждой рабочей станции установлены устройства для считывания штрих-кодов), удалось наладить сбор необходимых данных. Решением проблемы качества изделий поручено заняться вам. После того как ваш помощник организовал данные в виде четырехчасовых блоков, а затем ввел переменную, обозначающую рабочую смену до или после обеда, вы нашли на своем рабочем столе следующую записку, к которой прила галась распечатка данных, уже загруженных в компьютерную сеть. И нт ересны е новости! И спользуют ся следующ ие переменные. я П ерем енная “ температура” фактически содержит результ ат измерения изменчивости температуры в виде стандартного отклонения в течение времени измерения. я П ерем енная продукта. я П ерем енная “ производительность ” содержит значения производительно сти данного процесса. я А М / Р М представляет собой индикаторную переменную (равняет ся 1 в утреннюю смену и 0 — в дневную ). я П ерем енная “ деф ект ” содержит среднее количество дефектов на каждые 1 ООО произведенных изделий. “ плотность” содержит плотность материала конечного Температура Плотность Производительность АМ/РМ Дефект 0,97 32,08 177,7 0,2 2,85 21,14 254,1 47,9 2,95 20,65 272,6 50,9 2,84 22,53 273,4 1 49,7 1,84 27,43 210,8 1 11,0 ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 717 Окончание таблицы АМ/РМ Дефект 236,1 1 15,6 219,1 5,5 23,34 238,9 37,4 23,97 251,9 27,8 3,02 19,45 281,9 1 58,7 2,69 23,17 254,5 1 34,5 2,63 22,70 265,7 1 45,0 Температура Плотность Производительность 2,05 25,42 1,50 27,89 2,48 2,23 1,58 27,49 213,3 6,6 2,48 24,07 252,2 31,5 2,25 24,38 238,1 23,4 2,76 21,58 244,7 1 42,2 2,36 26,30 222,1 10 13,4 1,09 32,19 181,4 1 0,0 2,15 25,73 241,0 20,6 2,12 25,18 226,0 15,9 2,27 23,74 256,0 44,4 2,73 24,85 251,9 1 37,6 1,46 30,01 192,8 1 2,2 1,55 29,42 223,9 1 1,5 2,92 22,50 260,0 55,4 2,44 23,47 236,0 36,7 1,87 26,51 237,3 24,5 1,45 30,70 221,0 1 2,8 2,82 22,30 253,2 1 60,8 1,74 28,47 207,9 1 10,5 Вы, естественно, решаете выполнить множественную регрессию для прогнози рования частоты появления дефектов на основании всех независимых (объясняю щих) переменных. Идея такого подхода заключается в том, чтобы понять, какие переменные связаны с появлением дефектов (если такие переменные действитель но имеются). Кроме того, вы полагаете: если какая-то переменная помогает про гнозировать появление дефектов, значит, существует возможность контролировать (снижать) частоту появления дефектов, изменяя эту переменную. Ниже приведены результаты регрессии, вычисленные с помощью электронных таблиц.35 Обратите внимание, что число можно представить в так называемой научной нотации; та ким образом, 2,36Е-5 Означает (2,36)(10-5) = 0,0000236. Указанный способ записи чисел мож но представить себе следующим образом: Е-5 означает, что десятичную точку нужно сдвинуть на 5 позиций влево. 718 ЧАСТЬ IV. РЕГРЕССИЯ И ВРЕМЕННЫЕ РЯДЫ Итоговая распечатка Статистические показатели регрессии Множественный R 0,948 R-квадрат 0,899 R-квадрат корректированный (с поправкой) 0,883 Стандартная ошибка 6,644 Наблюдений 30 ANOVA Регрессия df SS MS F p-значение 4 9825,76 2456,44 55,65 4.37Е--12 44,14 Остаток 25 1103,54 Итого 29 10929,29 Коэффициент Стандартная ошибка t Р 95% нижняя граница 95% верхняя граница -28,756 64,170 -0,448 0,658 -160,915 103,404 Температура 26,242 9,051 2,899 0,008 7,600 44,884 Плотность -0,508 1,525 -0,333 0,742 -3,649 2,633 0,052 0,126 0,415 0,682 -0,207 0,311 0,803 -2,176 0,039 -3,399 -0,093 Сдвиг Производительность АМ/РМ -1,746 На первый взгляд, выводы из этих результатов достаточно очевидны. Но так ли это на самом деле? Вопросы для обсуждения 1. В чем заключаются “ очевидные выводы” из проверок гипотез в распечатке результатов регрессии? 2. Проанализируйте приведенные данные. Не находите ли вы в них чего-то такого, что заставляет усомниться в результатах регрессии? Если потребу ется, выполните дальнейший анализ. 3. Что бы вы порекомендовали предпринять? Почему? ГЛАВА 12. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ПРОГНОЗИРОВАНИЕ 719 ГЛАВА Л3 Составление отчетов: представление результатов множественной регрессии Умение грамотно изложить (представить) результаты проделанной работы — важная составляющая профессиональной деятельности в большинстве областей. Менеджер использует соответствующие коммуникационные стратегии для моти вации тех, кто представляет ему на рассмотрение результаты своей работы (т.е. своих подчиненных), чтобы убедить своего началь ника в важности полученных результатов, убедить в чем-то своих потенциальных клиентов, воздейст вовать нужным образом на поставщиков своей фирмы и т.п. Статистические отчеты нередко помогают наи более объективным и удобным способом довести до сведения других людей важнейшую информацию о соответствующей ситуации.1 Они позволяют вам довести свою точку зрения до самой широкой ау дитории. Доверие к вам со стороны других людей в этом случае может повыситься, поскольку им должно быть совершенно очевидно, что для того, чтобы представить публике “ полную картину” си туации, вам пришлось приложить определенные усилия, тщательно проанализировав все имеющие ся у вас сведения. Ниже приведено несколько примеров отчетов, которые включают статистиче скую информацию. Первый. Обследование рынка. Руководство ва шей фирмы решает, запускать ли в производство Возможны, разумеется, и другие применения статистики. Обратитесь, например, к книге Huff D. How to Lie with Statistics (New York: Norton, 1954) (“ Как обманывать с по мощью статистики” ).