Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекции 4-6. Анализ парной линейной статистической зависимости
Различные экономические показатели как на микро-, так и на макроуровне не
являются независимыми, а связаны между собой; например, цена какого-либо товара и
величина спроса на этот товар, объем производства и прибыль фирмы, располагаемый
доход и объем личного потребления, инфляция и безработица.
Если не принимать во внимание стохастическую природу экономических данных,
то для описания взаимосвязей различных экономических и финансовых показателей
между собой применяется функциональный подход. Связь одного из показателей с
другими показателями описывается с помощью функций одной y=f(x) или нескольких
переменных y=f(x1,…xm)). Такой подход применяется там, где вероятностный характер
экономических процессов малосущественен для принятия решений.
На самом деле взаимосвязи показателей в экономике редко имеют простой
функциональный вид, поскольку на интересующий нас показатель кроме явно
учитываемых объясняющих переменных влияет еще множество других факторов,
существующих в действительности, но не учитываемых явно в модели; часть из этих
факторов - случайные. Это обуславливает стохастическую природу как некоторых
экономических переменных, так и взаимосвязей между ними. Стохастические
взаимосвязи переменных можно описать с помощью частотных (вероятностных) или
корреляционных характеристик.
В экономических исследованиях одной из основных задач является анализ
зависимостей
между
переменными.
Зависимость
может
быть
строгой
(функциональной) либо статистической. Алгебра и математический анализ занимаются
изучением функциональных зависимостей, то есть зависимостей, заданных в виде
точных формул. Но любая такая зависимость в определенной степени является
абстракцией, поскольку в окружающем мире, частью которого является экономика,
значение конкретной величины не определяется неизменной формулой ее зависимости
от некоторого набора других величин. Всегда есть несколько величин, которые
определяют главные тенденции изменения рассматриваемой величины, и в
экономической теории и практике ограничиваются тем или иным кругом таких
величин (объясняющих переменных). Однако всегда существует и воздействие
большого числа других, менее важных или трудно идентифицируемых факторов,
приводящее к отклонению значений объясняемой (зависимой) переменной от
конкретной формулы ее связи с объясняющими переменными, сколь бы точной эта
формула ни была. Нахождение, оценка и анализ таких связей, идентификация
объясняющих переменных, построение формул зависимости и оценка их параметров
являются не только одним из важнейших разделов математической статистики. Это
своего рода искусство, учитывающее в каждой конкретной области знаний (в
частности, в экономике, о которой идет речь), ее внутренние законы и потребности. Но
это также и наука, поскольку выбираемый и оцениваемый вид формулы должен быть
объяснен в терминах данной области знаний.
Пусть требуется оценить связь между переменными Х и Y (например, связь
показателей безработицы и инфляции в данной стране за определенный период
времени). В частности, может стоять вопрос, связаны ли между собой эти показатели, и
при положительном ответе на него, естественно, встает задача нахождения формулы
этой связи. Основой для ответа на этот вопрос являются статистические данные о
динамике этих показателей (годовые, квартальные, месячные и т.п.). Эти данные
представляют собой некоторую, предположительно - случайную, выборку из
2
генеральной совокупности, то есть из совокупности всех возможных сочетаний
показателей инфляции и безработицы в сложившихся условиях.
Задачей эконометрического исследования является количественная и
качественная оценка взаимосвязи наборов данных, представленных в безразмерном
виде. Можно указать два типа взаимосвязей между двумя переменными х и у. В одном
случае может быть неизвестно, какая из двух переменных является независимой, и
какая - зависимой. В этом случае переменные равноправны, и имеет смысл говорить о
статистической взаимосвязи корреляционного типа.
4.1. Ковариация
Ковариация характеризует степень линейной связи величин Х и Y.
Для генеральной совокупности показатель ковариации величин X и Y
определяется следующим образом:
Cov(X,Y)=E[(X-E[X]](Y-E[Y]]
(4. 1)
Нетрудно показать, что Cov[X,Y]= E[XY]- E[X]E[Y].
Этот показатель равен нулю, если случайные величины независимы. Однако он
имеет размерность, и его величина зависит от единиц измерения величин Х и Y.
Используя показатель ковариации, удобно записать формулу для дисперсии
суммы случайных величин Х и Y:
V[X+Y]=V[X]+V[Y]+2cov(X,Y)
(4. 2)
Свойства ковариации:
1. Cov[X+a,Y]=E[(X+a-(E[X]+a)))(Y-E[Y])]= Cov[X,Y], где a - константа.
2. Cov[bX,Y]=E[(bX-bE[X])(Y-E[Y])]= bCov[X,Y], где b - константа.
3. Cov[X,Y]=0, если случайные величины X и Y взаимонезависимы.
Действительно, Cov[X,Y]=E[(X-E[X])(Y-E[Y])] = E[X-E[X]] E[Y-E[Y]] = 00 = 0
Выборочный показатель ковариации рассчитывается по формуле:
_
_
1 n
cov( X , Y ) ( xk x)( y k y).
n k 1
(4. 3)
4.2. Коэффициент корреляции для выборки и для генеральной совокупности
Корреляционный анализ дает возможность установить, ассоциированы ли
наборы данных по величине, то есть, большие значения из одного набора данных
связаны с большими значениями другого набора (положительная корреляция), или,
наоборот, малые значения одного набора связаны с большими значениями другого
(отрицательная корреляция), или данные двух диапазонов никак не связаны
(корреляция близка к нулю). В качестве меры для степени линейной связи двух
переменных используется коэффициент их корреляции.
3
_
n
1
n
r x, y
( x
k 1
n
1
n
( x
j 1
j
_
k
x )( y k y )
_
n
(4. 4)
x) 2
1
n
( y
m 1
_
m
y) 2
По формуле коэффициента корреляции видно, что он будет положителен, если
отклонения переменных X и Y от своих средних значении имеют, как правило,
одинаковый знак, и отрицательным - если разные знаки.
Рис. 4.1. Типы зависимостей и коэффициент корреляции
Коэффициент корреляции является безразмерной величиной (так как размерности
числителя и знаменателя есть размерности произведения Х Y); его величина не зависит
от выбора единиц измерения обеих переменных. Величина коэффициента корреляции
меняется от -1 в случае строгой линейной отрицательной связи до +1 в случае строгой
линейной положительной связи.
Для оценки значимости коэффициента корреляции можно воспользоваться
следующей грубой оценкой:
r xy < 0,3 – линейная связь отсутствует;
0,3 r xy < 0,7 – имеется слабая линейная связь;
r xy 0,7 – имеется сильная линейная связь;
Случаи положительной и отрицательной корреляции переменных (с близкими по
модулю к единице коэффициентами корреляции) показаны на рис. 4.1. Близкая к нулю
величина коэффициента корреляции говорит об отсутствии линейной связи
переменных, но не об отсутствии связи между ними вообще. Это ясно из правой части
рис. 4.1, где Х и Y, очевидно, связаны друг с другом (лежат на одной окружности), но
их коэффициент корреляции близок к нулю. Последнее вытекает их того, что каждой
паре одинаковых отклонений переменной X от ее среднего значения соответствуют
равные по абсолютной величине положительное и отрицательное отклонения
переменной X от ее среднего. Соответственно, произведения этих отклонений "гасят"
друг друга в числителе формулы коэффициента корреляции, и он оказывается близким
к нулю.
4.2.1. Теоретический коэффициент корреляции
Мы вели до сих пор речь о выборочном коэффициенте корреляции величин Х и Y,
который рассчитывается для оценки степени линейной связи этих величин по данным
выборки. При этом истинным показателем степени линейной связи величин Х и Y для
4
закона распределения, имеющегося на генеральной совокупности, является
теоретический коэффициент корреляции XY, оценкой которого является выборочный
коэффициент корреляции. Коэффициент корреляции для генеральной совокупности
определяется следующим образом:
cov( X , Y )
(4. 5)
XY
( X ) ( Y )
Исходя из определения коэффициента корреляции, покажем, что он равен 1 или 1 при строгой линейной зависимости величин Х и Y и равен нулю в случае их
независимости.
Пусть Y=а+bХ. Тогда, пользуясь свойствами ковариации и дисперсии, получаем:
Cov[X,Y]= bV[X].
cov( X , Y ) b
, то есть
( X ) (Y ) b
коэффициент корреляции равен 1 при положительном коэффициенте b и равен -1 при
отрицательном b. Если Х и Y независимы, то XY 0 , так как Cov[X,Y]= 0. Однако
неверно предположить, что если XY 0 , то Х и Y независимы.
Итак, равный нулю коэффициент корреляции для генеральной совокупности
говорит об отсутствии линейной связи рассматриваемых величин. Однако он не
свидетельствует об отсутствии их связи вообще. В случае равенства нулю показателя
корреляции, например, величин уровней инфляции и безработицы (а это
действительно практически так для периода 1970-х - 1980-х годов для экономики
США) не следует сразу говорить о независимости этих показателей в данный период, а
попытаться построить более сложную модель их связи, учитывающую, возможно, как
нелинейность саой зависимости, так и наличие в ней запаздываний во времени (лагов),
а также инерционность динамики соответствующих величин.
Очевидно также, что V[Y]=V[a+bX]=b2V[X], и XY
4.2.2. Проверка гипотез о корреляции случайных переменных
Далее, в анализе коэффициента корреляции возникает следующий вопрос. Если
он равен нулю для генеральной совокупности, это вовсе не значит, что он в точности
будет равен нулю для выборки. Наоборот, он обязательно будет отклоняться от
истинного значения, но чем больше такое отклонение, тем менее оно вероятно при
данном объеме выборки. Таким образом, при каждом конкретном значении
коэффициента корреляции величин Х и Y для генеральной совокупности выборочный
коэффициент корреляции является случайной величиной. Следовательно, случайной
величиной является также любая его функция, и требуется указать такую функцию,
которая имела бы одно из известных распределений, удобное для табличного анализа.
Для выборочного коэффициента корреляции r такой функцией является t-статистика,
рассчитываемая по формуле
n2
t r
(4. 6)
1 r 2
и имеющая распределение Стьюдента с (n-2) степенями свободы. Число
степеней свободы меньше числа наблюдений на 2, поскольку в формулу выборочного
коэффициента корреляции входят средние выборочные значения Х и Y, для расчета
5
которых используются две линейные формулы их зависимости от наблюдений
случайных величин. Сразу уточним, что для коэффициента корреляции будет
проверяться нулевая гипотеза, то есть гипотеза о равенстве его нулю в генеральной
совокупности. Эта гипотеза отвергается, если выборочный коэффициент корреляции
слишком далеко отклонился от нулевого значения, то есть произошло событие,
которое было бы маловероятным в случае XY=0.
Здесь, конечно, очень важно понять, что конкретно значат слова "слишком далеко"
и "маловероятное событие". В последнем случае нужно задать вероятность такого
события, которая называется в статистике "уровень значимости". Чаще всего задается
уровень значимости 1% или 5%. Если для некоторого показателя проверяется гипотеза
о том, что его истинное значение равно нулю, то данная гипотеза отвергается в том
случае, если оценка показателя по данным выборки такова, что вероятность получения
такого или большего (по модулю) ее значения меньше, чем 1% или 5%
соответственно.
На рис. 4.2. дана иллюстрация проверки нулевой гипотезы для коэффициента
корреляции, которая может быть использована для рассмотрения общей схемы
проверки статистических гипотез. Здесь H0 - гипотеза о том, что истинное значение
коэффициента корреляции равно нулю, альтернативная ей гипотеза H1, - что оно не
равно нулю.
Рис. 4.2. Проверка нулевой гипотезы для коэффициента корреляции
Функция fZ - функция плотности вероятности распределения Стьюдента в случае,
если нулевая гипотеза верна (она максимальна при Z =0, где Z- случайная величина
выборочного коэффициента корреляции). Заштрихованная область - это область
больших по абсолютной величине (маловероятных при выполнении гипотезы Н0)
значений выборочного коэффициента корреляции. Если последнее все-таки попало в
эту область, то Н0 отвергается. Площадь заштрихованной области, равная , - уровень
значимости, или вероятность того, что туда попадет величина Z при выполнении Н0.
Пример 4.1
Рассмотрим процедуру и примеры проверки нулевой гипотезы для коэффициента
корреляции на конкретном примере. Этот пример поможет показать логику и
процедуру проверки статистических гипотез вообще. Взяты 10 наблюдений
показателей инфляции и безработицы в США за 1931-1940 годы, для них рассчитан
выборочный коэффициент корреляции, составивший -0,227. Связь отрицательная, что
соответствует теории (кривая Филлипса), но значима ли она? Проверим гипотезу Н0:
=0 о равенстве нулю истинного значения коэффициента корреляции. Для проверки
гипотезы Н0 как уже говорилось, следует использовать t-статистику с п-2 степенями
свободы (1).
Сравнивая определенное по выборочным данным значение статистики t с
критическими точками, определяемыми по таблицам распределения Стьюдента, мы
6
можем принять или отвергнуть нулевую гипотезу. В нашем примере t-статистика
составляет -0,66. Зададим уровень значимости =0,05, то есть 5%. Критическая
(заштрихованная) область состоит из двух одинаковых "хвостов", площадь каждого из
которых составляет 0,025. Рассмотрим таблицы вероятности того, что величина tстатистики превысит уровень t(n-2), то есть попадет в правый "хвост" распределения.
Вероятность попасть только в правый "хвост", то есть в одностороннюю критическую
область, равна /2, в нашем случае 0,025. Из таблицы найдем, что критическое
значение t(n-2) составляет 2,306. Это означает, что мы отвергли бы нулевую гипотезу
только если |t|>2,306, а в нашем случае |t|=0,66. Итак, в нашем случае не исключается,
что истинное значение коэффициента корреляции равно нулю, то есть на основе
данной выборки не удалось сделать вывод о наличии статистически значимой
линейной связи показателей инфляции и безработицы в США. Нельзя, впрочем, здесь
сделать вывода и об отсутствии такой связи.
4.3.Парная линейная регрессия
Проблема изучения взаимосвязей экономических показателей является одной из
важнейших проблем экономического анализа. Любая экономическая политика
заключается в регулировании экономических переменных, и она должна основываться
на знании того, как эти переменные влияют на другие переменные, являющиеся
ключевыми для принимающего решения политика. Так, в рыночной экономике нельзя
непосредственно регулировать темп инфляции, но на него можно воздействовать
средствами бюджетно-налоговой и кредитно-денежной политики. Поэтому, в
частности, должна быть изучена зависимость между предложением денег и уровнем
цен. Невозможно строить, проверять или улучшать экономические модели без
статистического анализа их переменных с использованием реальных статистических
данных. Вся сфера экономических исследований может быть в определенном смысле
охарактеризована как изучение взаимосвязей экономических переменных, и
инструментарием их базового анализа являются методы статистики и эконометрики.
Изучение зависимостей экономических переменных начнем со случая двух
переменных (обозначим их х и у). Этот случай наиболее прост и может быть
рассмотрен графически. Предположим, что имеются ряды значений переменных,
соответствующие им точки нанесены на график и соединены линией. Если это
реальные статистические данные, то мы никогда не получим простую линию линейную, квадратичную, экспоненциальную и т.д. Всегда будут присутствовать
отклонения зависимой переменной, вызванные ошибками измерения, влиянием
неучтенных величин или случайных факторов. Но если мы не получили, например,
точную прямую линию, это еще не значит, что в основе рассматриваемой зависимости
лежит нелинейная функция. Возможно, зависимость переменных линейна, и лишь
случайные факторы приводят к некоторым отклонениям от нее. То же самое можно
сказать и про любой другой вид функции.
Связь переменных, на которую накладываются воздействия случайных факторов,
называется статистической связью. Наличие такой связи заключается в том, что
изменение одной переменной приводят к изменению математического ожидания
другой переменной. Можно указать два типа взаимосвязей между переменными х и у.
В одном случае может быть неизвестно, какая из двух переменных является
независимой, и какая - зависимой. В этом случае переменные равноправны, и имеет
смысл говорить о статистической взаимосвязи корреляционного типа. Оценка и анализ
парной корреляции уже рассматривались в предыдущей главе.
7
Другая ситуация возникает, если две исследуемые переменные неравноправны,
но одна из них рассматривается как объясняющая (или независимая), а другая как
объясняемая (или зависящая от первой). Если это так, то изменение одной из
переменных служит причиной для изменения другой. Например, рост дохода ведет к
увеличению потребления; снижение процентной ставки увеличивает инвестиции; рост
курса национальной валюты сокращает чистый экспорт. Это - тот случай, когда
должно быть оценено уравнение регрессии y=f(x). Уравнение регрессии - это формула
статистической связи между переменными. Если эта формула линейна, то речь идет о
линейной регрессии. Формула статистической связи двух переменных называется
парной регрессией, зависимость от нескольких переменных - множественной
регрессией. Например, Кейнсом была предложена линейная формула зависимости
частного потребления С от располагаемого дохода Yd: C=C0+bY, где C0>0 - величина
автономного потребления, 1>b>0 - предельная склонность к потреблению.
Выбор формулы связи переменных называется спецификацией уравнения
регрессии; в данном случае выбрана линейная формула. Однако до тех пор, пока не
оценены количественные значения параметров C0 и b, не проверена надежность
сделанных оценок, эта формула остается лишь гипотезой. Оценка значений
параметром выбранной формулы статистической связи переменных называется
параметризацией уравнения регрессии. Как же оценить значения параметров и
проверить надежность оценок? Рассмотрим вначале рис. 4.3.
y
y
y
b
c
a
)
)
)
x
x
x
Рис. 4.3.
На рисунке 4.3. изображены три ситуации:
на графике (а) взаимосвязь х и у близка к линейной; прямая линия здесь
близка к точкам наблюдений, и последние отклоняются от нее лишь в
результате сравнительно небольших случайных воздействий;
на графике (b) реальная взаимосвязь величин x и y описывается нелинейной
функцией, и какую бы мы ни провели прямую линию, отклонения точек
наблюдений от нее будут существенными и неслучайными;
на графике (с) явная взаимосвязь между переменными х и у отсутствует;
какую бы мы ни выбрали формулу связи, результаты ее параметризации будут
здесь неудачными. В частности, две прямые линии, проведенные через
"центр" "облака" точек наблюдений и имеющие противоположный наклон,
одинаково плохи для того, чтобы делать выводы об ожидаемых значениях
переменной у по значениям переменной х.
4.3.1 Метод наименьших квадратов
Начальным пунктом эконометрического анализа зависимостей обычно является
оценка линейной зависимости переменных. Если имеется некоторое "облако" точек
наблюдений, через него всегда можно попытаться провести такую прямую линию,
которая является наилучшей в определенном смысле среди всех прямых линий, то есть
8
"ближайшей" к точкам наблюдений по их совокупности. Для этого мы вначале должны
определить понятие близости прямой к некоторому множеству точек на плоскости;
меры такой близости могут быть различными. Однако любая разумная мера должна
быть, очевидно, связана с расстояниями от точек наблюдений до рассматриваемой
прямой линии (задаваемой уравнением y=a+bx).
Обычно в качестве критерия близости используется минимум суммы квадратов
разностей наблюдений зависимой переменной yi и теоретических, рассчитанных по
уравнению регрессии значений (a+bx):
Q(a,b)= ei2 ( yi (a bxi ))2 min
i
(4. 7)
i
Здесь считается, что yi и xi - известные данные наблюдений, a и b - неизвестные
параметры линии регрессии. Поскольку функция Q непрерывна, выпукла и ограничена
снизу нулем, она имеет минимум. Для соответствующих точке этого минимума
значений a и b могут быть найдены простые и удобные формулы (они будут приведены
ниже). Метод оценивания параметров линейной регрессии, минимизирующий сумму
квадратов отклонений наблюдений зависимой переменной от искомой линейной
функции, называется методом наименьших квадратов (МНК).
"Наилучшая" по МНК прямая линия всегда существует, но даже наилучшая не
всегда является достаточно хорошей. Если в действительности зависимость у=f(х)
является, например, квадратичной (как на рисунке 4.3.b), то ее не сможет адекватно
описать никакая линейная функция, хотя среди всех таких функций обязательно
найдется "наилучшая". Если величины х и у вообще не связаны (рис. 4.3.c)), мы также
всегда сможем найти "наилучшую" линейную функцию у = а+bх для данной
совокупности наблюдений, но в этом случае конкретные значения a и b определяются
только случайными отклонениями переменных и сами будут очень сильно меняться
для различных выборок из одной и той же генеральной совокупности. Возможно, на
рис. 4.3.с) одна из прямых и является наилучшей среди всех прямых линий (в смысле
минимального значения функции Q), но любая другая прямая, проходящая через
центральную точку "облака", ненамного в этом смысле хуже, и может стать наилучшей
в результате небольшого изменения выборки.
Рассмотрим теперь процедуру оценивания параметров парной линейной
регрессии а и b. Для того, чтобы функция (4.7) достигала минимума, необходимо
равенство нулю ее частных производных:
yi na b xi 0
Q a/ 2 ( y i a bx i ) 0
i
i
i
(4. 8)
/
2
Q b 2 ( y i a bx i ) x i 0 yi xi a xi b xi 0
i
i
i
Если первое уравнение разделить на п, то получим y a b x (здесь y, x средние
значения х и у). Таким образом, линия регрессии проходит через точку со средними
значениями y, x . Подставив величину а во второе уравнение, получаем
y
i
Откуда
i
x i x i ( y b x ) b x i2 n x ( y b x ) b x i2
i
i
i
9
y x
i
b
i
nx y
i
x
_2
2
i
(x
i
nx
i
x )( y i y )
(x
i
x) 2
;
(4. 9)
i
i
_
_
a y b x
Иначе можно записать, что
V [ y]
cov(x, y )
b
r
V [ x]
V [ x]
(4. 10)
(4. 11)
(где r - коэффициент корреляции х и у). Таким образом, коэффициент регрессии
пропорционален показателю ковариации и коэффициенту корреляции х и у, а
коэффициенты этой пропорциональности служат для соизмерения перечисленных
разноразмерных величин. Оценки a и b, очевидно, являются линейными относительно
уi (если х i считать коэффициентами) - выше об этом упоминалось.
Итак, если коэффициент r уже рассчитан, то легко рассчитать коэффициент
парной регрессии, не решая системы уравнений. Ясно также, что если рассчитаны
линейные регрессии х(у) и у(х), то произведение коэффициентов bx и by и, равно r2:
bxby r
V [ y]
V [ x]
r
V [ x]
r2
V [ y]
4.3.2 Свойства оценок МНК
Рассмотрим теперь задачу оценки коэффициентов парной линейной регрессии
более формально. Предположим, что связь между х и у линейна: у =+х. Здесь
имеется в виду связь между всеми возможными значениями величин х и у, то есть для
генеральной совокупности. Наличие случайных отклонений, вызванных воздействием
на переменную у множества других, неучтенных в нашем уравнении факторов и
ошибок измерения, приведет к тому, что связь наблюдаемых величин хi и уi,
приобретет вид
уi = +хi + i.
(4. 12)
Здесь i - случайные ошибки (отклонения, возмущения). Задача состоит в
следующем: по имеющимся данным наблюдений {хi}, {уi} оценить значения
параметров и , обеспечивающие минимум величины Q. Если бы были известны
точные значения отклонений i , то можно было бы (в случае правильности
предполагаемой линейной формулы) рассчитать значения параметров и . Однако
значения случайных отклонений в выборке неизвестны, и по наблюдениям хi и уi
можно получить оценки параметров и , которые сами являются случайными
величинами, поскольку соответствуют случайной выборке. Пусть а - оценка параметра
, b - оценка параметра . Тогда оцененное уравнение регрессии будет иметь вид:
уi = а+bхi + ei ,
(4. 13)
ei - наблюдаемые значения ошибок (отклонений) i.
Для оценки параметров и воспользуемся МНК, который минимизирует сумму
квадратов отклонений фактических значений уi от расчетных. Минимум ищется по
переменным a и b.
10
Для того, чтобы полученные МНК оценки a и b обладали желательными
свойствами, сделаем следующие предпосылки об отклонениях i:
1) величина i является случайной переменной;
2) математическое ожидание i, равно нулю: E[i] = 0;
3) дисперсия i постоянна: V[i ] = V[i ] = 2 для всех i,j;
4) значения i независимы между собой. Откуда вытекает, в частности, что
0 при i j
cov( i , j ) 2
при i j
Известно, что, если условия 1)-4) выполняются, то оценки, сделанные с помощью
МНК, обладают следующими свойствами:
1) Оценки являются несмещенными, т.е. математическое ожидание оценки
каждого параметра равно его истинному значению: E[а] = , E[b] = . Это вытекает из
того, что E[i] = 0, и говорит об отсутствии систематической ошибки в определении
положения линии регрессии.
2) Оценки состоятельны, то есть дисперсия оценок параметров при возрастании
числа наблюдений стремится к нулю. Иначе говоря, если n достаточно велико, то
практически наверняка a близко к , а b близко к : надежность оценки при
увеличении выборки растет.
3) Оценки эффективны, они имеют наименьшую дисперсию относительно
истинного значения оцениваемых параметров и по сравнению с любыми другими
оценками, линейными относительно величин уi. В англоязычной литературе такие
оценки называются BLUE (Best Linear Unbiased Estimators - наилучшие линейные
несмещенные оценки).
Перечисленные свойства не зависят от конкретного вида распределения величин
i, тем не менее, обычно предполагается, что они распределены нормально N(0,2). Эта
предпосылка необходима для проверки статистической значимости сделанных оценок
и определения для них доверительных интервалов. При ее выполнении оценки МНК
имеют наименьшую дисперсию не только среди линейных, но среди всех
несмещенных оценок.
Если предположения 3) и 4) нарушены, то есть дисперсия возмущений непостоянна
и/или значения i
связаны друг с другом, то свойства несмещенности и
состоятельности сохраняются, но свойство эффективности - нет.
4.4. Анализ статистической значимости коэффициентов линейной регрессии
Величины yi, соответствующие данным xi при некоторых теоретических
значениях и , являются случайными. Следовательно, случайными являются и
рассчитанные по ним значения коэффициентов а и b. Их математические ожидания
при выполнении предпосылок об отклонениях i равны, соответственно, и . При
этом оценки тем надежнее, чем меньше их разброс вокруг а и b, то есть дисперсия. По
определению дисперсии V[b] = E[b-]2, V[a] = E[a-]2. Надежность получаемых оценок
а и b зависит, очевидно, от дисперсии случайных отклонений i, но поскольку по
данным выборки эти отклонения (и, соответственно, их дисперсия) оценены быть не
могут, они заменяются при анализе надежности оценок коэффициентов регрессии на
отклонения переменной у от оцененной линии регрессии ei =yi-a-bxi.
Можно доказать (доказательство опускаем), что
11
V[b]=Sb2=
S2
(x
;
_
i
x)
(4. 14)
2
i
V[a]=Sa2=
S 2 x i2
; где
i
_
n ( xi x)
(4. 15)
2
i
S
e
2
i
i
2
(4. 16)
n2
- оценка дисперсии ошибок. Sa и Sb - стандартные отклонения случайных величин
а и b. Полученный результат можно проинтерпретировать следующим образом.
Коэффициент b есть мера наклона линии регрессии. Очевидно, чем больше
разброс значений у вокруг линии регрессии, тем больше (в среднем) ошибка в
определении наклона линии регрессии. Если такого разброса нет совсем (i = 0 и,
следовательно, 2=0), то прямая определяется однозначно и ошибки в расчете
коэффициентов а и b отсутствуют (а отсюда и значение S2, "замещающее" 2, равно
нулю).
a
b
Рис. 4.4
На рис. 4.4а отклонения в значениях переменной у от линии регрессии
отсутствуют, и через три точки проводится та же прямая, что и через любые две из них.
На рис. 4.4b через три точки проводится такая же линия регрессии, но колебания
значений переменной у вокруг этой линии значительны. Поэтому через пары точек
(1,2) и (1,3) проходят совершенно разные прямые, отличные от общей прямой.
Следовательно, стандартные ошибки коэффициентов регрессии в этом случае будут
значительными.
В знаменателе величины V[b] стоит сумма квадратов отклонений х от среднего
_
значения x . Эта сумма велика в том случае, если регрессия оценена на достаточно
широком диапазоне значений переменной х, и в этом случае, при данном уровне
разброса yi, очевидно, ошибка в оценке величины наклона прямой будет меньше, чем
при малом диапазоне изменения переменной х. Попробуйте провести прямую по двум
точкам: если х1 и х2, лежат рядом, то даже небольшое изменение одного из уi
существенно меняет наклон прямой (если х 1 и х2, далеки друг от друга - ситуация
обратная).
12
Так, на рисунке 4.4 через пары точек (1,2) и (1а,2) проходят одни и те же прямые,
в то же время разброс переменной х для первой из пар больше. Если у второй точки из
каждой пары изменить значение переменной у (перевести ее в точку 2а или 2b), то
наклон прямой для пары (1,2) изменится значительно меньше, чем для пары (1а,2).
Кроме того, чем больше (при прочих равных) число наблюдений п, тем больше
_
( x i x ) 2 и, тем самым, меньше стандартная ошибка оценки. Дисперсия свободного
i
члена уравнения регрессии равна V[a]=V[b]
x
2
i
i
n
- она пропорциональна V[b] и, тем самым, также соответствует уже сделанным
пояснениям о влиянии разброса yi вокруг регрессионной прямой и разброса xi на
стандартную ошибку. Чем сильнее меняется наклон прямой, проведенной через
данную точку ( x, y ), тем больше разброс значений свободного члена,
характеризующего точку пересечения этой прямой с осью у. Кроме того, дисперсия и
стандартная ошибка свободного члена тем больше, чем больше средняя величина хi2.
При больших по модулю значениях х даже небольшое изменение наклона
регрессионной прямой может вызвать большое изменение оценки свободного члена,
поскольку в этом случае в среднем велико расстояние от точек наблюдений до оси у.
Рис. 4.5
На рис. 4.5 через пары точек (1,2) и (3,4) проходит одна и та же прямая линия. Ее
свободный член равен а. Для второй из этих пар значения переменной х больше по
абсолютной величине (при одинаковом разбросе значений х и у). Если в первой из этих
пар от точки 1 перейти к точке 1а, а во второй - от точки 3 к 3а, что вызвано
одинаковыми изменениями одного из значений переменной у, то обе линии становятся
горизонтальными. Изменения коэффициента наклона прямой одинаковы, но
свободный член в первом случае становится равным a1, а во втором – a2,- таким
образом, он меняется значительно больше там, где больше абсолютные значения
переменной х.
Формально значимость оцененного коэффициента регрессии b может быть
проверена с помощью анализа его отношения к своему стандартному отклонению
Sb V [b] . Эта величина в случае выполнения исходных предпосылок модели имеет tраспределение Стьюдента с (n-2) степенями свободы (п - число наблюдений). Она
называется t-статистикой:
13
t
b
b
.
V [b] Sb
(4. 17)
Для t-статистики проверяется нулевая гипотеза, то есть гипотеза о равенстве ее
нулю. Очевидно, t= 0 равнозначно b = 0, поскольку t пропорциональна b.
y
3a
4
1a
1
3
2
x
Рис. 4.6
Пример 4.2
Рассмотрим конкретный пример. Пусть INF- темп инфляции, U - уровень
безработицы в США в 1931 - 1940 годы (10 наблюдений). Точки наблюдений
показаны на рис. 4.7.
Из 4.7 можно видеть, что, возможно, есть некоторая отрицательная связь
показателей INF и U, но вряд ли этот рисунок подтверждает наличие статистически
значимой линейной связи. Для проверки этого вывода оценена парная регрессия INF=
5,07 - 0,32U. Оценена величина
0 , 32
0 , 658 . Зададим уровень
0 , 486
значимости 0,1 при двусторонней альтернативной гипотезе (то есть, если величина
b0, то она может быть как положительной, так и отрицательной). Таблицы для tстатистик обычно публикуются для односторонней альтернативной гипотезы (t>0),
поэтому найдем критическое значение для уровня значимости 0,05 (доверительная
вероятность 0,95) с (n-2)=8 степенями свободы t8;0,95=1,860 и сравним с ним |t|=0,658.
S b2 0 , 236 S b 0 , 486 . Отсюда
t
Рис. 4.7. Уровень инфляции INF и безработицы (U) в США в 1931-1940 гг.
14
Поскольку |t|< 1,860, нулевая гипотеза {t= 0} не может быть отвергнута при
заданном уровне значимости. Иными словами, нельзя считать (грубо говоря), что
уровень инфляции в рассматриваемый период значимо зависел от показателя
безработицы. Если уровень значимости задать равным 0,3, то t8;0,85= 1,108 > 0,658, даже при такой слабой значимости нулевая гипотеза не может быть отвергнута.
Проверка значимости коэффициента парной линейной регрессии эквивалентна
проверке значимости коэффициента корреляции переменных х и у. В этом можно
убедиться, сравнив значения t-статистик для коэффициента корреляции и
коэффициента регрессии b (пример рассматривается один и тот же). Эти значения
одинаковы и равны -0,658. Соответственно, и уровень значимости у них одинаков.
При оценке значимости коэффициента линейной регрессии можно использовать
следующее грубое правило. Если стандартная ошибка коэффициента больше его
модуля (t < 1), то он не может быть признан хорошим (значимым), поскольку
доверительная вероятность здесь при двусторонней альтернативной гипотезе
составляет лишь менее, чем приблизительно 0,7. Если стандартная ошибка меньше
модуля коэффициента, но больше его половины (1 < t < 2), то сделанная оценка может
рассматриваться как более или менее значимая. Доверительная вероятность здесь
примерно от 0,7 до 0,95. Значение t от 2 до 3 свидетельствует о весьма значимой связи
(доверительная вероятность от 0,95 до 0,99), и t > 3 есть практически стопроцентное
свидетельство ее наличия.
Рис. 4.8. Объем частного потребления (СОNS, С) и располагаемого дохода (DINC, Yd) в США
в 1971-1990 гг. (млрд.$, 1982 г.)
Конечно, в каждом случае играет роль число наблюдении; чем их больше, тем
надежнее при прочих равных выводы о наличии связи и тем меньше верхняя граница
доверительного интервала для данных числа степеней свободы и уровня значимости.
Однако эти различия существенны лишь для малых п, а при п порядка 10 и более
сформулированные правила приблизительно верны.
Пример 4.3
Для иллюстрации действительно значимой линейной связи показателей
рассмотрим величины частного потребления и располагаемого дохода в США за 19711990 годы. Динамика этих показателей показана на рис. 4.8.
На рисунке 4.8 явно просматривается четкая линейная зависимость объема
частного потребления от величины располагаемого дохода. Уравнение парной
линейной регрессии, оцененное по этим данным, имеет вид: С= -217,6 + 1,007Yd,.
15
Стандартные ошибки для свободного члена и коэффициента парной регрессии равны,
соответственно, 28,4 и 0,012, а t-статистики - -7,7 и 81,9. Обе они по модулю
существенно превышают 3, следовательно, их статистическая значимость весьма
высока. Впрочем, несмотря на то, что здесь удалось оценить статистически значимую
линейную функцию потребления, в ней нарушены сразу две предпосылки Кейнса уровень автономного потребления С0 оказался отрицательным, а предельная
склонность к потреблению превысила единицу. Очевидно, в рассматриваемый период
наблюдался процесс "вытеснения" потреблением некоторых других составляющих
ВНП (в частности - чистого экспорта).
4.4.2. Сравнение истинных и оцененных зависимостей
Соотношение между истинной зависимостью между переменными (в
генеральной совокупности) и зависимостью, оцененной по выборочным данным проще
всего показать на примере соотношения между доходами и расходами. Пусть, к
примеру, в небольшом городке проживают сто семей (генеральная совокупность),
доходы которых (Хk) можно отнести к одной из пяти групп (k = 1,...,5). Предположим
также для простоты, что распределение людей по доходам - равномерное, то есть в
каждую группу входят 20 семей. Собрав данные по расходам на члена семьи, нанесем
их в виде точек на график, по вертикальной оси которого отложим расходы, а по
горизонтальной - доходы.
Рис. 4.9
На рис. 4.9 видно, что, во-первых, даже внутри группы с одним доходом расходы
людей различны, что объясняется различием вкусов, потребностей, количеством
членов в семье и другими факторами, которые не входят в число переменных,
объясняющих расходы, и представляемыми в виде случайного (по отношению к
доходам) компонента расходов. Во-вторых, можно заметить, что, в среднем, расходы
растут с увеличением доходов.
Обозначая средние по k-й группе дохода (в генеральной совокупности) расходы
E[Y|Xk], можно представить тенденцию увеличения расходов с доходами в виде
положительной линейной зависимости E[Y|X]=+X, которая предполагается
истинной зависимостью между средними расходами и доходами.
Для неусредненных расходов в эту зависимость следует добавить случайный член
, описывающий разброс расходов внутри группы с одним доходом, обусловленный
действием всех остальных факторов, кроме доходов.
Y=+X+
Эта зависимость предполагается истинной зависимостью между индивидуальными
расходами и доходами (в генеральной совокупности).
16
Таким образом, мы имеем две линейных регрессии: одну для генеральной
совокупности, коэффициенты в которой обычно обозначаются греческими буквами, и
другую для выборки, коэффициенты в которой обычно обозначаются латинскими
буквами. Коэффициенты линейной зависимости для генеральной совокупности
Теперь обратимся к выборочным данным о расходах, собранным путем
выборочного опроса части жителей городка. Считая выборку репрезентативной,
предположим, для простоты, она включает по одному человеку из каждой группы
дохода. Отображая выборочные точки на графике, мы можем провести через них
линию регрессии, соответствующую уравнению Y = a + bX, коэффициенты a и b и в
котором рассчитываются по обычным формулам линейной регрессии. Если учесть, что
наблюдаемые значения Yk не лежат на линии регрессии (a + bXk), то в это уравнение
надо добавить выборочные случайные возмущения е (еk = Yk-а- bXk), являющиеся
аналогами случайных возмущений в генеральной совокупности:
Yk a b X k e k
Таким образом, мы имеем две линейных регрессии: одну для генеральной
совокупности, коэффициенты в которой обычно обозначаются греческими буквами, и
другую для выборки, коэффициенты в которой обозначаются латинскими буквами.
Коэффициенты линейной зависимости для генеральной совокупности нам не известны,
и мы должны их оценить, пользуясь выборочными данными. Коэффициенты
выборочной линейной регрессии a и b являются
выборочными оценками
коэффициентов и в генеральной совокупности.
Рис. 4.10
Из рис. 4.10 видно, что выборочные линии регрессии имеют разный наклон и
разные точки пересечения с осью Y для различных выборок. Более того, при
положительном наклоне генеральной регрессии наклон выборочной линии регрессии
может оказаться для некоторых выборок отрицательным, что, однако, не будет
свидетельствовать об истинной отрицательной связи исследуемых величин. Для того
чтобы убедиться в этом, следует помимо коэффициентов регрессии находить их
стандартные отклонения и t-статистики, по которым можно судить о статистической
значимости полученных выборочных коэффициентов регрессии.
4. Вопросы
1.
2.
3.
Что такое ковариация и коэффициент корреляции двух случайных величин?
Какое свойство случайных величин они характеризуют?
В каких случаях понятия некоррелированности и независимости двух величин
эквивалентны, а в каких различны?
Как проверяется гипотеза о некоррелированности двух случайных величин?
17
4.
5.
6.
7.
Что такое линейная регрессия?
Что такое спецификация и параметризация уравнения регрессии? Как они
осуществляются?
Какими могут быть критерии качества оценки линейной регрессии?
В чем сущность метода наименьших квадратов (МНК)?