Парная регрессия. Точечные оценки параметров в условиях классической нормальной модели
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Парная регрессия. Точечные оценки параметров
в условиях классической нормальной модели.
Предположим, что мы изучаем одновременно две случайные величины . Пусть в результате испытания нами получено N пар наблюдений , , , , среди которых могут быть и совпадающие. Вопрос: зависят ли эти две случайные величины друг от друга, и, если зависят, то каков характер этой зависимости?
Детерминированная Стохастическая Стохастичность
зависимость зависимость
Предположим, что между y и x имеется стохастическая зависимость вида
где – нормально распределенная случайная величина, не зависящая от x. Эти предположения называются классической нормальной регрессионной моделью. Наша задача – по данным наблюдений дать наилучшую оценку параметров a1 и a0. Теорема Гаусса–Маркова утверждает, что статистическая оценка с наименьшей дисперсией (то есть эффективная оценка) может быть получена методом наименьших квадратов Гаусса.
Пусть – произвольная прямая на плоскости . Будем измерять совокупное расстояние от системы наблюдаемых точек выборки до прямой с помощью функции Гаусса
Принцип наименьших квадратов заключается в том, чтобы в качестве параметров b0 и b1 выбрать решение задачи
Поскольку функция квадратичная и выпуклая, у задачи имеется единственное решение. По теореме Ферма в точке минимума имеем
откуда следует, что
После приведения подобных слагаемых, получаем:
Коэффициенты этой системы можно интерпретировать в статистических терминах. Вспомним, что
, , .
Тогда систему последнюю систему уравнений можно записать в виде
Исключая переменную b, получим
.
В результате получаем формулу для оценки параметра a1:
Для параметра a0 получаем оценку:
Уравнение регрессии удобно записать в следующем виде. Обозначим ,
,
Коэффициент называется выборочным коэффициентом корреляции. Тогда функция регрессии задается уравнением
Формулы, полученные для оценки параметров a0 и a1 линейной части стохастической зависимости y от x в классической нормальной регрессионной модели, являются состоятельными и несмещенными.
Статистика является состоятельной оценкой некоторого параметра генеральной совокупности, если выполнено соотношение .
Иными словами, является случайной величиной, вероятность уклонения которой от параметра на произвольно малое расстояние стремится к нулю с ростом объема выборки N. Реализацию случайной величины принимают за статистическую оценку параметра по выборке . Оценка является несмещенной, если .
Докажем состоятельность оценки b1. Для этого вычислим математическое ожидание и дисперсию b1, а затем воспользуемся неравенством Чебышева.
Получаем:
Здесь использовано то обстоятельство, что величины являются неслучайными, и . Таким образом, оценка b1 для параметра a1 является несмещенной.
Прежде чем вычислять дисперсию случайной величины b1, преобразуем b1 к следующему виду
Вспоминая, что дисперсия суммы независимых случайных величин равна сумме их дисперсий, а постоянный множитель выносится из–под знака дисперсии с квадратом, получаем:
Поскольку выбор значений xi в выборке (xi,yi) можно контролировать (переменные xi можно считать детерминированными), при неограниченном увеличении объема выборки N дисперсия статистики b1 стремится к нулю как . В силу неравенства Чебышева
,
получаем, что оценка b1 является состоятельной, то есть
.
ЗАМЕЧАНИЕ. Сумма любого числа нормально распределенных независимых случайных величин распределена по нормальному закону. В силу соотношения
,
статистика b1 распределена нормально с математическим ожиданием a1 и средним квадратичным уклонением . Здесь параметр есть среднее квадратичное уклонение нормально распределенных случайных величин i. Таким образом,
Теперь мы можем дать оценку параметра случайных величин i. Если бы случайные величины i были наблюдаемы, и их реализации в статистическом эксперименте оказались бы равны , то самой простой состоятельной и несмещенной оценкой дисперсии и, соответственно, среднего квадратичного уклонения каждой из этих величин были бы статистики
и
соответственно. С учетом соотношения , статистическим наблюдением случайной величины i является величина . Однако эта величина не является наблюдаемой, и вместо нее мы можем наблюдать лишь величину . Вычислим, реализацией какой случайной величины является . Подставляя формулы
, ,
получаем
.
Подставляя, в свою очередь, соотношения
,
окончательно получаем
.
Легко вычислить математическое ожидание для статистик : . Сложнее вычислить дисперсию . При случайные величины , являются независимыми, поэтому . Поскольку , получаем . Следовательно, в выражении ненулевыми являются только математические ожидания “чистых” квадратов . С учетом соотношения
,
получаем
Подставляя , получим
При вычислении были использованы два тождества
, .
Составим так называемую остаточную сумму квадратов, то есть величину , и вычислим . Суммируя по i, получим
Следовательно, несмещенной оценкой параметра случайной величины является статистика .
Интервальные оценки параметров линейной регрессии.
Поскольку статистика, используемая для оценки того или иного параметра, является случайной величиной, она может принимать произвольные значения, сколько угодно далекие от истинного значения оцениваемого параметра. Состоятельность статистики гарантирует лишь, что большие уклонения реализации этой случайной величины от оцениваемого параметра имеют малую вероятность, исчезающую при неограниченном возрастании объема выборки. При этом вероятность того, что истинное значение параметра в точности совпадет с наблюдаемым значением статистики, равна 0.
Интервальной оценкой параметра генеральной совокупности с доверительной вероятностью называется пара случайных величин, и , для которых имеет место неравенство при . Если такие случайные величины найдены, то интервал
считается интервальной оценкой параметра с доверительной вероятностью . Подчеркнем, что в качестве достоверной оценки параметра можно, как правило, указать только всю числовую прямую. Даже для значений параметра , близких к единице (для этих значений доверительный интервал обычно довольно велик, а прогноз относительно значения параметра расплывчат), имеется возможность ошибки, то есть того, что на самом деле параметр не принадлежит интервалу . Вероятность этой ошибки равна 1.
Примером интервальной оценки математического ожидания генеральной совокупности в случае, когда среднее квадратичное уклонение известно и равно , является доверительной интервал вида ,
где t – решение уравнения . Здесь – функция Лапласа.
Рассмотрим общую ситуацию. Предположим, что известно распределение некоторой состоятельной несмещенной статистики параметра генеральной совокупности. Если p(x) – плотность этого распределения, то вероятность уклонения статистики от его математического ожидания можно найти по формуле
Рассмотрим, для простоты, распределения, симметричные относительно математического ожидания. Интервальную оценку параметра также будем искать симметричной относительно значения . Величина t, удовлетворяющая соотношению
,
является функцией параметра и называется критической точкой распределения. В частности, для распределений, симметричных относительно математического ожидания, вероятность события
будет заведомо не больше 1. Интервал
называется доверительным интервалом параметра с доверительной вероятностью . В данном случае есть вероятность события, что реализации случайных функций и удовлетворяют неравенству
.
Часто говорят, что – это вероятность того, что интервал
“накроет” .
Особую роль в построении интервальных оценок параметров линейной регрессии играет распределение 2 и распределение Стьюдента.
Пусть 1, …, n – n независимых нормально распределенных случайных величин с математическим ожиданием 0 средним квадратичным уклонением 1. Рассмотрим случайную величину
.
Закон распределения этой случайной величины называется распределением 2 с n степенями свободы. В курсе теории вероятности доказывается, что функция плотности распределения этой случайной величины имеет вид
Среднее значение случайной величины, распределенной по закону 2, равно n, а дисперсия 2n.
p(x)
n2 x
Замечательным фактом является следующее утверждение. Если n случайных величин 1, …, n удовлетворяют k независимым линейным соотношениям вида c0 + c11 + … + cnn = 0 (и, следовательно, среди них имеется n k независимых случайных величин, а остальные линейно выражаются через них), то случайная величина , по–прежнему, имеет распределение 2, но уже с n k степенями свободы.
Критической точкой распределения 2 с числом степеней свободы n с уровнем значимости называют решение уравнения
Решение этого интегрального уравнения обозначается и приводится во всех статистических таблицах. Приведем для справки команды, с помощью которых можно получить значения при разных значениях параметров , n в таких программах, как EXCEL, MATHCAD и MAPLE.
> with(stats):statevalf[icdf,chisquare[n]](1-); (Maple)
qchisq(1,n) (MathCad)
=хи2обр(;n) (Excel)
В частности, .
Пусть 0, 1, …, n – независимые нормально распределенные случайные величины с нулевым математическим ожиданием и одинаковым средним квадратичным уклонением . Рассмотрим случайную величину
.
Распределение этой случайной величины называется распределением Стьюдента с n степенями свободы. Функция плотности распределения этой случайной величины имеет вид
.
Среднее значение случайной величины, распределенной по закону Стьюдента с n степенями свободы равно 0, а дисперсия .
Нетрудно проверить, что при n функция плотности распределения случайной величины t(n) стремится к функции плотности нормального закона (0,1). Считается, что уже при n > 30 функция плотности практически неотличима от функции .
Если n случайных величин 1, …, n удовлетворяют k независимым линейным соотношениям вида a0 + a11 + … + ann = 0, то случайная величина t(n) имеет распределение Стьюдента с nk степенями свободы.
Критической точкой (двустороннего) распределения Cтьюдента с числом степеней свободы n с доверительной вероятностью называют решение уравнения
Решение этого интегрального уравнения обозначается и приводится во всех статистических таблицах. Приводим для справки команды, с помощью которых можно получить значения при разных значениях параметров и n с использованием программ EXCEL, MATHCAD и MAPLE.
> with(stats):statevalf[icdf, studentst[n]](); (Maple)
qt(,n) (MathCad)
= стьюдраспобр(1-;n) (Excel)
В частности, .
Наша задача – предъявить интервальные оценки для параметров и линейной регрессии, а также оценку среднего квадратичного уклонения случайной величины в предположениях классической нормальной модели. Для этого требуется изучить закон распределения статистик
, , .
Рассмотрим подробно распределение старшего коэффициента b1. В лекции 1 было получено соотношение
.
Здесь – независимые, одинаково распределенные случайные величины, распределенные по нормальному закону с нулевым математическим ожиданием и постоянным средним квадратичным уклонением (нам неизвестным). При этом M[b1]=a1,
Из курса теории вероятностей известно, что произвольная линейная комбинация независимых нормально распределенных случайных величин распределена нормально. Следовательно, в предположениях классической линейной регрессионной модели, статистика b1 распределена нормально с параметрами a1, . Отсюда сразу следует, что статистика также распределена по нормальному закону с параметрами
,
.
К сожалению, параметр нам неизвестен, и мы лишь можем оценить его при помощи статистики s2.
Определим закон распределения статистики s2. По определению остаточной суммы квадратов, имеем
, где .
Из явного вида функций , , следует, что случайные величины выражаются в виде линейных комбинаций независимых нормально распределенных случайных величин , …, , следовательно, все также являются нормально распределенными случайными величинами. В лекции 1 были выведены формулы M[ei]=0 и D[ei]= . При достаточно больших значениях N можно считать, что все D[ei] одинаковы и равны 2. Следовательно, с точностью до постоянного множителя, случайная величина s2 распределена по закону 2. Вопрос лишь в том, какое количество независимых линейных соотношений имеется между величинами e1, …, eN, или, иными словами, сколько степеней свободы имеет величина s2? Вспомним, что для вывода формул для статистик b0 и b1 мы использовали принцип наименьших квадратов Гаусса, и, конкретно, два уравнения,
Таким образом, функции e1, …, eN удовлетворяют двум независимым линейным уравнениям. Следовательно, число степеней свободы статистики s2 равно N2:
.
С учетом соотношений , , отсюда следует, что случайные величины
,
асимптотически, при N , распределены по закону Стьюдента с числом степеней свободы, равным N 2.
Формулы для интервальных оценок параметров b1, b0. Если доверительная вероятность интервала равна , то
,
.
Для доверительного интервала параметра случайной величины получаем выражение .
Действительно, поскольку , вероятность события (для положительных чисел A и B) равна
,
где F(t) – интегральная функция распределения случайной величины 2 с N2 степенями свободы. В частности, по определению критической точки распределения 2, получаем
.
Следовательно,
Таким образом, интервал “накроет” значение с вероятностью , что и требовалось.
Интервальная оценка средних и индивидуальных значений объясняемой переменной
при заданном значении объясняющей переменной.
Рассмотрим уравнение y = a0+a1x+ при некотором фиксированном значении x = x0. Тогда среднее значение случайной величины y равно a0+a1x0, а индивидуальное a0+a1x0+. Для оценки этих величин естественно использовать соотношения b0+b1x0 и соответственно b0+b1x0+
Найдем законы распределения этих случайных величин и характеристики. Рассмотрим сначала случайную величину .
Найдем ковариацию случайных величин
и .
Следовательно,
, ,
.
Можно показать, что случайные величины и являются независимыми, следовательно, случайная величина распределена по нормальному закону. Если взять в качестве оценки параметра статистику s то получим, что случайная величина
, ,
распределена по закону Стьюдента с N2 степенями свободы.
Интервальная оценка с доверительной вероятностью средних значений переменной y при x = x0.
.
Для индивидуальных значений переменной y все аналогично. Дисперсия случайной величины равна
и интервальная оценка индивидуальных значений имеет вид
,
Где .
Проверка гипотезы о значимости коэффициентов линейной регрессии. Оценивание качества приближения с помощью
коэффициента детерминации.
Выше мы оценивали параметры линейной регрессии в условиях классической нормальной модели. Статистики, используемые для оценивания коэффициентов линейной регрессии, зависят от стохастической части регрессионной зависимости . Даже если истинные значения параметров a1 и a0 равны нулю, реализации случайных величин b1 и b0, как правило, будут отличаться от нуля. Если параметры a1 и a0 равны нулю, мы будем называть их незначимыми. Наша задача – сформировать процедуру проверки гипотезы о незначимости коэффициентов линейной регрессии и уравнения регрессии в целом по найденным точечным оценкам параметров b1 и b0.
Статистическая гипотеза – высказывание о свойствах генеральной совокупности. Например, статистической гипотезой является предположение о том, что коэффициент a1 в уравнении регрессии равен нулю.
Ошибка 1–го рода – это отказ от гипотезы в случае, когда она верна. Ошибка 2–го рода – принятие гипотезы в случае, когда она не верна. Вероятность сделать ошибку 1–го рода при проверке гипотезы с помощью некоторого критерия называется уровнем значимости критерия. Вероятность не сделать ошибку 2–го рода называется мощностью критерия.
Любой возможный критерий проверки гипотезы о значимости коэффициентов регрессии основан на свойствах распределения случайных величин b1, b0 и s2. Напомним, что случайные величины
,
распределены по закону Стьюдента с числом степеней свободы, равным N 2. В частности, если a1 = 0, то вероятность события
равна
.
Напомним, что критической точкой распределения Стьюдента с числом степеней свободы n и доверительной вероятностью называется решение уравнения
Следовательно, если гипотеза о равенстве нулю коэффициента a1 верна, то вероятность уклонения величины от нуля на величину не превосходит = 1. Это дает следующий простой критерий проверки гипотезы о незначимости коэффициента a1 на уровне значимости . Если , то гипотеза о равенстве нулю коэффициента a1 принимается. Иначе, гипотеза отвергается, и коэффициент a1 считается существенно отличным от нуля. Действительно, ошибку первого рода мы сделаем лишь в том случае, когда отвергнем гипотезу, то есть при условии . Но вероятность этого события заведомо не превосходит величины . Следовательно, уровень значимости критерия равен .
Аналогично формулируется критерий проверки гипотезы о значимости коэффициента a0. Если
то гипотеза о равенстве нулю коэффициента a0 принимается. Иначе, гипотеза отвергается, и коэффициент a0 считается существенно отличным от нуля.
КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ.
Введем показатель, характеризующий качество аппроксимации экспериментальных данных с помощью функции линейной регрессии. Отметим, что среди всевозможных наблюдаемых пар данных (xi,yi) наблюдаемый в статистическом эксперименте разброс значений переменной y обязан двум факторам. Во–первых, переменная y зависит от x и, следовательно, меняется потому, что в разных экспериментах наблюдались различные значения переменной x. Во–вторых, значения y меняются от эксперимента к эксперименту потому, что y зависит от случайной величины , которая будет принимать различные значения даже при постоянном значении x. Мерой разброса (вариацией) значений переменной y естественно считать выборочную дисперсию . Определим, какая доля дисперсии приходится на детерминированную зависимость y от x, а какая – на стохастическую зависимость y от .
По определению выборочной дисперсии, получаем
Покажем, что второе слагаемое в приведенной сумме можно отбросить (то есть сумма этих слагаемых равна 0). Вспомним, что параметры b0 и b1 были найдены как решения линейной системы уравнений
С учетом этих уравнений получаем:
Следовательно, дисперсия распадается на два слагаемых: остаточную сумму квадратов
и регрессионную дисперсию, связанную с детерминированной частью зависимости,
.
Коэффициентом детерминации R2 называется отношение этой последней суммы к суммарной дисперсии , то есть
.
С учетом соотношения , получаем
.
Окончательная формула:
.
Таким образом, коэффициент детерминации R2 есть доля в вариации переменной Y, за которую отвечает детерминированная часть регрессии. По определению, величина R2 принимает значения от 0 до 1. Если R2=1, то стохастическая часть не оказала влияния на значения Y в статистическом опыте (то есть можно считать, что =0). Наоборот, R2=0 только в случае b0=b1=0.
Проверка гипотезы о значимости уравнения регрессии в целом.
При отсутствии линейной зависимости y от x (то есть в случае y=) статистики и имеют 2–распределение с числом степеней свободы N2 и 1 соответственно. Действительно, в этом случае
,
где ei – нормально распределенные случайные величины с нулевым математическим ожиданием и средним квадратичным уклонением . При этом эти случайные величины ei подчиняются двум линейно независимым соотношением, следовательно, при достаточно больших N, статистика распределена по закону 2 с N2 степенями свободы.
Аналогично, для статистики DR имеем:
, где , .
Подставляя в сумму для DR, получим
.
При этом b1 нормально распределена с математическим ожиданием a1 = 0 и средним квадратичным уклонением .Следовательно, статистика распределена по закону 2 с 1 степенью свободы.
Теперь мы можем найти закон распределения коэффициента детерминации и сформулировать критерий незначимости уравнения регрессии с заданным уровнем значимости. Для этого нам потребуется знание еще одного распределения, а именно, распределение Фишера–Снедекора, или F–распределения.
Рассмотрим случайную величину
,
где – независимые случайные величины с числом степеней свободы ki. Случайная величина называется F–распределением с числом степеней свободы . Функция плотности F–распределения имеет вид
.
Можно показать, что статистики и являются независимыми, поэтому случайная величина
имеет F–распределение с числом степеней свободы 1, N2. Это дает следующий критерий проверки гипотезы о незначимости уравнения регрессии.
Зададимся уровнем значимости и найдем критическую точку F–распределения с числом степеней свободы 1, N2 и данным уровнем значимости . Для этого следует решить уравнение
.
Для вычисления можно использовать следующие команды программ как EXCEL, MATHCAD и MAPLE.
> with(stats):statevalf[icdf,fratio[k1,k2]](1-); (Maple)
qF(1,k1,k2) (MathCad)
=FРАСПОБР(;k1;k2) (Excel)
В частности, .
Уравнение регрессии признается незначимым на уровне значимости , если .
Иначе, гипотеза о незначимости уравнения регрессии отвергается.