Однофакторный регрессионный анализ
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛЕКЦИЯ 4
ОДНОФАКТОРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Вопросы
1. Формулировка задачи построения уравнения регрессии методом наименьших квадратов
2. Скалярная форма построения уравнения регрессии
3. Матричная форма построения уравнения регрессии
4. Проверка адекватности уравнения регрессии экспериментальным данным по критерию Фишера
5. Проверка значимости коэффициентов регрессии по критерию Стъюдента
1
Регрессионный анализ – совокупность статистических методов обработки экспериментальных данных, позволяющих в условии стохастической зависимости исследуемой величины от неслучайных или случайных переменных определять данную зависимость.
Термин «стохастическая» здесь означает не полностью определенная, характеризующаяся недостатком информации.
Результатом регрессионного анализа является математическая конструкция, которая называется уравнением регрессии или регрессионной зависимостью.
Пусть задан массив экспериментальных данных в виде таблицы
x
x1
x2
…
xn
y
y1
y2
…
yn
Если имеется только одна независимая переменная х (один фактор), то регрессионный анализ на основе такого массива экспериментальных данных называется однофакторным.
Фактически это означает, что исследуется система, на которую со стороны среды оказывается скалярное воздействие (рис.1).
Рис.1. Взаимодействие системы и среды
Этапы регрессионного анализа.
1. Построение уравнения регрессии.
2. Проверка адекватности (соответствия) уравнения регрессии экспериментальным данным по критерию Фишера.
3. Проверка значимости коэффициентов регрессии по критерию Стъюдента.
4. Определение окончательного вида уравнения регрессии в зависимости от значимости коэффициентов.
Пусть из каких-либо соображений выбран вид аппроксимирующей функции
(1)
Функция (1) определяется не только своим аргументом x, но и своими параметрами :
. (2)
Универсальным методом построения уравнений регрессии является метод наименьших квадратов. Для его реализации должна быть сформирована функция
(3)
в виде суммы квадратов отклонений экспериментальных значений зависимой переменной от теоретических .
Существо метода наименьших квадратов состоит в выборе таких значений параметров , чтобы выполнялось условие
, . (4)
Соотношение (4) указывает, что требуется найти минимально возможное значение суммы квадратов отклонений экспериментальных значений зависимой переменной от теоретических. При этом данный минимум находится подбором параметров на множестве вещественных чисел ().
2
Далее рассматривается наиболее распространенный и универсальный случай, когда функция регрессии (2) является линейной относительно оцениваемых параметров:
, (5)
где , – базисные функции, явный вид которых известен.
Параметры в выражении (5) называются коэффициентами регрессии.
В качестве частного случая (5) можно привести алгебраический полином k-й степени:
. (6)
Сопоставляя структуру выражений (5) и (6), становится очевидным, что
; ; …;; . (7)
Если в качестве функции регрессии применяется (5), условие (4) принимает вид
, . (8)
Для нахождения коэффициентов , применяется необходимое условие экстремума функции многих переменных (в данном случае переменной).
Существо необходимого условия экстремума функции многих переменных: если функция имеет в точке экстремум, то частные производные от этой функции в данной точке по всем переменным равны нулю.
Частные производные функции V:
(9)
В выражении (9) использованы правила дифференцирования сложной функции многих переменных. Поскольку частная производная (9) приравнивается к нулю, то
. (10)
Обе части уравнения (10) умножаются на –2 и, таким образом, получается:
. (11)
Далее в выражении (11) выполняется почленное суммирование, слагаемые, содержащие yi переносятся в правую часть, затем умножается на –1 обе части данного равенства:
. (12)
Если в выражение (12) подставлять поочередно , формируется система уравнений:
(13)
Уравнения (13) представляют собой систему линейных уравнений относительно параметров . Следовательно, она решается любым из методов решения линейных систем.
Распространенным методом решения систем линейных уравнений является метод Крамера, согласно которому оценки коэффициентов регрессии находятся по формулам:
, (14)
где Δ – определитель коэффициентов при неизвестных системы (13); , – определители, которые формируются на основе определителя Δ путем замены j-го столбца столбцом свободных членов.
Таким образом, развернутый вид данных определителей будет следующим:
;
;
;
.
В результате будет получено уравнение регрессии с числовыми значениями полученных коэффициентов регрессии:
. (15)
Такова процедура реализации метода наименьших квадратов в скалярной форме.
Пример 1. Построить в скалярной форме уравнение регрессии в виде квадратичного алгебраического полинома
(П1)
на основе следующего массива экспериментальных данных:
x
-2
-1
2
y
1
-2
-1
14
Если полином (П1) представлять в общем виде, линейном относительно параметров, то получается выражение
, (П2)
где ; ; . (П3)
Поскольку объем массива данных n=4, cистема линейных уравнений (13) принимает вид:
(П4)
Принимая во внимание (П3), система (П4) получает вид
(П5)
Для вычисления сомножителей при неизвестных составляется таблица.
-2
1
4
-8
16
-2
4
-1
-2
1
-1
1
2
-2
-1
2
14
4
8
16
28
56
Система уравнений (П5) с числовыми значениями сомножителей:
(П6)
Решение системы (П6) находится по формулам Крамера (14). Определители:
.
Для справки
Вычисление определителя 3-го порядка разложением по строке (например, по первой строке) осуществляется на основе формулы
,
где A11, A12, A13 – алгебраические дополнения элементов a11, a12, a13 соответственно.
Алгебраическое дополнение, например, элемента a12:
A12 = .
Вычисление определителя 3-го порядка по правилу треугольников:
.
; ; .
Оценки коэффициентов регрессии:
.
Получено уравнение регрессии:
.
3
Система уравнений (13) эквивалентна следующему матричному уравнению:
, (16)
где ;
; .
Для того, чтобы выразить неизвестный вектор, обе части матричного уравнения (16) необходимо умножить слева на квадратную матрицу :
.
Далее учитывается, что
, ,
где – единичная матрица порядка .
Окончательное выражение для вычисления вектора оценок коэффициентов регрессии:
. (17)
Пример 2. На основе массива экспериментальных данных из примера 1 построить уравнение регрессии в матричной форме.
Матричное уравнение (17) принимает вид
, (П7)
где
– вектор неизвестных;
– вектор значений выходной переменной;
– матрица значений базисных функций;
поскольку уравнение строится в виде квадратичного алгебраического полинома, то
, , .
С учетом приведенных обозначений
Находим произведение транспонированной матрицы на исходную:
.
Далее требуется найти обратную матрицу .
Для справки
Пусть имеется матрица 3-го порядка
.
Тогда обратная матрица находится по формуле:
,
где |A| - определитель матрицы А, Aij – алгебраические дополнения элементов aij.
Алгебраические дополнения элементов матрицы :
; ; ;
; ; ;
; ; .
|A| = 440.
Обратная матрица:
.
Произведение транспонированной матрицы F на вектор Y:
.
В соответствии с матричным уравнением (П7):
.
Оценки коэффициентов регрессии:
.
Получено уравнение регрессии, как и при реализации скалярной формы:
.
4
Этапы проверки адекватности уравнения регрессии.
1. Выдвигается гипотеза о том, что построенное уравнение адекватно экспериментальным данным и формируется показатель согласованности данной гипотезы:
. (18)
В числителе выражения (18):
– оценка дисперсии выходной переменной;
– среднее арифметическое значение выходной переменной;
– число степеней свободы, при которых находится оценка дисперсии выходной переменной.
В знаменателе выражения (18):
– оценка остаточной дисперсии;
– теоретические значения выходной переменной;
– число степеней свободы, при которых находится оценка остаточной дисперсии;
– количество коэффициентов в уравнении регрессии;
k – степень алгебраического полинома, в виде которого строится уравнение регрессии.
2. Вычисляются оценки дисперсий 2 и , находится наблюдаемое значение F показателя (18).
3. Находится критическое значение показателя (18) по таблицам критических точек распределения Фишера (приложение 5), где α – уровень значимости проверяемой гипотезы (задается исследователю).
4. Проверяется условие
. (19)
Если условие (19) выполняется, гипотеза об адекватности уравнения экспериментальным данным принимается, в противном случае – отвергается.
Пример 3. Проверить гипотезу об адекватности уравнения регрессии (примеры 1 и 2) экспериментальным данным при уровне значимости .
.
Для вычисления 2 и составляется таблица
xi
yi
-2
1
-2
4
1,01
-0,01
0,0001
-1
-2
-5
25
-2,08
0,08
0,0064
-1
-4
16
-0,95
-0,05
0,0025
2
14
11
121
13,97
0,03
0,0009
Теоретические значения выходной переменной, например:
.
Оценка дисперсии выходной переменной:
.
Оценка остаточной дисперсии:
.
Наблюдаемое значение показателя согласованности гипотезы об адекватности уравнения регрессии экспериментальным данным:
.
Критическое значение показателя согласованности гипотезы:
.
Поскольку
,
гипотеза об адекватности уравнения регрессии экспериментальным данным принимается.
5
Этапы проверки значимости коэффициентов регрессии по критерию Стъюдента.
1. Выдвигается гипотеза о значимости коэффициента регрессии и формируется показатель согласованности данной гипотезы:
, , (20)
где – модуль величины ; – оценка среднего квадратического отклонения коэффициента .
2. Формируется корреляционная матрица для вычисления :
(21)
На главной диагонали матрицы (21) будут дисперсии оценок коэффициентов регрессии:
. (22)
Тогда .
3. Вычисляются наблюдаемые значения показателя (20).
4. Находится критическое значение показателя (20) по таблицам критических точек распределения Стъюдента (приложение 6), где α – уровень значимости проверяемой гипотезы (задается исследователю).
4. Проверяется условие
, . (23)
Если условие (23) выполняется, гипотеза о значимости коэффициента регрессии принимается, в противном случае – отвергается.
Коэффициенты регрессии, для которых не выполняется условие (23), принимаются равными нулю. При этом соответствующие слагаемые исключаются из уравнения регрессии. Уравнение с новой структурой проверяется на адекватность экспериментальным данным по критерию Фишера. Если гипотеза об адекватности уравнения с новой структурой отвергается, производится возврат к первоначальной структуре уравнения. Иначе, проверка по критерию Фишера имеет приоритет над проверкой по критерию Стъюдента.
Пример 4. Проверить значимость коэффициентов регрессии в уравнении (примеры 1 и 2) при .
Элементы главной диагонали (22) корреляционной матрицы:
.
Таким образом
, , .
Наблюдаемые значения показателя согласованности (20):
; ; .
Критическое значение показателя согласованности гипотезы о значимости коэффициентов регрессии:
.
Поскольку
, , ,
гипотезы о значимости коэффициентов a0 и a1 принимаются, а гипотеза о значимости коэффициента a2 отвергается.
Уравнение регрессии с новой структурой
.
Данное уравнение проверяется на адекватность экспериментальным данным также, как в примере 3. В результате проверки гипотеза об адекватности уравнения с новой структурой отвергается.
Окончательный вид уравнения регрессии
.