Регрессионный анализ. Метод наименьших квадратов (МНК)
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 2. Регрессионный анализ. Метод наименьших квадратов (МНК)
Регрессионный анализ методом наименьших квадратов (МНК)
В области естественных наук, в том числе и химии, важной задачей
является исследование взаимосвязи физических величин, то есть поиск
ответа на вопрос: как влияет изменение одной величины (или, в общем
случае,
нескольких)
на
значение,
принимаемые другой.
Для
экспериментального
решения
задачи
необходимо
провести
ряд
экспериментов, в которых величины, чье влияние исследуется (независимые
переменные) принимают заданные экспериментатором (различные) значения,
а значения физической величины, чья зависимость исследуется (зависимая
переменная) измеряется в результате проведения того или иного
эксперимента.
Это можно представить следующей схемой, где
экспериментальная установка представляет собой некий «черный ящик»,
который может "выдавать" значение величины y в зависимости от заданных
значений независимых переменных.
Пусть имеется k независимых переменных (факторов),
совокупность значений которых составляет условие проведения
эксперимента и зависимая переменная y (называемая еще функцией
отклика или целевой функцией), значения которой являются результатом
проведения измерений при заданных значениях факторов. Условия и
результаты проведения N опытов можно представить в виде таблицы
Таблица 1
№ эксп.
1
2
…
N
x1
x11
x12
…
x1N
x2
x21
x22
…
x2N
…
…
…
…
…
xk
xk1
xk2
…
xkN
yэксп.
y1
y2
…
yN
Последний столбец представляет собой статистически обработанные
выборочные средние результатов проведения параллельных наблюдений для
каждого сочетания значений независимых переменных в соответствующей
строке таблицы. xij – это значение фактора с номером i (xi) в j-ом
эксперименте. Иными словами, в результате экспериментального
исследования функциональной зависимости получается таблично заданная
функция, то есть функция, значения которой известны только в некоторых
дискретных точках (узлах). Однако более удобным и информативным
является запись зависимости величин через аналитические функции. Таким
образом, необходимо решить задачу выбора аналитической функции, которая
наилучшим образом будет описывать таблично заданную функцию (таблица
1). В общем виде она не решается, так как невозможно только из
эксперимента определить вид математической функции, но можно решить
более частную задачу подбора параметров, описывающих некоторую
конкретную функциональную зависимость, чем и занимается регрессионный
анализ.
Сформулируем задачу регрессионного анализа в общем виде. Для
произвольной математической модели вида
,
необходимо подобрать такие значения постоянных числовых параметров
(коэффициентов регрессии)
, чтобы экспериментально измеренные
(таблица 1) и рассчитанные по уравнению значения функции для каждой
строки таблицы 1 отличались в наименьшей степени.
Например, при построении калибровочных графиков, зависимость
аналитического сигнала от концентрации носит линейный характер, т. е.
функция y = f(x) описывается линейной математической моделью вида:
y = b0 + b1 × x или y = b1 × x
Здесь b0 и b1 – числовые параметры математической модели, которые
необходимо определить, х – независимая, y – зависимая переменная.
Одним из наиболее разработанных и часто используемых алгоритмов
регрессионного анализа является метод наименьших квадратов (МНК). В
рамках этого подхода параметры математической модели
вычисляются исходя из требования минимальности суммы квадратов
отклонений (невязок) экспериментально определенного и рассчитанного по
математической модели значения функции:
Здесь суммирование производится по всем N экспериментальным
точкам.
- измеренные в i-м опыте значения зависимой переменной,
- рассчитанное по математической модели при подстановке условий
проведения i-го опыта значение функции
Регрессионный анализ с помощью МНК возможен при выполнении
следующих необходимых условий:
1. yiэксп. есть случайные, нормально распределенные величины;
2. независимые переменные есть величины не случайные или, в крайнем
случае, дисперсия независимых переменных является пренебрежимо малой
по сравнению с дисперсией зависимой переменной.
3. дисперсии значений зависимой переменной для различных значений
факторов являются однородными.
Если подставить выражение для математической модели в общем виде в
, то получим:
Таким образом, Q есть функция (l+1) переменных
, и
условием ее экстремума является одновременное равенство нулю частных
производных Q по параметрам математической модели, т. е. значения
параметров можно определить из системы уравнений вида:
Все возможные математические модели можно разбить на две группы:
линейные по отношению к определяемым параметрам bi и нелинейные.
Общий вид математических моделей, приводимых к первому виду
следующий:
,
где l – количество определяемых параметров, bj – сами коэффициенты, а
fj – произвольные функции независимых переменных, не включающие
определяемые коэффициенты (отметим, что при этом зависимость от
факторов xi может и не быть линейной).
В качестве иллюстрации можно привести такие модели:
,
,
нелинейна!);
- линейная модель
- параболическая (зависимость у от x в этом случае
,
,
,
, и многие другие.
В случае моделей, линейных по отношению к параметрам система
уравнений будет являться системой линейных уравнений (см. ниже), которая
легко может быть решена соответствующими методами, в том числе и
точными – методами Гаусса, Гаусса-Жордана и т. д.
Если же модель никакими преобразованиями нельзя привести к
линейной форме , то система уравнений для определения параметров модели
оказывается нелинейной и для ее решения необходимо использовать
различные приближенные (итерационные) процедуры, например, метод
Гаусса-Зейделя или Ньютона-Рафсона. В качестве примера моделей,
нелинейных по отношению к параметрам, можно привести следующие:
и т. д.
Обсуждение математических алгоритмов нелинейного регрессионного
анализа выходит за рамки данного пособия.
Рассмотрим более подробно математические модели, линейные по
отношению к параметрам. Запишем рассчитанное значение функции для i-го
измерения:
,
где fji – значение j-й функции при значениях независимых переменных в
i-м эксперименте. После подстановки в выражение для суммы квадратов
невязок получим:
Остаточная сумма квадратов является функцией от параметров
математической модели. Для нахождения минимума этой функции
необходимо потребовать одновременное равенство нулю частных
производных функции Q по параметрам
числовому параметру bu имеет вид:
. Производная Q по u-му
После сокращения на (–2) и перегруппировки получаем:
, u = 0, 1, …, l
Полученные таким образом (l + 1) уравнение образуют систему
линейных уравнений для нахождения (l + 1) параметров математической
модели. Как нетрудно заметить, в матричной форме она записывается в
виде:
Дальнейшие рассуждения показывают, что квадратную матрицу,
размерности (l + 1)х(l + 1) в левой части уравнения, называемую
информационной матрицей, можно представить как произведение результата
транспонирования прямоугольной матрицы
размерностью N x (l+1), составленной из
значений функций
fj при значениях независимых переменных,
соответствующих i-му опыту, на себя.
Вектор-столбец в правой части уравнения есть результат умножения
транспонированной матрицы FТ на вектор столбец Y, составленный из
экспериментально определенных значений целевой функции:
Окончательно получаем матричную форму системы уравнений в виде:
Умножая
слева
обе
части
равенства
на
матрицу,
обратную
информационной, называемую матрицей дисперсий-ковариаций
,
получим уравнение для расчета вектора-столбца параметров математической
модели:
,
Полученное общее выражение может быть легко использовано для
вывода выражений расчета коэффициентов произвольных математической
моделей, линейных по отношению к определяемым параметрам.
Продемонстрируем использование МНК для нахождения параметров
прямолинейной зависимости. Ее математическая модель имеет вид:
Сравнивая это выражение и общее выражение для линейной модели,
получаем, что f0 = 1, f1 = x. Тогда для N проведенных экспериментов матрица
F записывается в виде:
№
опыта
1
2
…
N
f0=1
f1=x
1
1
…
1
x1
x2
…
xN
,
,
Вектор-столбец определяемых параметров
матрица
дисперсий-ковариаций
получается
информационной матрицы:
Подставим полученные матрицы
определяемых коэффициентов:
в
и
получим
,
обращением
вектор-столбец
Верхний элемент вектор-столбца В есть выражение для bo, нижний – для
b1.
Легко заметить, что выражение для свободного члена bo может быть
записано через значение b1 в более компактной форме:
Статистическая обработка уравнения регрессии
Для проведения статистического анализа рассчитанного уравнения
регрессии необходимо иметь статистическую оценку свойств
определяемого параметра y. Для этого необходимо проводить для
каждого сочетания независимых переменных (каждой строки таблицы
1) параллельные измерения и подвергать их статистической обработке,
определяя выборочные средние yi и выборочные дисперсии si2 .
Если ставилось одинаковое количество из m параллельных
опытов, то проверку гипотезы однородности рассчитанных дисперсий
зависимой переменной можно проводить по критерию Кохрена. Если
гипотеза об однородности дисперсий принимается, то рассчитывается
обобщенная дисперсия зависимой переменной
. Число степеней свободы fy = N·(m-1)
Если гипотеза однородности дисперсий отвергается, то
использование уравнения для расчета параметров математической
модели невозможно. Необходимо использовать "взвешенный" метод
наименьших квадратов, который будет описан ниже.
Рассчитанные значения параметров математической модели
являются случайными величинами, имеющими распределение
Стьюдента с числом степеней свободы равным, как и для дисперсии
зависимой переменной,
f = N∙(m-1).
Дисперсии параметров математической модели могут быть
найдены как диагональные элементы матрицы дисперсий-ковариаций
, умноженной на дисперсию зависимой величины:
Недиагональные элементы этой матрицы - ковариации – есть
количественная
мера
взаимной
зависимости
определяемых
коэффициентов регрессии. Для линейно-независимых параметров
ковариации равны нулю.
Для рассмотренной нами в качестве примера
зависимости дисперсии параметров принимают вид:
линейной
,
число степеней свободы совпадает с числом степеней свободы
дисперсии зависимой переменной.
Интервальная оценка параметров модели может быть получена
умножением среднеквадратичного отклонения параметра на
коэффициент Стьюдента для выбранной доверительной вероятности:
, u = 0, 1, …, l
Сравнивая рассчитанный доверительный интервал по модулю со
значением самого параметра можно проверить гипотезу значимости
коэффициента регрессии. Если доверительный интервал окажется по
модулю больше значения параметра, то нельзя статистически надежно
утверждать, что данный параметр значимо отличается от нуля. Данный
параметр (и соответствующее ему слагаемое) можно исключить из
модели .
Последней стадией статистической обработки рассчитанного
уравнения регрессии является проверка адекватности полученного
уравнения экспериментальным данным. Для этого по критерию
Фишера сравниваются дисперсия воспроизводимости зависимой
переменной s2(y) и дисперсия адекватности, рассчитываемая как
частное остаточной суммы квадратов
и числа степеней свободы fR = N – l, где N – число
экспериментальных точек определения зависимой переменной, а l –
количество значимых коэффициентов регрессии.
Если для выбранного уровня значимости дисперсии одинаковы, то
регрессионное уравнение адекватно описывает экспериментальные
данные.