«Многофакторный регрессионный анализ»

Конспект лекции по дисциплине «Многофакторный регрессионный анализ», docx

Загружаем конспект в формате docx

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Многофакторный регрессионный анализ», Word формат

ЛЕКЦИЯ 5 МНОГОФАКТОРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ Вопросы 1. Формулировка задачи построения многофакторного уравнения регрессии методом наименьших квадратов 2. Скалярная форма построения уравнения регрессии 3. Матричная форма построения уравнения регрессии 4. Проверка адекватности уравнения регрессии экспериментальным данным по критерию Фишера 5. Селекция факторов по критерию Стъюдента 1 Если исследуется система, на которую воздействует несколько входных переменных (несколько факторов), то для построения уравнения регрессии необходим многофакторный регрессионный анализ. В этой лекции будет рассматриваться частный случай, когда факторов 2, а уравнение регрессии – алгебраический полином первой степени (или линейный полином) двух переменных: . (1) Массив экспериментальных данных представляется в виде таблицы x1 x11 x21 … xn1 x2 x12 x22 … xn2 y y1 y2 … yn Этапы многофакторного регрессионного анализа. 1. Центрирование факторов. 2. Построение уравнения регрессии с центрированными факторами. 3. Проверка адекватности (соответствия) уравнения регрессии экспериментальным данным по критерию Фишера. 4. Селекция факторов по критерию Стъюдента. 5. Определение окончательного вида уравнения регрессии. Поскольку значения разных факторов могут иметь различный порядок, то для исключения перекоса степени влияния данных факторов на формирование выходной переменной, производится центрирование: , , (2) где – среднее арифметическое значение выборки по j-му фактору. Выражение (2) означает смещение математического ожидания j-го фактора к нулю. Числовые значения центрированных факторов вычисляются в соответствии с (2) по формуле . (2ʹ) Массив экспериментальных данных с центрированными факторами … … y y1 y2 … yn Линейный алгебраический полином двух переменных с центрированными факторами (переменными): . (3) Для построения многофакторных уравнений регрессии также применяется метод наименьших квадратов. Для его реализации должна быть сформирована функция (4) в виде суммы квадратов отклонений экспериментальных значений зависимой переменной от теоретических . Существо метода наименьших квадратов состоит в выборе таких значений параметров , чтобы выполнялось условие , . (5) Соотношение (5) указывает, что требуется найти минимально возможное значение суммы квадратов отклонений экспериментальных значений зависимой переменной от теоретических. При этом данный минимум находится подбором параметров на множестве вещественных чисел (). 2 Для поиска значений параметров , применяется необходимое условие экстремума функции многих переменных (в данном случае трех переменных). Существо необходимого условия экстремума функции трех переменных: если функция имеет в точке экстремум, то частные производные от этой функции в данной точке по всем трем переменным равны нулю. Частная производная функции V, например, по параметру : . При нахождении использованы правила дифференцирования квадратичной функции многих переменных. Поскольку частные производные приравниваются к нулю, то . (6) Обе части уравнения (6) делятся на –2 и, таким образом, получается: . (7) Далее в выражении (7) выполняется перемножение на общий множитель , почленное суммирование, а слагаемые, содержащие yi переносятся в правую часть: . (8) Обе части уравнения (8) умножаются на –1: . (9) Аналогично находятся и преобразуются частные производные и . В результате формируется система уравнений: (10) Система вида (10) в регрессионном анализе называется системой нормальных уравнений. Она представляет собой систему линейных уравнений относительно параметров . 3 Из линейной алгебры известно, что (10) эквивалентна следующему матричному уравнению: . (11) Под эквивалентностью системы уравнений (10) и матричного уравнения (11) понимается то, что они имеют одно и то же решение. В уравнении (11): – матрица центрированных значений факторов; – вектор коэффициентов регрессии (неизвестная уравнения (11)); .– вектор значений зависимой переменной (из массива экспериментальных данных). Для того чтобы выразить неизвестный вектор B, обе части матричного уравнения (11) необходимо умножить слева на квадратную матрицу . Известно, что произведение обратной матрицы на исходную есть единичная матрица: , (12) где . Кроме того, необходимо учесть, что умножение единичной матрицы слева на вектор в результате дает этот же вектор: . (13) Например . Тогда . С учетом (12) и (13) окончательное выражение для вычисления вектора оценок коэффициентов регрессии: . (14) Пример 1. Построить уравнение регрессии в виде линейного алгебраического полинома двух переменных на основе заданного массива экспериментальных данных x1 –0,5 0,8 0,4 0,5 0,6 x2 –3 –1 2 0,5 1,5 6 y –15,1 –1 19,9 9,5 16,5 47,9 Центрирование факторов. Средние значения (оценки математического ожидания) факторов: ; . В соответствии с (2ʹ): ; . Аналогично вычисляются другие центрированные значения факторов, которые сводятся в таблицу. –0,8 –0,3 0,5 0,1 0,2 0,3 –4 –2 1 –0,5 0,5 5 y –15,1 –1 19,9 9,5 16,5 47,9 Матричное уравнение (11) принимает вид , (П1) где ; ; . Выражение (14) для вычисления оценок коэффициентов регрессии: . (П2) Произведение транспонированной матрицы на исходную матрицу: Для полученной матрицы находится обратная матрица: (П3) Порядок нахождения обратной матрицы третьего порядка – см. лекцию 4. Произведение матрицы на вектор Y: Вектор оценок коэффициентов регрессии . Получено следующее уравнение регрессии: . (П4) 4 Проверка адекватности многофакторного уравнения регрессии экспериментальным данным выполняется по критерию Фишера (также, как и однофакторного уравнения). 1. Выдвигается гипотеза о том, что построенное уравнение адекватно экспериментальным данным и формируется показатель согласованности данной гипотезы: . (15) В числителе выражения (15): – оценка дисперсии выходной переменной; – среднее арифметическое значение выходной переменной; – число степеней свободы, при которых находится оценка дисперсии выходной переменной. В знаменателе выражения (15): – оценка остаточной дисперсии; – теоретические значения выходной переменной; – число степеней свободы, при которых находится оценка остаточной дисперсии; 3 – количество коэффициентов в уравнении регрессии; 2 – количество факторов в уравнении регрессии. 2. Вычисляются оценки дисперсий 2 и , находится наблюдаемое значение F показателя (15). 3. Находится критическое значение показателя (15) по таблицам критических точек распределения Фишера (приложение 5), где α – уровень значимости проверяемой гипотезы (задается исследователю). 4. Проверяется условие . (16) Если условие (16) выполняется, гипотеза об адекватности уравнения экспериментальным данным принимается, в противном случае – отвергается. Пример 2. Проверить гипотезу об адекватности уравнения регрессии (пример 1) экспериментальным данным при уровне значимости . Среднее значение (оценка математического ожидания) выходной переменной: . Для вычисления 2 и составляется таблица Расчётная таблица yi –0,8 –4 –15,1 –28 784 –15,2 0,01 0,0001 –0,3 –2 –1 –13,9 193 –0,98 –0,02 0,0004 0,5 1 19,9 7 49 20,3 –0,40 0,16 0,1 –0,5 9,5 –3,4 11,6 9,66 0,16 0,0256 0,2 0,5 16,5 3,6 13 16,6 –0,10 0,01 0,3 5 47,9 35 1225 47 0,90 0,81 Теоретические значения выходной переменной, например: . Оценка дисперсии выходной переменной: . Оценка остаточной дисперсии: . Наблюдаемое значение показателя согласованности гипотезы об адекватности уравнения регрессии экспериментальным данным: . Критическое значение показателя согласованности гипотезы: . Поскольку , гипотеза об адекватности уравнения регрессии экспериментальным данным принимается. 5 Проверку значимости коэффициентов регрессии в многофакторном регрессионном анализе принято называть селекцией факторов. 1. Выдвигается гипотеза о значимости фактора и формируется показатель согласованности данной гипотезы: , , (17) где – модуль величины ; – оценка среднего квадратического отклонения коэффициента . 2. Формируется корреляционная матрица для вычисления : (18) На главной диагонали матрицы (18) будут дисперсии оценок коэффициентов регрессии: . (19) Тогда . 3. Вычисляются наблюдаемые значения показателя (17). 4. Находится критическое значение показателя (17) по таблицам критических точек распределения Стъюдента (приложение 6), где α – уровень значимости проверяемой гипотезы (задается исследователю). 4. Проверяется условие , . (20) Если условие (20) выполняется, гипотеза о значимости фактора принимается, в противном случае – отвергается. Коэффициенты регрессии, для которых не выполняется условие (20), принимаются равными нулю. При этом соответствующие слагаемые исключаются из уравнения регрессии. Уравнение с новой структурой проверяется на адекватность экспериментальным данным по критерию Фишера. Если гипотеза об адекватности уравнения с новой структурой отвергается, производится возврат к первоначальной структуре уравнения. Пример 3. Проверить значимость факторов в уравнении (пример 1) при . Элементы главной диагонали (19) корреляционной матрицы: . Таким образом , , . Наблюдаемые значения показателя согласованности (17): . Критическое значение показателя согласованности гипотезы о значимости факторов: . Поскольку , , , гипотезы о значимости факторов и принимаются, а гипотеза о значимости отвергается. Уравнение регрессии с новой структурой . (П5) В связи с изменением структуры уравнения его необходимо проверить на адекватность экспериментальным данным. Изменится оценка остаточной дисперсии. Для вычисления указанной величины составляется расчетная таблица. yi –4 –15,1 –14,1 –1 1 –2 –1 –0,6 –0,4 0,16 1 19,9 19,6 0,3 0,09 –0,5 9,5 9,5 0,5 16,5 16,3 0,2 0,04 5 47,9 46,6 1,3 1,69 Получаем оценку остаточной дисперсии: . Необходимо обратить внимание, в связи с изменением количества факторов, число степеней свободы, при которых вычисляется оценка остаточной дисперсии, изменяется. Показатель согласованности (15) принимает значение . Критическое значение показателя согласованности гипотезы об адекватности уравнения регрессии экспериментальным данным: . Поскольку гипотеза об адекватности уравнения регрессии (П5) экспериментальным данным принимается. На заключительном этапе производится децентрирование факторов в соответствии с (2), т.е переход к уравнению с нецентрированными факторами: . В результате получается: или .

Многофакторный регрессионный анализ

Тебе могут подойти лекции

Множественная линейная регрессия

Множественная регрессия и корреляция

Моделирование

Статистический анализ данных. Регрессионный анализ

Имитационное моделирование сложных систем

Понятие, сущность, задачи, принципы и методы планирования

Методы и средства научных исследований

Предмет и методы эконометрики

Эконометрика

Эконометрика как самостоятельное знание

Многофакторный регрессионный анализ

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ