Статистический анализ данных. Регрессионный анализ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ЛК 10
Статистический анализ данных. Регрессионный анализ
Организация сбора данных и рациональная их обработка обычно
проводится для решения следующих задач:
1. задачи оценивания статистических характеристик;
2. задачи проверки статистических гипотез;
3. обнаружение и построение статистической зависимости между
переменными, т.е. задача аппроксимации исходных данных.
Как правило, исследователи чаще всего ставят перед собой цель
нахождения зависимости между переменными, а точнее построения
математической модели (ММ) явления или процесса. Имея ММ, можно,
например, решать следующие задачи:
- управление качеством продукции;
- оптимизация входных параметров технологического процесса;
- прогноз и анализ объемов произведенной продукции;
- построение интегральных целевых функций и другие.
Основные методы математической статистики, с помощью которых
решают построения статистической зависимости:
- регрессионный анализ;
- дисперсионный анализ;
- корреляционный анализ;
- планирование эксперимента;
- факторный анализ;
- кластерный анализ.
Среди перечисленных методов регрессионный анализ стоит на первом
месте. Он – один из основных методов математической статистики,
связанный с математическим описанием разнообразных явлений, процессов
и объектов. Этот метод позволяет строить математическую модель объекта
на основе экспериментальных данных.
В основе регрессионного анализа - метод наименьших квадратов (МНК).
Собственно МНК – это алгебраическая процедура минимизации
квадратичной формы. К этой процедуре постепенно прибавилась система
статистических постулатов. Были отработаны механизмы проверки гипотез
об адекватности модели объекта, которая задается известным уравнением и
процедура проверки гипотез о значимости этого уравнения.
Регрессионный анализ заключается в определении аналитического
выражения связи зависимой случайной величины Y (называемой также
результативным признаком) с независимыми случайными величинами Х1,
Х2,…Хm (называемыми также факторами).
Форма связи результативного признака Y с факторами Х1, Х2,…Хm получила
название уравнения регрессии. В зависимости от типа выбранного уравнения
1
различают линейную и нелинейную регрессию (в последнем случае возможно
дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и
т.д.).
В зависимости от числа взаимосвязанных признаков различают парную и
множественную регрессию. Если исследуется связь между двумя признаками
(результативным и факторным), то регрессию называют парной, если между
тремя и более признаками – множественной (многофакторной) регрессией.
Регрессия – усреднение.
При изучении регрессии следует придерживаться определенной
последовательности этапов:
1.
Задание аналитической формы уравнения регрессии и
определение параметров регрессии.
2.
Определение в регрессии степени стохастической взаимосвязи
результативного признака и факторов, проверка общего качества
уравнения регрессии.
3.
Проверка статистической значимости каждого коэффициента
уравнения регрессии и определение их доверительных
интервалов.
В зависимости от вида функции F(X) модели делятся на линейные и
нелинейные. В зависимости от количества включенных в модель факторов
модели делятся на однофакторные и многофакторные.
Рассмотрим задачу построения регрессионной зависимости на примере
однофакторной линейной модели.
Задача. Исследуем объект, работа которого характеризуется показателем Y, на работу
объекта оказывает влияние набор факторов Х=(х1, х2,…,хn). Допускается воздействие
случайных неконтролируемых факторов =(1, 2,…,m) (неучтенные факторы, ошибки
измерения).
Пример 1 Обрывность=F(влажность, температура, …)
х1
ТП
…
Y (обрывность)
прядения
хm
Пример 2 Прибыль= F(величина основных фондов, величина оборотных фондов,…)
Задача регрессионного анализа
Предположим, что исследуется объект, который характеризуется
показателем Y и на объект оказывают влияние факторы X = X1, X2,…, Xm.
Предполагаем, что между переменными существует истинная зависимость Y
= F(X1, X2,…, Xm), где X = X1, X2,…, Xm, которая задана лишь дискретной
таблицей значений, причем наблюдаемые значения известны с некоторой
погрешностью i: Yi = F(Xi)+i, I=1,…n .
2
Х1
х11
х12
X1n
Х2
х21
X22
.
X2n
…
.
Хm
Xm1
Xm2
.
Xmn
Y
y1
Y2
Yn
X
объект
Y=F(X)+
Рис. 1. Структура исследуемого объекта
Требуется найти функцию Yˆ = F̂ (Х1, Х2,…,Хm), которая наилучшим
образом приближается к истинной функции.
Одним из методов построения такой зависимости является
регрессионный анализ, а построенную этим методом функцию называют
уравнением регрессии (функцией регрессии). В регрессионном анализе
“наилучшим образом”, понимается в смысле минимума суммарной ошибки
приближения для заданных исходных (табличных) данных.
Функция регрессии показывает, каково будет в среднем значение
переменной Y, если переменные X примут конкретные значения.
1.
2.
3.
4.
Основные этапы регрессионного анализа
Сбор экспериментальных данных;
Предварительный статистический анализ данных. Задание класса
функций, описывающего структуру математической модели (ММ);
Оценивание параметров ММ;
Проверка адекватности построенной модели.
Задача построения однофакторной линейной модели
Пусть объект описывается показателем Y и на него оказывает влияние один
фактор X, истинная функция Y =F(X)+ задана таблицей значений X i , Yi in=1 .
Требуется построить аппроксимацию F̂ (x ) , которая хорошо приближается к
истинной функции F(X) в смысле минимального значения суммы квадратов
отклонений истинных значений Yi от линии регрессии.
Например, нас интересует как зависит товарооборот от вложенных затрат на
рекламу (y – объем товарооборота, x – затраты на рекламу)
- истинная функция y =F(x) не известна, а известны фактические значения
X i , Yi in=1 , где Yi= F(Xi) +i I=1,2…n (n - наблюдений), собранные за некоторый
период времени.
3
Требуется:
- найти приближение к истинной функции F(X) в классе линейных функций,
т.е. определить коэффициенты оптимальной линейной зависимости L(x )= Х
+ на основе фактических данных
провести анализ полученной зависимости на предмет адекватности
исходным данным.
Выдвигаем гипотезу:
переменные связаны линейной зависимостью Y=AX+B+, т.е. наилучшую
аппроксимацию ищем в классе линейных функций:
F̂ (X )= X +
Геометрическая интерпретация МНК
На плоскость XY нанесем все n фактических значений X i , Yi in=1 , получим
облако точек, проведем теоретическую линию Yˆ =X+.
Введем обозначения:
xi– значение фактора;
x - среднее значение фактора
yi– фактическое значение показателя (наблюдаемое значение);
ŷ i − теоретическое значение показателя (значение на линии регрессии)
y - среднее значение показателя
Оптимальные коэффициенты , будем подбирать так, чтобы сумма
квадратов отклонений фактических
значений функции от теоретических
(значений на линии регрессии) была минимальной.
Для фактического наблюдения с номером i, величина отклонения составит
i=yi- ŷ i = yi − − xi Просуммируем квадраты отклонений по всем исходным
значениям и запишем условия минимума квадратичной формы:
n
n
i =1
i =1
S(,)= i2 = y i − − xi 2 → min
Условия минимума функции: частные производные равны 0, получаем
систему из двух линейных уравнений с двумя неизвестными и , система
имеет единственное решение.
yi
Yˆ =X+
i
ŷ i
i= yi – ŷ i
xi
4
S
= 0
S
=0
n
2
Yi − − −X i
=0
i =1
n
Yi − − X i 2
i =1
=0
n
n
n
+
X
=
Yi
i
i =1
i =1
n
n
n
X i + X i2 = X i Yi
i =1
i =1
i =1
n – число фактических наблюдений
Нетрудно решить систему уравнений (3) относительно и и получить
решение:
n
n
X
Y
−
X
i i
i Yi / n
1 n
1 n
i =1
i =1
i =1
=
; = Y − X , где X = X i , Y = Yi
2
n
n i =1
n i =1
n
2
Xi − Xi / n
i =1
i =1
n
Замечательное
свойство
уравнения
регрессии:
точка
с
координатами (x, y ) лежит на линии регрессии, поэтому уравнение регрессии
хорошо объясняет изменения значений показателя в среднем при изменении
значений фактора.
Для освоения технологии работы с надстройкой пакет анализа рассмотрим
все этапы регрессионного анализа (именно это вам предстоит проделать в
лабораторной работе).
Регрессионный анализ данных средствами Excel.
Таким образом, мы вручную получили уравнение парной регрессии
Ŷ = X + , которое наилучшим образом приближается к истинной зависимости
Y=AX+B и в некоторых случаях может служить ММ рассмотренного объекта и
использоваться для решения задач управления, в частности прогнозирования.
Excel располагает достаточно мощными средствами статистической
обработки данных. Большое количество статистических функций можно найти в
списке встроенных функций Мастера в категории статистические и вручную
выполнить статистический анализ, последовательно применяя к исходным
данным соответствующие функции. Здесь вы найдете функции:
для вычисления описательных статистик
для построения регрессионной зависимости
для проведения дисперсионного анализа и т.д.
Чтобы воспользоваться набором этих функций, нужно очень хорошо
представлять себе цель исследования и этапы статистического анализа, т. е. нужно
иметь хороший сценарий этой работы.
Другой путь – воспользоваться автоматизированным способом анализа
данных. Все инструменты статистического анализа в Excel реализованы в
надстройке Пакет анализа, который можно активизировать командой основного
меню:
5
→ Анализ данных
Предварительно следует включить дополнение Пакет анализа с помощью
диспетчера надстроек. Для подключения Пакета анализа нужно выполнить
команду основного меню →Надстройки и в появившемся диалоговом окне
Надстройки установить флажок для надстройки Пакет анализа.
Для освоения технологии работы с надстройкой Пакет анализа рассмотрим
все этапы регрессионного анализа (именно это вам предстоит проделать в
лабораторной работе).
1. Формирование набора исходных данных. Выполнять этот этап будем с
помощью инструмента анализа “Генерация случайных чисел”. Он служит для
формирования массива случайных чисел, распределенных по одному из
теоретических распределений. В работе используются распределения (каждое со
своими параметрами):
Нормальное (H:m;);
Равномерное (P:a;b);
Пуассона (П:)
1). На рабочем листе Excel создаем шапку таблицы исходных данных для
проведения статистического анализа (X, EPS, Y, А, В) и заполняем таблицу.
a
1 A
2 1
3
b
c
d
e
f
B
X(H:0,1)
EPS(P:1,2)
Y
n
2
80
Параметры A, B и n – это константы из индивидуального задания;
А, В – параметры линейной функции y=Ax+B (истинная зависимость).
n – объем выборки данных (число случайных чисел)
2). Значения переменной Х генерируем по указанному закону, для этого:
- выполняем команду основного меню Сервис→ Анализ данных;
- в диалоговом окне Анализ данных среди инструментов анализа
выбираем Генерация случайных чисел;
6
- в диалоговом окне Генерация случайных чисел заполняем параметры
генерируемой последовательности данных из индивидуального
задания. Пример для случайной величины Х (Н: среднее=0, ст.
отклонение=1)
Параметры окна:
Число переменных – число переменных (в нашем случае число столбцов данных),
с одинаковым распределением и с одинаковыми параметрами этого
распределения. Если переменные имеют разное распределение или разные
параметры, генерация проводится для каждой переменной отдельно, при
этом в поле ввода указывается значение 1.
Число случайных чисел – объем выборки данных (n)
Распределение – в раскрывающемся списке выбирается тип распределения, в
зависимости от теоретического распределения меняются и параметры
диалогового окна (у разных распределений разные параметры).
Параметры (в зависимости от распределения)
нормальное, параметры – среднее и стандартное отклонение;
равномерное, параметры – начальное и конечное значение, между
которыми находятся случайные числа;
Пуассона, параметр - интенсивность потока заявок.
Случайное рассеивание (необязательный параметр) – вводится стартовое число
для генерации определенной последовательности случайных чисел.
Впоследствии это число можно снова использовать для получения той же
самой последовательности чисел.
Параметры вывода – три положения переключателя:
Выходной интервал активизируется поле, в которое необходимо ввести ссылку на
левую верхнюю ячейку выходного диапазона – с2. Размер выходного диапазона
будет определен автоматически. И на экране появится сообщение в случае
возможного наложения выходного диапазона на исходные данные.
Новый рабочий лист открывается новый лист, на котором начиная с ячейки А1
размещаются результаты. Если необходимо задать имя нового рабочего листа,
введите его в соответствующее поле.
7
Новая рабочая книга открывается новая рабочая книга и на первом листе ,
начиная с ячейки А1 размещаются результаты. Если необходимо задать имя
новой рабочей книги, введите его в соответствующее поле.
Диапазон данных для Х – с2:с81
3).Значения случайной ошибки EPS генерируем по указанному закону
(аналогично);
Число переменных - 1
Число случайных чисел - 80
Распределение - равномерное
Параметры
Начальное значение -1
Конечное значение -2
Случайное рассеивание
Параметры вывода
Выходной интервал – d2
Диапазон данных для EPS – d2:d81
4). Значения переменной Y вычисляем по формуле Y=A*X+B+ EPS: в ячейку e2:
$a$2*c2+$b$2+d2
8