Статистический анализ данных. Регрессионный анализ

👀 367 просмотров
📌 327 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Статистический анализ данных. Регрессионный анализ», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Статистический анализ данных. Регрессионный анализ», Word формат

ЛК 10 Статистический анализ данных. Регрессионный анализ Организация сбора данных и рациональная их обработка обычно проводится для решения следующих задач: 1. задачи оценивания статистических характеристик; 2. задачи проверки статистических гипотез; 3. обнаружение и построение статистической зависимости между переменными, т.е. задача аппроксимации исходных данных. Как правило, исследователи чаще всего ставят перед собой цель нахождения зависимости между переменными, а точнее построения математической модели (ММ) явления или процесса. Имея ММ, можно, например, решать следующие задачи: - управление качеством продукции; - оптимизация входных параметров технологического процесса; - прогноз и анализ объемов произведенной продукции; - построение интегральных целевых функций и другие. Основные методы математической статистики, с помощью которых решают построения статистической зависимости: - регрессионный анализ; - дисперсионный анализ; - корреляционный анализ; - планирование эксперимента; - факторный анализ; - кластерный анализ. Среди перечисленных методов регрессионный анализ стоит на первом месте. Он – один из основных методов математической статистики, связанный с математическим описанием разнообразных явлений, процессов и объектов. Этот метод позволяет строить математическую модель объекта на основе экспериментальных данных. В основе регрессионного анализа - метод наименьших квадратов (МНК). Собственно МНК – это алгебраическая процедура минимизации квадратичной формы. К этой процедуре постепенно прибавилась система статистических постулатов. Были отработаны механизмы проверки гипотез об адекватности модели объекта, которая задается известным уравнением и процедура проверки гипотез о значимости этого уравнения. Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой также результативным признаком) с независимыми случайными величинами Х1, Х2,…Хm (называемыми также факторами). Форма связи результативного признака Y с факторами Х1, Х2,…Хm получила название уравнения регрессии. В зависимости от типа выбранного уравнения 1 различают линейную и нелинейную регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессию называют парной, если между тремя и более признаками – множественной (многофакторной) регрессией. Регрессия – усреднение. При изучении регрессии следует придерживаться определенной последовательности этапов: 1. Задание аналитической формы уравнения регрессии и определение параметров регрессии. 2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии. 3. Проверка статистической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов. В зависимости от вида функции F(X) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов модели делятся на однофакторные и многофакторные. Рассмотрим задачу построения регрессионной зависимости на примере однофакторной линейной модели. Задача. Исследуем объект, работа которого характеризуется показателем Y, на работу объекта оказывает влияние набор факторов Х=(х1, х2,…,хn). Допускается воздействие случайных неконтролируемых факторов =(1, 2,…,m) (неучтенные факторы, ошибки измерения). Пример 1 Обрывность=F(влажность, температура, …) х1 ТП … Y (обрывность) прядения хm Пример 2 Прибыль= F(величина основных фондов, величина оборотных фондов,…) Задача регрессионного анализа Предположим, что исследуется объект, который характеризуется показателем Y и на объект оказывают влияние факторы X  = X1, X2,…, Xm. Предполагаем, что между переменными существует истинная зависимость Y = F(X1, X2,…, Xm), где X  = X1, X2,…, Xm, которая задана лишь дискретной таблицей значений, причем наблюдаемые значения известны с некоторой погрешностью i: Yi = F(Xi)+i, I=1,…n . 2 Х1 х11 х12 X1n Х2 х21 X22 . X2n … . Хm Xm1 Xm2 . Xmn Y y1 Y2 Yn  X объект Y=F(X)+  Рис. 1. Структура исследуемого объекта Требуется найти функцию Yˆ = F̂ (Х1, Х2,…,Хm), которая наилучшим образом приближается к истинной функции. Одним из методов построения такой зависимости является регрессионный анализ, а построенную этим методом функцию называют уравнением регрессии (функцией регрессии). В регрессионном анализе “наилучшим образом”, понимается в смысле минимума суммарной ошибки приближения для заданных исходных (табличных) данных. Функция регрессии показывает, каково будет в среднем значение переменной Y, если переменные X  примут конкретные значения. 1. 2. 3. 4. Основные этапы регрессионного анализа Сбор экспериментальных данных; Предварительный статистический анализ данных. Задание класса функций, описывающего структуру математической модели (ММ); Оценивание параметров ММ; Проверка адекватности построенной модели. Задача построения однофакторной линейной модели Пусть объект описывается показателем Y и на него оказывает влияние один фактор X, истинная функция Y =F(X)+ задана таблицей значений X i , Yi in=1 . Требуется построить аппроксимацию F̂ (x ) , которая хорошо приближается к истинной функции F(X) в смысле минимального значения суммы квадратов отклонений истинных значений Yi от линии регрессии. Например, нас интересует как зависит товарооборот от вложенных затрат на рекламу (y – объем товарооборота, x – затраты на рекламу) - истинная функция y =F(x) не известна, а известны фактические значения X i , Yi in=1 , где Yi= F(Xi) +i I=1,2…n (n - наблюдений), собранные за некоторый период времени. 3 Требуется: - найти приближение к истинной функции F(X) в классе линейных функций, т.е. определить коэффициенты оптимальной линейной зависимости L(x )= Х +  на основе фактических данных провести анализ полученной зависимости на предмет адекватности исходным данным. Выдвигаем гипотезу: переменные связаны линейной зависимостью Y=AX+B+, т.е. наилучшую аппроксимацию ищем в классе линейных функций: F̂ (X )= X +    Геометрическая интерпретация МНК На плоскость XY нанесем все n фактических значений X i , Yi in=1 , получим облако точек, проведем теоретическую линию Yˆ =X+. Введем обозначения: xi– значение фактора; x - среднее значение фактора yi– фактическое значение показателя (наблюдаемое значение); ŷ i − теоретическое значение показателя (значение на линии регрессии) y - среднее значение показателя Оптимальные коэффициенты , будем подбирать так, чтобы сумма квадратов отклонений фактических значений функции от теоретических (значений на линии регрессии) была минимальной. Для фактического наблюдения с номером i, величина отклонения составит i=yi- ŷ i = yi −  − xi Просуммируем квадраты отклонений по всем исходным значениям и запишем условия минимума квадратичной формы: n n i =1 i =1 S(,)=   i2 =   y i −  − xi 2 → min Условия минимума функции: частные производные равны 0, получаем систему из двух линейных уравнений с двумя неизвестными  и , система имеет единственное решение. yi Yˆ =X+ i ŷ i i= yi – ŷ i xi 4  S   = 0  S =0      n 2    Yi −  − −X i    =0   i =1       n    Yi −  − X i 2    i =1  =0    n n   n +  X = Yi   i  i =1 i =1  n n n    X i +   X i2 =  X i Yi  i =1 i =1 i =1 n – число фактических наблюдений Нетрудно решить систему уравнений (3) относительно  и  и получить решение: n  n  X Y − X    i i i  Yi  / n 1 n 1 n i =1 i =1 i =1   = ;  = Y − X , где X =  X i , Y =  Yi 2 n n i =1 n i =1  n  2 Xi −  Xi  / n  i =1  i =1  n Замечательное свойство уравнения регрессии: точка с координатами (x, y ) лежит на линии регрессии, поэтому уравнение регрессии хорошо объясняет изменения значений показателя в среднем при изменении значений фактора. Для освоения технологии работы с надстройкой пакет анализа рассмотрим все этапы регрессионного анализа (именно это вам предстоит проделать в лабораторной работе). Регрессионный анализ данных средствами Excel. Таким образом, мы вручную получили уравнение парной регрессии Ŷ = X +  , которое наилучшим образом приближается к истинной зависимости Y=AX+B и в некоторых случаях может служить ММ рассмотренного объекта и использоваться для решения задач управления, в частности прогнозирования. Excel располагает достаточно мощными средствами статистической обработки данных. Большое количество статистических функций можно найти в списке встроенных функций Мастера в категории статистические и вручную выполнить статистический анализ, последовательно применяя к исходным данным соответствующие функции. Здесь вы найдете функции: для вычисления описательных статистик для построения регрессионной зависимости для проведения дисперсионного анализа и т.д. Чтобы воспользоваться набором этих функций, нужно очень хорошо представлять себе цель исследования и этапы статистического анализа, т. е. нужно иметь хороший сценарий этой работы. Другой путь – воспользоваться автоматизированным способом анализа данных. Все инструменты статистического анализа в Excel реализованы в надстройке Пакет анализа, который можно активизировать командой основного меню: 5 → Анализ данных Предварительно следует включить дополнение Пакет анализа с помощью диспетчера надстроек. Для подключения Пакета анализа нужно выполнить команду основного меню →Надстройки и в появившемся диалоговом окне Надстройки установить флажок для надстройки Пакет анализа. Для освоения технологии работы с надстройкой Пакет анализа рассмотрим все этапы регрессионного анализа (именно это вам предстоит проделать в лабораторной работе). 1. Формирование набора исходных данных. Выполнять этот этап будем с помощью инструмента анализа “Генерация случайных чисел”. Он служит для формирования массива случайных чисел, распределенных по одному из теоретических распределений. В работе используются распределения (каждое со своими параметрами): Нормальное (H:m;); Равномерное (P:a;b); Пуассона (П:) 1). На рабочем листе Excel создаем шапку таблицы исходных данных для проведения статистического анализа (X, EPS, Y, А, В) и заполняем таблицу. a 1 A 2 1 3 b c d e f B X(H:0,1) EPS(P:1,2) Y n 2 80 Параметры A, B и n – это константы из индивидуального задания; А, В – параметры линейной функции y=Ax+B (истинная зависимость). n – объем выборки данных (число случайных чисел) 2). Значения переменной Х генерируем по указанному закону, для этого: - выполняем команду основного меню Сервис→ Анализ данных; - в диалоговом окне Анализ данных среди инструментов анализа выбираем Генерация случайных чисел; 6 - в диалоговом окне Генерация случайных чисел заполняем параметры генерируемой последовательности данных из индивидуального задания. Пример для случайной величины Х (Н: среднее=0, ст. отклонение=1) Параметры окна: Число переменных – число переменных (в нашем случае число столбцов данных), с одинаковым распределением и с одинаковыми параметрами этого распределения. Если переменные имеют разное распределение или разные параметры, генерация проводится для каждой переменной отдельно, при этом в поле ввода указывается значение 1. Число случайных чисел – объем выборки данных (n) Распределение – в раскрывающемся списке выбирается тип распределения, в зависимости от теоретического распределения меняются и параметры диалогового окна (у разных распределений разные параметры). Параметры (в зависимости от распределения) нормальное, параметры – среднее и стандартное отклонение; равномерное, параметры – начальное и конечное значение, между которыми находятся случайные числа; Пуассона, параметр  - интенсивность потока заявок. Случайное рассеивание (необязательный параметр) – вводится стартовое число для генерации определенной последовательности случайных чисел. Впоследствии это число можно снова использовать для получения той же самой последовательности чисел. Параметры вывода – три положения переключателя: Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона – с2. Размер выходного диапазона будет определен автоматически. И на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные. Новый рабочий лист открывается новый лист, на котором начиная с ячейки А1 размещаются результаты. Если необходимо задать имя нового рабочего листа, введите его в соответствующее поле. 7 Новая рабочая книга открывается новая рабочая книга и на первом листе , начиная с ячейки А1 размещаются результаты. Если необходимо задать имя новой рабочей книги, введите его в соответствующее поле. Диапазон данных для Х – с2:с81 3).Значения случайной ошибки EPS генерируем по указанному закону (аналогично); Число переменных - 1 Число случайных чисел - 80 Распределение - равномерное Параметры Начальное значение -1 Конечное значение -2 Случайное рассеивание Параметры вывода Выходной интервал – d2 Диапазон данных для EPS – d2:d81 4). Значения переменной Y вычисляем по формуле Y=A*X+B+ EPS: в ячейку e2: $a$2*c2+$b$2+d2 8

Разместил пособие