Статистический анализ данных. Регрессионный анализ

👀 1004 просмотра
📌 964 загрузки

Выбери формат для чтения

Конспект лекции по дисциплине «Статистический анализ данных. Регрессионный анализ», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Статистический анализ данных. Регрессионный анализ», Word формат

ЛК 10 Статистический анализ данных. Регрессионный анализ Организация сбора данных и рациональная их обработка обычно проводится для решения следующих задач: 1. задачи оценивания статистических характеристик; 2. задачи проверки статистических гипотез; 3. обнаружение и построение статистической зависимости между переменными, т.е. задача аппроксимации исходных данных. Как правило, исследователи чаще всего ставят перед собой цель нахождения зависимости между переменными, а точнее построения математической модели (ММ) явления или процесса. Имея ММ, можно, например, решать следующие задачи: - управление качеством продукции; - оптимизация входных параметров технологического процесса; - прогноз и анализ объемов произведенной продукции; - построение интегральных целевых функций и другие. Основные методы математической статистики, с помощью которых решают построения статистической зависимости: - регрессионный анализ; - дисперсионный анализ; - корреляционный анализ; - планирование эксперимента; - факторный анализ; - кластерный анализ. Среди перечисленных методов регрессионный анализ стоит на первом месте. Он – один из основных методов математической статистики, связанный с математическим описанием разнообразных явлений, процессов и объектов. Этот метод позволяет строить математическую модель объекта на основе экспериментальных данных. В основе регрессионного анализа - метод наименьших квадратов (МНК). Собственно МНК – это алгебраическая процедура минимизации квадратичной формы. К этой процедуре постепенно прибавилась система статистических постулатов. Были отработаны механизмы проверки гипотез об адекватности модели объекта, которая задается известным уравнением и процедура проверки гипотез о значимости этого уравнения. Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой также результативным признаком) с независимыми случайными величинами Х1, Х2,…Хm (называемыми также факторами). Форма связи результативного признака Y с факторами Х1, Х2,…Хm получила название уравнения регрессии. В зависимости от типа выбранного уравнения 1 различают линейную и нелинейную регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессию называют парной, если между тремя и более признаками – множественной (многофакторной) регрессией. Регрессия – усреднение. При изучении регрессии следует придерживаться определенной последовательности этапов: 1. Задание аналитической формы уравнения регрессии и определение параметров регрессии. 2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии. 3. Проверка статистической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов. В зависимости от вида функции F(X) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов модели делятся на однофакторные и многофакторные. Рассмотрим задачу построения регрессионной зависимости на примере однофакторной линейной модели. Задача. Исследуем объект, работа которого характеризуется показателем Y, на работу объекта оказывает влияние набор факторов Х=(х1, х2,…,хn). Допускается воздействие случайных неконтролируемых факторов =(1, 2,…,m) (неучтенные факторы, ошибки измерения). Пример 1 Обрывность=F(влажность, температура, …) х1 ТП … Y (обрывность) прядения хm Пример 2 Прибыль= F(величина основных фондов, величина оборотных фондов,…) Задача регрессионного анализа Предположим, что исследуется объект, который характеризуется показателем Y и на объект оказывают влияние факторы X  = X1, X2,…, Xm. Предполагаем, что между переменными существует истинная зависимость Y = F(X1, X2,…, Xm), где X  = X1, X2,…, Xm, которая задана лишь дискретной таблицей значений, причем наблюдаемые значения известны с некоторой погрешностью i: Yi = F(Xi)+i, I=1,…n . 2 Х1 х11 х12 X1n Х2 х21 X22 . X2n … . Хm Xm1 Xm2 . Xmn Y y1 Y2 Yn  X объект Y=F(X)+  Рис. 1. Структура исследуемого объекта Требуется найти функцию Yˆ = F̂ (Х1, Х2,…,Хm), которая наилучшим образом приближается к истинной функции. Одним из методов построения такой зависимости является регрессионный анализ, а построенную этим методом функцию называют уравнением регрессии (функцией регрессии). В регрессионном анализе “наилучшим образом”, понимается в смысле минимума суммарной ошибки приближения для заданных исходных (табличных) данных. Функция регрессии показывает, каково будет в среднем значение переменной Y, если переменные X  примут конкретные значения. 1. 2. 3. 4. Основные этапы регрессионного анализа Сбор экспериментальных данных; Предварительный статистический анализ данных. Задание класса функций, описывающего структуру математической модели (ММ); Оценивание параметров ММ; Проверка адекватности построенной модели. Задача построения однофакторной линейной модели Пусть объект описывается показателем Y и на него оказывает влияние один фактор X, истинная функция Y =F(X)+ задана таблицей значений X i , Yi in=1 . Требуется построить аппроксимацию F̂ (x ) , которая хорошо приближается к истинной функции F(X) в смысле минимального значения суммы квадратов отклонений истинных значений Yi от линии регрессии. Например, нас интересует как зависит товарооборот от вложенных затрат на рекламу (y – объем товарооборота, x – затраты на рекламу) - истинная функция y =F(x) не известна, а известны фактические значения X i , Yi in=1 , где Yi= F(Xi) +i I=1,2…n (n - наблюдений), собранные за некоторый период времени. 3 Требуется: - найти приближение к истинной функции F(X) в классе линейных функций, т.е. определить коэффициенты оптимальной линейной зависимости L(x )= Х +  на основе фактических данных провести анализ полученной зависимости на предмет адекватности исходным данным. Выдвигаем гипотезу: переменные связаны линейной зависимостью Y=AX+B+, т.е. наилучшую аппроксимацию ищем в классе линейных функций: F̂ (X )= X +    Геометрическая интерпретация МНК На плоскость XY нанесем все n фактических значений X i , Yi in=1 , получим облако точек, проведем теоретическую линию Yˆ =X+. Введем обозначения: xi– значение фактора; x - среднее значение фактора yi– фактическое значение показателя (наблюдаемое значение); ŷ i − теоретическое значение показателя (значение на линии регрессии) y - среднее значение показателя Оптимальные коэффициенты , будем подбирать так, чтобы сумма квадратов отклонений фактических значений функции от теоретических (значений на линии регрессии) была минимальной. Для фактического наблюдения с номером i, величина отклонения составит i=yi- ŷ i = yi −  − xi Просуммируем квадраты отклонений по всем исходным значениям и запишем условия минимума квадратичной формы: n n i =1 i =1 S(,)=   i2 =   y i −  − xi 2 → min Условия минимума функции: частные производные равны 0, получаем систему из двух линейных уравнений с двумя неизвестными  и , система имеет единственное решение. yi Yˆ =X+ i ŷ i i= yi – ŷ i xi 4  S   = 0  S =0      n 2    Yi −  − −X i    =0   i =1       n    Yi −  − X i 2    i =1  =0    n n   n +  X = Yi   i  i =1 i =1  n n n    X i +   X i2 =  X i Yi  i =1 i =1 i =1 n – число фактических наблюдений Нетрудно решить систему уравнений (3) относительно  и  и получить решение: n  n  X Y − X    i i i  Yi  / n 1 n 1 n i =1 i =1 i =1   = ;  = Y − X , где X =  X i , Y =  Yi 2 n n i =1 n i =1  n  2 Xi −  Xi  / n  i =1  i =1  n Замечательное свойство уравнения регрессии: точка с координатами (x, y ) лежит на линии регрессии, поэтому уравнение регрессии хорошо объясняет изменения значений показателя в среднем при изменении значений фактора. Для освоения технологии работы с надстройкой пакет анализа рассмотрим все этапы регрессионного анализа (именно это вам предстоит проделать в лабораторной работе). Регрессионный анализ данных средствами Excel. Таким образом, мы вручную получили уравнение парной регрессии Ŷ = X +  , которое наилучшим образом приближается к истинной зависимости Y=AX+B и в некоторых случаях может служить ММ рассмотренного объекта и использоваться для решения задач управления, в частности прогнозирования. Excel располагает достаточно мощными средствами статистической обработки данных. Большое количество статистических функций можно найти в списке встроенных функций Мастера в категории статистические и вручную выполнить статистический анализ, последовательно применяя к исходным данным соответствующие функции. Здесь вы найдете функции: для вычисления описательных статистик для построения регрессионной зависимости для проведения дисперсионного анализа и т.д. Чтобы воспользоваться набором этих функций, нужно очень хорошо представлять себе цель исследования и этапы статистического анализа, т. е. нужно иметь хороший сценарий этой работы. Другой путь – воспользоваться автоматизированным способом анализа данных. Все инструменты статистического анализа в Excel реализованы в надстройке Пакет анализа, который можно активизировать командой основного меню: 5 → Анализ данных Предварительно следует включить дополнение Пакет анализа с помощью диспетчера надстроек. Для подключения Пакета анализа нужно выполнить команду основного меню →Надстройки и в появившемся диалоговом окне Надстройки установить флажок для надстройки Пакет анализа. Для освоения технологии работы с надстройкой Пакет анализа рассмотрим все этапы регрессионного анализа (именно это вам предстоит проделать в лабораторной работе). 1. Формирование набора исходных данных. Выполнять этот этап будем с помощью инструмента анализа “Генерация случайных чисел”. Он служит для формирования массива случайных чисел, распределенных по одному из теоретических распределений. В работе используются распределения (каждое со своими параметрами): Нормальное (H:m;); Равномерное (P:a;b); Пуассона (П:) 1). На рабочем листе Excel создаем шапку таблицы исходных данных для проведения статистического анализа (X, EPS, Y, А, В) и заполняем таблицу. a 1 A 2 1 3 b c d e f B X(H:0,1) EPS(P:1,2) Y n 2 80 Параметры A, B и n – это константы из индивидуального задания; А, В – параметры линейной функции y=Ax+B (истинная зависимость). n – объем выборки данных (число случайных чисел) 2). Значения переменной Х генерируем по указанному закону, для этого: - выполняем команду основного меню Сервис→ Анализ данных; - в диалоговом окне Анализ данных среди инструментов анализа выбираем Генерация случайных чисел; 6 - в диалоговом окне Генерация случайных чисел заполняем параметры генерируемой последовательности данных из индивидуального задания. Пример для случайной величины Х (Н: среднее=0, ст. отклонение=1) Параметры окна: Число переменных – число переменных (в нашем случае число столбцов данных), с одинаковым распределением и с одинаковыми параметрами этого распределения. Если переменные имеют разное распределение или разные параметры, генерация проводится для каждой переменной отдельно, при этом в поле ввода указывается значение 1. Число случайных чисел – объем выборки данных (n) Распределение – в раскрывающемся списке выбирается тип распределения, в зависимости от теоретического распределения меняются и параметры диалогового окна (у разных распределений разные параметры). Параметры (в зависимости от распределения) нормальное, параметры – среднее и стандартное отклонение; равномерное, параметры – начальное и конечное значение, между которыми находятся случайные числа; Пуассона, параметр  - интенсивность потока заявок. Случайное рассеивание (необязательный параметр) – вводится стартовое число для генерации определенной последовательности случайных чисел. Впоследствии это число можно снова использовать для получения той же самой последовательности чисел. Параметры вывода – три положения переключателя: Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона – с2. Размер выходного диапазона будет определен автоматически. И на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные. Новый рабочий лист открывается новый лист, на котором начиная с ячейки А1 размещаются результаты. Если необходимо задать имя нового рабочего листа, введите его в соответствующее поле. 7 Новая рабочая книга открывается новая рабочая книга и на первом листе , начиная с ячейки А1 размещаются результаты. Если необходимо задать имя новой рабочей книги, введите его в соответствующее поле. Диапазон данных для Х – с2:с81 3).Значения случайной ошибки EPS генерируем по указанному закону (аналогично); Число переменных - 1 Число случайных чисел - 80 Распределение - равномерное Параметры Начальное значение -1 Конечное значение -2 Случайное рассеивание Параметры вывода Выходной интервал – d2 Диапазон данных для EPS – d2:d81 4). Значения переменной Y вычисляем по формуле Y=A*X+B+ EPS: в ячейку e2: $a$2*c2+$b$2+d2 8

СТАТИСТИКА

#Лекция

Статистический анализ данных. Регрессионный анализ

Тебе могут подойти лекции

Применение корреляционного и регрессионного анализа для анализа статистических данных

Статистические и эмпирические методы компьютерных наук

Эконометрика.Эконометрические модели.

Статистическая совокупность наблюдений. Сбор и формирование

Множественная линейная регрессия

Статистические методы изучения стохастических связей во внешней торговле

Парная линейная регрессия

Эконометрика

Эконометрика

Парная регрессия

Статистический анализ данных. Регрессионный анализ

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ