Справочник от Автор24
Поделись лекцией за скидку на Автор24

Элементы теория корреляции. Задачи теории корреляции. Линейная регрессия, ее уравнение. Коэффициент корреляции, его свойства.

  • 👀 1808 просмотров
  • 📌 1793 загрузки
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Элементы теория корреляции. Задачи теории корреляции. Линейная регрессия, ее уравнение. Коэффициент корреляции, его свойства.» docx
Тема: Элементы теория корреляции. Задачи теории корреляции. Линейная регрессия, ее уравнение. Коэффициент корреляции, его свойства. Краткая теоретическая справка Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других случайных величин. Остановимся на зависимости Y от одной случайной величины X. Две случайные величины могут быть связаны либо функциональной зависимостью, либо статистической, либо быть независимыми. Строгая функциональная зависимость реализуется редко, так как обе величины, или одна из них подвержены действию случайных факторов. В таких случаях возникает статистическая зависимость. Статистической называют зависимость, при которой изменение одной из величин влечёт изменение распределения другой. Если при изменении одной из величин, изменяется среднее значение другой, то такая статистическая зависимость называется корреляционной. Условным средним называют среднее арифметическое значений Y, соответствующих значению . Корреляционной зависимостью Y(X) называют функциональную зависимость условной средней от x: (1) Уравнение (1) называют уравнением регрессии Y на X. Функцию называют регрессией Y на X, а её график – линией регрессии Y на X. Условным средним называют среднее арифметическое значений X, соответствующих значению . Корреляционной зависимостью X(Y) называют функциональную зависимость условной средней от y: Уравнение (2) называют уравнением регрессии X на Y. Функцию называют регрессией X на Y, а её график – линией регрессии X на Y. Теория корреляции рассматривает две задачи: 1) установление формы корреляционной связи, то есть вид функции регрессии; 2) оценивание тесноты корреляционных связей. Регрессия бывает линейной и нелинейной. Если регрессия линейная, то её графиком является прямая линия. Если регрессия линейная, то регрессия так же будет линейной. Тесноту корреляционной зависимости оценивают по величине рассеивания значений признака вокруг условного среднего этого признака. Большое рассеяние свидетельствует о слабой зависимости, либо об её отсутствии между рассматриваемыми признаками. Малое рассеивание указывает на наличие достаточно сильной зависимости, вплоть до функциональной. Пусть изучается система количественных признаков (X, Y ). В результате n независимых опытов получены n пар чисел . Найдем по данным наблюдений выборочное уравнение прямой линии среднеквадратичной регрессии. Для определенности будем искать уравнение регрессии Y на X. Поскольку различные значения x признака X и соответствующие им значения y признака Y наблюдались по одному разу, то группировать данные нет необходимости. Также нет надобности использовать понятие условной средней, поэтому искомое уравнение можно записать так: . Угловой коэффициент прямой линии регрессии Y на X называется выборочным коэффициентом регрессии Y на X. Обозначим его как . Он является оценкой коэффициента регрессии. Таким образом, выборочное уравнение прямой линии регрессии Y на X будет иметь вид: . Подберем параметры и b так, чтобы точки , построенные по данным наблюдений, на плоскости xOy лежали как можно ближе к прямой . Назовем отклонением разность , где – вычисленная по уравнению ордината, соответствующая наблюдаемому значению , - наблюдаемая ордината, соответствующая . Подберем параметры и b так, чтобы сумма квадратов отклонений была минимальной (в этом состоит сущность метода наименьших квадратов). Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров . Для отыскания минимума приравняем нулю соответствующие частные производные: Таким образом, коэффициент регрессии Y на X имеет вид: . Аналогично находят выборочный коэффициент регрессии X на Y Обозначим . Замечаем, что . Тогда . В результате уравнение прямой линии регрессии Y на X имеет вид: . Аналогично получаем уравнение прямой линии регрессии X на Y: . Свойства выборочного коэффициента корреляции: 1) 2) Если и выборочные линии регрессии прямые, то X и Y не связаны линейной корреляционной зависимостью. 3) Если , то наблюдаемые значения признаков связаны линейной функциональной зависимостью. 4) С возрастанием линейная корреляционная зависимость становится более тесной и при переходит в функциональную. Таким образом, характеризует тесноту линейной связи между количественными признаками выборки. Чем ближе к 1, тем связь сильнее, чем ближе к 0, тем связь слабее. 5) Если , то линейная регрессия имеет положительное направление; если , то отрицательное. Замечание. Формулы для уравнений прямых линий регрессии остаются справедливыми, если данные признаков сгруппированы. Выборочное корреляционное отношение. Для оценки тесноты линейной корреляционной связи между признаками выборки служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи используют выборочные корреляционные отношения. Выборочным корреляционным отношением Y к X (обозначают ) называют отношение межгруппового среднеквадратического отклонения к общему среднеквадратическому отклонению признака Y: , где – межгрупповое среднеквадратическое отклонение - общее среднеквадратическое отклонение признака Y Аналогично определяется выборочное корреляционное отношение X к Y: - межгрупповое отклонение среднеквадратическое; - общее среднеквадратическое отклонение Свойства выборочного корреляционного отношения: 1) 2) Если , то признак Y с признаком X корреляционной зависимостью не связаны. 3) Если , то признак Y с признаком X связан функциональной зависимостью. 4) 5) Если , то имеет место точная линейная корреляционная зависимость. С учётом вышесказанного можно сделать вывод, что корреляционное отношение служит мерой тесноты связей любой, в том числе и линейной формы. Однако, корреляционное отношение не позволяет судить насколько близко расположены точки, найденные по данным наблюдений к кривой определённого вида, то есть корреляционное отношение не указывает на форму связи между признаками. По отношению к выборочному коэффициенту корреляции, который указывает и на форму, и на меру тесноты линейной связи. Проверка гипотезы о значимости выборочного коэффициента корреляции. Пусть имеется выборка объема n из нормально распределенной двумерной генеральной совокупности (Х,Y), и по ней найден выборочный коэффициент корреляции . Требуется при заданном уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции: при конкурирующей гипотезе . Критерием является случайная величина , имеющая при справедливости нулевой гипотезы распределение Стьюдента с степенями свободы. Критическая область при заданном виде конкурирующей гипотезы является двусторонней и задается неравенством , где находится по таблице критических точек распределения Стьюдента. Практика Экономист, изучая зависимость производительности труда Y (т/ч) от уровня механизации работ X (%), обследовал 10 однотипных предприятий и получил следующие данные (табл.). 53 31 77 60 37 69 47 54 66 40 37 25 49 40 29 45 33 38 42 30 Полагая, что между признаками X и Y имеет место линейная корреляционная связь, определите выборочное уравнение линейной регрессии и выборочный коэффициент линейной корреляции. Постройте диаграмму рассеяния и линию регрессии. Сделайте вывод о направлении и тесноте связи между X и Y. Значим ли выборочный коэффициент корреляции при уровне значимости α=0,05? Решение Построим диаграмму рассеяния. Для этого на плоскости xOy отметим точки с координатами (xi ; yi). По диаграмме рассеяния видно, что точки (xi ; yi) группируются около некоторой прямой. Поэтому выборочное уравнение линейной регрессии будем искать в виде y = a∙x+b. Параметры a и b найдем методом наименьших квадратов. Составим систему нормальных уравнений: Вспомогательные вычисления проведем в таблице 8: Таблица 8 Итак, система нормальных уравнений имеет вид: . Решим её методом Крамера. Определитель системы . . . , . Выборочное уравнение линейной регрессии имеет вид y=0,506819∙x+9,73586. Чтобы построить линию регрессии найдем координаты двух точек, принадлежащих прямой y=0,506819∙x+9,73586. При x=40 y=0,506819∙40+9,73586≈30. При x=60 y=0,506819∙60+9,73586≈40,1. Линия регрессии – прямая, проходящая через точки (35; 27,5) и (75;47,7). Выборочный коэффициент линейной корреляции найдем по формуле , где – наблюдавшиеся значения признаков X и Y; – объём выборки; – выборочные средние; – выборочные среднеквадратические отклонения. . . . . . Так как выборочный коэффициент линейной корреляции , то корреляция положительная, т. е. с возрастанием x возрастает и y. Так как очень близко к единице, то связь между признаками x и y тесная. Выясним значимость выборочного коэффициента корреляции. Для этого найдем наблюдаемое значение критерия . Найдем , используя таблицу «критические точки распределения Стьюдента» (приложение 4). Имеем . Так как , действительно, , то выборочный коэффициент корреляции значим. Ответ: уравнение регрессии y=0,506819∙x+9,73586; связь между признаками x и y тесная, положительная. выборочный коэффициент линейной корреляции значим Задание10: Для выявления корреляционной зависимости между массой Y(в г) растения данного вида и его высотой X (см) было проведено 25 опытов. Их результаты приведены в таблице. а) Составить выборочное уравнение прямой линии регрессии Y на X. Обозначить условные средние и корреляционную прямую на координатной плоскости. б) Найти выборочный коэффициент корреляции. в) При уровне значимости 0,05 проверить гипотезу о значимости выборочного коэффициента корреляции. Y/X 20 30 40 50 60 nу 50 2 2 60 2 1 3 70 1 1 2 80 2 2 90 1 2 3 100 2 2 110 1 1 2 120 3 3 130 1 1 140 1 1 150 2 2 160 »Х 2 2 nx 5 5 5 5 5 25 Решение: а) Найдем условные средние значения массы при данной высоте: Чтобы найти выборочное уравнение регрессии найдем следующие средние значения и сред­ние квадратические отклонения: 5*20*58+5*30*76+540*98+5*50*120+5*60*152)/25=4496; По полученным данным найдем коэффициенты линейной регрессии Yна X: Итак, искомое выборочное уравнение регрессии имеет вид : Чтобы построить график прямолиней­ной регрессии найдём две точки лежащие на этой прямой: . Отмечаем условные средние (+) и эту прямую на ко­ординатной плоско­сти. Как видно из чертежа прямая про­ходит достаточно близко от условных средних, причём ус­ловные средние нахо­дятся по обе стороны от прямой, значит расчёты выполнены достаточно точно. б) Найдем выборочный коэффициент корреляции Так как выборочный коэффициент корреляции близок к 1, то связь между высотой и массой данного растения достаточно тесная, близкая к функциональной линейной. в) Найдем наблюдаемое значение критерия По приложению 5 при заданном уровне значимости p=0,05 и f=n-2=25-2=23 степенях свобо­ды находим соответствующее критическое значение tкрит(p,f)=tкрит(0,05;23)=2,07. Т.к. ||> tкрит то следует сделать вывод о значимости выборочного коэффициента корреляции (т.е. истинный коэффициент линейной корреляции существенно отличается от нуля). Ответ: а) ; б) ; в) коэффициент корреляции значим. Домашнее задание Задание . 1 вариант. Для выявления корреляционной зависимости оптической плотности Y раствора от концентрации X растворённого вещества было проведено 25 опытов. Их ре­зультаты приведены в таблице: y/x 1,5+0,1*N 1,6+0,1*N 1,7+0,1*N 1,8+0,1*N 1,9+0,1*N 0,05+0,01*N 3 0,10+0,01*N 1 0,15+0,01*N 1 2 0,20+0,01*N 2 1 0,25+0,01*N 1 1 0,30+0,01*N 2 0,35+0,01*N 1 1 0.40+0,01 *N 3 0,45+0,01 *N 1 1 0,50+0,01 *N 1 0.55+0,01*N 1 0,60+0,01*N 2 а) Составить выборочное уравнение прямой линии регрессии Y на X. Обозначить условные средние и корреляционную прямую на координатной плоскости. б) Найти выборочный коэффициент корреляции. в) При уровне значимости 0,05 проверить гипотезу о значимости выборочного коэффициента корреляции. 2 вариант. Для выявления корреляционной зависимости между весом Г (в кг) девочек опре­делённого возрастной группы и их ростом X (см) было проведено 25 обследований. Резуль­таты измерений приведены в таблице. а) Составить выборочное уравнение прямой линии регрессии Y на X. Обозначить условные средние и корреляционную прямую на координатной плоскости. б) Найти выборочный коэффициент корреляции. в) При уровне значимости 0,05 проверить гипотезу о значимости выборочного коэффициента корреляции. y/x II9+N I24+N I29+N I34+N 139+N 20+N 2 2I+N 2 2 22+N 1 1 23+N 1 24+N 1 1 . 25+N 1 1 26+N 3 1 27+N 3 28+N 1 29+N . 2 30+N 2
«Элементы теория корреляции. Задачи теории корреляции. Линейная регрессия, ее уравнение. Коэффициент корреляции, его свойства.» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ

Тебе могут подойти лекции

Смотреть все 938 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot