Справочник от Автор24
Поделись лекцией за скидку на Автор24

Корреляционный и регрессионный анализ

  • 👀 416 просмотров
  • 📌 333 загрузки
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Корреляционный и регрессионный анализ» pdf
4 КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ 4.1 Корреляционная связь В естественных науках часто речь идет о функциональной зависимости 𝑦 = 𝑓(𝑥), когда каждому значению одной переменной х из множества X соответствует вполне определенное значение другой переменной у из множества Y. X f Y Рисунок 4.1 – Функциональная зависимость 𝑦 = 𝑓(𝑥) Однако на практике в большинстве случаев между переменными X и Y существует такая зависимость, когда каждому значению одной переменной соответствует множество возможных значений другой переменной: x1 → y11, y12, y13, …, y1n; x2 → y21, y22, y23, …, y2n; и т. д. xi → yi1, yi2, yi3, … yin. Если каждому значению одной переменной соответствует определенное распределение другой переменной, то такая зависимость называется статистической (стохастической, вероятностной). Возникновение статистической связи обусловлено тем, что переменная Y подвержена влиянию различных неконтролируемых или неучтенных факторов, кроме того, измерения сопровождаются случайными ошибками. Условным средним 𝑦̅𝑥 называют среднее арифметическое значений Y, соответствующих значению X = x 𝑦̅𝑥𝑖 = Например, пусть ∑𝑘 𝑖=1 𝑦𝑖𝑥 𝑘 . каждому (4.1) значению случайной величины X соответствует несколько значений случайной величины Y. Если при x1 = 2 величина Y приняла значения y11 = 5, y12 = 6 и y13 = 10, то среднее арифметическое этих чисел 𝑦̅2 = 7. Число 𝑦̅2 называется условным средним (черточка обозначает среднее арифметическое, а число 2 указывает, что рассматриваются те значения Y, которые соответствуют x1 = 2). Статистическая зависимость, при которой каждому значению одной переменной x соответствует определенное среднее значение другой переменной 𝑦̅𝑥 , называется корреляционной 𝑦̅𝑥 = 𝑓(𝑥). X f 𝑌̅ Рисунок 4.2 – Корреляционная зависимость 𝑦̅𝑥 = 𝑓(𝑥) Например, пусть Y – результаты в беге на 100м измеряются в секундах. X – число часов тренировки в неделю. Разные спортсмены при равных часах тренировки имеют разные результаты в беге, т.е. Y не является функцией от X (𝑦 ≠ 𝑓(𝑥)). Это объясняется влиянием других случайных факторов. Однако известно, что средний результат в беге является функцией от количества тренировочных часов в неделю. Другие примеры корреляционной зависимости в спорте: зависимость между ростом и весом; между результатами в прыжке и в беге. Уравнение 𝑦̅𝑥 = 𝑓(𝑥) называется уравнением регрессии Y на X. График – линией регрессии Y на X. Аналогично определяется корреляционная зависимость X от Y. Уравнение 𝑥̅𝑦 = 𝑔(𝑦) называется уравнением регрессии X на Y. Основные задачи корреляционного анализа: 1. Определение формы связи (линейная, нелинейная). 2. Определение направления связи (положительная или отрицательная). 3. Определение степени или тесноты взаимосвязи (слабая, средняя, сильная). Объем выборок должен быть одинаковым: n1= n2=n. 1. Для определения формы связи результаты измерений (пары случайных чисел X и Y) изображают графически в виде точек плоскости. Множество этих точек образуют корреляционное поле. По корреляционному полю делают предварительный вывод о форме, направлении и степени связи. Возможные формы связи: – линейная зависимость, если множество точек заключено в наклонном эллипсе (рисунок 4.3); y x Рисунок 4.3 – Линейная зависимость – отсутствие взаимосвязи, если множество точек образуют круг или эллипс, параллельный или оси Оx или оси Оy (рисунок 4.4); y x Рисунок 4.4 – Отсутствие взаимосвязи – нелинейная зависимость, множество точек образуют другую фигуру, например, «банан» (рисунок 4.5). y x Рисунок 4.5 – Нелинейная зависимость 2. Направления связи: – положительная зависимость (прямо пропорциональная), т. е. с увеличением одного показателя, увеличивается другой (рисунок 4.6); y x Рисунок 4.6 – Положительная зависимость – отрицательная зависимость (обратно пропорциональная), т. е. с увеличением одного показателя, уменьшается другой (рисунок 4.7). y x Рисунок 4.7 – Отрицательная зависимость 3. Сила взаимосвязи выражается в степени концентрации точек вокруг линии регрессии, т.е. от ширины эллипса – чем уже, тем сильнее связь (рисунок 4.8). а) б) в) Рисунок 4.8 – Сила взаимосвязи: а – сильная; б – средняя; в – слабая 4.2 Коэффициент корреляции Для характеристики характера взаимосвязи между случайными величинами используют коэффициент корреляции. Если рассматриваемые признаки X и Y количественные, а форма зависимости линейная, то вычисляют коэффициент корреляции Пирсона 𝑟= ∑𝑛 ̅) 𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦 (4.2) (𝑛−1)∙𝑆𝑥 ∙𝑆𝑦 где 𝑥̅ , 𝑦̅ – средние арифметические выборок X и Y соответственно; 𝑠𝑥 , 𝑠𝑦 – исправленные среднеквадратические отклонения X и Y соответственно; n – объем выборок или количество пар значений X и Y. Свойства коэффициента корреляции: 1) Коэффициент корреляции принимает значения от – 1 до + 1 – 1 ≤ r ≤ 1. 2) Если r > 0, то зависимость положительная, если (4.3) r < 0, то отрицательная. 3) Различают степень корреляционной связи в зависимости от значения коэффициента корреляции: – если |r|  0,2 , то связи нет; – если 0,2 ≤ |r|  0,5 , то связь слабая; – если 0,5 ≤ |r|  0,7 , то связь средняя; – если 0,7 ≤ |r|  1 , то связь сильная. – если |r| = 1 , то связь функциональная. Получаемый при решении задач коэффициент корреляции r является выборочным. Даже в том случае, когда он оказывается отличным от нуля, еще нельзя заключить, что и коэффициент генеральной совокупности rг, к которой относится эта выборка, также отличен от нуля. Поэтому необходимо проверять гипотезу о равенстве нулю коэффициента корреляции генеральной совокупности, Н0: rг=0 при альтернативной гипотезе Н1: rг≠0. Для этого используется критерий Стьюдента. Наблюдаемое значение критерия Стьюдента |Тнабл | = |𝑟|√𝑛−2 √1−𝑟 2 . (4.4) По таблице А4 критических значений распределения Стьюдента приложения А по заданному уровню значимости  и числу степеней свободы k = n – 2 находим критическое значение критерия Стьюдента Ткр.(, k). Критическая область двусторонняя (рисунок 3.2). Если Тнабл.  Ткр., то Н0 принимаем, т.е. rг = 0, переменные X и Y не коррелируют, т. е. независимы. Если Тнабл.  Ткр., то Н0 отвергаем, принимаем Н1, т. е. rг ≠ 0, выборочный коэффициент корреляции значимо отличен от нуля. Следует отметить, что отличительной особенностью статистических связей является их приближенный, неточный характер, т. к. признак (прыжок в длину), с которым связывается явление (тест в беге на 30 м с ходу) находится под влиянием многочисленных факторов и причин. В этих ситуациях иногда вычисляют коэффициент детерминации или определенности (d). Коэффициент детерминации получают путем возведения коэффициента корреляции (r) в квадрат: d = (r)2∙100%. В нашем примере d= (−0,95)2∙100% = 0,9∙100% = 90%. Это значит, что изменение результатов в прыжках в длину y спортсменов на 90% обусловлены изменением результатов в беге на 30 м с хода и на 10% действиями других, пока не изученных нами факторов. Как видно, результаты теста на 30 м с хода вносят существенный вклад в результат спортсменов, специализирующихся в прыжках в длину. Корреляционный анализ позволяет ответить только на вопросы: есть взаимосвязь или нет, информативен тест или нет. Но не отвечает на вопросы, какой результат в тесте может показать прыгун, чтобы прыгнуть на 8,00 м, или какой результат может показать на соревнованиях прыгун, если он пробежит 30 м с хода за 2,65 с. Ответить на этот вопрос можно с помощью метода регрессионного анализа. 4.3 Регрессионный анализ Корреляционный анализ показывает направление и тесноту связи между двумя случайными величинами, но он не дает возможности определить, как количественно меняется одна величина по мере изменения другой. Для этого служат уравнения линий регрессии Y на X и Х на Y. Уравнение линии регрессии Y на X 𝑦̅𝑥 = 𝑟 𝑠𝑦 𝑠𝑥 𝑥 + (𝑦̅ − 𝑟 𝑠𝑦 𝑠𝑥 𝑥̅ ). (4.6) Это уравнение может быть использовано для прогноза результата спортсмена на соревновании, исходя из полученного результата в тесте. Уравнение (4.6) описывает прямую линию. Как известно, прямую линию описывает линейное уравнение с угловым коэффициентом (рисунок 4.10) 𝑦̅𝑥 = kx + b, (4.7) где k – угловой коэффициент; k = tg;  – угол наклона прямой; b – ордината точки пересечения прямой с осью Y. y b  x Рисунок 4.10 – Прямая линия Сравнивая уравнения (4.6) и (4.7) получаем 𝑠𝑦 𝑘=𝑟 ; 𝑏 = (𝑦̅ − 𝑟 𝑠𝑥 𝑠𝑦 𝑠𝑥 𝑥̅ ). (4.8) Обратное уравнение линии регрессии X на Y 𝑥̅𝑦 = 𝑟 𝑠𝑥 𝑠𝑦 𝑦 + (𝑥̅ − 𝑟 𝑠𝑥 𝑠𝑦 𝑦̅). (4.10) Если это уравнение представить в виде 𝑥̅𝑦 = 𝑘1 у + 𝑏1 , то 𝑠 𝑘1 = 𝑟 𝑥 ; 𝑠𝑦 𝑏1 = (𝑥̅ − 𝑟 𝑠𝑥 𝑠𝑦 𝑦̅). (4.11) Это уравнение может быть использовано для прогноза результата в тесте, исходя из результатов соревнования. Эти прямые (4.6) и (4.10) имеют разные углы наклона, но пересекаются в точке с координатами средних значений ( 𝑥̅ ; 𝑦̅). Таблица –Функции для лабораторной работы № 2 Параметры Функции Коэффициент корреляции R КОРРЕЛ (X; Y) Объем выборки n СЧЁТ(Х) Наблюдаемое значение критерия Стьюдента Тнабл. ABS(R)*КОРЕНЬ(n – 2) / КОРЕНЬ(1- R^2) Число степеней свободы k n–2 Критическое значение критерия Стьюдента Ткр.(p; k) СТЬЮДЕНТ.ОБР.2Х (p; k) Коэффициент k1 НАКЛОН (Y; X) Коэффициент k2 НАКЛОН (X; Y) Коэффициент b1 ОТРЕЗОК (Y; X) Коэффициент b2 ОТРЕЗОК (X; Y) Вычисляемое значение переменной 𝑦̅𝑥 по известной переменной х Вычисляемое значение переменной 𝑥̅𝑦 по известной переменной у ПРЕДСКАЗ (x; Y; X) ПРЕДСКАЗ (y; X; Y)
«Корреляционный и регрессионный анализ» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ

Тебе могут подойти лекции

Смотреть все 938 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot