Справочник от Автор24
Поделись лекцией за скидку на Автор24

Основы теории корреляции. Коэффициент корреляции

  • 👀 469 просмотров
  • 📌 434 загрузки
Выбери формат для чтения
Статья: Основы теории корреляции. Коэффициент корреляции
Найди решение своей задачи среди 1 000 000 ответов
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Основы теории корреляции. Коэффициент корреляции» pdf
Основы теории корреляции Взаимосвязь двух случайных величин проявляется в совместной вариации: при изменении одного показателя имеет место тенденция изменения другого. Такая взаимосвязь называется корреляцией, а раздел статистики, который занимается взаимосвязями – корреляционный анализ. В частности, если изменение среднего значения одного показателя влечёт за собой изменение среднего значения второго показателя – это регрессионный анализ. Корреляция характеризуется направлением, формой и теснотой. Далее будет рассматриваться только линейная корреляция. На диаграмме рассеяния (поле корреляции) изображена взаимосвязь двух переменных X и Y. Пунктиром показаны средние. При положительном отклонении Х=x от своей средней, У=y также в большинстве случаев отклоняется в положительную сторону от своей средней. Для Х=x меньше среднего, У=y, как правило, тоже ниже среднего. Это прямая или положительная корреляция. Бывает обратная или отрицательная корреляция, когда положительное отклонение от средней X ассоциируется с отрицательным отклонением от средней Y или наоборот. Линейность корреляции проявляется в том, что точки расположены вдоль прямой линии. Положительный или отрицательный наклон такой линии определяется направлением взаимосвязи. Крайне важная характеристика корреляции – теснота. Чем теснее взаимосвязь, тем ближе точки поля корреляции к прямой, описывающей связь. Квадрат отклонения от средней измеряет вариацию показателя как бы относительно самого себя. Если второй множитель в числителе заменить на отклонение от средней второго показателя, то получится совместная вариация двух переменных, которая называется ковариацией  ( xi  x )( yi  y ) . cov xy  n 1 Чем больше пар имеют одинаковый знак отклонения от средней, тем больше сумма в числителе (произведение двух отрицательных чисел также дает положительное число). Большая положительная ковариация говорит о прямой взаимосвязи между переменными. Обратная взаимосвязь дает отрицательную ковариацию. Если количество совпадающих по знаку отклонений примерно равно количеству не совпадающих, то ковариация стремится к нулю, что говорит об отсутствии линейной взаимосвязи. Таким образом, чем больше по модулю ковариация, тем теснее линейная взаимосвязь. Однако значение ковариации зависит от масштаба данных, поэтому невозможно сравнивать корреляцию для разных переменных. Можно определить только направление по знаку. Для получения стандартизованной величины тесноты взаимосвязи нужно избавиться от единиц измерения путем деления ковариации на произведение стандартных отклонений обеих переменных. В итоге получится формула коэффициента корреляции Пирсона cov xy  ( xi  x )( yi  y ) rxy   2 2 sx  s y  (x  x)  ( y  y) i i Показатель имеет полное название линейный коэффициент корреляции Пирсона. 2 Коэффициент корреляции показывает тесноту линейной взаимосвязи и изменяется в диапазоне от –1 до 1. rxy  –1 означает полную (функциональную) линейную обратную взаимосвязь; rxy  1 – полную (функциональную) линейную положительную взаимосвязь; rxy  0 – отсутствие линейной корреляции (но не обязательно нелинейной взаимосвязи). На практике всегда получаются промежуточные значения. Для наглядности представлены несколько примеров с разными значениями коэффициента корреляции. Таким образом, ковариация и корреляция отражают тесноту линейной взаимосвязи. Последняя используется намного чаще, так как является относительным показателем и не имеет единиц измерения. Поле корреляции даёт наглядное представление, что именно измеряет коэффициент корреляции. Однако нужна более формальная интерпретация. Эту роль выполняет квадрат коэф2 фициента корреляции R 2  rxy , который называется коэффициентом детерминации и обычно применяется при оценке качества регрессионных моделей. Линейная функция является моделью взаимосвязи между X и Y и показывает ожидаемое значение Y при заданном X. Коэффициент детерминации – это соотношение дисперсии ожидаемых Y (точек на прямой линии) к общей дисперсии Y, или доля объясненной вариации Y. При коэффициенте корреляции rxy  0,9 коэффициент детерминации равен R 2  0,81 , то есть 81% рассеяния (отклонения) точек поля корреляции от среднего значения объяснены регрессией. Расчёты Выборка X 48 64 68 64 65 65 60 61 52 55 61 59 65 45 53 74 67 69 51 57 Y 84 93 93 89 90 90 87 91 84 86 89 88 89 81 85 95 90 92 84 86 X 70 61 61 59 49 65 57 68 71 64 62 47 48 66 49 76 61 48 72 60 У 91 92 89 88 83 89 86 92 92 91 88 82 83 94 82 94 89 83 96 89 X 49 55 57 69 51 44 68 82 67 55 51 69 48 56 74 65 69 60 48 66 Y 87 85 86 91 85 81 94 97 90 88 86 92 81 87 93 90 93 87 84 91 Корреляционный анализ лучше начинать с визуализации. 3 X 52 51 60 61 60 64 55 54 57 74 61 66 70 61 54 67 56 43 73 61 У 85 88 87 87 87 90 89 88 87 93 89 91 94 89 84 94 86 81 93 88 X 68 53 51 41 69 65 64 53 56 49 75 53 76 56 59 65 56 62 61 62 Y 90 89 83 79 91 92 91 85 87 84 97 85 96 85 89 91 87 88 89 88 На диаграмме видна взаимосвязь двух переменных. Рассчитаем коэффициенты и параметры. Коэффициент корреляции rxy  0,9339 показывает весьма высокую, прямую взаимосвязь между двумя показателями. Для качественной оценки тесноты корреляционной связи между Х и Y можно воспользоваться таблицей Чеддока. Таблица Чеддока 0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 Диапазон изменения rxy Характер тесноты связи слабая умеренная заметная высокая весьма высокая Коэффициент детерминации равен R 2  0,8722 , то есть 87,22% рассеяния (отклонения) точек поля корреляции от среднего значения объяснены регрессией, остальные 12,78% возникли из-за воздействия случайных факторов. При заданном уровне значимости проверяем нулевую гипотезу о равенстве нулю генерального коэффициента корреляции Н0 : rг  0 при конкурирующей гипотезе Н1 : rг  0 . В качестве критерия проверки нулевой гипотезы принимаем случайную величину rxy n  2 , T 1  rxy 2 которая имеет распределение Стьюдента с k = n – 2 степенями свободы. Находим наблюдаемое значение критерия: 0,9339  100  2 tнабл   256,06 . 1  0,93392 По условию конкурирующая гипотеза имеет вид Н1 : rг  0 , поэтому критическая область двусторонняя. По уровню значимости   0,05 и числу степеней свободы k = n – 2 = 98 находим для двусторонней критической области критическую точку: tкр  t (0,05; 98)  1,9845 . Поскольку tнабл  tкр , то нулевую гипотезу отвергаем, то есть выборочный коэффициент корреляции значимо отличается от нуля и признаки X и Y коррелированны. 4 Находим уравнение регрессии Y на X: y x  y  rxy sy sx (x  x) Получаем 3,9061 ( x  60,14) , 8,5031 Находим уравнение регрессии X по Y: yx  88,43  0,9339 yx  62,6284  0,4290x . x y  x  rxy sx ( y  y) sy Получаем 8,5031 x y  119,6448  2,0331y . ( y  88,43) , 3,6091 Строим графики уравнений регрессии на поле корреляций. x y  60,14  0,9339 Несколько важных замечаний 1. Коэффициент корреляции Пирсона чувствителен к выбросам. Одно аномальное значение может существенно исказить коэффициент. Поэтому перед проведением анализа следует проверить и при необходимости удалить выбросы. Другой вариант – перейти к ранговому коэффициенту корреляции Спирмена. Рассчитывается также, только не по исходным значениям, а по их рангам (пример показан в ролике под статьей). 2. Синоним корреляции – это взаимосвязь или совместная вариация. Поэтому наличие корреляции (r ≠ 0) еще не означает причинно-следственную связь между переменными. Вполне возможно, что совместная вариация обусловлена влиянием третьей переменной. Совместное изменение переменных без причинно-следственной связи называется ложная корреляция. 3. Отсутствие линейной корреляции ( rxy  0) не означает отсутствие взаимосвязи. Она может быть нелинейной. Частично эту проблему решает ранговая корреляция Спирмена, которая показывает совместный рост или снижение рангов, независимо от формы взаимосвязи. Формулы для расчётов в Excel 5 6
«Основы теории корреляции. Коэффициент корреляции» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

Тебе могут подойти лекции

Смотреть все 938 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot