Корреляционный и регрессионный анализ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
4 КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ
4.1 Корреляционная связь
В естественных науках часто речь идет о функциональной зависимости
𝑦 = 𝑓(𝑥), когда каждому значению одной переменной х из множества X
соответствует вполне определенное значение другой переменной у из
множества Y.
X
f
Y
Рисунок 4.1 – Функциональная зависимость 𝑦 = 𝑓(𝑥)
Однако на практике в большинстве случаев между переменными X и Y
существует такая зависимость, когда каждому значению одной переменной
соответствует множество возможных значений другой переменной:
x1 → y11, y12, y13, …, y1n;
x2 → y21, y22, y23, …, y2n;
и т. д.
xi → yi1, yi2, yi3, … yin.
Если каждому значению одной переменной соответствует определенное
распределение другой переменной, то такая зависимость называется
статистической (стохастической, вероятностной).
Возникновение статистической связи обусловлено тем, что переменная
Y подвержена влиянию различных неконтролируемых или неучтенных
факторов, кроме того, измерения сопровождаются случайными ошибками.
Условным средним 𝑦̅𝑥 называют среднее арифметическое значений Y,
соответствующих значению X = x
𝑦̅𝑥𝑖 =
Например,
пусть
∑𝑘
𝑖=1 𝑦𝑖𝑥
𝑘
.
каждому
(4.1)
значению
случайной
величины
X
соответствует несколько значений случайной величины Y. Если при x1 = 2
величина Y приняла значения y11 = 5, y12 = 6 и y13 = 10, то среднее
арифметическое этих чисел 𝑦̅2 = 7.
Число 𝑦̅2 называется условным средним (черточка обозначает среднее
арифметическое, а число 2 указывает, что рассматриваются те значения Y,
которые соответствуют x1 = 2).
Статистическая зависимость, при которой каждому значению одной
переменной x соответствует определенное среднее значение другой
переменной 𝑦̅𝑥 , называется корреляционной 𝑦̅𝑥 = 𝑓(𝑥).
X
f
𝑌̅
Рисунок 4.2 – Корреляционная зависимость 𝑦̅𝑥 = 𝑓(𝑥)
Например, пусть Y – результаты в беге на 100м измеряются в секундах.
X – число часов тренировки в неделю. Разные спортсмены при равных часах
тренировки имеют разные результаты в беге, т.е. Y не является функцией от X
(𝑦 ≠ 𝑓(𝑥)). Это объясняется влиянием других случайных факторов. Однако
известно, что средний результат в беге является функцией от количества
тренировочных часов в неделю.
Другие примеры корреляционной зависимости в спорте: зависимость
между ростом и весом; между результатами в прыжке и в беге.
Уравнение 𝑦̅𝑥 = 𝑓(𝑥) называется уравнением регрессии Y на X.
График – линией регрессии Y на X.
Аналогично определяется корреляционная зависимость X от Y.
Уравнение 𝑥̅𝑦 = 𝑔(𝑦) называется уравнением регрессии X на Y.
Основные задачи корреляционного анализа:
1. Определение формы связи (линейная, нелинейная).
2. Определение
направления
связи
(положительная
или
отрицательная).
3. Определение степени или тесноты взаимосвязи (слабая, средняя,
сильная).
Объем выборок должен быть одинаковым: n1= n2=n.
1. Для определения формы связи результаты измерений (пары
случайных чисел X и Y) изображают графически в виде точек плоскости.
Множество этих точек образуют корреляционное поле. По корреляционному
полю делают предварительный вывод о форме, направлении и степени связи.
Возможные формы связи:
– линейная зависимость, если множество точек заключено в наклонном
эллипсе (рисунок 4.3);
y
x
Рисунок 4.3 – Линейная зависимость
– отсутствие взаимосвязи, если множество точек образуют круг или
эллипс, параллельный или оси Оx или оси Оy (рисунок 4.4);
y
x
Рисунок 4.4 – Отсутствие взаимосвязи
– нелинейная зависимость, множество точек образуют другую фигуру,
например, «банан» (рисунок 4.5).
y
x
Рисунок 4.5 – Нелинейная зависимость
2. Направления связи:
– положительная зависимость (прямо пропорциональная), т. е. с
увеличением одного показателя, увеличивается другой (рисунок 4.6);
y
x
Рисунок 4.6 – Положительная зависимость
– отрицательная зависимость (обратно пропорциональная), т. е. с
увеличением одного показателя, уменьшается другой (рисунок 4.7).
y
x
Рисунок 4.7 – Отрицательная зависимость
3. Сила взаимосвязи выражается в степени концентрации точек вокруг
линии регрессии, т.е. от ширины эллипса – чем уже, тем сильнее связь
(рисунок 4.8).
а)
б)
в)
Рисунок 4.8 – Сила взаимосвязи: а – сильная; б – средняя; в – слабая
4.2 Коэффициент корреляции
Для характеристики характера взаимосвязи между случайными
величинами используют коэффициент корреляции. Если рассматриваемые
признаки X и Y количественные, а форма зависимости линейная, то вычисляют
коэффициент корреляции Пирсона
𝑟=
∑𝑛
̅)
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
(4.2)
(𝑛−1)∙𝑆𝑥 ∙𝑆𝑦
где 𝑥̅ , 𝑦̅ – средние арифметические выборок X и Y соответственно;
𝑠𝑥 , 𝑠𝑦 – исправленные среднеквадратические отклонения X и Y соответственно;
n – объем выборок или количество пар значений X и Y.
Свойства коэффициента корреляции:
1) Коэффициент корреляции принимает значения от – 1 до + 1
– 1 ≤ r ≤ 1.
2) Если r > 0, то зависимость положительная, если
(4.3)
r < 0, то
отрицательная.
3) Различают степень корреляционной связи в зависимости от значения
коэффициента корреляции:
– если |r| 0,2 , то связи нет;
– если 0,2 ≤ |r| 0,5 , то связь слабая;
– если 0,5 ≤ |r| 0,7 , то связь средняя;
– если 0,7 ≤ |r| 1 , то связь сильная.
– если |r| = 1 , то связь функциональная.
Получаемый при решении задач коэффициент корреляции r является
выборочным. Даже в том случае, когда он оказывается отличным от нуля, еще
нельзя заключить, что и коэффициент генеральной совокупности rг, к которой
относится эта выборка, также отличен от нуля. Поэтому необходимо
проверять гипотезу о равенстве нулю коэффициента корреляции генеральной
совокупности, Н0: rг=0 при альтернативной гипотезе Н1: rг≠0.
Для этого используется критерий Стьюдента. Наблюдаемое значение
критерия Стьюдента
|Тнабл | =
|𝑟|√𝑛−2
√1−𝑟 2
.
(4.4)
По таблице А4 критических значений распределения Стьюдента
приложения А по заданному уровню значимости и числу степеней свободы
k = n – 2 находим критическое значение критерия Стьюдента Ткр.(, k).
Критическая область двусторонняя (рисунок 3.2).
Если Тнабл. Ткр., то Н0 принимаем, т.е. rг = 0, переменные X и Y не
коррелируют, т. е. независимы.
Если Тнабл. Ткр., то Н0 отвергаем, принимаем Н1, т. е. rг ≠ 0, выборочный
коэффициент корреляции значимо отличен от нуля.
Следует отметить, что отличительной особенностью статистических
связей является их приближенный, неточный характер, т. к. признак (прыжок
в длину), с которым связывается явление (тест в беге на 30 м с ходу) находится
под влиянием многочисленных факторов и причин.
В этих ситуациях иногда вычисляют коэффициент детерминации или
определенности (d). Коэффициент детерминации получают путем возведения
коэффициента корреляции (r) в квадрат: d = (r)2∙100%.
В нашем примере d= (−0,95)2∙100% = 0,9∙100% = 90%.
Это значит, что изменение результатов в прыжках в длину y
спортсменов на 90% обусловлены изменением результатов в беге на 30 м с
хода и на 10% действиями других, пока не изученных нами факторов.
Как видно, результаты теста на 30 м с хода вносят существенный вклад
в результат спортсменов, специализирующихся в прыжках в длину.
Корреляционный анализ позволяет ответить только на вопросы: есть
взаимосвязь или нет, информативен тест или нет. Но не отвечает на вопросы,
какой результат в тесте может показать прыгун, чтобы прыгнуть на 8,00 м, или
какой результат может показать на соревнованиях прыгун, если он пробежит
30 м с хода за 2,65 с. Ответить на этот вопрос можно с помощью метода
регрессионного анализа.
4.3 Регрессионный анализ
Корреляционный анализ показывает направление и тесноту связи между
двумя случайными величинами, но он не дает возможности определить, как
количественно меняется одна величина по мере изменения другой. Для этого
служат уравнения линий регрессии Y на X и Х на Y.
Уравнение линии регрессии Y на X
𝑦̅𝑥 = 𝑟
𝑠𝑦
𝑠𝑥
𝑥 + (𝑦̅ − 𝑟
𝑠𝑦
𝑠𝑥
𝑥̅ ).
(4.6)
Это уравнение может быть использовано для прогноза результата
спортсмена на соревновании, исходя из полученного результата в тесте.
Уравнение (4.6) описывает прямую линию. Как известно, прямую линию
описывает линейное уравнение с угловым коэффициентом (рисунок 4.10)
𝑦̅𝑥 = kx + b,
(4.7)
где k – угловой коэффициент; k = tg; – угол наклона прямой; b – ордината
точки пересечения прямой с осью Y.
y
b
x
Рисунок 4.10 – Прямая линия
Сравнивая уравнения (4.6) и (4.7) получаем
𝑠𝑦
𝑘=𝑟 ;
𝑏 = (𝑦̅ − 𝑟
𝑠𝑥
𝑠𝑦
𝑠𝑥
𝑥̅ ).
(4.8)
Обратное уравнение линии регрессии X на Y
𝑥̅𝑦 = 𝑟
𝑠𝑥
𝑠𝑦
𝑦 + (𝑥̅ − 𝑟
𝑠𝑥
𝑠𝑦
𝑦̅).
(4.10)
Если это уравнение представить в виде
𝑥̅𝑦 = 𝑘1 у + 𝑏1 ,
то
𝑠
𝑘1 = 𝑟 𝑥 ;
𝑠𝑦
𝑏1 = (𝑥̅ − 𝑟
𝑠𝑥
𝑠𝑦
𝑦̅).
(4.11)
Это уравнение может быть использовано для прогноза результата в
тесте, исходя из результатов соревнования.
Эти прямые (4.6) и (4.10) имеют разные углы наклона, но пересекаются
в точке с координатами средних значений ( 𝑥̅ ; 𝑦̅).
Таблица –Функции для лабораторной работы № 2
Параметры
Функции
Коэффициент корреляции R
КОРРЕЛ (X; Y)
Объем выборки n
СЧЁТ(Х)
Наблюдаемое значение критерия
Стьюдента Тнабл.
ABS(R)*КОРЕНЬ(n – 2) /
КОРЕНЬ(1- R^2)
Число степеней свободы k
n–2
Критическое значение критерия
Стьюдента Ткр.(p; k)
СТЬЮДЕНТ.ОБР.2Х (p; k)
Коэффициент k1
НАКЛОН (Y; X)
Коэффициент k2
НАКЛОН (X; Y)
Коэффициент b1
ОТРЕЗОК (Y; X)
Коэффициент b2
ОТРЕЗОК (X; Y)
Вычисляемое значение переменной
𝑦̅𝑥 по известной переменной х
Вычисляемое значение переменной
𝑥̅𝑦 по известной переменной у
ПРЕДСКАЗ (x; Y; X)
ПРЕДСКАЗ (y; X; Y)