Корреляционный анализ.
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция: Корреляционный анализ
Вопросы:
1. Корреляционный анализ и его задачи. Корреляционное поле и таблица.
2. Регрессионный анализ. Оценка коэффициентов регрессии по МНК.
3. Оценка тесноты корреляционной связи.
4. Построение прямых линий регрессий.
1. Корреляционный анализ и его задачи. Корреляционное поле и таблица
Во время статистических наблюдений для каждого объекта в ряде случаев измеряют значение нескольких признаков. Таким образом, получается многомерная выборка. Такая выборка позволяет установить связь между признаками.
Связь может быть функциональной, если каждому значению величины соответствует определенное значение другой.
Связь может быть стохастической или статистической, если изменение одной величины вызывает изменение распределения другой.
Зависимость между двумя случайными величинами Х и Y или влияние одной случайной величины на другую характеризуется условным распределением одной из них при фиксированных значениях другой.
Если среднее значение одной случайной величины функционально зависит от значений другой случайной величины, то такая зависимость называется корреляционной:
; .
В математической статистике разработаны методы оценки коэффициентов, характеризующих корреляцию между случайными величинами или признаками.
Совокупность таких методов называется корреляционным анализом. Корреляционный анализ статистических данных заключает в себе следующие основные практические задачи:
1. Построение корреляционных поля и таблицы.
2. Вычисление выборочных корреляционных отношений или коэффициентов корреляции.
3. Регрессионный анализ – установление конкретного вида зависимости между случайными величинами.
4. Проверка тесноты (силы) корреляционной связи.
5. Проверка статистической гипотезы о значимости корреляционной связи.
Рассмотрим некоторые задачи корреляционного анализа.
Корреляционное поле: если данные статистических наблюдений нанести на координатную плоскость, получим корреляционное поле. По характеру расположения точек поля можно составить предварительное мнение о форме зависимости.
Достоинство: наглядность представления данных.
Недостаток: отсутствие количественной информации.
Корреляционная таблица: для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке этой таблицы приводятся числа - количество результатов, которые пара встречается в выборке. Корреляционная таблица может быть составлена по интервалам значений признака.
Достоинство: полнота сведений о выборке.
Недостаток: отсутствие наглядности.
2. Регрессионный анализ. Оценка коэффициентов регрессии по МНК
Корреляционная зависимость , называется регрессией соответственно Y по X и X по Y.
Функции y(х) и х(y) называются функциями регрессии, а их графики – линиями регрессии или кривыми регрессии.
В качестве функций регрессии могут быть выбраны различные функции: линейные, параболические, показательные и т.д.
Функции регрессии должны обладать одним отличительным свойством.
Функция регрессии является наилучшим приближением величины Y или Х. Термин «наилучшее приближение» здесь понимается в смысле метода наименьших квадратов.
Величина y(х) (или х(y)) называется наилучшим приближением величин в смысле метода наименьших квадратов, если (или ) принимает наименьшее возможное значение среди всех действительных функций.
Наиболее важным является случай линейной регрессии: , .
Точная линейная регрессия имеет место, когда двумерное распределение величин Х и Y является нормальным. В условиях статистических исследований, когда для точного определения регрессии нет достаточных сведений о форме совместного распределения, возникает задача приближенного нахождения регрессии.
Функции регрессии y(х) и х(y) называются среднеквадратическими регрессиями.
Оценка коэффициентов регрессии по МНК
Необходимо найти коэффициенты прямой линии регрессии таким образом, чтобы величина .
.
Обозначим . Чтобы в точке (а,b) функция принимала min значение, необходимо и достаточно:
1. и ;
2. и .
Из первого условия определим а и b.
.
Решим систему, используя формулы Крамера.
. .
;
- выборочный коэффициент корреляции.
.
Аналогично, для .
Коэффициент а называют выборочным коэффициентом регрессии (и а1).
3. Регрессионный анализ – установление конкретного вида зависимости между случайными величинами
Очевидно, что чем меньше или , тем меньше отклоняются значения Y от регрессии y(x) (X от х(y)). Чему равно минимальное отклонение?
Величины , характеризуют отклонения Y от y(x) и X от x(y).
Если вместо а и b (а1 и b1) подставить их значения, определенные по МНК, то получим: . Так как и ; , , то .
1. Пусть и , и , а линии регрессии соответственно примут вид , .
Таким образом, Х и Y независимы и не связаны линейной, корреляционной зависимостью (не коррелированны).
2. Пусть и , то есть отклонение каждого значения Y от прямой y(x) (или Х от х(y)) равно 0, значит значения признака в выборке связаны линейной зависимостью.
Таким образом, Х и Y связаны линейной функциональной зависимостью.
3. Пусть возрастает от 0 до 1. Заметим, что при этом и будут убывать, то есть рассеяние наблюдаемых значений вокруг линии регрессии будет уменьшаться.
Таким образом, при увеличении линейная корреляционная зависимость становится более тесной и при переходит в функциональную.
Коэффициент корреляции служит мерой тесноты линейной корреляционной связи: чем ближе к 1 , тем связь сильнее; чем ближе к 0 - тем слабее.
Если между Х и Y существует нелинейная зависимость, то использование как меры зависимости случайных величин приводит часто к ошибочным выводам, так как может равняться 0 даже при функциональной зависимости.
Для оценки тесноты нелинейной корреляционной связи вводят новую характеристику – корреляционное отношение:
.
Рассмотрим и . . Так как , то
.
1. Если
().
Таким образом, Х и Y не связаны корреляционной зависимостью.
2. Пусть () признаки Y и Х связаны функциональной зависимостью. При этом, если - Х и Y связаны точной линейной зависимостью, если - Х и Y связаны нелинейной функциональной зависимостью.
3. Если () между Х и Y нет функциональной зависимости, но существует корреляционная, и она тем ближе к функциональной, тем меньше отличается от 1 ().
Корреляционное отношение служит мерой тесноты любой корреляционной связи: чем ближе () к 1, тем связь сильнее, чем ближе () к 0, тем связь слабее.
4. Построение прямых линий регрессий
Задача 1. По данным n независимых наблюдений построить прямые линии регрессии:
Решение.
1. Для удобства расчетов составим расчетную таблицу.
х
y
х2
y2
хy
2
3,5
4
12,2555
7
4
6,0
16
36
24
6
7,0
36
49
42
8
6,0
64
36
48
10
7,5
100
56,25
75
∑
30
30
220
189,5
196
2. ; ;
3. ; ;
4. ; ;
5. ;
6. .
;
7. .
Если нужно построить х(y), то
;
.
Построим графики регрессий.
; при х = 0, ; при х = 6,
; при y = 1, ; при y = 3, .
Задача 2. Данные выборки представлены в корреляционной таблице. Построить регрессию Y по Х и определить .
Для упрощения расчетов используют метод четырех полей.
y x
10
20
30
40
ny
0,4
5
-
7
14
26
0,6
-
2
6
4
12
0,8
3
19
-
-
22
nx
8
21
13
18
n=60
Решение.
1. Вводят условные варианты , , где с1 и с2 – ложные нули, соответствующие вариантам с наибольшей частотой.
с1=20, с2=0,8. h1 и h2 – шаг по х и y; h1 = 10; h2 = 0,2.
2. Составим новую таблицу. По таблице определим:
v u x
- 1
1
2
nv
- 2
5
-
7
14
26
- 1
-
2
6
4
12
3
19
-
-
22
nu
8
21
13
18
60
;
.
;
;
.
3. .
4. Коэффициент корреляции:
v u x
- 1
1
2
nv
U
vU
- 2
-105-5
-
-1477
-281428
26
30
-60
- 1
-
-220
-666
-448
12
14
-14
03-3
0190
-
-
22
-3
nu
8
21
13
18
60
V
-10
-2
-20
-32
-74
uV
10
-20
-64
-74
Vucp
-10/8
-2/21
-20/13
-32/18
а) в верхнем правом углу: ; в нижнем левом углу: ;
б) в столбце U: сумма чисел в правых углах; в строке V: сумма чисел в левых углах;
в) в столбце vU: произведение ; в строке uV: произведение .
5. Перейдем к прежним вариантам.
; ;
; ; ; .
Окончательно имеем: , .
; ;
.
; при х = 0, y = 0,82; при х = 40, y = 0,44;
; при y = 0, х = 41,92; при y = 0,4, х = 31,31.
6. Определим корреляционное отношение. Для этого в последней таблице нужно добавить еще один столбец (если ) (или строку, если ).
(в таблице); ;
; ;
.
Проверка гипотезы о значимости коэффициента корреляции
Установление связи между двумя случайными величинами начинается с проверки гипотезы о статистической значимости коэффициента корреляции. Проверяется следующая гипотеза:
Н0: r = 0 при конкурирующей гипотезе: Н1: r ≠ 0.
Для проверки Н0 используется статистический критерий
,
имеющий распределение Стьюдента с k = n-2 степенями свободы:
- если │tнабл│< tkp.дв.(α, k), то нет оснований отвергать Н0;
- если │tнабл│≥ tkp.дв.(α, k), Н0 отвергается, т.е. случайные величины коррелированны и между ними существует линейная связь.
Проверка гипотезы о значимости коэффициента детерминации и корреляционного отношения
Проверяется следующая гипотеза:
Н0: = 0 при конкурирующей гипотезе: Н1: ≠ 0.
Для проверки Н0 используется статистический критерий
(для парной регрессии) и (в случае m факторов)
Fкр(), Fкр(),
Если F < Fкр, то Н0 нет оснований отвергать или R2 статистически не значим, не значимо и уравнение в целом. В противном случае – уравнение и R2 значимы.
Проверяется следующая гипотеза:
Н0: = 0 ( = 0) при конкурирующей гипотезе: Н1: ≠ 0.
Для проверки Н0 используется статистический критерий
Если F > Fкр, то значимо отличается от нуля. Уравнение регрессии значимо.
Задача 2 (продолжение). Проверим значимость коэффициента детерминации и корреляционного отношения.
1) ;
Т.к. F > Fкр, то Н0 отвергается или R2 статистически значим.
2) ;
Т.к. F > Fкр, то Н0 отвергается или статистически значимо.