Корреляционный анализ
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Корреляционный анализ
Корреляция характеризует наличие случайной (статистической) линейной связи между двумя случайными величинами (признаками выборки).
Коэффициент корреляции показывает тесноту этой связи, причём:
1) Если , то статистической связи между случайными величинами нет;
2) Если , то статистическая связь является прямо пропорциональной функциональной зависимостью, и может быть представлена в виде уравнения линейной функции;
3) Если , то статистическая связь является обратно пропорциональной функциональной зависимостью, т.е. с возрастанием одной величины вторая величина убывает. В данном случае связь также может быть представлена в виде уравнения линейной функции.
Корреляционный анализ — это метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.
При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом. В этом случае говорят о ложной корреляции.
Задачи корреляционного анализа:
- получение информации об одной из искомых переменных с помощью другой;
- определение тесноты связи между исследуемыми переменными;
- выявление факторов, оказывающих наибольшее влияние на результативный признак;
- выявление неизученных ранее причин связей;
- построение корреляционной модели с ее параметрическим анализом;
- исследование значимости параметров связи и их интервальная оценка.
Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод корреляционно-регрессионного анализа.
Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом распределения — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.
При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.
Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.
ПРИМЕР
В ходе маркетинговых исследований новой модели телефона проводилась оценка пожеланий потребителей по признакам «Вес» и «Эргономичность» (удобство пользования). Результаты опроса 5-ти групп целевой аудитории представлены в таблице исходных данных (в таблице приведены средние баллы по пятибалльной шкале, выставленные каждой группой рассматриваемой модели):
№ группы
Вес (х)
Эргономичность (y)
1
2,2
2,7
2
2,4
3,15
3
2,6
3,44
4
2,8
3,52
5
3
4,05
Требуется установить наличие/отсутствие корреляционной связи между двумя признаками выборки.
Решение:
1. Дополняем исходную таблицу, вычислив дополнительные столбцы x2, y2 и xy, а также суммы величин по столбцам:
№ группы
Вес (х)
Эргономичность (y)
x2
y2
xy
1
2,2
2,7
4,84
7,29
5,94
2
2,4
3,15
5,76
9,92
7,56
3
2,6
3,44
6,76
11,83
8,94
4
2,8
3,52
7,84
12,39
9,86
5
3
4,05
9
16,4
12,15
Суммы по столбцам
13
16,86
34,2
57,83
44,45
2. Рассчитываем коэффициент корреляции между случайными величинами х и y по формуле:
3. Оценим значимость коэффициента корреляции:
Вычисляем количество степеней свободы: .
По таблице «Критические значения коэффициента корреляции Пирсона» находим критические пределы уровней значимости коэффициента корреляции:
- для
- для
Строим ось значимости:
Таблица «Критические значения коэффициента корреляции Пирсона»
Вывод:
Так как расчетное значение коэффициента корреляции 0,977 попадает в зону значимости, следовательно, рассматриваемые признаки коррелируют друг с другом на уровне прямо пропорциональной зависимости.
Следовательно, если потребителям понравится вес телефона, то скорее всего, они сочтут его эргономичным (удобным).
ЗАДАНИЕ
На производстве пластиковой упаковки проведено исследование возникновение дефектных изделий за 30 дней. Наблюдался процент дефектов и сопутствующие факторы (температура и давление) при производстве.
Выяснить, коррелируют ли следующие случайные величины (отдельно давление/дефекты и температура/дефекты), и если корреляция значимая, то сделать вывод о функциональной взаимосвязи. Ось значимости строить не нужно (можете нарисовать на черновике для себя).
Давление, кГс/см2
Процент дефектов, %
Температура, 0С
8,6
0,889
111
8,9
0,884
111
9,1
0,874
109
8,8
0,891
111
8,4
0,874
109
8,7
0,886
111
9,2
0,911
114
8,6
0,912
114
9,2
0,895
112
8,7
0,896
112
8,8
0,894
112
8,2
0,864
108
9,2
0,922
115
8,7
0,909
114
9,4
0,905
113
8,7
0,892
112
9,1
0,877
110
9,2
0,885
111
8,5
0,866
108
8,3
0,896
112
8,7
0,896
112
9,3
0,928
116
8,9
0,886
111
9,2
0,908
109
8,9
0,881
110
9,3
0,882
110
8,9
0,904
113
8,7
0,912
114
9,4
0,925
112
8,7
0,875
109