Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
4.2.4. Стохастические связи и элементы корреляционного анализа
Предмет и задачи корреляционного анализа
На практике далеко не все экономические явления и процессы могут изучаться с помощью
детерминированного факторного анализа, так как в большинстве случаев их нельзя свести к
функциональным зависимостям, когда величине факторного показателя соответствует
единственная величина результативного показателя.
Чаще в экономических исследованиях встречаются стохастические (вероятностные)
зависимости, которые отличаются приблизительностью, неопределенностью. Они проявляются
только в среднем по значительному количеству объектов (наблюдений). Здесь каждой величине
факторного показателя (аргумента) может соответствовать несколько значений результативного
показателя (функции).
Например, увеличение фондовооруженности труда рабочих дает разный прирост
производительности труда на разных предприятиях даже при очень выравненных прочих
условиях. Это объясняется тем, что все факторы, от которых зависит производительность труда,
действуют в комплексе, взаимосвязано. В зависимости от того, насколько оптимально
сочетаются разные факторы, будет неодинаковой степень воздействия каждого из них на величину результативного показателя.
Взаимосвязь между исследуемыми факторами и результативным показателем проявится, если
взять для исследования большое количество наблюдений (объектов) и сравнить их значения.
Тогда в соответствии с законом больших чисел влияние других факторов на результативный
показатель сглаживается, нейтрализуется. Это дает возможность установить связь, соотношения
между изучаемыми явлениями.
1
Корреляционная (стохастическая) связь – это неполная, вероятностная зависимость между
показателями, которая проявляется только в массе наблюдений. Отличают парную и
множественную корреляцию.
Парная корреляция – это связь между двумя показателями, один из которых является
факторным, а другой – результативным.
Простейшее уравнение парной регрессии: Y = a + bx.
Множественная корреляция возникает от взаимодействия нескольких факторов с
результативным показателем.
Простейшее уравнение множественной регрессии:
Y = a + b1 x1 + b2 x2 + ... + bnxn,
где а — свободный член уравнения при xi = 0; x1, x2, …xn – факторы, определяющие уровень
изучаемого результативного показателя; b1, b2, ..., bn – коэффициенты регрессии при факторных
показателях, характеризующие уровень влияния каждого фактора на результативный
показатель в абсолютном выражении.
Для исследования стохастических соотношений используются приемы корреляционного
анализа, которые позволяют количественно выразить взаимосвязь между показателями.
Необходимые условия применения корреляционного анализа следующие:
наличие достаточно большого количества наблюдений о величине исследуемых факторных
и результативных показателей (в динамике или за текущий год по совокупности однородных
объектов);
исследуемые факторы должны иметь количественное измерение и отражение в тех или иных
источниках информации.
2
Применение корреляционного анализа позволяет решить следующие задачи:
определить изменение результативного показателя под воздействием одного или нескольких
факторов (в абсолютном измерении), т.е. определить, на сколько единиц изменяется величина результативного показателя при изменении факторного на единицу;
установить относительную степень зависимости результативного показателя от каждого
фактора.
Использование способов парной корреляции для изучения
стохастических зависимостей
Для решения задачи определения влияния факторов на величину результативного показателя
(в абсолютном измерении) подбирается соответствующий тип математического уравнения,
который наилучшим образом отражает характер изучаемой связи (прямолинейной, криволинейной, комбинированной по интервалам значений параметров и т.д.). От корректного выбора
уравнения регрессии (зависимости) зависят ход решения задачи и результаты расчетов.
Обоснование уравнения связи выполняется сопоставлением данных параллельных рядов,
группировкой данных и графических зависимостей. Размещение точек на графике покажет, какая
зависимость образовалась между изучаемыми показателями: прямолинейная или криволинейная.
Наиболее простым уравнением парной регрессии, которое характеризует прямолинейную
зависимость между двумя показателями, является уравнение прямой:
Yx = a + bx,
где x – факторный показатель; Yx – результативный показатель; а и b – параметры уравнения
регрессии, которые требуется отыскать.
3
Это уравнение описывает такую связь между двумя признаками, при которой с изменением
факторного показателя на определенную величину наблюдается равномерное возрастание или
убывание значений результативного показателя.
Для иллюстрации корреляционного анализа прямолинейной зависимости могут быть
использованы сведения об изменении уровня выработки (y) в зависимости от уровня
фондовооруженности труда (х) (табл. 4.3).
Таблица 4.3
Зависимость выработки рабочих (у) от фондовооруженности труда (х)
№
x
У
1
3,1
4,5
2
3,4
4,4
3
3,6
4,8
4
3,8
5,0
5
3,9
5,5
6
4,1
5,4
7
4,2
5,8
8
4,4
6,0
9
4,6
6,1
10
4,9
6,5
Значения коэффициентов а и b находят из системы уравнений, полученных по способу
наименьших квадратов. В данном случае система уравнений имеет следующий вид:
na + bΣx = Σy,
aΣx + bΣx2 = Σxy,
где n – количество наблюдений (в табл. 4.3 – 10).
Значения Σx, Σy, Σxy, Σ x2 рассчитываются в табл. 4.4 на основе фактических исходных
данных (см. табл. 4.3).
4
Таблица 4.4
Расчет производных данных для корреляционного анализа
n
1
2
3
4
5
6
7
8
9
10
Итого
x
3,1
3,4
3,6
3,8
3,9
4,1
4,2
4,4
4,6
4,9
40,0
у
4,5
4,4
4,8
5,0
5,5
5,4
5,8
6,0
6,1
6,5
54,0
ху
13,95
14,96
17,28
19,00
21,45
22,14
24,36
26,40
28,06
31,85
219,45
x2
9,61
11,56
12,96
14,44
15,21
16,81
17,64
19,36
21,16
24,01
162,76
у2
20,25
19,36
23,04
25,00
30,25
29,16
33,64
36,00
37,21
42,25
296,16
Подставив полученные значения в систему уравнений, получим:
10а + 40b = 54;
40а + 162,76 b = 219,45.
Умножив все члены первого уравнения на 4, получим:
5
YX
4,28
4,65
4,90
5,15
5,28
5,52
5,65
5,90
6,15
6,53
53,75
40а + 160b = 216;
40а + 162,76 b = 219,45.
Вычитая из второго уравнения первое, получаем, что 2,76 b = 3,45. Отсюда b = = 3,45 / 2,76 =
1,25. Тогда
a = (54 – (40 × 1,25)) / 10 = 0,4.
Уравнение
связи,
описывающее
зависимость
фондовооруженности, получает следующее выражение:
производительности
труда
от
Yx = 0,4 + 1,25x.
Коэффициент а — постоянная величина результативного показателя, которая не связана с
изменением данного фактора. Параметр b показывает среднее изменение результативного
показателя с повышением или понижением величины фактора на единицу его измерения. В данном примере с увеличением фондовооруженности труда на 1 тыс. руб. выработка рабочих
повышается в среднем на 1,25 тыс. руб.
Подставив в уравнение регрессии соответствующие значения х, можно определить
выравненные (теоретические) значения результативного показателя (Yx) для каждого
предприятия. Например, чтобы рассчитать выработку рабочих на первом предприятии, где
фондовооруженность труда равна 3,1 тыс. руб., необходимо это значение подставить в уравнение
связи:
6
Yx = 0,4 + 1,25 × 3,1 = 4,28.
Полученная величина показывает, какой была бы выработка при фондовооруженности труда
3,1 тыс. руб., если бы данное предприятие использовало свои производственные мощности, как в
среднем все предприятия этой выборки. Фактическая выработка 4,5 на данном предприятии
выше расчетного значения 4,28. Следовательно, предприятие использует свои производственные
мощности несколько лучше, чем в среднем по отрасли. Аналогичные расчеты сделаны для
каждого предприятия. Данные приведены в последней графе табл. 4.4. Сравнение фактического
уровня выработки рабочих с расчетным уровнем позволяет оценить результаты работы
отдельных предприятий.
По такому же принципу решается уравнение связи при криволинейной зависимости между
изучаемыми явлениями. Если при увеличении одного показателя значения другого возрастают до
определенного уровня, а потом начинают снижаться (например, зависимость производительности
труда рабочих (y) от их возраста (x)), то для записи такой зависимости может подходить парабола
второго порядка:
Y x = a + bx + cx2.
В соответствии с требованиями метода наименьших квадратов для определения параметров a,
b и c, необходимо решить следующую систему уравнений:
na + bΣx + сΣx2 = Σy, aΣx + bΣx2 + сΣx3 = Σxy, aΣx2 + bΣx3 + сΣx4 = Σx2 y.
7
Исходные данные и расчеты приведены в табл. 4.5.
Таблица 4.5
Зависимость выработки (y) от возраста работников(x)
для параболического сглаживания
x=
y
xср
x /10 (средняя
(средний ср
выработк
возраст)
а)
20
2,0
6,7
25
2,5
7,2
30
3,0
8,2
35
3,5
9,4
40
4,0
10,0
45
4,5
9,6
50
5,0
9,4
55
5,5
8,9
60
6,0
8,3
65
6,5
7,3
Итого
42,5
85,00
ху
x2
13,40 4,00
18,00 6,25
24,60 9,00
32,90 12,25
40,00 16,00
43,20 20,25
47,00 25,00
48,95 30,25
49,80 36,00
47,45 42,25
365,3 201,25
x2y
x3
x4
26,80
8,00
16,00
45,00
15,63
39,06
73,80
27,00
81,00
115,15
42,88
150,06
160,00
64,00
256,00
194,40
91,13
410,06
235,00 125,00
625,00
269,23 166,38
915,06
298,80 216,00
1296,00
308,43 274,63
1785,06
1726,6 1030,625 5573,313
YX
6,38
7,60
8,53
9,19
9,57
9,67
9,49
9,03
8,28
7,26
85,00
После подстановки итоговых сумм из табл.4.5 система уравнений приобретает вид:
8
10a +42,5 b + 201,25 с = 85,
42,5a + 201,25b + 1030,625с = 365,3,
201,25a + 1030,625b + 5573,313с = 1726,6.
Параметры a, b и c находят способом определителей. Общий определитель
Δ=
10
42,5
201,25
42,5
201,25 1030,625
201,25 1030,625 5573,313
вычисляется с помощью стандартной встроенной функции МОПРЕД из приложения Excel.
Далее частные определители вычисляются аналогично заменой колонок на колонку свободных
членов. И окончательно параметры a, b и c находятся делением частных определителей на
общий определитель. В результате расчетов:
Δ = 6806,25; Δa = – 8712; Δb = – 33681,66; Δc = – 3805,31;
a = – 1,28; b = 4,95; c = – 0,56; Y x = – 1,28 + 4,95x – 0,56x2.
При подстановке в данное уравнение соответствующих значений возрастов х получим
выравненные значения производительности труда в зависимости от возраста рабочих в
9
соответствии с параболической регрессионной зависимостью. Результаты приведены в последней
графе табл. 4.5. Наибольшая производительность обеспечивается для работников в возрасте от 40
до 50 лет, что в целом согласуется с исходными данными, но пик приходится на другой возраст.
Другим вариантом, часто используемым для записи криволинейных зависимостей, является
гиперболическая функция:
Y x = a + b/x.
В соответствии с требованиями метода наименьших квадратов для определения параметров a,
b необходимо решить следующую систему уравнений:
n a + b Σ (1/x) = Σ y;
a Σ (1/x) + b Σ (1/x2) = Σ (1/x)y.
Исходные данные и расчеты приведены в табл. 4.6.
10
Таблица 4.6
Зависимость выработки (y) от возраста работников(x)
для гиперболического сглаживания
xср
(средний
возраст)
20
25
30
35
40
45
50
55
60
65
Итого
x=
xср/10
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
42,5
y
(средняя
выработка)
6,7
7,2
8,2
9,4
10,0
9,6
9,4
8,9
8,3
7,3
85,00
Система уравнений приобретает вид:
10a + 2,69 b = 85;
2,69a + 0,84b = 22,29.
11
1/х
1/x2
y/x
YX
0,50
0,40
0,33
0,29
0,25
0,22
0,20
0,18
0,17
0,15
2,69
0,25
0,16
0,11
0,08
0,06
0,05
0,04
0,03
0,03
0,02
0,84
3,35
2,88
2,73
2,69
2,50
2,13
1,88
1,62
1,38
1,12
22,29
7,32
7,47
7,57
7,65
7,70
7,74
7,78
7,81
7,83
7,85
После умножения всех составляющих второго уравнения на 3,717 и вычитания второго
уравнения из первого получим b = – 0,661 / 0,43 = – 1,538 и, соответственно, а = 8,086.
Уравнение связи приобретает вид:
Y x = 8,086 – 1,538/x.
При подстановке в данное уравнение соответствующих значений возрастов х получим
выравненные значения производительности труда в зависимости от возраста рабочих в
соответствии с гиперболической регрессионной зависимостью. Результаты приведены в
последней графе табл. 4.6. В данном случае использование гиперболической зависимости дает
большую ошибку.
Используя тот или иной тип математического уравнения, можно определить степень
зависимости между изучаемыми явлениями, т.е. установить, на сколько единиц в абсолютном
измерении изменяется величина результативного показателя с изменением факторного на
единицу. Однако регрессионный анализ не дает ответа на вопрос: тесная это связь или нет,
решающее воздействие оказывает данный фактор на величину результативного показателя или
второстепенное.
Для измерения тесноты связи между факторными и результативными показателями
определяется коэффициент корреляции.
В случае прямолинейной формы связи между изучаемыми показателями (см. табл. 4.4)
коэффициент корреляции рассчитывается по следующей формуле:
12
∑ 𝑥𝑦 −
𝑟=
∑𝑥∑𝑦
𝑛
=
2
∑
(∑ 𝑦)2
(
𝑥)
2
√(∑ 𝑥 2 −
∑
𝑛 )×( 𝑦 − 𝑛 )
=
219,45 −
√(162,76 −
40 × 54
10
402
542
= 0,97.
10 ) × (296,16 − 10 )
Коэффициент корреляции может принимать значения от 0 до 1. Чем ближе его величина к 1,
тем более тесная связь между изучаемыми явлениями, и наоборот. В данном случае величина
коэффициента корреляции является существенной (r = 0,97). Это позволяет сделать вывод о том,
что фондовооруженность — один из основных факторов, от которых на анализируемых
предприятиях зависит уровень производительности труда.
Если коэффициент корреляции возвести в квадрат, получим коэффициент детерминации (d =
0,94). Он показывает, что производительность труда на 94% зависит от фондовооруженности
труда, а на долю других факторов приходится 6% изменения ее уровня.
Для измерения тесноты связи при криволинейной форме зависимости используется
корреляционное отношение:
13
𝜂=√
𝜎𝑦2
∑(𝑦−𝑦̅)2
, 𝜎𝑦2𝑥
𝜎𝑦2 − 𝜎𝑦2𝑥
𝜎𝑦2
,
∑(𝑦−𝑦𝑥 )2
где
=
=
.
𝑛
𝑛
На основе данных табл.4.5 расчеты приведены в табл. 4.7. Переменная 𝑦̅ означает среднее
значение из рассматриваемого диапазона.
Таблица 4.7
Расчет корреляционного отношения при криволинейных зависимостях
𝑦̅
8,5
Итого
y
(средняя
выработка)
6,7
7,2
8,2
9,4
10,0
9,6
9,4
8,9
8,3
7,3
85,00
YX
𝑦 − 𝑦̅
6,38
7,60
8,53
9,19
9,57
9,67
9,49
9,03
8,28
7,26
85,00
-1,8000
-1,3000
-0,3000
0,9000
1,5000
1,1000
0,9000
0,4000
-0,2000
-1,2000
0,00
14
(𝑦 − 𝑦̅)2 𝑦 − YX
3,2400
1,6900
0,0900
0,8100
2,2500
1,2100
0,8100
0,1600
0,0400
1,4400
11,74
0,3200
-0,4000
-0,3300
0,2100
0,4300
-0,0700
-0,0900
-0,1300
0,0200
0,0400
0,00
(𝑦
− 𝑌𝑥 )2
0,1024
0,1600
0,1089
0,0441
0,1849
0,0049
0,0081
0,0169
0,0004
0,0016
0,6322
𝜂=√
11,74⁄10− 0,6322⁄10
11,74⁄10
= 0,973.
Величина корреляционного отношения изменяется от 0 до 1. Близость ее к нулю говорит об
отсутствии связи, близость к единице – о тесноте связи. Оценка связи на основе теоретического
корреляционного отношения выполняется по следующим значениям (шкала Чеддока) (табл.4.8).
Таблица 4.8
Характер связи по корреляционному отношению
η=0
Характер
связи
Отсутствует
0 < η < 0,2
Значение
Значение
Характер связи
0,5 ≤ η < 0,7
Заметная
Очень слабая
0,7 ≤ η < 0,9
Сильная
0,2 ≤ η < 0,3
Слабая
0,9 ≤ η < 1
Весьма сильная
0,3 ≤ η < 0,5
Умеренная
η=1
Функциональная
Для линейной зависимости теоретическое корреляционное отношение
тождественно линейному коэффициенту корреляции, т.е. η = |r|.
15
Использование способов множественной корреляции для изучения
стохастических зависимостей
Экономические явления и процессы хозяйственной деятельности предприятий зависят от
большого количества факторов. Как правило, каждый фактор в отдельности не определяет
изучаемое явление во всей полноте. Только комплекс факторов в их взаимосвязи может дать
более или менее полное представление о характере изучаемого явления.
Многофакторный корреляционный анализ состоит из нескольких этапов.
На первом, этапе определяются факторы, которые оказывают воздействие на изучаемый
показатель, и отбираются наиболее существенные для корреляционного анализа.
На втором этапе собирается и оценивается исходная информация, необходимая для
корреляционного анализа.
На третьем этапе изучается характер и моделируется связь между факторами и
результативным показателем, то есть подбирается и обосновывается математическое уравнение,
которое наиболее точно выражает сущность исследуемой зависимости.
На четвертом этапе проводится расчет основных показателей связи корреляционного
анализа.
На пятом этапе дается статистическая оценка результатов корреляционного анализа и
практическое их применение.
Отбор факторов для корреляционного анализа является очень важным моментом в
экономическом анализе. От того, насколько правильно он сделан, зависит точность выводов по
итогам анализа. Главная роль при отборе факторов принадлежит теории, а также практическому
опыту анализа. При этом необходимо придерживаться следующих правил.
16
1. При отборе факторов в первую очередь следует учитывать причинно-следственные связи
между показателями, так как только они раскрывают сущность изучаемых явлений. Анализ же
таких факторов, которые находятся только в математических соотношениях с результативным
показателем, не имеет практического смысла.
2. При создании многофакторной корреляционной модели необходимо отбирать самые
значимые факторы, которые оказывают решающее воздействие на результативный показатель,
так как охватить все условия и обстоятельства практически невозможно. Факторы, которые
имеют критерий надежности по Стьюденту (см. ниже) меньше табличного, не рекомендуется
принимать в расчет.
3. Все факторы должны быть количественно измеримы, т.е. иметь единицу измерения, и
информация о них должна содержаться в учете и отчетности.
4. В корреляционную модель линейного типа не рекомендуется включать факторы, связь
которых с результативным показателем имеет криволинейный характер.
5. Не рекомендуется включать в корреляционную модель взаимосвязанные факторы. Если
парный коэффициент корреляции между двумя факторами больше 0,85, то по правилам
корреляционного анализа один из них необходимо исключить, иначе это приведет к искажению
результатов анализа.
6. Нежелательно включать в корреляционную модель факторы, связь которых с
результативным показателем носит функциональный характер.
Большую помощь при отборе факторов для корреляционной модели оказывают аналитические
группировки, способ сопоставления параллельных и динамических рядов, линейные графики.
Благодаря им можно определить наличие, направление и форму зависимости между изучаемыми
показателями. Отбор факторов можно производить также в процессе решения задачи
17
корреляционного анализа на основе оценки их значимости по критерию Стьюдента, о котором
будет сказано ниже.
Исходя из перечисленных выше требований и используя названные способы отбора
факторов, для примера многофакторной корреляционной модели уровня рентабельности (Y)
подобраны следующие факторы, которые оказывают наиболее существенное влияние на ее
уровень:
x1 – материалоотдача (стоимость выпущенной продукции на единицу материальных
ресурсов), руб.;
x2 – фондоотдача (стоимость выпущенной продукции на единицу стоимости основных
фондов), коп.;
x3 – производительность труда (среднегодовая выработка продукции на одного работника),
тыс. руб.;
x4 – продолжительность оборота оборотных средств предприятия, дни;
x5 – удельный вес продукции высшей категории качества, %.
Поскольку корреляционная связь с достаточной выразительностью и полнотой проявляется
только в массе наблюдений, объем выборки данных должен быть достаточно большим, так как
только в массе наблюдений сглаживается влияние других факторов. Чем большая совокупность
объектов исследуется, тем точнее результаты анализа.
Учитывая это требование, влияние перечисленных факторов на уровень рентабельности
исследуется на выборке для примера 40 предприятий.
Следующим этапом анализа является сбор и статистическая оценка исходной
информации, которая будет использоваться в корреляционном анализе. Собранная исходная
информация должна быть проверена на достоверность, однородность и соответствие закону
нормального распределения.
18
В первую очередь необходимо убедиться в достоверности информации, насколько она
соответствует объективной действительности. Использование недостоверной, неточной
информации приведет к неправильным результатам анализа и выводам.
Одно
из
условий
корреляционного
анализа
– однородность
исследуемой
информации относительно распределения ее около среднего уровня. Если в совокупности
имеются группы объектов, которые значительно отличаются от среднего уровня, то это говорит о
неоднородности исходной информации.
Критерием однородности информации служит среднеквадратическое отклонение и
коэффициент вариации, которые рассчитываются по каждому факторному и результативному
показателю.
Среднеквадратическое отклонение показывает абсолютное отклонение индивидуальных
значений от среднеарифметического. Оно определяется по формуле:
𝜎=√
∑(𝑥−𝑥)2
𝑛
.
Коэффициент вариации характеризует в процентах относительную меру отклонения
отдельных значений от среднеарифметической. Он рассчитывается по формуле:
𝜎
𝑉 = × 100.
𝑥
Чем больше коэффициент вариации, тем относительно больший разброс и меньшая
выравненность изучаемых объектов. Изменчивость вариационного ряда принято считать
незначительной, если вариация не превышает 10 %, средней – если составляет 10-20 %,
значительной – если она больше 20 %, но не превышает 33 %. Если же вариация выше 33 %, то
19
это говорит о неоднородности информации и необходимости исключения нетипичных
наблюдений, которые обычно бывают в первых и последних ранжированных рядах выборки.
В табл. 4.9 приведены исходные данные
Таблица 4.9
№ п.п.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Y
27,36
25,44
27,44
27,72
27,43
27,51
25,79
26,92
27,66
26,79
26,06
26,82
26,13
27,23
26,74
27,99
27,57
x1
2,56
2,65
2,79
2,67
2,71
2,71
2,51
2,62
2,74
2,69
2,78
2,94
2,56
2,64
2,77
2,562
2,71
x2
94,22
89,12
87,06
91,73
87,22
93,3
86,11
91,78
90,3
84,95
91,63
89,61
89,25
89,33
90,4
92,9
92,91
x3
8,43
8,38
8,6
8,43
8,44
8,59
8,47
8,33
8,23
8,33
8,82
8,73
8,63
8,34
8,44
8,41
8,41
x4
17,79
20,32
17,87
17,69
18,46
17,3
17,4
18,79
16,66
18,66
17,95
17,74
15,01
16,15
17,04
18,1
17,31
20
x5
25,1
25,4
40,9
25,1
24,9
24,6
25,2
24,8
24,7
25,3
39,9
25,1
42,2
24,2
25,3
24,7
23,8
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
26,86
27,85
27,71
25,09
28,13
27,92
27,42
26,74
28,42
26,71
28,6
28,28
26,77
27,31
27,32
27,85
27,26
28,03
26,7
27,39
28,79
26,05
29,97
2,71
2,9
2,79
2,86
2,66
2,79
2,61
2,73
2,73
2,67
2,73
2,88
2,87
2,81
2,68
2,82
2,71
2,82
2,78
2,74
2,68
2,8
2,78
93,48
91,22
91,9
92,32
89,76
92,94
92,83
84,2
87,61
87,15
94,47
100,98
89,37
90,25
87,22
88,56
87,8
88,46
90,67
89,02
84,65
93,5
96,81
7,92
8,3
8,62
8,34
8,47
8,51
8,29
8,61
8,52
8,75
8,34
8,71
8,31
8,79
8,48
8,37
8,72
8,54
8,78
8,39
7,93
8,27
8,52
15,52
18,17
15,22
17,01
16,12
17,47
16,2
15,25
16,08
17,56
17,64
15,47
19,19
17,16
16,12
16,33
16,49
18,5
17,73
16,76
16,87
16,15
15,54
21
25,1
24,5
25,2
40,9
41,1
39,8
41,3
40,8
40,3
40,4
41,3
39,9
40,2
40,9
41,3
41,2
27,2
28,1
30,2
25,4
41,5
25,2
40,4
В табл.4.10 приведены сводные результаты расчетов по всей выборке 40 предприятий, часть
которых будет описываться ниже.
Таблица 4.10
Показатели статистической характеристики исходных данных
Номер
переменной
Y
x1
x2
x3
x4
x5
Среднеарифм Среднеквадрат
Ошибка
Вариа Асимм
етическое
ическое
Эксцесс
ция, % етрия
асимметрии эксцесса
значение
отклонение
27,29
2,73
90,42
8,46
17,12
29,19
0,92
0,10
3,32
0,20
1,18
3,63
3,38
3,55
3,67
2,36
6,88
12,45
0,067
– 0,101
0,572
– 0,465
0,266
1,473
3,808
2,701
4,018
3,676
2,834
4,055
0,387
0,387
0,387
0,387
0,387
0,387
0,774
0,774
0,774
0,774
0,774
0,774
В рассматриваемом примере (табл. 4.9) самая высокая вариация по х5 (V = 12,45), но она не
превышает 33 %. Значит, исходная информация является однородной и ее можно использовать
для дальнейших расчетов.
На основании самого высокого показателя вариации можно определить необходимый объем
выборки данных для корреляционного анализа по следующей формуле:
𝑉 2 × 𝑡 2 12,452 × 1,962
𝑛=
=
= 10,
𝑚2
82
22
где п – необходимый объем выборки данных с округлением до большего целого; V – наибольшая
вариация, %; t – показатель надежности связи (критерий Стьюдента), который при
доверительном уровне (когда реальная доля лежит в выбранных границах) 0,95 равен 1,96; т –
показатель точности расчетов (для экономических расчетов допускается ошибка 5-8 %).
В соответствии с этим принятый в расчет объем выборки (40 предприятий) является
достаточным для проведения корреляционного анализа.
Следующее требование к исходной информации – соответствие ее закону нормального
распределения. Согласно этому закону, основная масса исследуемых сведений по каждому
показателю должна быть сгруппирована около ее среднего значения, а объекты с очень
маленькими значениями или с очень большими должны встречаться как можно реже. График
нормального распределения информации имеет следующий примерный вид (рис. 4.1).
y
x
Рис. 4.1. Форма нормального распределения
23
Для количественной оценки степени отклонения информации от нормального распределения
служит отношение показателя асимметрии к ее ошибке и отношение показателя эксцесса к его
ошибке.
Показатель асимметрии (A) и его ошибка (та) рассчитываются по следующим формулам:
𝐴=
∑(𝑥−𝑥)3
𝑛𝜎3
6
; 𝑚𝑎 = √ 𝑛 .
В симметричном распределении А = 0. Отличие от нуля указывает на наличие асимметрии в
распределении данных около средней величины. Отрицательная асимметрия свидетельствует о
том, что преобладают данные с большими значениями, а с меньшими значениями встречаются
значительно реже. Положительная асимметрия показывает, что чаще встречаются данные с
небольшими значениями.
Показатель эксцесса (Е) и его ошибка (те) рассчитываются следующим образом:
𝐸=
∑(𝑥−𝑥)4
𝑛𝜎4
24
; 𝑚𝑒 = √ 𝑛 ; или 𝑚𝑒 = 2𝑚𝑎 .
В нормальном распределении показатель эксцесса Е = 0. Если Е > 0, то данные густо
сгруппированы около средней, образуя островершинность. Если Е < О, то кривая распределения
будет плосковершинной. Однако, когда отношения А/та и Е/те меньше 3, то асимметрия и
эксцесс не имеют существенного значения и исследуемая информация подчиняется закону
нормального распределения.
В рассматриваемом примере (табл. 4.9) во многих случаях отношения А/та и Е/те превышают
3 и, следовательно, исходная информация не соответствует этому закону.
24
После отбора факторов и оценки исходной информации важной задачей в корреляционном
анализе
является моделирование
связи
между
факторными
и
результативными
показателями, т.е. подбор соответствующего уравнения, которое наилучшим образом описывает
изучаемые зависимости.
Для его обоснования используются те же приемы, что и для установления наличия связи:
аналитические группировки, линейные графики и др. Если связь всех факторных показателей с
результативным носит прямолинейный характер, то для записи этих зависимостей можно
использовать линейную функцию:
𝑌𝑥 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ + 𝑏𝑛 𝑥𝑛 .
Если связь между результативным и факторными показателями носит криволинейных
характер, то может быть использована степенная функция:
𝑏
𝑏
𝑏
𝑏
𝑌𝑥 = 𝑏0 × 𝑥1 1 × 𝑥2 2 × 𝑥3 3 × … × 𝑥𝑛𝑛 .
или логарифмическая:
lg 𝑌𝑥 = 𝑏0 + 𝑏1 lg 𝑥1 + 𝑏2 lg 𝑥2 + 𝑏3 lg 𝑥3 + … + 𝑏𝑛 lg 𝑥𝑛 .
Приведенные модели выгодны тем, что их параметрам (bi) можно дать экономическое
объяснение (интерпретацию). В линейной модели коэффициенты bi показывают, на сколько
единиц изменяется результативный показатель с изменением факторного на единицу в
абсолютном выражении, в степенных и логарифмических – в процентах.
25
В случаях, когда трудно обосновать форму зависимости, решение задачи можно провести по
разным моделям и сравнить полученные результаты. Адекватность разных моделей фактическим
зависимостям проверяется по критерию Фишера, показателю средней ошибки аппроксимации и
величине множественного коэффициента детерминации, о которых речь пойдет ниже.
Решение задачи многофакторного корреляционного анализа проводится с использованием
компьютерных программ. Сначала формируется матрица исходных данных (табл. 4.9), в первой
колонке которой записывается порядковый номер наблюдения, во второй – результативный
показатель (Y), а в следующих – факторные показатели (хi).
После ввода исходных данных рассчитываются матрицы парных и частных коэффициентов
корреляции, уравнение множественной регрессии, а также показатели, с помощью которых
оценивается надежность коэффициентов корреляции и уравнения связи: критерий Стьюдента,
критерий Фишера, средняя ошибка аппроксимации, множественные коэффициенты корреляции
и детерминации.
Изучая матрицы парных и частных коэффициентов корреляции, можно сделать вывод о
тесноте связи между изучаемыми явлениями. Коэффициенты парной корреляции характеризуют
тесноту связи между двумя показателями в общем виде с учетом взаимосвязей факторов,
оказывающих воздействие на результативный показатель.
Для расчета показателей парной корреляции используется выражение:
𝑟𝑥𝑦 =
∑(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦)
𝑛𝜎𝑥 𝜎𝑦
.
Расчет выполняется с помощью средств Excel. Результаты показаны в табл.4.11.
26
Таблица 4.11
Матрица парных коэффициентов корреляции
Y
x1
x2
x3
x4
x5
Y
1,000
0,258
0,021
-0,097
-0,253
0,101
x1
1,000
0,192
0,187
0,012
0,146
x2
x3
1,000
0,029
-0,173
0,052
1,000
-0,033
-0,086
x4
x5
1,000
0,096
1,000
Анализ данных расчетов в табл. 4.11 показывает отсутствие значительных зависимостей
между отдельными парами параметров, в том числе и обратной зависимости.
Необходимо отметить, что парные коэффициенты корреляции получены при условии
воздействия других факторов на результат. Чтобы абстрагироваться от их влияния и получить
количественную характеристику связи между результативным и факторными показателями в
чистом виде, рассчитываются частные коэффициенты корреляции (табл. 4.12) с помощью
встроенной функции Excel КОРРЕЛ (Массив xi; Массив yi). Результаты показаны в табл. 4.12.
27
Таблица 4.12
Матрица частных коэффициентов корреляции
y
x1
x2
x3
x4
x5
Y
1,000
0,107
0,257
– 0,097
– 0,252
0,100
x1
1,000
0,198
0,193
0,012
0,150
x2
x3
1,000
0,029
– 0,173
0,052
1,000
– 0,033
– 0,086
x4
x5
1,000
0,096
1,000
При сравнении частных коэффициентов корреляции с парными видно, что влияние других
факторов на тесноту связи между уровнем рентабельности и исследуемыми факторами
незначимое: частные коэффициенты корреляции близки к парным. Это говорит о том, что
факторы, которые входят в данную корреляционную модель, оказывают на рентабельность и
непосредственное влияние, и косвенное. Поэтому взаимосвязи, очищенные от влияния
сопутствующих факторов, получились близкими. В некоторых случаях они могут оказаться более
тесными, если исключить влияние факторов, которые действуют в противоположном
направлении. По этой причине может измениться не только величина коэффициента корреляции,
но и направление связи: в общем виде связь может быть прямой, а в чистом — обратной, и
наоборот. Объясняется это тем, что при расчете парных коэффициентов корреляции изучается
взаимосвязь между результативным и факторным показателем с учетом их взаимодействия и с
другими факторами.
28
Таким образом, с помощью парных и частных коэффициентов корреляции можно получить
представление о тесноте связи между изучаемыми явлениями в общих и непосредственных
соприкосновениях.
Значительный интерес представляют коэффициенты корреляции, характеризующие
взаимосвязь факторов между собой. Как уже отмечалось, в корреляционную модель надо
подбирать независимые между собой факторы. Если коэффициент корреляции двух факторов
выше 0,85, то один из них необходимо исключить из модели. Исследование матрицы
коэффициентов корреляции позволяет сделать вывод, что в данную модель включены факторы,
не очень тесно связанные между собой.
При изучении тесноты связи надо иметь в виду, что величина коэффициентов корреляции
является случайной, зависящей от объема выборки. Известно, что с уменьшением количества
наблюдений надежность коэффициентов корреляции падает, и, наоборот, при увеличении
количества наблюдений надежность коэффициентов корреляции возрастает.
Значимость
коэффициентов
корреляции проверяемся
по
критерию
Стьюдента
(статистический метод, который позволяет сравнивать средние значения двух выборок и на
основе результатов теста делать заключение о том, различаются ли они друг от друга
статистически или нет):
𝑟
0,107
𝑡 = 𝜎 = 0,158 = 0,674,
𝑟
где 𝜎𝑟 - среднеквадратическая ошибка коэффициента корреляции, которая определяется по
формуле:
𝜎𝑟 =
1−𝑟 2
√𝑛−1
=
1−0,1072
√40−1
29
= 0,158.
Если расчетное значение выше табличного, то можно сделать заключение о том, что величина
коэффициента корреляции является значимой. Табличные значения t находят по таблице
значений критериев Стьюдента. При этом учитываются количество степеней свободы (V = п — 1)
и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01). В нашем
примере количество степеней свободы равно: п – 1 = 40 – 1 = 39. При уровне доверительной
вероятности Р = 0,05; t = 2,02. Поскольку (фактическое (табл. 4.13) во всех случаях ниже tтабличного, связь между результативным и факторными показателями не является надежной, а
величина коэффициентов корреляции не является значимой.
Таблица 4.13
Фактические значения критерия Стьюдента
Переменная
t-фактическое
x1
0,6741
x2
1,7219
x3
-0,6093
x4
-1,6803
x5
0,6305
Следующий этап корреляционного анализа – расчет уравнения связи (регрессии). Решение
проводится обычно шаговым способом. Сначала в расчет принимается один фактор, который
оказывает наиболее значимое влияние на результативный показатель, потом второй, третий и т.д.
И на каждом шаге рассчитываются уравнение связи, множественный коэффициент корреляции и
детерминации, F-отношение (критерий Фишера: проверка равенства дисперсий двух выборок),
стандартная ошибка и другие показатели, с помощью которых оценивается надежность
уравнения связи. Величина их на каждом шаге сравнивается с предыдущей. Чем выше величина
коэффициентов множественной корреляции, детерминации и критерия Фишера и чем ниже
30
величина стандартной ошибки, тем точнее уравнение связи описывает зависимости,
сложившиеся между исследуемыми показателями. Если добавление следующих факторов не
улучшает оценочных показателей связи, то надо их отбросить, т.е. остановиться на том
уравнении, где эти показатели наиболее оптимальны. Расчеты целесообразно выполнить с
использованием встроенного инструмента Excel «Анализ данных», который подключается из
Файл/Параметр/Надстройки/Надстройки Excel/Данные с последующим указанием на массив
Y и диапазоны массивов xi.
Сравнивая результаты на каждом шаге (табл.4.14), можно сделать вывод, что по показателям
множественной корреляции и детерминации более полно описывает зависимости между
изучаемыми показателями пятифакторная модель, полученная на пятом шаге. Стоит помнить, что
по данным табл. 4.9 исследуемые выборки плохо подчиняются закону нормального
распределения.
Таблица 4.14
Результаты расчета уравнений связи
Шаг
введен x1
введен x2
введен x3
введен x4
введен x5
Уравнение связи
Yx = 24,518 + 1,017 x1
Yx = 19,591 + 0,552 x1 + 0,068 x2
Yx = 23,685 + 0,774 x1 + 0,068 x2
– 0,552 x3
Yx = 27,699 + 0,893 x1 + 0,057 x2
– 0,591 x3 – 0, 174 x4
Yx = 27,217 + 0,754 x1 + 0,056 x2
– 0,544 x3 – 0, 181 x4 – 0,023 x5
31
R
D
F
E
0,107 0,011 0,512 0,942
0,263 0,069 0,263 0,926
0,288 0,083 0,366 0,932
0,362 0,131 0,282 0,921
0,372 0,138 0,381 0,930
В результате полное уравнение связи имеет вид:
Yx = 27,217 + 0,754 x1 + 0,056 x2 – 0,544 x3 – 0, 181 x4 – 0,023 x5.
Коэффициенты уравнения показывают количественное воздействие каждого фактора на
результативный показатель при неизменности других. В данном случае можно дать следующую
интерпретацию полученному уравнению: рентабельность повышается на 0,754 % при увеличении
материалоотдачи на 1 руб.; на 0,056% – с ростом фондоотдачи на 1 коп. Рентабельность
снижается в среднем на 0,544 % – с повышением среднегодовой выработки продукции на одного
работника на 1 млн руб., на 0,181 % – с увеличением продолжительности оборота средств на 1
день; на 0,023 % – при увеличении удельного веса продукции высшей категории качества на 1 %.
Коэффициенты регрессии в уравнении связи имеют разные единицы измерения, что делает их
несопоставимыми, если возникает вопрос о сравнительной силе воздействия факторов на
результативный показатель. Чтобы привести их в сопоставимый вид, все переменные уравнения
регрессии выражают в долях среднеквадратического отклонения, другими словами,
рассчитывают стандартизированные коэффициенты регрессии. Их еще называют беттакоэффициентами по символу, который принят для их обозначения ().
Бетта-коэффициенты и коэффициенты регрессии связаны следующим отношением:
𝜎𝑥𝑖
𝛽𝑖 = 𝑏𝑖 𝜎 .
𝑦
Бетта-коэффициенты показывают, что если величина фактора увеличится на одно
среднеквадратическое отклонение, то соответствующая зависимая переменная увеличится или
уменьшится на долю своего среднеквадратического отклонения. Сопоставление бетта32
коэффициентов позволяет сделать вывод о сравнительной степени воздействия каждого фактора
на величину результативного показателя.
По аналогии можно сопоставить и коэффициенты эластичности (Э), которые рассчитываются
по формуле:
𝑥
Э𝑖 = 𝑏𝑖 𝑦𝑖.
Коэффициенты эластичности показывают, на сколько процентов в среднем изменяется
функция с изменением аргумента на 1 %.
В нашем примере наибольшее влияние на уровень рентабельности оказывают фондоотдача,
производительность труда и продолжительность оборота оборотных средств (табл. 4.15).
Последнее должно привлечь к себе особое внимание к точности исходных данных.
Таблица 4.15
Бетта - коэффициенты и коэффициенты эластичности
Переменная
Бетта - коэффициент
Коэффициент
эластичности
x1
x2
0,079
0,201
0,075
0,186
x3
–
0,118
–
0,169
x4
x5
–
–
0,231 0,090
–
0,114 –0,025
Согласно данным табл. 4.15, рентабельность возрастает на 0,08% при увеличении уровня
материалоотдачи на 1%, на 0,201 % – при повышении фондоотдачи на 1 % и т.д.
33