Статистическое изучение взаимосвязи социально-экономических явлений
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
1
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение высшего образования
«ТИХООКЕАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Институт экономики и управления
Кафедра «Экономическая теория и национальная экономика»
Лекция 8.
Статистическое изучение взаимосвязи социальноэкономических явлений
Автор: Строева Г. Н.
2
Лекция
8.
Статистическое
экономических явлений
изучение
взаимосвязи
социально-
1. Статистическая связь: понятие и виды
2. Статистические методы выявления наличия корреляционной связи между
двумя признаками
3. Показатели тесноты корреляционной связи
4. Уравнение регрессии
1. Статистическая связь: понятие и виды
Закон всеобщей связи и зависимости между явлениями и процессами –
важный закон существования объективной реальности. Изучение реальной действительности, показывает, что вариация каждого изучаемого признака находится в тесной зависимости с вариациями других признаков, характеризующих
исследуемую статистическую совокупность. Например, спрос на товар формируется под влиянием целого ряда факторов: ценой товара, предпочтениями и
вкусами потребителей, ценами на комплементарные товары и товарысубституты, модой и др. Измерение взаимосвязей социально-экономических
явлений и процессов является одной из важнейших задач статистики.
Необходимая обусловленность явлений множеством факторов называется
детерминизмом. В качестве объекта исследования при статистическом измерении взаимосвязей чаще всего выступает детерминированность следствия факторами (причиной и условиями). Признак, характеризующий следствие, называется результативным. Признаки, характеризующие факторы – факторными.
В природе и обществе существуют два типа связей – функциональная и
стохастическая.
Связь между двумя признаками x и y называется функциональной, если
каждому значению признака x строго соответствует одно или несколько значений признака y, а изменение значения x приводит к строго определенному изменению значения y. Функциональная связь может быть определена и в случаях
влияния нескольких переменных x1, x2,…xn на результативный признак y. В общем виде соотношение между результативным признаком y и факторным x может быть записано следующим образом
yi = F(xi).
Стохастическая связь – связь между факторными и результативным показателем, которая в отличие от функциональной является неполной, вероятностной. При этом одному набору факторов могут соответствовать различные
3
значения результативного признака и наоборот, одному значению результативного признака – различные наборы факторных переменных.
Частным случаем стохастической связи является корреляционная связь,
которая проявляется в том, что изменение факторного признака х вызывает изменение среднего значения результативного признака у.
Эта зависимость, в отличие от функциональной, свидетельствует лишь о
числовом соотношении (correlation – соотношение) между величинами, которое
выражается в виде тенденций возрастания или убывания одной переменной величины у при возрастании или убывании другой переменной величины х.
Важной количественной характеристикой корреляционной связи служит
линия регрессии – функция, связывающая средние значения результативного
признака со значениями факторного признака.
Различают разные виды функциональных и стохастических связей между
признаками:
По направлению действия:
Прямые связи – изменение признаков идет в одном направлении. Увеличение признака фактора вызывает рост результативного признака и наоборот.
Пример: Между ценой (pi) и объемом предложения товара (qis) существует прямая зависимость, которую отражает формула: qis = – a + bpi.
Обратные связи – изменение признаков идет в разном направлении. Увеличение признака фактора приводит к снижению результативного признака и
наоборот (между ценой (pi) и объемом спроса на товар (qid) существует обратная зависимость, описываемая уравнением: qid = a – bpi).
По аналитической форме связи могут быть линейными и нелинейными.
Если зависимость между признаком-фактором и результативным признаком
может быть описана уравнением прямой линии, то ее называют линейной связью. При нелинейной связи зависимость между факторным и результативным
признаками описывается с помощью параболической, гиперболической, степенной и иных функций.
По числу взаимодействующих признаков выделяют парную – связь двух
признаков, один из которых является факторным, а другой результативным и
множественную – связь, при которой величину результативного признака оказывают влияние несколько факторных признаков.
Изучение корреляционных связей сводится в основном к решению следующих задач:
1)
выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками;
4
2)
измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов (эта часть исследования именуется корреляционным анализом);
3)
определение уравнения регрессии – математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных – факторных признаков (эта часть исследования именуется регрессионным анализом);
4)
определение возможных ошибок показателей тесноты связи и параметров уравнений регрессии.
Для измерения и количественного выражения взаимосвязей между исследуемыми явлениями и процессами в статистике используется ряд методов. рассмотрим основные из них.
2. Статистические методы выявления наличия корреляционной
связи между двумя признаками
Самым простым способом установления связи между признаками является
метод параллельных рядов, который предполагает визуальное сравнение упорядоченных значений факторного признака и соответствующих им значений
результативного признака. Подобное сравнение позволяет установить наличие
прямой или обратной связи между признаками.
Наличие корреляционной связи можно установить с помощью графика.
Наклон линии говорит о направлении связи.
Метод аналитических группировок используется для выявления корреляционной связи между двумя количественными признаками при большом числе
наблюдений. Чтобы выявить наличие корреляционной связи между двумя признаками, проводится группировка единиц совокупности по факторному признаку х и для каждой выделенной группы рассчитывается среднее значение результативного признака y j . Если результативный признак у зависит от факторного х, то в изменении среднего значения y j будет прослеживаться определенная закономерность.
Метод корреляционных таблиц предполагает комбинационное распределение единиц совокупности по двум количественным признакам. Такая таблица
строится по типу «шахматной». В корреляционной таблице факторный признак
х, как правило располагается в строках, а результативный признак у – в столбцах. В клетках таблицы на пересечении х и у указывается число случаев совпадения каждого значения х с соответствующим значением у. В таблице 1 рабочие предприятия распределены по двум признакам: стажу работы (х) и часовой
выработки одного рабочего (у). Среднее значение по группам определяется по
5
формуле средней арифметической взвешенной по серединам группировочных
интервалов.
Как видно из таблицы 1, с ростом значений х итоговые групповые средние y j также увеличиваются. Это свидетельствует о наличии между х и у корреляционной связи.
Таблица 1 –Условная корреляционная таблица
Значение признака уi
Значение
признака xj
менее
7,5
7,5-12,5
12,5-17,5
более
17,5
Итого
Среднее значение по
группам y j
менее 2
2–4
4–6
6–8
Итого
1
2
–
–
3
3
3
3
–
9
–
7
9
5
21
–
–
4
3
7
4
12
16
8
40
8,75
12,08
15,31
16,87
14,00
О наличии и направлении связи можно судить и по «внешнему виду»
таблицы, т. е. по расположению в ней частот. Беспорядочное расположение частот в клетках таблицы чаще всего означает отсутствие связи между группировочными признаками или говорит о незначительной зависимости. Концентрация частот вдоль одной из диагоналей и центра таблицы почти всегда свидетельствует о наличии зависимости между х и у, близкой к линейной. Расположение по диагонали из верхнего левого угла в нижний правый говорит о прямой линейной связи, а из нижнего левого угла в верхний правый – об обратной.
3. Показатели тесноты корреляционной связи
Для оценки тесноты связи между факторным и результативным признаками в статистике используют разные показатели тесноты корреляционной связи – коэффициенты корреляции. Значения всех коэффициентов корреляции
находятся в пределах от – 1 до + 1. Положительное значение коэффициента
свидетельствует о наличии прямой связи между показателями, а отрицательное
– об обратной. Чем ближе значение коэффициента к 1, тем теснее связь между
показателями.
Простейшим показателем тесноты корреляционной связи является коэффициент Фехнера, основанный на сравнении поведения знаков отклонений «+»
или «–» индивидуальных значений каждого признака xi и yi от их средних величин ( xi x ) и ( yi y ). Рассмотрим метод параллельных рядов на примере данных, приведенных в таблице 2.
Средние значения факторного и результативного признака определяем по
формуле средней арифметической простой
6
n
x
x
i 1
n
n
i
158
17,56 ;
9
y
y
i 1
i
n
257,21
28,58 .
9
В столбцах 4 и 5 таблицы 2 поставим знаки отклонений каждого значения
х и у от их средних величин.
Таблица 2 – Знаковая таблица динамики объема производства и издержек
производства
Месяц
Издержки производства, х
Объем производства, у
1
Январь
Февраль
Март
Апрель
Май
Июнь
Июль
Август
Сентябрь
Итого
2
15,36
15,55
16,78
17,77
18,63
18,59
18,78
18,14
18,4
158
3
24,09
25,67
28,49
29,68
30,16
29,39
30,79
28,54
30,4
257,21
Знаки отклонений
xi x
yi y
4
5
+
+
+
+
+
+
+
+
+
+
+
-
Совпадения а или
несовпадения в
6
а
а
а
а
а
а
а
в
а
Определив знаки отклонений от средней величины в каждом ряду, и сопоставив все пары знаков, подсчитаем число их совпадений (С) и несовпадений
(Н). Затем необходимо рассчитать коэффициент Фехнера по формуле
КФ
С Н
С Н
(1)
Если число совпадений знаков равно числу несовпадений (∑С=∑Н), то
связь между исследуемыми величинами отсутствует и КФ = 0.
В нашем примере Коэффициент Фехнера равен
КФ
8 1
0,78 .
8 1
Как видно из столбца 6, совпадение знаков наблюдается в 8 случаях из 9,
что говорит о наличии корреляционной связи. Полученное значение показателя
тесноты связи характеризует высокую прямую зависимость между x и y. Так
как КФ зависит только от знаков и не учитывает величину самих отклонений х и
у от их средних величин, то он практически характеризует не столько тесноту
связи, сколько ее наличие и направление.
В тех случаях, когда качественные показатели не поддаются числовому
выражению, для оценки тесноты связи между признаками используются непараметрические методы. В основу этих методов положен принцип ранжирова-
7
ния членов вариационного ряда, в связи с чем, коэффициент тесноты связи
называются коэффициентами ранговой корреляции. Коэффициенты ранговой
корреляции также могут использоваться для измерения тесноты связи между
количественными показателями.
Ранг – это порядковый номер, который присваивается каждому индивидуальному значению признака х и у отдельно после их упорядочения по возрастанию или убыванию. При этом обе переменные величины принимают значения, соответствующие натуральным числам 1, 2, 3,…, n.
Коэффициенты корреляции, основанные на использовании рангов, были
предложены К. Спирмэном и М. Кендэлом.
Коэффициент ранговой корреляции Спирмэна
1
где
d
2
6 d 2
n(n 2 1)
,
(2)
– сумма квадратов разностей рангов;
n – число парных наблюдений.
Рассчитаем этот коэффициент по данным таблицы 2, проранжировав их
по возрастанию (таблица 3).
Таблица 3 – Расчет коэффициент ранговой корреляции Спирмэна
Месяц
Январь
Февраль
Март
Апрель
Май
Июнь
Июль
Август
Сентябрь
Итого
Издержки производства, х
Объем производства, у
тыс. руб.
15,36
15,55
16,78
17,77
18,63
18,59
18,9
18,08
18,46
15,36
тыс. руб.
24,43
26,17
28,82
30,16
29,68
29,79
30,4
28,64
30,3
24,43
ранг
1
2
3
4
8
7
9
5
6
1
ранг
1
2
4
7
5
6
9
3
8
1
Коэффициент ранговой корреляции Спирмэна: 1
d=ry – rx
d2
1
3
-3
-1
-2
2
1
9
9
1
4
4
28
6 28
0,77 .
9(81 1)
Полученное значение коэффициента корреляции рангов Спирмэна подтверждает наличие достаточно высокой прямой связи между исследуемыми
признаками.
Для оценки тесноты связи между несколькими признаками используется
множественный коэффициент ранговой корреляции, предложенный М. Кендэлом и Б. Смитом и получивший название коэффициент конкордации
8
12S
,
m ( n 3 n)
(3)
2
где m – число факторов;
n – число ранжируемых единиц;
S – сумма отклонений рангов от средней по сумме рангов:
n m
rij
n
m
1
1
S rij
1
n
1
2
.
Пример: Имеются следующие данные о работе 10 фирм, выпускающих однородную продукцию: объем продаж, рентабельность и проранжированные
данные о качестве продукции (таблица 4).
Порядок расчета коэффициента конкордации:
1. Проранжировать фирмы по объемам продаж и рентабельности – столбцы 4
и 6. Так как объемы продаж и рентабельность напрямую зависят от качества
производимой продукции, то ранжирование по этим показателям проводим по
убыванию, от большего значения к меньшим.
2. По каждой фирме рассчитывается сумма рангов.
3. По всем фирмам также находится сумма рангов.
4. Вычисляется средняя суммы рангов по всем фирмам. Средняя суммы рангов
по всем фирмам равна 165/10 = 16,5.
5. Рассчитывается квадрат отклонений суммы рангов от среднего по сумме
рангов (столбец 8).
6. Рассчитывается величина коэффициента конкордации.
Таблица 4 – Расчет коэффициента конкордации
№ п/п
1
1
2
3
4
5
6
7
8
9
10
Сумма
Качество, Объем продаж
ранг
тыс. руб. ранг
2
1
2
3
4
5
6
7
8
9
10
3
7695
7794
6854
6805
2457
4483
5894
5739
1258
4331
4
2
1
3
4
9
7
5
6
10
8
Рентабельность
%
ранг
5
18,4
19,7
18,1
17,7
14,1
13,6
14,8
12,7
11,2
11,9
6
2
1
3
4
6
7
5
8
10
9
Сумма
рангов
фирмы
7
5
4
9
12
20
20
17
22
29
27
165
Квадрат отклонений
суммы рангов от среднего по сумме рангов
8
132,25
156,25
56,25
20,25
12,25
12,25
0,25
30,25
156,25
110,25
686,5
9
Коэффициент конкордации равен
12 686,5
0,925 , следовательно,
32 (10 3 10)
между данными признаками существует очень тесная корреляционная связь.
Наибольшей популярностью среди показателей тесноты корреляционной
связи пользуется линейный коэффициент корреляции (r), предложенный в
начале 90-х годов XIX в. английским математиком К. Пирсоном. Линейный коэффициент корреляции позволяет учитывать не только знаки отклонений индивидуальных значений признака от средней, но и величины таких отклонений,
выраженные в относительных величинах, т.е. в долях среднего квадратического
отклонения (их еще называют нормированными отклонениями) и рассчитывается по формуле
n
r
( xi x)( yi y)
i 1
n x y
n
n
n
i 1
i 1
i
n xy xi y i
n
n
n 2
n 2
2
n
x
(
x
)
n
y
(
yi ) 2
i
i
i
i
i 1
i 1
i 1
,
(4)
где n – число единиц в совокупности.
Если r = 0, то корреляционная связь отсутствует. Если |r| = 1, то связь является функциональной.
Так как экономисты исследуют данные за большой период времени, то
для оценки тесноты связи можно воспользоваться шкалой Чеддока, в соответствии с которой:
при r = 0,1÷0,3 корреляционная связь слабая;
r = 0,3÷0,5 корреляционная связь умеренная;
r = 0,5÷0,7 корреляционная связь заметная;
r = 0,7÷0,99 корреляционная связь сильная (тесная).
Чем ближе значение коэффициента корреляции r к 1, тем теснее связь.
Знак «+» перед r говорит о прямой связи между показателями, а знак «–» – об
обратной.
Если коэффициент корреляции возвести в квадрат, то получим коэффициент детерминации (d=r2), который позволяет установить степень влияния
изучаемого фактора на величину результативного показателя.
Пример: Рассчитаем линейный коэффициент корреляции по данным таблицы 3. Для этого построим вспомогательную таблицу 5.
10
Таблица 5 – Расчет линейного коэффициента корреляции
месяц
1
Январь
Февраль
Март
Апрель
Май
Июнь
Июль
Август
Сентябрь
Сумма
Издержки производства, х
2
15,36
15,55
16,78
17,77
18,63
18,59
18,78
18,14
18,4
158
Объем производства, у
3
24,09
25,67
28,49
29,68
30,16
29,39
30,79
28,54
30,4
257,21
х2
ху
у2
4
235,93
241,8
281,57
315,77
347,08
345,59
352,69
329,06
338,56
2788,05
5
370,02
399,17
478,06
527,41
561,88
546,36
578,24
517,72
559,36
4538,22
6
580,33
658,95
811,68
880,90
909,63
863,77
948,02
814,53
924,16
7391,97
Линейный коэффициент корреляции, рассчитанный по формуле 4 равен
r
9 4538,22 158 257,21
(9 2788,05 (158) 2 )(9 7391,97 (257,21) 2 )
0,94 .
Полученное значение линейного коэффициента корреляции говорит о
возможном наличии весьма тесной связи между исследуемыми признаками.
Коэффициент детерминации d = r2 = 0,8836. Это означает, что 88,36% вариации объема выпуска продукции объясняется вариацией издержек производства.
Линейный коэффициент корреляции имеет ограниченную область применения: во-первых, распределение показателей в изучаемой совокупности должно подчиняться закону нормального распределения, а во-вторых, значения показателей должны иметь количественное выражение.
4. Уравнение регрессии
Динамика взаимной зависимости между переменными величинами получила название регрессии, а методика исследования регрессии называется регрессионным анализом.
Уравнение регрессии – математическая модель, в которой усредненное значение результативного признака у рассматривается как функция одного или нескольких факторных признаков.
По уравнению регрессии можно построить теоретическую линию регрессии
– линию, вокруг которой сгруппированы точки корреляционного поля, характеризующие направление и вид связи между признаками. Рассчитанные по уравнению регрессии значения результативного признака называются теоретиче-
11
скими. Они обычно обозначаются ŷ x или y x (читается: «игрек, выравненный по
х») и рассматриваются как функция от х, т.е. ŷ x = f(x).
Для отражения зависимости между результативным и факторными признаками используются уравнения парной и множественной регрессии. При прямолинейной зависимости они имеют вид:
уравнение парной регрессии:
ŷ x = a+bx,
(5)
уравнение множественной регрессии:
ŷ x = a+b1 x1+ b2 x2+…+ bn xn,
(6)
где а – свободный член уравнения при х=0; х1, х2,…,
xn – факторы, определяющие уровень результативного показателя;
b1, b2,…, bn – коэффициенты регрессии при факторных признаках, характеризующие уровень влияния каждого фактора на результативный признак в абсолютном выражении. Если b>0, то связь между признаками прямая, а если b
<0, то обратная. Геометрически этот коэффициент характеризует угол наклона
линии регрессии к оси абсцисс.
Расчет уравнения связи (5) сводится к определению коэффициентов а и b.
Для этого чаще всего используется метод наименьших квадратов (МНК), суть
которого заключается в нахождении таких параметров а и b, при которых сумма квадратов отклонений эмпирических значений результативного признака от
его теоретических значений минимальна
(7)
( yi y i ) 2 ( yi a bxi ) 2 min .
Определить параметры а и b, удовлетворяющие данному условию позволяет
следующая система уравнений
na b xi y i ,
2
a xi b xi xi yi .
(8)
Отсюда коэффициенты а и b равны
a y b x ,
xy n x y
b
2
x2 nx .
(9)
Коэффициент регрессии b используется для определения коэффициента
эластичности, который характеризует степень влияния изменения величины x
на изменение величины у:
Эх b
x
y
.
(10)
12
Если связь между результативным и факторными показателями носит криволинейный характер, то используются степенная, логарифмическая, параболическая и другие функции. Для простоты расчета чаще всего нелинейные формы
связи (путем логарифмирования или замены переменных) преобразуют в линейную форму.
Для характеристики связей между признаками наиболее часто используются
следующие типы математических функций:
yˆ x a bx
– линейная;
y x ab x
– степенная;
1
yx a b
– гиперболическая;
x
yˆ x a bx cx 2 – параболическая;
yˆ x a b lg x
– логарифмическая.
Для упрощения расчетов нелинейные формы связи, как правило, преобразуются в линейную форму путем логарифмирования или замены переменных.
Пример: Составим уравнение регрессии по данным таблицы 5. Результаты
расчета приведены в таблице 6.
Таблица 6 – Расчет уравнения линейной связи
Месяц
Издержки проОбъем произизводства, х
водства, у
1
2
3
Январь
15,36
24,09
Февраль
15,55
25,67
Март
16,78
28,49
Апрель
17,77
29,68
Май
18,63
30,16
Июнь
18,59
29,39
Июль
18,78
30,79
Август
18,14
28,54
Сентябрь
18,4
30,4
Сумма
158
257,21
x 17,55556 ; y 28,57889 ; n 9 .
х2
ху
4
235,930
241,803
281,568
315,773
347,077
345,588
352,688
329,060
338,560
2788,046
5
370,022
399,169
478,062
527,414
561,881
546,36
578,236
517,716
559,36
4538,219
Теоретический ряд
6
25,078
25,381
27,342
28,921
30,292
30,229
30,532
29,511
29,926
257,21
Система нормальных уравнений для нашего примера имеет вид:
9a 158b 257,21
158a 2788,046b 4538,219.
Коэффициент: b
xy nx y
x
2
nx 2
.
1,5948 , a y b x 0,5821 Расчет коэффициен-
тов выполнен с помощью табличного процессора Excel.
Уравнение регрессии имеет вид: y x 0,5821 1,5948x .
13
Подставляя последовательно в данное уравнение значения х из таблицы 6,
получим теоретические значения результативного признака y x (графа 6). Сумма
Объѐм производства, тыс. руб.
эмпирического и теоретического ряда совпадают, это свидетельствует о правильности проведенного расчета. Нанесем соответствующие точки на график и,
соединив их между собой, получим искомую линию регрессии (Рисунок 1).
35
30
y = 1,5948x + 0,5821
R² = 0,8809
25
20
15
10
5
14
15
16
17
18
19
20
Издержки производства, тыс. руб.
Эмпирическое корреляционное поле
Теоретическая линия регрессии
Рисунок 1 – Зависимость между объемом выпуска и издержками
производства
В рассмотренном примере Эх = 1,5948×(17,56/28,58) = 0,98. Это означает,
увеличение издержек производства на 1% сопровождается ростом объема производства продукции на 0,98%.