Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
2. Средние величины и показатели вариации
2.1. Понятие средней величины
Статистическая совокупность содержит некоторое количество статистических величин, имеющих, как правило, разные значения и признаки, что делает невозможным сравнение нескольких совокупностей в целом. Для этой цели применяется средняя величина, как обобщающий показатель совокупности, характеризующий уровень изучаемого явления или процесса.
Средняя величина всегда обобщает количественное выражение признака и погашает индивидуальные различия статистических величин совокупности, вызванные случайными обстоятельствами. Но по значению средней величины нельзя делать принципиальные выводы. Например, если один ученик имеет тетрадь в 48 листов, а другой - ни одной, то в среднем получается по 2 у.ш.т. на ученика. Но из этого нельзя заключать, что все ученики школьными тетрадями обеспечены.
Главное значение средних величин состоит в их обобщающей функции, то есть замене множества различных индивидуальных значений признака средней величиной, характеризующей всю совокупность явлений.
2.2. Виды средних величин
Виды средних величин различаются прежде всего тем, какое свойство, какой параметр исходной варьирующей массы индивидуальных значений признака должен быть сохранен неизменным.
Средней арифметической величиной называется такое среднее значение признака, при вычислении которого общий объем признака в совокупности сохраняется неизменным. Иначе можно сказать, что средняя арифметическая величина – среднее слагаемое. При ее вычислении общий объем признака мысленно распределяется поровну между всеми единицами совокупности. Исходя из определения, формула средней арифметической величины имеет вид (2):
. (2)
По формуле (2) вычисляются средние величины первичных признаков, если известны индивидуальные значения признака. Если изучаемая совокупность велика, исходная информация чаще представляет собой ряд распределения или группировку, как, например, табл. 1.
Таблица 1. Распределение студентов группы дневного отделения по возрасту
Возраст студентов, X
17
18
19
20
21
Число студентов, f
3
5
7
4
2
Средний возраст должен представлять собой результат равномерного распределения общего (суммарного) возраста всех студентов. Общий (суммарный) возраст всех студентов, согласно исходной информации табл. 1, можно получить как сумму произведений значений признака в каждой группе Xi, на число студентов с таким возрастом fi (частоты). Получим формулу (2):
, (2)
где i – число групп.
Такую форму средней арифметической величины называют взвешенной арифметической средней1 в отличие от простой средней, рассчитанной по формуле (2). В качестве весов здесь выступают количество единиц совокупности в разных группах. Название «вес» выражает тот факт, что разные значения признака имеют неодинаковую «важность» при расчете средней величины. «Важнее», весомее возраст студентов 18, 19, 20 лет, а такие значения возраста как 17, 20 или 21 при расчете средней не играют большой роли – их «вес» мал.
По формуле (2) по данным табл. 1 имеем:
= 18,857 (лет).
Как видим, средняя арифметическая величина может быть дробным числом, если даже индивидуальные значения признака могут принимать только целые значения. Ничего необычного для метода средних в этом не заключено, так как из сущности средней не следует, что она обязана быть реальным значением признака, которое могло бы встретиться у какой-либо единицы совокупности.
Если при группировке значения осредняемого признака заданы интервалами, то при расчете средней арифметической величины в качестве значения признака в группах принимают середины этих интервалов, то есть исходят из предположения о равномерном распределении единиц совокупности по интервалу значений признака. Для открытых интервалов в первой и последней группе, если таковые есть, значения признака надо определить экспертным путем исходя из сущности, свойств признака и совокупности. При отсутствии возможности экспертной оценки значения признака в открытых интервалах, для нахождения недостающей границы открытого интервала применяют размах (разность между значениями конца и начала интервала) соседнего интервала (принцип «соседа»).
Например, по данным табл. 2 можно минимальную и максимальную величину веса студентов определить затруднительно, поэтому воспользуемся принципом «соседа» – применим размах соседнего интервала, который у второго и предпоследнего составляет 10 кг, значит первый интервал будет от 55 до 65 кг, а последний – от 80 до 90 кг. Середины интервалов определяем как полусумму нижней и верхней границы интервалов.
Таблица 2. Распределение группы студентов по весу
Группы студентов
по весу, кг
Количество
студентов, чел.
Середина
интервала Xi’
Xi’fi
До 60
6
55
330
60 – 70
8
65
520
70 – 80
5
75
375
Более 80
2
85
170
Итого
21
66,429
1395
Средняя вес студентов, рассчитанный по формуле (2) с заменой точных значений признака в группах серединами интервалов, составил:
кг,
что и записано в итоговую строку в 3-м столбце табл. 2. Следует обратить внимание, что объемного показателя – это сумма, а итог по столбцам относительных показателей или средних групповых величин – средняя.
Средняя арифметическая величина обладает свойствами, знание которых полезно как при ее использовании, так и при ее расчете.
1) Сумма отклонений индивидуальных значений признака от его среднего значения равна нулю.
2) Если каждое индивидуальное значение признака умножить или разделить на постоянное число, то и средняя увеличится или уменьшится во столько же раз. Вследствие этого свойства индивидуальные значения признака можно сократить в c раз, произвести расчет средней и результат умножить на c.
3) Если к каждому индивидуальному значению признака прибавить или из каждого значения вычесть постоянное число, то средняя величина возрастет или уменьшится на это же число. Это свойство полезно использовать при расчете средней величины из многозначных и слабоварьирующих значений признака аналогично предыдущему свойству.
4) Если веса средней взвешенной умножить или разделить на постоянное число, средняя величина не изменится. Используя это свойство, при расчетах следует сокращать веса на их общий сомножитель либо выражать многозначные числа весов в более крупных единицах измерениях.
5) Сумма квадратов отклонений индивидуальных значений признака от средней арифметической меньше, чем от любого другого числа.
Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменную сумму квадратов исходных величин, то средняя будет являться квадратической средней величиной. Ее формула следующая:
. (2)
Главной сферой применения квадратической средней в силу пятого свойства средней арифметической величины является измерение вариации признака в совокупности.
Аналогично, если по условиям задачи необходимо сохранить неизменной сумму кубов индивидуальных значений признака при их замене на среднюю величину, мы приходим к средней кубической величине, имеющей вид:
. (2)
Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменным произведение индивидуальных величин, то следует применить геометрическую среднюю величину, имеющую следующий вид:
. (2)
Основное применение средняя геометрическая находит при определении средних относительных изменений, о чем сказано в теме «Ряды динамики». Геометрическая средняя величина дает наиболее точный результат осреднения, если задача также состоит в нахождении такого значения признака, который качественно был бы равноудален как от максимального, так и от минимального значения признака.
Когда статистическая информация не содержит частот f по отдельным вариантам Xi совокупности, а представлена как их произведение Xf, тогда применяется формула средней гармонической взвешенной, для получения которой обозначим Xf=w, откуда f=w/X, и, подставив эти обозначения в формулу (2), получим формулу (2):
. (2)
Таким образом, средняя гармоническая взвешенная применяется тогда, когда неизвестны действительные веса f, а известно w=Xf. В тех случаях, когда вес каждого варианта w=1, то есть индивидуальные значения X встречаются по 1 разу, применяется формула средней гармонической простой (2):
. (2)
Все рассмотренные выше виды средних величин принадлежат к общему типу степенных средних, имеющему следующий вид:
=. (2)
При m = 1 получаем среднюю арифметическую; при m = 2 – среднюю квадратическую;
при m = 3 – среднюю кубическую; при m = 0 – среднюю геометрическую; при m = –1 – среднюю гармоническую. Чем выше показатель степени m, тем больше значение средней величины (если индивидуальные значения признака варьируют). В итоге, можно построить следующее соотношение, которое называется правилом мажорантности средних:
≤ ≤ ≤ ≤ . (2)
2.3. Статистическое изучение вариации
Признаки, изучаемые статистикой, варьируются (отличаются друг от друга) у различных единиц совокупности в один и тот же период или момент времени. Например, величина внешнеторгового оборота (ВО) варьируется по подразделениям Федеральной таможенной службы; величина экспорта (импорта) варьируется по направлениям экспорта (по разным странам-партнерам по внешней торговле), по видам товаров и т.п.
Причиной вариации являются разные условия существования разных единиц совокупности. Например, огромное число причин влияет на масштабы внешней торговли различных стран мира.
Для управления и изучения вариации статистикой разработаны специальные методы исследования вариации, система показателей, с помощью которой вариация измеряется, характеризуются ее свойства.
Первым этапом статистического изучения вариации является построение ряда распределения (или вариационного ряда) – упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.
Существует 3 вида ряда распределения:
1) ранжированный ряд – это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака (например, таблица 3); если численность единиц совокупности достаточно велика ранжированный ряд становится громоздким, и в таких случаях ряд распределения строится с помощью группировки единиц совокупности по значениям изучаемого признака (ели признак принимает небольшое число значений, то строится дискретный ряд, а в противном случае – интервальный ряд);
2) дискретный ряд – это таблица, состоящая из двух столбцов (строк) – конкретных значений варьирующего признака Xi и числа единиц совокупности с данным значением признака fi – частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака;
3) интервальный ряд – это таблица, состоящая из двух столбцов (строк) – интервалов варьирующего признака Xi и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа в общей численности совокупностей (частостей).
Построим ряд распределения внешнеторгового оборота (ВО) по таможенным постам России, для чего необходимо провести статистическое наблюдение, то есть собрать первичный статистический материал, который представляет собой величину ВО по таможенным постам.
Результаты наблюдения ВО по 35 таможенным постам региона за отчетный период представим в виде ранжированного по возрастанию величины ВО ряда распределения (таблица 3).
Таблица 3. Внешнеторговый оборот (ВО) по 35 таможенным постам, млн.долл.
№ поста
ВО
№ поста
ВО
№ поста
ВО
1
24,16
13
54,12
25
65,31
2
27,06
14
54,91
26
69,24
3
29,12
15
55,74
27
71,39
4
31,17
16
55,91
28
77,12
5
37,08
17
56,07
29
79,12
6
39,11
18
56,80
30
84,34
7
41,58
19
56,93
31
86,89
8
44,84
20
57,07
32
91,74
9
46,80
21
58,39
33
96,01
10
48,37
22
59,61
34
106,84
11
51,44
23
59,95
35
111,16
12
52,56
24
62,05
Итого
2100,00
Построим интервальный ряд распределения ВО по таможенным постам, для чего необходимо выбрать оптимальное число групп (интервалов признака) и установить длину (размах) интервала. Поскольку при анализе ряда распределения сравнивают частоты в разных интервалах, необходимо, чтобы длина интервалов была постоянной2. Оптимальное число групп выбирается так, чтобы достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределении, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.
Чаще всего число групп в ряду распределения определяют по формуле Стерждесса (2) или (2):
(2) или , (2)
где k – число групп (округляемое до ближайшего целого числа); N – численность совокупности.
Из формулы Стерджесса видно, что число групп – функция объема данных (N).
Зная число групп, рассчитывают длину (размах) интервала3 по формуле (2):
, (2)
где Xмax и Xmin — максимальное и минимальное значения в совокупности.
В нашем примере про ВО по формуле Стерждесса (2) определим число групп:
k = 1 + 3,322lg35 = 1+ 3,322*1,544 = 6,129 ≈ 6.
Рассчитаем длину (размах) интервала по формуле (2):
h = (111,16 – 24,16)/6 = 87/6 = 14,5 (млн.долл.).
Теперь построим интервальный ряд с 6 группами с интервалом 14,5 млн.долл. (см. первые 3 столбца табл. 4).
Таблица 4. Интервальный ряд распределения ВО по таможенным постам, млн.долл.
i
Группы постов по величине ВО
Xi
Число постов
fi
Середина интервала
Хi’
Хi’fi
Накопл. частота
fi’
| Хi’ -| fi
(Хi’ -)2 fi
(Хi’ -)3 fi
(Хi’ -)4 fi
1
24,16 – 38,66
5
31,41
157,05
5
147,071
4326,001
-127246,23
3742856,97
2
38,66 – 53,16
7
45,91
321,37
12
104,400
1557,051
-23222,31
346344,16
3
53,16 – 67,66
13
60,41
785,33
25
5,386
2,231
-0,92
0,38
4
67,66 – 82,16
4
74,91
299,64
29
56,343
793,629
11178,84
157461,90
5
82,16 – 96,66
4
89,41
357,64
33
114,343
3268,572
93434,47
2670891,13
6
96,66 – 111,16
2
103,91
207,82
35
86,171
3712,758
159966,81
6892284,32
Итого
35
2128,85
513,714
13660,243
114110,66
13809838,86
Существенную помощь в анализе ряда распределения и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные по оси абсцисс, – это интервалы значений варьирующего признака, а высоты столбиков – частоты, соответствующие масштабу по оси ординат. Графическое изображение распределения таможенных постов в выборке по величине ВО приведено на рис. 1. Диаграмма такого типа называется гистограммой4.
Рис. 1. Гистограмма распределения Рис. 2. Полигон распределения
Данные табл. 4 и рис. 1 показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже – крайние (малые и большие) значения признака. Форма этого распределения близка к нормальному закону распределения, которое образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего значения.
Если имеется дискретный ряд распределения или используются середины интервалов (как в нашем примере про ВО – в таблице 4 в 4-м столбце рассчитаны середины интервалов как полусумма значений начала и конца интервала), то графическое изображение такого ряда называется полигоном (см. рис. 2)5, которое получается соединением прямыми точек с координатами Xi и fi.
Вторым этапом статистического изучения вариации является расчет характеристик ряда распределения, которые описывают количественно его структуру, строение. Такова, например, медиана – величина варьирующего признака, делящая совокупность на две равные части – со значением признака меньше медианы и со значением признака больше медианы6. В нашем примере про ВО (табл. 3) медиана – это 18-й таможенный пост из 35 с величиной ВО 56,8 млн.долл. Из этого примера видно принципиальное различие между медианой и средней величиной: медиана не зависит от значений на краях ранжированного ряда. Даже если бы ВО 35-го таможенного поста был в 10 раз больше, величина медианы не изменилась бы. Поэтому медиану часто используют как более надежный показатель типичного значения признака, нежели средняя арифметическая, если ряд значений неоднороден, включает резкие отклонения от средней. В интервальном ряду распределения для нахождения медианы применяется формула:
, (2)
где Ме – медиана;
X0 – нижняя граница интервала, в котором находится медиана;
h – величина (размах) интервала;
– накопленная частота в интервале, предшествующем медианному;
fMe – частота в медианном интервале.
В табл. 4 медианным является среднее из 35 значений, т.е. 18-е от начала значение ВО. Как видно из столбца накопленных частот (6-й столбец), оно находится в третьем интервале. Тогда по формуле (2):
(млн.долл.).
Аналогично медиане вычисляются значения признака, делящие совокупность на 4 равные по численности части – квартили, которые обозначаются заглавной латинской буквой Q с подписным значком номера квартиля. Ясно, что Q2 совпадает с Ме. Для первого и третьего квартилей приводим формулы и расчет по данным табл. 4:
(млн.долл.)
(млн.долл.)
Так как Q2 = Ме = 59,30 млн.долл., видно, что различие между первым квартилем и медианой (–15,87) больше, чем между медианой и третьим квартилем (12,89). Этот факт свидетельствует о наличии некоторой несимметричности в средней области распределения, что заметно и на рис. 1.
Значения признака, делящие ряд на 5 равных частей, называются квинтилями, на 10 частей – децилями, на 100 частей – перцентилями. Эти характеристики применяются при необходимости подробного изучения структуры ряда распределения7.
Безусловно, важное значение имеет такая величина признака, которая встречается в изучаемом ряду распределения чаще всего. Такую величину принято называть модой. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой. Обычно встречаются ряды с одним модальным значением признака. Если в ряду распределения встречаются 2 или несколько равных (и даже несколько различных, но больших чем соседние) значений признака, то он считается соответственно бимодальным или мультимодальным. Это свидетельствует о неоднородности совокупности, возможно, представляющей собой агрегат нескольких совокупностей с разными модами. В интервальном ряду распределения интервал с наибольшей частотой является модальным. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения (число единиц совокупности, приходящихся на единицу измерения варьирующего признака) достигает максимума. Это условное значение и считается точечной модой. Логично предположить, что такая точечная мода располагается ближе к той из границ интервала, за которой частота в соседнем интервале больше частоты в интервале за другой границей модального интервала. Отсюда получаем обычно применяемую формулу (2):
, (2)
где Мо – мода;
Х0 – нижнее значение модального интервала;
fMo – частота в модальном интервале;
fMo-1 – частота в предыдущем интервале;
fMo+1 – частота в следующем интервале за модальным;
h – величина интервала.
По данным табл. 4 рассчитаем точечную моду по формуле (2):
(млн.долл.).
К изучению структуры ряда распределения средняя арифметическая величина также имеет отношение, хотя основное значение этого обобщающего показателя другое. В интервальном ряду распределения ВО по таможенным постам средняя арифметическая рассчитывается как взвешенная по частоте середина интервалов X (расчет числителя – в 5-м столбце табл. 4) по формуле (2):
== 2128,85/35 = 60,82 (млн.долл.).
Различие между средней арифметической величиной (60,82), медианой (59,30) и модой (58,96) в нашем примере невелико. Чем ближе распределение по форме к нормальному закону, тем ближе значения медианы, моды и средней величины между собой.
Третьим этапом статистического изучения вариации является расчет показателей размера и интенсивности вариации. Простейшим показателем является размах вариации – абсолютная разность между максимальным и минимальным значениями признака из имеющихся в изучаемой совокупности значений (2):
. (2)
Поскольку величина размаха характеризует лишь максимальное различие значений признака, она не может измерять закономерную силу его вариации во всей совокупности. Предназначенный для данной цели показатель должен учитывать и обобщать все различия значений признака в совокупности без исключения. Число таких различий равно числу сочетаний по два из всех единиц совокупности (в нашем примере про ВО число сочетаний составит ). Однако нет необходимости рассматривать, вычислять и осреднять все отклонения. Проще использовать среднюю из отклонений отдельных значений признака от среднего арифметического значения признака, а таковых в нашем примере про ВО всего 35. Но среднее отклонение значений признака от средней арифметической величины согласно первому свойству последней равно нулю. Поэтому показателем силы вариации выступает не арифметическая средняя отклонений, а средний модуль отклонений, или среднее линейное отклонение (2):
. (2)
В нашем примере про ВО по данным табл. 4 среднее линейное отклонение вычисляется как взвешенное по частоте отклонение по модулю середин интервалов от средней арифметической величины (расчет числителя произведен в 7-м столбце табл. 4), т.е. по формуле (2):
(млн.долл.). (2)
Это означает, что в среднем величина ВО в изучаемой совокупности таможенных постов отклонялась от средней величины ВО в РФ на 14,678 млн.долл.
Простота расчета и интерпретации составляют положительные стороны показателя Л, однако математические свойства модулей «плохие»: их нельзя поставить в соответствие с каким-либо вероятностным законом, в том числе и с нормальным распределением, параметром которого является не средний модуль отклонений, а среднее квадратическое отклонение, обозначаемое малой греческой буквой сигма () или s и вычисляемое по формуле (2) – для ранжированного ряда и по формуле (2) – для интервального ряда:
; (2) . (2)
В нашем примере про ВО по данным табл. 4 среднее квадратическое отклонение величины ВО по формуле (2) составило (расчет числителя произведен в 8-м столбце табл. 4):
(млн.долл.).
Среднее квадратическое отклонение по величине в реальных совокупностях всегда больше среднего модуля отклонений. Разница между ними тем больше, чем больше в изучаемой совокупности резких, выделяющихся отклонений, что служит индикатором «засоренности» совокупности неоднородными с основной массой элементами. Для нормального закона распределения отношение . В нашем примере про ВО: , т.е. в изучаемой совокупности наблюдаются некоторое число таможенных постов с отличающимися от основной массы величинами ВО.
Квадрат среднего квадратического отклонения представляет собой дисперсию отклонений, на использовании которой основаны практически все методы математической статистики, ее формула имеет вид (2) – для несгруппированных данных (простая дисперсия) и (2) – для сгруппированных (взвешенная дисперсия):
; (2) . (2)
Еще одним показателем силы вариации, характеризующим ее не по всей совокупности, а лишь в ее центральной части, служит среднее квартильное расстояние (отклонение), т.е. средняя величина разности между квартилями, определяемая по формуле (2):
. (2)
В нашем примере про ВО по формуле (2): (млн.долл.).
Сила вариации в центральной части совокупности, как правило, меньше, чем в целом по всей совокупности. Соотношение между средним линейным отклонением и средним квартильным расстоянием служит для изучения структуры вариации: большое значение такого соотношения свидетельствует о наличии слабоварьирующего «ядра» и сильно рассеянного вокруг него окружения в изучаемой совокупности. Для нашего примера про ВО соотношение Л/q = 1,021, что говорит о совсем незначительном различии силы вариации в центральной части совокупности и на ее периферии.
Для оценки интенсивности вариации и для сравнения ее в разных совокупностях и тем более для разных признаков необходимы относительные показатели вариации, которые вычисляются как отношение абсолютных показателей силы вариации, рассмотренных ранее, к средней арифметической величине признака, то есть показатели (2) – (2):
• относительный размах вариации: ; (2)
• линейный коэффициент вариации: ; (2)
• квадратический коэффициент вариации: ; (2)
• относительное квартильное расстояние: . (2)
В нашем примере про ВО эти показатели составляют:
= 87/60,82 =1,43, или 143%; = 14,678/60,82 = 0,241, или 24,1%;
= 19,756/60,82 = 0,32, или 32%; d = 14,38/60,82 = 0,236, или 23,6%.
Оценка степени интенсивности вариации возможна только для каждого отдельного признака и совокупности определенного состава, она состоит в сравнении наблюдаемой вариации с некоторой обычной ее интенсивностью, принимаемой за норматив8. Так, для совокупности таможенных постов вариация величины ВО может быть определена как слабая, если < 25%, умеренная при 25% < < 50% и сильная при > 50%.
Различная сила, интенсивность вариации обусловлены объективными причинами, поэтому нельзя говорить о каком-либо универсальном критерии вариации (например, 33%), так как для разных явлений и признаков этот критерий различен. Например, цена продажи американского доллара в коммерческих банках Н.Новгорода 26 июля 2007 года варьировала от 25,45 до 26,00 при средней цене 25,595 руб., тогда по формуле (2) = (26,00–25,45)/25,595 = 0,021, или 2,1%. Такая малая вариация вызвана тем, что при значительном различии курса доллара немедленно произошел бы отлив покупателей из «дорогого» банка в более «дешевые». Напротив, цена килограмма говядины в разных регионах России варьирует очень сильно – на десятки процентов и более (это объясняется разными затратами на доставку товара из региона-производителя в регион потребитель).
Четвертым этапом статистического изучения вариации является расчет моментов распределения и показателей его формы. Для дальнейшего изучения характера вариации используются средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели называются центральные моменты распределения порядка, соответствующего степени, в которую возводятся отклонения (табл. 5) или просто моментов (нецентральные моменты в таможенной статистике практически не используются).
Таблица 5. Центральные моменты
Порядок момента
Формула
по несгруппированным данным
по сгруппированным данным
Первый μ1
Второй μ2
Третий μ3
Четвертый μ4
Величина третьего момента μ3 зависит, как и его знак, от преобладания положительных кубов отклонений над отрицательными кубами либо наоборот. При нормальном и любом другом строго симметричном распределении сумма положительных кубов строго равна сумме отрицательных кубов, поэтому на основе третьего момента строится показатель, характеризующий степень асимметричности распределения – коэффициент асимметрии (2):
. (2)
В нашем примере про ВО показатель асимметрии по формуле (2) составил (расчет числителя произведен в 9-м столбце табл. 4):
= 0,423 > 0, т.е. асимметрия значительна.
Английский статистик К.Пирсон на основе разности между средней арифметической величиной и модой предложил другой показатель асимметрии (2):
. (2)
В нашем примере по данным табл. 4 показатель асимметрии по формуле (2) составил: = 0,09.
Показатель асимметрии Пирсона (2) зависит от степени асимметричности в средней части ряда распределения, а показатель асимметрии (2) – от крайних значений признака. Таким образом, в нашем примере про ВО в средней части распределения наблюдается меньшая асимметрия, чем по краям, что видно и по графику (рис. 2). Распределения с сильной правосторонней и левосторонней асимметрией показаны на рис. 3.
Рис. 3. Асимметрия распределения
С помощью момента четвертого порядка характеризуется еще более сложное свойство рядов распределения – эксцесс (от англ. «излишество»). Показатель эксцесса рассчитывается по формуле (2):
. (2)
Чаще всего эксцесс интерпретируется как «крутизна» распределения, что не совсем верно. График распределения может выглядеть сколь угодно крутым в зависимости от силы вариации признака: чем слабее вариация, тем круче кривая распределения при данном масштабе. Не говоря уже о том, что, изменяя масштабы по осям абсцисс и ординат, любое распределение можно искусственно сделать «крутым» и «пологим». Чтобы показать, в чем состоит эксцесс распределения, и правильно его интерпретировать, нужно сравнить ряды с одинаковой силой вариации (одной и той же величиной σ) и разными показателями эксцесса. Чтобы не смешать эксцесс с асимметрией, все сравниваемые ряды должны быть симметричными. Такое сравнение изображено на рис. 4.
Рис. 4. Эксцесс распределения
Наличие положительного эксцесса означает наличие слабоварьирующего «ядра» и сильно рассеянного вокруг него окружения в изучаемой совокупности. Отрицательный эксцесс означает отсутствие такого «ядра».
В нашем примере по формуле (2) эксцесс составил (расчет числителя произведен в 10-м столбце табл. 4): , т.е. величина ВО по таможенным постам варьирует сильнее, чем при нормальном распределении.
Пятым этапом статистического изучения вариации является проверка соответствия ряда распределения теоретическому (нормальному, логнормальному, биномиальному, распределению Руассона и др.) с помощью критериев согласия, среди которых чаще всего применяют критерии Пирсона χ2, Колмогорова и Романовского. Данный этап не входит в программу изучения для студентов заочного отделения (в случае необходимости – см. конспект лекций для дневного отделения).
ИНДЕКСЫ
Индивидуальные индексы
Индекс – относительная величина, показывающая, во сколько раз уровень изучаемого явления в данных условиях отличается от уровня того же явления в других условиях. В статистическом анализе индексы используются не только для сопоставления уровней явлений, но и для установления значимости причин, вызывающих их изменение.
Если анализируются простые явления или не имеет значения структура сложных явлений, то применяются индивидуальные индексы. Например, такие простые явления как количество проданного товара q и его цена р своим произведением образуют такое сложное явление, как выручка от продаж Q=qp. Сравнение их значений по отдельности для конкретного товара в отчетном периоде времени относительно какого-либо базисного периода и дает индивидуальные индексы:
• количества товара iq = q1 /q0 ;
• его цены ip = p1/p0 ;
• выручки от продаж iQ = Q1 /Q0 .
Очевидно, что индивидуальный индекс сложного явления формируется из таких индексов простых его составляющих по типологической формуле его определения. То есть
iQ=iqip (2)
Подставив сюда индивидуальный индекс выручки, записываем: Q1/Q0= iqip
откуда получаем, что
Q1= iqipQ0 (2)
Формула (2) представляет собой двухфакторную мультипликативную модель сложного явления, позволяющую находить его изменение под влиянием каждого фактора в отдельности.
Мультипликативной она называется потому, что содержит только действие умножения. Если в формуле только сложение, или вычитание, или оба этих действия, то она называется аддитивной моделью. Если в формуле только деление, то она называется кратной моделью. Если в формуле сложение и вычитание с умножением и делением в любом сочетании, то она называется смешанной моделью.
Общее изменение выручки равняется =Q1-Q0, а ее изменение от каждого фактора определяется следующим образом. От изменения количества товара при постоянной цене (ip = 1) оно равно
q= iqQ0 - Q0 = (iq –1) Q0, (2)
а при изменении еще и цены оно будет равным
p= Q1 - Q0 -q = iqipQ0 - Q0 - (iq –1) Q0= iq(ip –1) Q0, (2)
Так, если выручка от продаж возросла с Q0 = 8 млн. руб. в предыдущем периоде до Q1 =12,18 млн. руб. в последующем при увеличении количества проданного товара на 5% (iq =1,05) и повышении цены на 45% (ip =1,45), то можно по формуле (2) записать, что
Q1 = 1,05*1,45*8 = 12,18 млн. руб.
При этом весь прирост выручки в сумме = 12,18-8=4,18 млн. руб. вызван увеличением обоих факторов. За счет изменения количества проданного товара он по формуле (2) составил q =(1,05-1)8=0,4 млн. руб., а за счет изменения цены по формуле (2) равняется p =1,05(1,45-1)8 =3,78 млн. руб. Для контроля отмечаем, что сумма факторных изменений выручки равна общему: 0,4+3,78=4,18 млн. руб.
Формулы (2) и (2) получены исходя из того, что в основной формуле выручки количество товара - первый фактор, а цена - второй. Если эти факторы поменять местами, то выручка и ее общее изменение останутся прежними, но изменения от каждого фактора будут другими.
Так, если основываться на формуле выручки вида Q = pq, то ее изменение за счет цены, как первого фактора, по аналогии с формулой (2) будет равняться
p = (ip –1) Q0 , (2)
Изменение выручки за счет количества товара, как второго фактора, по аналогии с формулой (2) определится по выражению
q= ip(iq –1) Q0. (2)
Суммарное по факторам изменение выручки по-прежнему равняется ее общему изменению.
В рассмотренном примере, считая цену первым фактором и применяя формулу (2), определяем, что изменение выручки за счет повышения цены равняется p = (1,45-1)8 = 3,6 млн. руб.
Изменение выручки за счет увеличения количества проданного товара, как второго фактора, по формуле (2) равно q = 1,45(1,05-1)8 = 0,58 млн. руб.
Общее изменение выручки осталось прежним: 3,6+0,58=4,18 млн. руб.
В связи с различными факторными изменениями выручки в зависимости от места фактора в ее основной формуле, встает вопрос, какую же формулу выручки применять для анализа. Это зависит от конкретной экономической ситуации. Если увеличение выручки обеспечивается главным образом за счет роста количества проданного товара при более или менее стабильной цене, то товар считается первым фактором, а цена — вторым. Если же увеличение выручки достигается в основном повышением цен без увеличения и даже при снижении количества проданного товара, то цена считается первым фактором, а товар — вторым.
Значит, очередность анализа по факторам вытекает из вида формулы сложного явления. Так, если материальные затраты М на выпуск продукции определяются как произведение ее количества q, удельного расхода материала т и его цены р, то типологическая формула имеет вид
М = qmp, (2)
а трехфакторная мультипликативная модель запишется как
M1=iqimipM0. (2)
Следовательно, можно записать следующие формулы факторных изменений материальных затрат
Меняя факторы местами в основной формуле (2), можно получать другие факторные формулы. Но всегда общее изменение материальных затрат, равное сумме факторных изменений, будет одинаковым.
Подобные мультипликативные модели можно формировать для неограниченного числа факторов.
6.2. Простые общие индексы
Индекс становится общим, когда в основной формуле показывается неоднородность изучаемого явления. Например, анализируется изменение выручки от продаж не одного, а всех или нескольких видов товаров. Тогда общий индекс количества проданных товаров будет равен
= (2)
Аналогично по ценам = (2)
Аналогично по выручке == (2)
Однако здесь двухфакторная мультипликативная модель не может выглядеть как в случае индивидуальных индексов, потому что произведение простых общих индексов количества товаров и цен не равно общему индексу выручки. То есть и убеждаемся в этом неравенстве, подставив значения общих индексов из формул (2) – (2).
В самом деле:
Как видим, в числителе и знаменателе левой части произведения сумм, а в числителе и знаменателе правой части сумма произведений и они, конечно, не адекватны.
Это вызвано тем, что записанные выше общие индексы простых явлений не отражают взаимосвязи между собой в сложном явлении и потому считаются не объективными. Поэтому они помечены штрихом и названы простыми общими индексами.
6.3. Агрегатные общие индексы
Объективность общим индексам придает их запись в агрегатном виде, предложенная Ласпейресом и Пааше.
Агрегатный общий индекс Ласпейреса для количества товаров как первого фактора выручки определяется по формуле
= (2)
Аналогично можно записать агрегатный общий индекс Ласпейреса для цен как первого фактора выручки, то есть
= (2)
В формулах Ласпейреса знаменатели по существу одинаковые, представляя собой выручку базисного периода, а числители разные. В формуле (2) это отчетная выручка в базисных ценах (количесгво товаров отчетное, а цены — базисные), в формуле (2) наоборот — базисная выручка в отчетных ценах (цены отчетные, а количество товаров — базисное).
Агрегатные общие индексы Пааше применяются ко вторым факторам мультипликативных моделей. Поэтому такой индекс для цен как второго фактора выручки определяется по формуле
= (2)
Аналогично можно записать агрегатный общий индекс Пааше для количества товаров как второго фактора выручки, то есть
= (2)
В формулах Пааше числители по существу одинаковые, представляя собой выручку отчетного периода, а знаменатели аналогичны числителям формул Ласпейреса.
Для облегчения запоминания студентами формул Ласпейреса и Пааше предлагаю обратить внимание на букву «ш» в слове «Пааше», которая напоминает «111» - так обозначены отчетные периоды в общей формуле (две единицы – в числителе, а одна – в знаменателе). В формуле же Ласпейреса – три нуля (наоборот к формуле Пааше).
Произведения количественного индекса Ласпейреса и ценового индекса Пааше, а также ценового индекса Ласпейреса и количественного индекса Пааше дают общий индекс выручки
. (2)
Однако вид этих формул показывает, что однофакторные индексы Ласпейреса и Пааше не равны между собой. То есть не равными являются количественные индексы Ласпейреса и Пааше и ценовые. Американский экономист Гершенкрон обширными расчетами установил, что по одному и тому же фактору индекс Ласпейреса обычно больше индекса Пааше и это открытие названо эффектом Гершенкрона.
Но в статистике должно быть одно значение индекса, поэтому американский экономист Фишер предложил применять среднюю геометрическую величину из индексов Ласпейреса и Пааше, определяя ее по формулам:
для количества товаров = (2)
для цен = (2)
6.4. Общие индексы как средние из индивидуальных
Помимо записи общих индексов в агрегатном виде, на практике часто используют формулы их расчета как величин, средних из соответствующих индивидуальных индексов.
Используя их формулы, можем записывать, что q1 = q0iq и p1 = p0ip, а также, что q0 =q1/iq и р0=р1/ip. Подставив отчетные значения количества товара и цены в формулу общего индекса выручки, получим
IQ===. (2)
Значит, общий индекс выручки можно определять только через ее базисные значения с умножением в числителе на индивидуальный индекс выручки по конкретному товару.
Теперь подставим базисные значения количества товара и цены в формулу общего индекса выручки. Тогда получим
IQ =. (2)
Значит, общий индекс выручки можно определять только через ее отчетные значения с делением в знаменателе на индивидуальный индекс выручки по конкретному товару.
Аналогично через индивидуальные индексы количества товара и цены можно выразить агрегатные общие индексы Ласпейреса и Пааше.
6.5. Индекс структурных сдвигов
Выше изложенные общие индексы применимы к изучению явлений, образованных как разными, так и однородными процессами. В последнем случае динамику итога можно показать через простые общие индексы отдельных факторов.
Для доказательства в формуле количественного индекса Ласпейреса числитель умножим и разделим на , а знаменатель – на . Тогда будем иметь
===, (2)
где= - простой общий индекс количества товаров;
=– доля или удельный вес конкретного товара в общем количестве;
=- агрегатный общий индекс структуры, доли или удельного веса, часто называемый индексом структурных сдвигов.
Следовательно, количественный индекс Ласпейреса равняется произведению простого общего индекса количества товаров и индекса структурных сдвигов. То есть
=, (2)
откуда для определения индекса структурных сдвигов получается довольно простая формула
=/. (2)
Используя формулу (2) в двухфакторной модели общего индекса выручки, получим его трехфакторную мультипликативную модель вида
IQ ==. (2)
Трехфакторная модель возможна к широкому применению в экономическом анализе для установления количественного влияния каждого фактора на вариацию сложного явления.
6.6. Факторный анализ общей и частной выручки
Приравнивая правую часть полученной трехфакторной модели и среднюю часть формулы (2), записываем выражение
=,
из которого заключаем, что общую выручку отчетного периода можно определить через общую выручку базисного периода и общие индексы по мультипликативной формуле
=. (2)
Эта формула в точности соответствует мультипликативной модели (2), что позволяет применять соответствующие формулы факторных изменений. Так, изменение общей выручки за счет изменения общего количества товаров определится по формуле
=. (2)
Изменение общей выручки за счет изменения долей конкретных товаров (структурных сдвигов) определяется по формуле
=. (2)
И наконец изменение общей выручки за счет изменения цен определяется по формуле
=. (2)
Естественно, сумма факторных изменений должна равняться общему итоговому изменению. То есть для контроля правильности анализа проверяется выполнение условия
=-=++. (2)
Факторный анализ изменения выручки по отдельному товару в составе общего товарооборота ведется на основе следующей трехфакторной мультипликативной модели
=, (2)
где = — индивидуальный индекс доли конкретного товара.
Следовательно, изменения выручки по конкретному товару за счет изменения каждого фактора могут определяться по формулам:
за счет изменения общего количества товаров (товарооборота)
=; (2)
за счет изменения доли конкретного товара
=; (2)
за счет изменения цены конкретного товара
=. (2)
Естественно, факторные изменения выручки по конкретному товару в сумме должны равняться полному изменению выручки по этому товару. То есть для контроля правильности анализа проверяется выполнение условия
=-=++. (2)
где j — признак конкретного товара.
Кроме того, полные изменения выручки по каждому товару в сумме должны равняться общему изменению выручки по всему товарообороту. То есть для контроля правильности анализа дополнительно проверяется выполнение условия =. При этом для облегчения необходимого контроля результаты факторного анализа представляются в виде факторной таблицы, рассмотренной ниже в методических указаниях по теме.
6.7. Индексы фиксированного (постоянного) и переменного состава
В полученной трехфакторной модели (2) второй и третий индексы запишем подробно по формулам их определения, а третий еще и сократим на . Тогда сначала будем иметь
IQ =====,
а, произведя очевидное сокращение и обозначив
=- индекс переменного состава, (2)
получим общий индекс выручки в виде формулы
IQ =. (2)
= называется индексом фиксированного (постоянного) состава. (2)
Следовательно, общий индекс выручки есть произведение простого общего индекса количества товаров и индекса переменного состава, который показывает изменение средних цен, т.е. .
Из формулы (2) можно заключить, что индекс переменного состава есть частное от деления общего индекса выручки на простой общий индекс количества товаров, тогда как ценовый индекс Пааше наравне с формулой Error: Reference source not found возможно определять как отношение общего индекса выручки и количественного индекса Ласпейреса.
Изложенные математические выкладки позволяют общий индекс выручки определять следующими семью способами
=======.
Результат расчета любым способом должен быть одинаковым и это яркий пример того, что истина всегда одна, хотя пути ее достижения могут быть разными.
6.8. Методические указания по теме
Процесс определения всевозможных индексов и факторного анализа сложного явления рассмотрим на примере двух фирм, выпускающих однородный продукт. Исходные данные приведены в табл. 6.
В табл. 6 итоговое количество продукта есть сумма его количества по фирмам, а итоговая цена представляет собой среднюю арифметическую взвешенную величину, найденную по формуле (2).
Таблица 6. Результаты работы двух фирм по выпуску однородного продукта
Фирма
Базисный период (база)
Отчетный период (отчет)
Количество продукта q0, тыс.ед.
Отпускная цена p0, руб/ед.
Количество продукта q1, тыс.ед.
Отпускная цена p1 , руб/ед.
1
100
20
140
15
2
150
22
160
25
Итого
250
21,20
300
20,23
Так, для базисного периода она равна
== (100*20+150*22)/(100+150) = 5300/250 = 21,20 руб./ед.
Для отчетного периода средняя цена равняется
== (14*15+160*25)/(140+160) = 6100/300 = 20,23 руб./ед.
После этого в табл. 7 ведется расчет индивидуальных индексов.
Таблица 7. Определение выручки и индивидуальных индексов
Выручка и индексы
База по фирмам
Отчет по фирмам
1
2
1
2
Выручка Q, тыс. руб.
100*20=2000
150*22=3300
140*15=2I00
160*25=4000
Изменение выручки , тыс. руб.
2100-2000=100
4000-3300=700
Доля фирм в количестве продукта d
100/250=0,4
150/250=0,6
140/300=0,467
160/300=0,533
Индивидуальные индексы:
количества iq
140/100=1,4
160/150=1,067
отпускных цен ip
15/20=0,75
25/22=1,136
доли фирм id
0,467/0,4=1,167
0,533/0,6=0,889
выручки iQ
2100/2000=1,05
4000/3300=1,212
Из табл. 7 заключаем, что общая выручка по периодам составляет:
= 2000+3300 =5300 тыс. руб.; = 2100+4000 =6100 тыс. руб.
Ее абсолютное изменение равно =6100-5300=800 тыс. руб., а общий индекс изменения равняется = 6100/5300 = 1,151.
Контроль правильности расчетов по табл. 7 заключается в следующем.
1. Общее изменение выручки должно равняться сумме ее частных изменений: = 100+700 = 800 тыс. руб.
2. Произведение факторных индивидуальных индексов по периодам должно равняться соответствующему индивидуальному индексу выручки: iQ1=1,4*0,75 =1,05; iQ2= 1,067*1,136 = 1,212.
3. Сумма долей количества продукта по периодам должна равняться
единице: =0,4+0,6 = 1; =0,467+0,533=1.
Затем переходим к расчету простых и агрегатных общих индексов. Простой общий индекс количества продукта - по формуле (2) =(140+160)/(100+150)=300/250=1,2.
Агрегатный общий количественный индекс Ласпейреса - по формуле Error: Reference source not found
==6320/5300=1,192.
Агрегатный общий ценовый индекс Пааше - по формуле Error: Reference source not found
==6100/6320=0,965.
Контроль по формуле IQ = = 1,192*0,965 = 1,151.
Агрегатный общий ценовый индекс Ласпейреса - по формуле Error: Reference source not found
==5250/5300=0,9905.
Агрегатный общий количественный индекс Пааше — по формуле Error: Reference source not found =6100/5250=1,162.
Контроль по формуле IQ = = 0,9905*1,162 =1,151.
Средняя геометрическая величина из индексов Ласпейреса и Пааше (по методике Фишера) по формулам (2) и (2)
==1,1769 ==0,9777
Общий индекс выручки как средний из ее индивидуальных индексов:
— с использованием только базисной выручки — по формуле (2)
IQ==1,151.
— с использованием только отчетной выручки — по формуле (2)
IQ==1,151.
Индекс структурных сдвигов — по формуле
===21,07/21,2=0,994.
Контроль по формуле == 1,2*0,994*0,965 = 1,151.
Индекс переменного состава — по формуле (2)
===20,33/21,2=0,959.
Контроль по формуле == 1,2*0,959=1,151.
Далее выполняется факторный анализ общей выручки. Так ее изменение за счет изменения общего количества продукта определится по формуле (2) = (1,2-1)*5300 = 1060 тыс. руб.
Изменение общей выручки за счет структурных сдвигов в количестве продукта находится по формуле (2) = 1,2*(0,994-1)*5300 = -40 тыс. руб.
Изменение общей выручки за счет изменения отпускных цен - по формуле (2)
=1,2*0,994*(0,965-1)*5300 = -220 тыс. руб.
Контроль по формуле (2): = 1060-40-220 = 800 тыс. руб.
Результаты факторного анализа общей выручки заносятся в табл. 8.
Наконец, ведется факторный анализ изменения частной выручки по формулам (2) – (2). Так у первой фирмы изменение выручки за счет изменения общего количества продукта равно
=(1,2-1)*2000 = 400 тыс. руб.
Аналогично у второй фирмы = (1,2-1)*3300 = 660 тыс. руб.
Контроль: =400+660=1060 тыс.руб.
У первой фирмы изменение выручки за счет структурных сдвигов в количестве продукта равно
=1,2*(1,167-1)*2000 = 400 тыс. руб.
Аналогично у второй фирмы =1,2*(0,889-1)*3300 = -440 тыс. руб.
Контроль: =400-440= -40 тыс.руб.
У первой фирмы изменение выручки за счет изменения отпускной цены равно
=1,2*1,167*(0,75-1)*2000 = -700 тыс. руб.
Аналогично у второй фирмы =1,2*0,889*(1,136-1)*3300 = 480 тыс. руб.
Контроль: = -700+480= -220 тыс.руб.
Результаты факторного анализа частной выручки также заносятся в табл. табл. 23, в которой все числа оказались взаимно согласованными.
Таблица 8. Результаты факторного анализа сложного явления
Фирма
Изменение выручки, тыс.руб.
В том числе за счет изменения
количества продукта
структурных сдвигов
отпускных цен
1
100
400
400
-700
2
700
660
-440
480
Итого
800
1060
-40
-220
Таблица. 23 свидетельствует о правильности проведенного факторного анализа, поскольку в ней факторные изменения выручки, как по столбцам, так и по строкам в сумме равняются ее изменениям по отдельным факторам, фирмам и в целом.
5. Статистическое изучение взаимосвязей
5.1. Понятие корреляционной зависимости
Один из наиболее общих законов объективного мира – закон всеобщей связи и зависимости между явлениями. Естественно, что, исследуя явления в самых различных областях, статистика неизбежно сталкивается с зависимостями как между количественными, так и между качественными показателями, признаками. Ее задача – обнаружить (выявить) такие зависимости и дать им количественную характеристику.
Среди взаимосвязанных признаков (показателей) одни могут рассматриваться как определенные факторы, влияющие на изменение других (факторные), а вторые (результативные) – как следствие, результат влияния первых.
Существует 2 вида связи между отдельными признаками: функциональная и стохастическая (статистическая), частным случаем которой является корреляционная.
Связь между двумя переменными x и y называется функциональной, если определенному значению переменной x строго соответствует одно или несколько значений другой переменной y, и с изменением значения x значение y меняется строго определенно. Такие связи обычно встречаются в точных науках. Например, известно, что площадь квадрата равна квадрату его стороны (S = a2). Это соотношение характерно для каждого единичного случая (квадрата), это так называемая жестко детерминированная связь. Такие связи можно встретить и в области экономических явлений. Например, при простой сдельной оплате труда связь между оплатой труда y и количеством изготовленных изделий x при фиксированной расценке за одну деталь, например 5 руб., легко выразить формулой .. Для изучения функциональных связей применяется индексный метод, который рассматривается в теме 7.
Существуют и иного рода связи, где взаимно действуют многие факторы, комбинация которых приводит к вариации значений результативного признака (показателя) при одинаковом значении факторного признака. Например, при изучении зависимости величины таможенных платежей, поступающих в федеральный бюджет, от количества товаров, перемещаемых через таможенную границу государства, (или от стоимостного товарооборота) последние будут рассматриваться как факторный признак, а величина таможенных платежей – как результативный. Между ними нет жестко детерминированной связи, т.е. при одном и том же количестве перемещенных через таможенную границу товаров (или стоимости товарооборота) величина таможенных платежей, перечисленных разными таможнями будет различной, так как кроме количества товаров, перемещаемых через таможенную границу государства, (или стоимость товарооборота) на величину таможенных платежей влияет много других факторов (различная номенклатура товаров, для которых применяются различные таможенные пошлины, сборы и льготы; различные таможенные режимы перемещения товаров через таможенную границу и др.), комбинация которых вызывает вариацию величины таможенных платежей.
Там, где взаимодействует множество факторов, в том числе и случайных, выявить зависимости, рассматривая единичный случай, невозможно. Такие связи можно обнаружить только при массовом наблюдении как статистические закономерности9. Выявленная таким образом связь именуется стохастической10.
Корреляционная связь11 – понятие более узкое, чем стохастическая связь, это ее частный случай. Именно корреляционные связи являются предметом изучения статистики.
Корреляционная связь – это связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами. Другими словами, корреляционную связь условно можно рассматривать как своего рода функциональную связь средней величины одного признака (результативного) со значением другого (или других). При этом, если рассматривается связь средней величины результативного показателя y с одним признаком-фактором x, корреляция называется парной, а если факторных признаков 2 и более (x1, x2, …, xm) – множественной12.
По характеру изменений x и y в парной корреляции различают прямую и обратную связь. При прямой связи значения обоих признаков изменяются в одном направлении, т.е. с увеличением (уменьшением) значений x увеличиваются (уменьшаются) и значения y. При обратной связи значения факторного и результативного признаков изменяются в разных направлениях.
Изучение корреляционных связей сводится в основном к решению следующих задач:
1) выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками;
2) измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов (эта часть исследования именуется корреляционным анализом);
3) определение уравнения регрессии – математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных – факторных признаков (эта часть исследования именуется регрессионным анализом).
Общий термин «корреляционно-регрессионный анализ» подразумевает всестороннее исследование корреляционных связей (т.е. решение всех трех задач).
Корреляционно-регрессионный анализ находит широкое применение в статистике. Рассмотрим его практическое применение на примере данных таможенной статистики внешней торговли России в 2006 году – таблица 9.
Таблица 9. Величина внешнеторгового оборота и таможенных платежей
Месяц
Оборот,
млрд.долл.
Платеж,
млрд.руб.
Январь
27,068
172,17
Февраль
29,889
200,90
Март
34,444
231,83
Апрель
33,158
232,10
Май
37,755
233,40
Июнь
37,554
236,99
Июль
37,299
246,53
Август
40,370
253,62
Сентябрь
37,909
256,43
Октябрь
38,348
261,89
Ноябрь
39,137
259,36
Декабрь
46,298
278,87
В качестве факторного признака x примем стоимостной внешнеторговый товарооборот в млрд. долл. США, а в качестве результативного признака y – величину таможенных платежей в федеральный бюджет в млрд. руб.
5.2. Методы выявления и оценки корреляционной связи
Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд методов.
1. Рассмотрение параллельных данных (значений x и y в каждой из n единиц). Единицы наблюдения необходимо расположить по возрастанию значений факторного признака х (как в таблице справа) и затем сравнить с ним (визуально) поведение результативного признака у.
В нашей задаче в 6 случаях по мере увеличения значений x увеличиваются и значения y, а в 5 случаях этого не происходит, поэтому затруднительно говорить о прямой связи между х и у.
2. Графический метод – это графическое изображение корреляционной зависимости. Для этого, имея n взаимосвязанных пар значений x и y и пользуясь прямоугольной системой координат, каждую такую пару изображают в виде точки на плоскости с координатами x и y. Совокупность полученных точек представляет собой корреляционное поле (рис. 5), а соединяя последовательно нанесенные точки отрезками, получают ломаную линию, именуемую эмпирической линией регрессии (рис. 6).
Рис. 5. Корреляционное поле Рис. 6. Эмпирическая линия регрессии
Визуально анализируя график, можно предположить характер зависимости между признаками x и y. В нашей задаче эмпирическая линия регрессии (рис.6) похожа на восходящую прямую, что позволяет выдвинуть гипотезу о наличии прямой зависимости между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджет.
3. Коэффициент корреляции знаков (Фехнера) – простейший показатель тесноты связи, основанный на сравнении поведения отклонений индивидуальных значений каждого признака (x и y) от своей средней величины. При этом во внимание принимаются не величины отклонений () и (), а их знаки («+» или «–»). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений (С) и несовпадений (Н). Тогда коэффициент Фехнера рассчитывается как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:
. (2)
Очевидно, что если знаки всех отклонений по каждому признаку совпадут, то КФ=1, что характеризует наличие прямой связи. Если все знаки не совпадут, то КФ=–1 (обратная связь). Если же С=Н, то КФ=0. Итак, как и любой показатель тесноты связи, коэффициент Фехнера может принимать значения от 0 до 1. Однако, если КФ=1, то это ни в коей мере нельзя воспринимать как свидетельство функциональной зависимости между х и у.
Средние значения факторного и результативного признаков определяем по формуле средней арифметической простой (2):
; .
В двух последних столбцах таблицы 10 приведены знаки отклонений каждого х и у от своей средней величины. Число совпадений знаков – 10, а несовпадений – 2, тогда определяем коэффициент корреляции знаков (Фехнера) по формуле (2):
КФ=
Таблица 10. Вспомогательная таблица для расчета коэффициента Фехнера
№
п/п
x
y
x –
y –
1
27,068
172,17
–
–
2
29,889
200,90
–
–
3
33,158
232,10
–
–
4
34,444
231,83
–
–
5
37,299
246,53
+
+
6
37,554
236,99
+
–
7
37,755
233,40
+
–
8
37,909
256,43
+
+
9
38,348
261,89
+
+
10
39,137
259,36
+
+
11
40,370
253,62
+
+
12
46,298
278,87
+
+
Итого
439,229
2864,09
Обычно такое значение показателя тесноты связи характеризует заметную прямую зависимость между x и y, однако, следует иметь в виду, что поскольку КФ зависит только от знаков и не учитывает величину самих отклонений х и у от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление.
4. Линейный коэффициент корреляции – самый популярный измеритель тесноты линейной связи между двумя количественными признаками x и y. Он основан на предположении, что при полной независимости13 признаков x и у отклонения значений факторного признака от средней () носят случайный характер и должны случайно сочетаться с различными отклонениями (). При наличии значительного перевеса совпадений или несовпадений таких отклонений делается предположение о наличии связи между x и y.
В отличие от КФ в линейном коэффициенте корреляции учитываются не только знаки отклонений от средних величин, но и значения самих отклонений, выраженные для сопоставимости в единицах среднего квадратического отклонения t:
и .
Линейный коэффициент корреляции r представляет собой среднюю величину из произведений нормированных отклонений для x и у:
, (2) или . (2)
Числитель формулы (2), деленный на n, представляющий собой среднее произведение отклонений значений двух признаков от их средних значений, называется коэффициентом ковариации – это мера совместной вариации факторного x и результативного y признаков:
(2)
Недостатком коэффициента ковариации является то, что он не нормирован, в отличие от линейного коэффициента корреляции. Очевидно, что линейный коэффициент корреляции представляет собой частное от деления ковариации между х и у на произведение их средних квадратических отклонений:
. (2)
Путем несложных математических преобразований14 можно получить и другие модификации формулы линейного коэффициента корреляции, например:
, (2) , (2)
, (2) . (2)
Линейный коэффициент корреляции может принимать значения от –1 до +1, причем знак определяется в ходе решения. Например, если , то r по формуле (2) будет положительным, что характеризует прямую зависимость между х и у, в противном случае (r<0) – обратную связь. Если , то r=0, что означает отсутствие линейной зависимости между х и у, а при r=1 – функциональная зависимость между х и у. Следовательно, всякое промежуточное значение r от 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной. Существует эмпирическое правило (шкала Чэддока) для оценки тесноты связи, представленное в таблице 11.
Таблица 11. Шкала Чэддока
| r |
Теснота связи
менее 0,1
отсутствует линейная связь
0,1 ÷ 0,3
слабая
0,3 ÷ 0,5
умеренная
0,5 ÷ 0,7
заметная
более 0,7
сильная (тесная)
Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения r к 0 в одних случаях может означать отсутствие связи между х и у, а в других свидетельствовать о том, что зависимость не линейная.
В нашей задаче для расчета r построим вспомогательную таблицу 12.
Таблица 12. Вспомогательные расчеты линейного коэффициента корреляции
№
п/п
x
y
tx
ty
tx ty
xy
1
27,068
172,17
90,905
4422,804
-1,993
-2,408
4,799
634,078
4660,298
2
29,889
200,90
45,070
1426,888
-1,403
-1,368
1,919
253,594
6004,700
3
33,158
232,10
11,864
43,220
-0,720
-0,238
0,171
22,644
7695,972
4
34,444
231,83
4,659
46,843
-0,451
-0,248
0,112
14,773
7985,153
5
37,299
246,53
0,485
61,714
0,146
0,284
0,041
5,472
9195,322
6
37,554
236,99
0,906
2,836
0,199
-0,061
-0,012
-1,603
8899,922
7
37,755
233,40
1,328
27,817
0,241
-0,191
-0,046
-6,079
8812,017
8
37,909
256,43
1,707
315,270
0,273
0,643
0,176
23,199
9721,005
9
38,348
261,89
3,047
538,975
0,365
0,841
0,307
40,525
10042,958
10
39,137
259,36
6,424
427,904
0,530
0,749
0,397
52,430
10150,572
11
40,37
253,62
14,195
223,378
0,788
0,541
0,426
56,310
10238,639
12
46,298
278,87
94,004
1615,705
2,027
1,455
2,950
389,722
12911,123
Итого
439,229
2864,09
274,594
9153,353
11,241
1485,066
106317,681
В нашей задаче: = = 4,784; == 27,618.
Тогда линейный коэффициент корреляции по формуле (2): r = 11,241/12 = 0,937.
Аналогичный результат получаем по формуле (2): r = 1485,066/(12*4,784*27,618) = 0,937
Или по формуле (2): r = (106317,681/12 – 36,602*238,674) / (4,784*27,618) = 0,937,
Найденное значение свидетельствует о том, что связь между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджет очень близка к функциональной (сильная по шкале Чэддока).
Проверка коэффициента корреляции на значимость (существенность). Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x и y, на основе которых он рассчитан. Другими словами, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями. Для того, чтобы оценить существенность (значимость) самого r и, соответственно, реальность измеряемой связи между х и у, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции σr. Оценка существенности (значимости) r основана на сопоставлении значения r с его средней квадратической ошибкой: .
Существуют некоторые особенности расчета σr в зависимости от числа наблюдений (объема выборки) – n.
1. Если число наблюдений достаточно велико (n>30), то σr рассчитывается по формуле (2):
. (2)
Обычно, если >3, то r считается значимым (существенным), а связь – реальной. Задавшись определенной вероятностью, можно определить доверительные пределы (границы) r = (), где t – коэффициент доверия, рассчитываемый по интегралу Лапласа (см. Приложение 1).
2. Если число наблюдений небольшое (n<30), то σr рассчитывается по формуле (2):
, (2)
а значимость r проверяется на основе t-критерия Стьюдента, для чего определяется расчетное значение критерия по формуле (2) и сопоставляется c tТАБЛ.
. (2)
Табличное значение tТАБЛ находится по таблице распределения t-критерия Стьюдента (см. Приложение 2) при уровне значимости α=1-β и числе степеней свободы ν=n–2. Если tРАСЧ> tТАБЛ , то r считается значимым, а связь между х и у – реальной. В противном случае (tРАСЧ< tТАБЛ) считается, что связь между х и у отсутствует, и значение r, отличное от нуля, получено случайно.
В нашей задаче число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам (2) и (2):
= 0,349/3,162 = 0,110; = 0,937/0,110 = 8,482.
Из приложения 2 видно, что при числе степеней свободы ν = 12 – 2 = 10 (в 10-й строке) и вероятности β = 95% (уровень значимости α =1 – β = 0,05) tтабл=2,2281, а при вероятности 99% (α=0,01) tтабл=3,169, значит, tРАСЧ > tТАБЛ, что дает возможность считать линейный коэффициент корреляции r = 0,937 значимым.
5. Подбор уравнения регрессии15 представляет собой математическое описание изменения взаимно коррелируемых величин по эмпирическим (фактическим) данным. Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака у со значениями факторного признака х.
Уравнение регрессии можно также назвать теоретической линией регрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими. Они обычно обозначаются или (читается: «игрек, выравненный по х») и рассматриваются как функция от х, т.е. = f(x).
Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х и у, — одна из основных задач регрессионного анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.
Для аналитической связи между х и у могут использоваться виды уравнений, приведенные в таблице Error: Reference source not found (при условии замены t на x). Обычно зависимость, выражаемую уравнением прямой, называют линейной (или прямолинейной), а все остальные — криволинейными зависимостями.
Выбрав тип функции (таблица Error: Reference source not found), по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака были бы максимально близки к эмпирическим данным.
Существует несколько методов нахождения параметров уравнения регрессии. Наиболее часто используется метод наименьших квадратов (МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.
.
Поставив данное условие, легко определить, при каких значениях a0, a1 и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной. Данный метод уже использовался нами в теме 6 «Статистическое изучение динамики ВЭД», поэтому, воспользуемся формулой Error: Reference source not found для нахождения параметров теоретической линии регрессии, заменив параметр t на x:
(2)
Выразив из первого уравнения системы (2) a0, получим16:
. (2)
Подставив (2) во второе уравнение системы (2), затем разделив обе его части на n, получим:
. (2)
Применяя 3 раза формулу средней арифметической, получим:
. (2)
Раскрыв скобки и перенеся члены без a1 в правую часть уравнения, выразим a1:
. (2)
Параметр a1 в уравнении линейной регрессии называется коэффициентом регрессии, который показывает на сколько изменяется значение результативного признака y при изменении факторного признака x на единицу.
Исходные данные и расчеты для нашего примера представим в таблице 13.
Таблица 13. Вспомогательные расчеты для нахождения уравнения регрессии
№
п/п
x
y
x2
xy
1
27,068
172,17
732,677
4660,298
187,124
223,612
2657,453
2
29,889
200,90
893,352
6004,700
202,377
2,181
1317,497
3
33,158
232,10
1099,453
7695,972
220,052
145,147
346,774
4
34,444
231,83
1186,389
7985,153
227,006
23,274
136,153
5
37,299
246,53
1391,215
9195,322
242,443
16,706
14,202
6
37,554
236,99
1410,303
8899,922
243,821
46,669
26,495
7
37,755
233,40
1425,440
8812,017
244,908
132,441
38,864
8
37,909
256,43
1437,092
9721,005
245,741
114,256
49,940
9
38,348
261,89
1470,569
10042,958
248,115
189,761
89,122
10
39,137
259,36
1531,705
10150,572
252,381
48,710
187,871
11
40,370
253,62
1629,737
10238,639
259,048
29,459
415,076
12
46,298
278,87
2143,505
12911,123
291,100
149,580
2748,498
Итого
439,229
2864,09
16351,437
106317,681
2864,115
1121,795
8027,945
По формуле (2): = 5,407.
По формуле (2): a0 = 238,674 – 5,407*36,602 = 40,767.
Отсюда получаем уравнение регрессии:=40,767+5,407x, подставляя в которое вместо x эмпирические значения факторного признака (2-й столбец таблицы 13), получаем выравненные по прямой линии теоретические значения результативного признака (6-й столбец таблицы 13)17. Для иллюстрации различий между эмпирическими и теоретическими линиями регрессии построим график (рисунок 7).
Рис. 7. График эмпирической и теоретической линий регрессии
Из рисунка 7 видно, что небольшие различия между эмпирической и теоретической линиями регрессии существуют, поэтому необходимо оценить существенность коэффициента регрессии и уравнения связи, для чего определяют среднюю ошибку параметров уравнения регрессии и сравнивают их с этой ошибкой.
Расчет ошибок параметров уравнения регрессии основан на использовании остаточной дисперсии, характеризующей расхождение (отклонение) между эмпирическими и теоретическими значениями результативного признака. Для линейного уравнения регрессии () средние ошибки параметров a1 и a2 определяются по формулам (2) и (2) соответственно:
, (2) , (2) . (2)
Значимость параметров проверяется путем сопоставления его значения со средней ошибкой. Обозначим это соотношение как t:
, (2)
При большом числе наблюдений (n>30) параметр ai считается значимым, если >3.
Если выборка малая (n<30), то значимость параметра ai проверяется путем сравнения с табличным значения t-критерия Стьюдента при числе степеней свободы ν=n-2 и заданном уровне значимости α (Приложение 2). Если рассчитанное по формуле (2) значение больше табличного, то параметр считается значимым.
В нашем примере по формуле (2): = 9,669.
Находим среднюю ошибку параметра a0 по формуле (2): = 3,06.
Теперь находим среднюю ошибку параметра a1 по формуле (2): =0,639.
Теперь по формуле (2) для параметра a0: =13,3.
И по той же формуле для параметра a1: =8,46.
Так как выборка малая, то задавшись стандартной значимостью α=0,05 находим в 10-й строке Приложения 2 табличное значение tα=2,23, которое значительно меньше полученных значений 13,3 и 8,46, что свидетельствует о значимости обоих параметров уравнения регрессии.
Наряду с проверкой значимости отдельных параметров осуществляется проверка значимости уравнения регрессии в целом или, что то же самое, проверка адекватности модели с помощью критерия Фишера по Приложению 3. Данный метод уже использовался нами для проверки адекватности уравнения тренда в предыдущей теме, поэтому воспользовавшись формулой Error: Reference source not found в нашем примере получим18:
Сравнивая расчетное значение критерия Фишера Fр = 71,56 с табличным Fт = 4,96, определяемое по Приложению 3 при числе степеней свободы ν1 = k – 1 = 2 –1 = 1 и ν2 = n – k = 12 – 2 = 10 (т.е. 1-й столбец и 10-я строка) и стандартном уровне значимости α=0,05, можно сделать вывод, что уравнение регрессии значимо.
6. Коэффициент эластичности показывает, на сколько процентов изменяется в среднем результативный признак y при изменении факторного признака x на 1%. Он рассчитывается на основе уравнения регрессии:
, (2)
где – первая производная уравнения регрессии y по x.
Коэффициент эластичности – величина переменная, т.е. изменяется с изменением значений фактора x. Так, для линейной зависимости :
. (2)
Применительно к рассмотренному уравнению регрессии, выражающему зависимость величины таможенных платежей в федеральный бюджет от величины стоимостного внешнеторгового оборота (= 40,767 + 5,407x), коэффициент эластичности по формуле (2): .
Подставляя в данное выражение разные значения x, получаем и разные значения Э. Так, например, при x = 40 коэффициент эластичности = 0,84, а при x = 50 соответственно = 0,87 и т.д. Это значит, что при увеличении внешнеторгового товарооборота x с 40 до 40,4 млрд.долл. (т.е. на 1%), величина таможенных платежей возрастет в среднем на 0,84% прежнего уровня; при увеличении x с 50 до 50,5 млрд.долл. (т.е. на 1%) y возрастет на 0,87% и т.д.