Показатели вариации
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
1
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение высшего образования
«ТИХООКЕАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Институт экономики и управления
Кафедра «Экономическая теория и национальная экономика»
Лекция 5. Показатели вариации
Автор: Строева Г. Н.
2
Лекция 5. Показатели вариации
1. Показатели центра распределения и структуры вариации
2. Показатели размера вариации
3. Показатели формы вариации
1. Показатели центра распределения и структуры вариации
Вариация – это различия индивидуальных значений признака у единиц
изучаемой совокупности. Наличие вариации у отдельных единиц совокупности
обусловлено влиянием большого числа факторов на формирование уровня признака. Изучение характера и степени вариации признаков у отдельных единиц
совокупности является важнейшим вопросом всякого статистического исследования. Для описания меры изменчивости признаков используют разнообразные
показатели вариации:
показатели структуры вариационного ряда распределения – мода, медиана, квартили, децили, перцентили;
показатели размера вариации – размах вариации, среднее линейное отклонение, средний квадрат отклонений (дисперсия);
показатели формы вариационного ряда распределения – асимметрия,
эксцесс.
Для характеристики среднего значения признака в вариационном ряду
используются средняя арифметическая, мода и медиана.
Средняя арифметическая величина рассчитывается по формуле
n
x
x
i 1
n
fi
i
f
i 1
,
(1)
i
где хi – варианты значений признака для дискретного ряда и середины интервалов для вариационного ряда;
fi – частота повторений.
В интервальных рядах мода вычисляется по формуле
M o X Mo iМо
( f Mо
f Mо f Mо1
,
f Mо1 ) ( f Mо f Mо 1 )
где ХМо – нижняя граница модального интервала;
iМо – величина модального интервала;
fМо – частота модального интервала;
fМо-1 – частота интервала, предшествующего модальному;
(2)
3
fМо-+1 – частота интервала, следующего за модальным.
Модальный интервал – это интервал, имеющий наибольшую частоту.
Рассчитаем моду по данным нашего примера (Таблица 3).
Модальный интервал – интервал с границами от 12700 до14200, так как он
имеет наибольшую частоту – 7. Величину моды определяем по формуле 2:
Mo 12700 1500
76
12700 500 13250 .
(7 6) (7 5)
Полученное значение говорит о том, что большинство работников предприятия имеют месячную заработную плату в размере 13 250 руб.
Таблица 3 – Месячная заработная плата работников
Месячная заработная плата, руб.
8200 – 9700
9700 – 11200
11200 – 12700
12700 – 14200
14200 – 15700
15700 – 17200
Итого
Число работников, чел.
4
5
6
7
5
3
30
Значение медианы в интервальном ряду определяют по формуле
f
M e X Мe i
2
S Мe1
f Мe
,
(3)
где ХМе – нижняя граница медианного интервала;
iМе – величина медианного интервала;
SМе-1 – накопленная частота в интервале, предшествующем медианному;
fМе – частота медианного интервала.
Медианным называют первый интервал, где сумма накопленных частот
превышает половину наблюдений от общего числа всех наблюдений.
Определим величину медианы для данных, приведенных в таблице 3. Дополним таблицу 3 столбцом, содержащим накопленные частоты, и получим
таблицу 4.
Медианный интервал также имеет границы от 12700 до 14200, так как это
первый интервал, в котором сумма накопленных частот превысила половину от
общего числа наблюдений (15). Медину определяем по формуле (3):
30
15
Me 12700 1500 2
12700 0 12700 .
22
4
Таблица 4 – Месячная заработная плата работников
Месячная заработная плата, руб.
8200 – 9700
9700 – 11200
11200 – 12700
12700 – 14200
14200 – 15700
15700 – 17200
Итого
Число работников, чел.
4
5
6
7
5
3
30
Накопленная частота
4
9
15
22
27
30
Полученное значение говорит о том, что одна половина работников предприятия имеет месячную заработную плату не выше, а другая половина – не
ниже 12 700 рублей.
Моду и медиану также можно определить графически.
Мода определяется по гистограмме. На гистограмме выбирается самый высокий прямоугольник, что соответствует наибольшей частоте изучаемого признака и поэтому он будет модальным. Затем правая вершина этого прямоугольника
соединяется с правой вершиной предшествующего прямоугольника, а левая вершина модального прямоугольника соединяется с левой вершиной прямоугольника, следующего за модальным интервалом. Абсцисса пересечения этих двух линий и будет модой распределения (Рисунок 4).
fi
8
7
6
5
4
3
2
1
8200 –
9700
9700 –
11200
11200 –
12700
12700 –
14200
14200 –
15700
15700 –
17200
Заработная плата, руб.
Рисунок 4 – Графическое определение моды
Медиана графически определяется по кумуляте. Для этого на шкале
накопленных частот находят точку, соответствующую половине общей суммы
частот. Из этой точки проводят прямую линию параллельную оси абсцисс, до
пересечения с кумулятой. Абсцисса точки пересечения является медианой (Рисунок 5).
Накопленная частота
5
35
30
25
20
15
10
5
8950
10450
11950
13450
14950
Месячная заработная плата, руб.
16450
Рисунок 5 – Графическое определение медианы
На практике медиана применяется в качестве средней в случаях больших
колебаний в значениях варьирующего признака.
Наряду с медианой для более полной характеристики структуры изучаемой совокупности применяют квартили и децили.
Квартили – это значения исследуемого признака, которые делят ряд по
сумме частот на четыре равные части. Нижний квартиль (Q1) отделяет 1/4 часть
или 25% статистической совокупности с наименьшими значениями признака, а
верхний (Q3) отсекает 25% с наибольшими значениями признака. Средний
квартиль (Q2) совпадает с медианой.
Значения квартилей Q1 и Q3 определяют по формулам
Q1 X Q1
1 n
f i S Q1 1
4 i 1
,
i
f Q1
(4)
Q3 X Q3
3 n
f i SQ31
4 i 1
,
i
f Q3
(5)
где X Q – нижняя граница интервала, содержащего нижний квартиль;
1
i – величина интервала;
S Q 1 – накопленная частота в интервале, предшествующем интервалу, содер1
жащему нижний квартиль;
S Q 1 – накопленная частота в интервале, предшествующем интервалу, содер3
жащему верхний квартиль;
f Q – частота интервала, содержащего нижний квартиль;
1
6
f Q3 – частота интервала, содержащего верхний квартиль.
Дециль характеризует распределение величин совокупности, при которой
девять значений дециля делят ее на десять равных частей. Любая из этих десяти
частей составляет 1/10 всей совокупности. Так, первый дециль отделяет 10 %
наименьших величин, лежащих ниже дециля от 90 % наибольших величин, лежащих выше дециля.
Дециль любого порядка может быть рассчитан по формуле
n
dk Y0 Ld
K f i sumfd 1
i 1
fd
,
(6)
где Y0 – нижняя граница интервала k-го дециля;
Ld – величина интервала k-го дециля;
К – кумулятивная доля дециля (для 1-го дециля К=0,1; для 9-го К=0,9);
sum fd-1 – накопленная частота (частость) в интервале, предшествующем интервалу k-го дециля;
fd – частота в интервале k-го дециля;
n
f
i 1
i
– сумма частот.
Для нахождения дециля необходимо определить интервал, в котором он
располагается.
Пример: рассчитаем первый и девятый дециль на основании данных, приведенных в таблице 5.
Таблица 5 – Распределение населения по уровню среднедушевых доходов
Доход, руб.
До 400,0
400,1 – 600,0
600,1 – 800,0
800,1 – 1000,0
1000,1 – 1200,0
1200,1 – 1600,1
1600,1 – 2000,0
Более 2000,0
Итого
Число обследуемых, %
5,4
11,7
14,3
13,7
11,7
17,0
10,3
15,9
100
Накопленная частота, %
5,4
17,1
31,4
45,1
56,8
73,8
84,1
100
Первый дециль располагается в интервале 400,1 – 600,0 руб. Он показывает
максимальный доход для 10% населения с самыми низкими доходами и равен:
d1 = 400 + 200 ∙ (0,1 ∙ 100 – 5,4) : 11,7 = 478,7.
7
Девятый дециль располагается в интервале свыше 2000 руб. Он показывает
минимальный доход для 10% населения с самыми высокими доходами и равен:
d9 = 2000,1 + 400 ∙ (0,9∙100 – 84,1) : 15,9 = 2 148,5.
При необходимости исследуемую статистическую совокупность значений
можно разбить на сто равных частей. В этом случае мы получим значения признака, которые называются перцентилями.
Средняя арифметическая величина, безусловно, является основной характеристикой центра распределения, так как она опирается на всю информацию об
исследуемой совокупности единиц. Однако в ряде случаев она должна быть дополнена и даже заменена модой или медианой. В симметричных рядах все
названные показатели равноправны X ариф Me Mo , однако предпочтение отдается средней арифметической величине. Для характеристики центра распределения несимметричных рядов распределения предпочтение отдается медиане,
так как она занимает положение между средней арифметической и модой. В
рядах с открытыми интервалами для характеристики центра распределения
также целесообразно использовать моду и медиану.
2. Показатели размера вариации
Абсолютные показатели вариации.
Размах вариации (R) – разность между максимальным и минимальным
значением признака в исследуемой совокупности:
R xmax xmin .
(7)
Достоинство этого показателя – простота расчета. Однако он не дает представления о возможных колебаниях внутри изучаемой совокупности, так как рассчитывается на основе двух крайних значений признака. Поэтому область его
применения ограничивается достаточно однородными совокупностями. Этот показатель рассчитывается в тех случаях, когда важно знать амплитуду колебаний
признака и в каких пределах он колеблется (например, колебания температуры
воздуха или колебания цен на рынке сельскохозяйственной продукции в течение
определенного промежутка времени). Так как размах вариации ограничен двумя
крайними значениями признака, то в некоторых случаях он может быть не типичным для данного ряда. Например, если среди студентов академической группы,
возраст которых колеблется от 18 до 22 лет, окажется один 30 летний студент, то
R=30–18=12 лет покажет, что возраст студентов группы меняется в пределах от 18
до 30 лет. Однако его нельзя использовать для характеристики вариации возраста.
8
Более точным показателем вариации, учитывающим отклонения всех
единиц статистической совокупности от их средней величины, является среднее линейное отклонение ( d ) – средняя арифметическая величина из абсолютных отклонений вариант признака от их средней величины. В соответствии с
одним из свойств средних величин алгебраическая сумма отклонений индивидуальных вариант от средней арифметической величины равна нулю, поэтому
при исчислении среднего линейного отклонения суммируют абсолютные значения отклонений признака, т. е. без учета знака.
Среднее линейное отклонение ( d ) для несгруппированных данных вычисляется по формуле средней арифметической простой
n
d
x
i 1
i
x
.
n
(8)
Среднее линейное отклонение ( d ) для сгруппированных данных вычисляется по формуле средней арифметической взвешенной:
n
d
x
i 1
i
x fi
.
n
f
i 1
(9)
i
Среднее линейное отклонение – число именованное, выражается в тех же
единицах измерения, что и варианты, и средняя величина, и показывает абсолютную меру вариации. Среднее линейное отклонение в качестве меры вариации применяют в статистических расчетах только тогда, когда суммирование
показателей без учета знаков имеет экономический смысл.
Средний квадрат отклонений или дисперсия ( 2 ) – средняя из квадратов
отклонений вариант от средней арифметической величины. В зависимости от
исходных данных исчисляется по формуле простой или взвешенной дисперсии:
простая дисперсия для несгруппированных данных
x x
2
n
2
i
i 1
;
n
(10)
взвешенная дисперсия для сгруппированных данных
x
2
i 1
2
n
i
x fi
.
n
f
i 1
i
(11)
9
Возведение отклонений вариант от средней арифметической величины в
квадрат исключает превращение их суммы в нуль, так как положительные и отрицательные отклонения получают положительный знак. При возведении отклонений в квадрат удельный вес малых отклонений уменьшается, а больших – увеличивается в общей сумме отклонений, что приводит к искусственному увеличению
показателя вариации. Преодолеть этот недостаток позволяет среднее квадратическое отклонение (σ), рассчитываемое как квадратный корень из дисперсии и измеряемое в тех же единицах, что и изучаемый признак.
Среднее квадратическое отклонение:
для несгруппированных данных
x
n
2
i 1
i
x
2
,
n
(12)
для сгруппированных данных
x
n
2
i 1
2
i
x fi
.
n
f
i 1
(13)
i
Среднее квадратическое отклонение, также как среднее линейное отклонение показывает, насколько в среднем отклоняются конкретные варианты признака от его среднего значения. Чем меньше значения σ и d , тем однороднее
совокупность, тем типичнее средняя и устойчивее явление или процесс.
По свойству мажорантности средних величин среднее квадратическое отклонение всегда больше среднего линейного отклонения. Если распределение
признака близко к нормальному или симметричному распределению, то между
σ и d существует взаимосвязь: 1,25d или d 0,8 .
Пример: Рассчитаем абсолютные показатели вариации для не сгруппированных данных. В таблице 6 приведены исходные данные о производительности труда рабочих (xi) в двух бригадах с одинаковой численностью рабочих и
результаты вспомогательных расчетов.
Средняя производительность труда рабочих, рассчитанная по формуле
простой средней арифметической величины, в двух бригадах одинакова и составила
n
x1 x 2
x
i 1
n
i
60
12 шт.
5
Размах вариации в бригаде № 1 составил 18–6=12, в бригаде № 2 16–8=8.
10
Таблица 6 – Производительность труда рабочих
№
1
2
3
4
5
Бригада № 1
№
xi
xi x
xi x
( xi x)
6
8
12
16
18
60
-6
-4
4
6
6
4
4
6
20
36
16
16
36
104
Бригада № 2
2
6
7
8
9
10
xi
xi x
xi x
( xi x) 2
8
10
12
14
16
60
-4
-2
2
4
4
2
2
4
12
16
4
4
16
40
Среднее линейное отклонение
n
бригада № 1
d1
x
i 1
i
x
n
n
бригада № 2
x
d2
i 1
i
20
4 шт.
5
12
2,4 шт.
5
x
n
Дисперсия
x
бригада № 1 1
2
i 1
2
n
i
x
n
x
бригада №2
2
i 1
2
n
2
104
20,8
5
i
x
n
40
8.
5
Среднее квадратическое отклонение
n
бригада № 1
1 2
x
i 1
2 2
20,8 4,6 ,
n
n
бригада №2
x
2
i
x
i 1
x
2
i
n
8 2,8 .
Все абсолютные показатели вариации в первой бригаде выше, чем во второй, что указывает на менее однородный состав первой бригады, на менее
устойчивый процесс производства в этой бригаде и на меньшую типичность
средней.
При вычислении абсолютных показателей вариации для интервальных
рядов распределения действительные значения признака заменяются центральными значениями интервалов, в которые они попадают. Центральные значения
признака отличаются от средней арифметической величины, полученной из
значений, включенных в соответствующий интервал. Величина отклонения
центрального значения от средней зависит от частоты интервала. Чем она
11
больше, тем меньше расхождение между центральным и средним значениями
интервала. Эти объясняется требование достаточно большого числа наблюдений в каждом интервале.
Пример: Рассчитать абсолютные показатели вариации для интервального
ряда (Таблица 7). Для этого построим вспомогательную таблицу 7.
Таблица 7 – Расчет абсолютных показателей вариации для интервального ряда
Месячная зара- Число работная плата, ботников,
руб.
чел., (fi)
Расчетные показатели
Середина
интервала, xi
xi˖ fi
xi x
xi x f i
( xi x) 2 f i
8200 – 9700
4
8 950
35 800
-3650
14 600
53 290 000
9700 – 11200
5
10 450
52 250
-2150
10 750
23 112 500
11200 – 12700
6
11 950
71 700
-650
3 900
2 535 000
12700 – 14200
7
13 450
94 150
850
5 950
5 057 500
14200 – 15700
5
14 950
74 750
2350
11 750
27 612 500
15700 – 17200
3
16 450
49 350
3850
11 550
44 467 500
Итого
30
58 500
156 075 000
378 000
Среднемесячную заработную плату работника ( x ) рассчитаем по формуле
n
x
x
i 1
n
i
f
i 1
fi
12 600руб.
i
Размах вариации
R xmax xmin = 17 200 – 8 200 = 9 000 руб.
Среднее линейное отклонение ( d )
n
d
x
i 1
i
x fi
n
f
i 1
58500
1 950 руб.
30
i
Дисперсия ( 2 )
x
2
i 1
2
n
i
x fi
n
f
i 1
156075000
= 5 202 500 руб.
30
i
Среднее квадратическое отклонение (σ)
12
n
x
2
i 1
x fi
2
i
n
f
i 1
2 208,90 руб.
i
В нашем примере : d 2208,90 : 1950 1,13 .
В случаях, когда в качестве показателя центра распределения используется медиана, для характеристики вариации признаков в совокупности можно использовать так называемое квартильное отклонение Q. Этот показатель позволяет избежать недостатки, связанные с применением крайних значений, и поэтому может быть использован вместо размаха вариации
Q
Q3 Q1
.
2
(14)
Среднее линейное и среднее квадратическое отклонение выражаются именованными числами и дают представление об абсолютной величине колебаний
признака. Однако их нельзя использовать для сравнения вариации нескольких совокупностей по одному и тому же признаку, а тем более по различным признакам.
Для сравнения колеблемости одного и того же признака в нескольких статистических совокупностях или различных признаков в одной и той же совокупности
используются относительные показатели вариации. Они вычисляются как отношение абсолютных показателей вариации к средней величине признака и
чаще всего выражаются в процентах
коэффициент осцилляции
R
100% ;
x
KR
(15)
относительное линейное отклонение
Kd
d
100% ;
x
(16)
100% ;
(17)
коэффициент вариации
V
x
относительный показатель квартильной вариации
K Q
Q
100% .
Me
(18)
В практических расчетах чаще всего используется коэффициент вариации. Нижней границей этого показателя является нуль, верхнего предела он не
имеет, однако известно, что с увеличением вариации признака увеличивается и
его значение. Совокупность считается однородной, если значение коэффициента вариации не превышает 33% (для распределений близких к нормальным).
13
3. Показатели формы вариации
Получить приблизительное представление о форме распределения признака позволяют графики распределения (полигон и гистограмма). Статистические модели, отражающие социально-экономические явления или процессы
чаще всего строятся в соответствии с законом нормального распределения.
Распределение непрерывной случайной величины (х) называется нормальным,
если соответствующая ей плотность распределения выражается формулой
y
1
2
e
1 x x
2
2
,
(19)
где у – ордината или высота кривой на любом расстоянии от х, т.е. от центра
распределения, где х = 0. Вправо от центра распределения х имеет положительные значения, а влево – отрицательные;
( x x) – отклонение варианты от средней арифметической величины;
σ – среднее квадратическое отклонение, отражающее амплитуду колебаний отдельных значений случайной величины от средней арифметической;
xx
t – нормированное отклонение;
1
2
– максимальная ордината, соответствующая точке х, по мере удаления
от этой точки, являющейся центром распределения, значение ординаты уменьшается, и кривая асимптотически приближается к оси абсцисс;
π = 3,1416; е = 2,7183 – основание натурального логарифма;
Параметры у, рассчитанные для разных значений t позволяют определить
ординаты кривой распределения. Важным условием нормирования является
требование, чтобы вся площадь, заключенная под кривой нормального распределения, равнялась единице.
Если принять σ = 1, то уравнение 19 будет иметь вид
y
1
2
e
1
x x
2
2
.
(20)
Кривая, описываемая этим уравнением, отражает закон нормального распределения с площадью под кривой равной единице, и называется стандартизированной кривой распределения или кривой Гаусса. Закон нормального распределения определяется двумя параметрами: средней величиной x и средним
квадратическим отклонением σ.
Стандартизированная кривая распределения обладает свойством симметричности, т.е. равномерно убывает в обе стороны от центра распределения. Для
14
симметричного нормального распределения выполняется равенство x Mo Me .
В этом случае частоты двух вариант, равноотстоящих в обе стороны от среднего значения x , равны между собой. Кривая распределения характеризует теоретическое распределение, т.е. распределение, которое получилось при полном
погашении всех случайных причин, затемняющих основную закономерность.
Распределение, построенное по данным выборочной совокупности, называется эмпирическим. При проведении статистического исследования встречаются разные по форме распределения. Однородные совокупности характеризуются чаще всего одновершинными распределениями. Многовершинность свидетельствует о неоднородности изучаемой совокупности и говорит о необходимости перегруппировки данных с целью получения более однородных групп.
Одновершинные распределения бывают симметричными и асимметричными.
Асимметричные ряды характеризуются сдвигом максимума вправо или влево
от среднего значения (Рисунок 6).
Аналитически они характеризуются нарушением равенства между модой,
медианой и средней арифметической величиной:
для распределения с правосторонней асимметрией: x > Me > Mo ;
для распределения с левосторонней асимметрией: x ˂ Me ˂ Mo .
На графике асимметрию принято различать по тому, в какой стороне
находится растянутое крыло кривой распределения.
Правосторонняя асимметрия
Левосторонняя асимметрия
f
f
AS ˂ 0
AS > 0
х
х
Рисунок 6 – Асимметрия ряда распределения
К числу характеристик ряда распределения относятся показатели, характеризующие его асимметричность, а также его «крутость» – островершинность
или плосковершинность. Это коэффициенты асимметрии и эксцесса.
15
Наиболее надежным считается показатель асимметрии, основанный на
вычислении момента третьего порядка
AS
x x
f
3
где
3
fi
–
3
,
3
(21)
центральный
момент
третьего
порядка
для
i
сгруппированных данных.
Часто
для
выявления
предложенный К. Пирсоном:
асимметрии
AS
x Mo
используется
показатель,
.
(22)
Так как при правосторонеей асимметрии Мо ˂ x , то AS > 0. При
левосторонней асимметрии Мо > x , а AS ˂ 0. Значение коэффициента AS
находится в пределах от нуля до единицы. Чем ближе его значение к нулю, тем
симметричнее распределение. Асимметрия считается незначительной, если AS ≤
0,25. При AS ≥ 0,5 асимметрия считается значительной.
Кравые распределения имеют разную крутизну, т.е. максимум функции
отклоняется отклоняются по высоте вверх или вниз от вершины кривой
нормального распределения.
Если вершина кривой эмпирического распределения расположена выше
вершины кривой нормального распределения, то распределение называется
островершиннымм, а сли ниже, то – плосковершинным (Рисунок 7).
f
Островершинное распределение
Ех > 0
Нормальное распределение
Ех = 0
Плосковершинное распределение
Ех ˂ 0
х
Рисунок 7 – Эксцесс распределений
16
Показатель, позволяющий измерить степень крутизны, называется
эксцессом. Для сгруппированных данных он исчисляется по формуле
Ex
x x
f
4
где 4
fi
4
3,
4
(23)
– центральный момент четвертого порядка.
i
Для нормального распределения отношение
4
3,
4
поэтому при
островершинном распределении Ех > 0, при плосковершинном Ех ˂ 0.
Для того, чтобы оценить степень близости эмпирического распределения
к нормальному необходимо рассчитать средние квадратические отклонения
асимметрии и эксцесса по формулам
As
Ex
6(n 1)
,
(n 1)(n 3)
24n(n 1) 2
.
(n 2)(n 3)(n 3)(n 5)
Распределение считается нормальным, если As / As 3 и Ex / Ex 3 .
(24)
(25)