Понятие частости и плотности распределения. Другие структурные характеристики (квартиль, квантиль, дециль, перцентиль)
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция №9
31.10.2017
1. Понятие частости и плотности распределения.
2. Структурные средние (комментарии).
3. Другие структурные характеристики (квартиль,
квантиль, дециль, перцентиль).
4. Показатели вариации (продолжение)
• дисперсия генеральной совокупности и выборки;
• другие меры вариации – среднее квартильное
расстояние; соотношение между средним
линейным отклонением и средним квартильным
расстоянием;
• относительные показатели вариации;
• предельно возможные значения показателей
вариации и их применение.
5. Вариация альтернативного признака. Энтропия
распределения.
Понятие частоcти
Частость (wi) – относительное выражение частоты.
wi – частость i-й группы признака.
Пример.
Урожайность, Число хозяйств, Число хозяйств,
Число хозяйств,
ц/га
шт.
%,
(в долях),
(i группа
(fi– частоты в
(fi – частоты в
(wi – частости)
признака) абсолютном виде) относительном виде)
110 – 115
24
8
0,08
115 – 120
48
16
0,16
120 – 125
72
24
0,24
125 и выше
156
52
0,52
300
100
1
Если число хозяйств с тем или иным уровнем урожайности
выразить в процентах к итогу, принимая все число хозяйств за
100% (=300), то данные показатели, выраженные в долях,
будем называть частостями.
Плотность распределения
Плотность – отношение частоты (в абсолютном
или относительном виде) к размаху (ширине)
соответствующего интервала.
fi’ – плотность распределения в i-ой группе
признака;
fi – частота в i-ой группе признака;
hi – размах (ширина) интервала в i-ой группе
признака.
Плотность распределения
Пример.
Распределение малых городов и поселков
городского типа по числу жителей (данные 1998 г.)
Число
жителей,
тыс. чел.
0– 5
5 – 10
10 – 20
20 – 50
50 – 100
Итого
Число городов Ширина интервала,
и ПГТ
(fi – частота)
hi ( тыс. чел.)
26
84
269
371
176
926
5
5
10
30
50
–
Плотность
распределения
fi’
26 : 5 = 5,2
84 : 5 = 16,8
269 : 10 = 26,9
30 : 371 = 0,081
176 : 50 = 3,52
–
Структурные средние.
В качестве структурных средних чаще всего
используют следующие показатели:
Мода (Mo) ─ значение признака, которое наиболее
часто встречается в изучаемом множестве.
Медиана (Me) ─ значение признака, которое делит
упорядоченную последовательность его значений
на две равные по численности части. В итоге у
одной половины единиц совокупности значение
признака не превышает медианный уровень, а у
другого – не меньше его.
Структурные средние.
Если изучаемый признак имеет дискретные значения, то особых
сложностей при расчете моды и медианы не бывает.
Пример.
Найти моду и медиану следующего признака (число поездок на
общественном транспорте, совершаемых гражданами за день ):
Число поездок
за день (xi)
1
2
3
4
5
Количество граждан, совершающих в день
данное количество поездок (fi)
221
146
434
405
302
112
Мода = 2.
Медиана = 3 (всего значений признака (xi) 1620, значения в центре –
№810 и 811 каждое из них равно 3 = xi)= > их среднее арифметическое
также равно 3.
Структурные средние.
Если данные признака xi представлены в
виде упорядоченных интервалов
(интервальных рядов), расчет Моды и
Медианы ведется по формулам.
Случай интервального ряда (Медиана).
Me – медиана,
– нижняя граница интервала, в котором
находится медиана,
– величина медианного интервала,
– число единиц изучаемого множества,
– накопленная чистота в интервале,
предшествующей медианному,
– частота в медианном интервале.
Случай интервального ряда (Мода).
Mo ─ мода,
─ нижняя граница модального интервала,
─ величина модального интервала,
─ частота в модальном интервале,
─ частота в интервале, предшествующем
модальному,
─ частота в интервале, следующим за
модальным.
Структурные средние.
При этом, для расчета Медианы неважно
являются интервалы одинаковыми или нет (т.к.
медианный интервал определяется по
исходному признаку xi, мы ищем в какой
интервал попадают центральные значения
признака).
В случае определения Моды, для вычисления
которой модальный интервал выбирается на
основании повторяемости значений признака,
важно чтобы интервалы были одинаковыми.
Структурные средние.
Группы
предприятий
Себестоимость одного
изделия, руб.
1
2
3
4
–
110 – 115
115 – 120
120 – 125
125 – 130
Итого
Число предприятий, шт.
(fi)
8
16
52
24
100
Как мы рассуждаем?
В равных интервалах содержатся 8, 16, 52 и 24 значений признака xi
(сами значения признака мы не знаем, знаем только их количество).
В каком из равных интервалов содержится Мода?
Вероятность встретить повторяющиеся значения признака наибольшая в
том интервале, где содержится большее количество значений признака.
(Верно только если речь идет о равных по ширине интервалах).
В данном случае интервалы равные, потому модальным интервалом
является интервал с наибольшей частотой, наибольшая частота по
количеству предприятий fi_maх= 52, => модальный интервал (120 − 125).
Структурные средние.
Себестоимость Величина
Группы
одного изделия, интервала
предприятий
руб.
(h)
1
2
3
4
–
110 – 115
115 – 125
125 – 155
155 – 170
Итого
5
10
30
15
Число
предприятий, шт.
(fi)
8
16
52
24
100
• В данном случае интервалы разной величины. И выбрать интервал с
наибольшей частотой в качестве модального мы не можем. Так как важна
частота на единицу длины интервала.
Например, первый интервал длины h=5 содержит 8 значений признака, а второй
интервал в два раза большей ширины h=10 содержит в два раза больше
единиц признака – 16. Т.о. частота на единицу длины интервала у них
одинаковая (т.е. плотность распределения значений признака в каждом
интервале одинаковая, несмотря на то, что количество значений признака в
первом интервале меньше, чем во втором).
В случаях когда расчет модального значения
выполняется по рядам распределения с
неравными интервалами в формуле моды
все
частоты
(в
абсолютном
или
относительном виде (%)) заменяются
плотностями, т.е. отношением частоты к
размаху
(ширине) соответствующего
интервала.
Затем модальный интервал определяется по
максимальному значению плотности.
Пример.
Распределение малых городов и поселков городского типа по
числу жителей (данные 1998).
Число
жителей,
тыс. чел.
0– 5
5 – 10
10 – 20
20 – 50
50 – 100
Итого
Число городов Ширина интервала,
и ПГТ
(fi – частота)
hi ( тыс. чел.)
26
84
269
371
176
926
5
5
10
30
50
–
Плотность
распределения
fi’
26 : 5 = 5,2
84 : 5 = 16,8
269 : 10 = 26,9
371 : 30 = 12,37
176 : 50 = 3,52
–
Интервалы признака неравные. Для нахождения моды вычисляем
плотность распределения в каждом интервале (fi’ = fi/hi).
Выбираем интервал с наибольшей плотностью он и будет модальным
интервалом.
В нашем случае fi’_max = 26,9, т.е. модальный интервал 10 – 20.
Случай неравных интервалов (Мода).
Mo ─ мода,
─ нижняя граница модального интервала,
─ величина модального интервала,
─ плотность модальном интервале,
─ плотность в интервале, предшествующем
модальному,
─ плотность в интервале, следующим за
модальным.
Подставляем значения и получаем:
Таким образом, чаще всего встречаются города и
поселки городского типа с численностью
населения 14,1 тыс. чел.
Другие структурные характеристики
Если необходимо разделить совокупность на две
равные по численности части используют
медиану.
Если необходимо разделить совокупность на две
неравные по численности части, то
рассчитывают соответствующее квартильное,
квантильное, децильное, перцентильное
значения признака.
Квартиль – значение признака, делящее ряд на
четыре равные части, квантиль – на пять
равных частей, дециль – на десять равных
частей, перцентиль – на сто равных частей.
• Например, чтобы определить какой уровень
признака является границей, отделяющей
первые 20% наблюдений с самыми
меньшими значениями признака от
остальных 80% наблюдений с большими
значениями, следует рассчитать для
анализируемой совокупности 20-%
квантиль.
Пример.
Группы
предприятий
Себестоимость одного
изделия, руб.
Число предприятий,
%
1
2
3
4
110 – 115
115 – 120
120 – 125
125 и выше
8
16
52
24
Итого
100
Необходимо определить уровень себестоимости в руб.,
что отделяет первые 20% предприятий с наименьшими
значениями себестоимости от остальных 80%
предприятий с большими значениями себестоимости.
Решение:
для этих целей следует рассчитать для анализируемой
совокупности 20-% квантиль.
Методика расчета квантильного уровня та же,
что и при расчете медианы:
находится квантильный интервал,
определяется его размах,
далее в формулу подставляют данные о сумме
частот, накопленных до начала квантильного
интервала, о частоте в квантильном
интервале и квантильном номере
наблюдения.
20-% квантиль.
Кв20 – 20-% квантиль,
– нижняя граница интервала, в котором
находится 20-% квантиль,
– величина 20%-квантильного интервала,
– число единиц изучаемого множества,
– накопленная чистота в интервале,
предшествующем 20%-квантильному,
– частота в 20%-квантильном интервале.
Пример.
Группы
предприятий
Себестоимость
одного изделия,
руб.
Число
предприятий, % (fi)
Накопленные
частоты (Si)
1
2
3
4
110 – 115
115 – 120
120 – 125
125 и выше
8
16
52
24
8
24
76
100
100
–
Итого
20-% квантильный интервал в нашем примере –
интервал с себестоимостью 115 – 120 (т.к. 20%
признак попадает в этот интервал).
Размах интервала = 5 (120-115).
Нижняя граница = 115, частота в интервале = 16,
накопленная частота в интервале
предшествующем 20-% квантильному = 8.
Таким образом, 20-% квантиль в нашем
примере равен:
Следовательно, у 20% предприятий
себестоимость единицы продукции не
превышает 118,75 руб.
А например, чтобы определить какой уровень
признака является границей, отделяющей
первые 75% наблюдений с самыми меньшими
значениями признака от остальных 25%
наблюдений с большими значениями, следует
рассчитать для анализируемой совокупности
75-% квартиль (или 3-й квартиль, Q3).
Методика расчета квартильного уровня будет
аналогична.
Q3 квартиль (или 75-% квартиль).
Q3 – 3-й (75-%) квантиль,
– нижняя граница интервала, в котором
находится 3-й квартиль,
– величина 3-го квартильного интервала,
– число единиц изучаемого множества,
– накопленная чистота в интервале,
предшествующем 3-му квартильному,
– частота в 3-м квартильном интервале.
Пример.
Группы
предприятий
Себестоимость
одного изделия,
руб.
Число
предприятий, % (fi)
Накопленные
частоты (Si)
1
2
3
4
110 – 115
115 – 120
120 – 125
125 и выше
8
16
52
24
8
24
76
100
100
–
Итого
3-й (75-%) квартильный интервал в нашем примере
– интервал с себестоимостью 120 – 125 (т.к. 75%
признак попадает в этот интервал).
Размах интервала = 5 (125-120).
Нижняя граница = 120, частота в интервале = 52,
накопленная частота в интервале
предшествующем 75-% квартильному = 24.
Таким образом, 3-й (75-%) квартиль в нашем
примере равен:
Следовательно, у 75% предприятий
себестоимость единицы продукции не
превышает 124,9 руб.
А 1-й квартиль (25%) равен:
Следовательно, у 25% предприятий
себестоимость единицы продукции не
превышает 120,1 руб.
Показатели вариации.
Напомним, что
Дисперсия признака (σ2) определяется на основе
квадратической степенной средней:
или (при повторяемости отдельных значений xi ):
Можно преобразовать формулу для расчета
дисперсии методом моментов, приведя к виду:
или (при повторяемости отдельных значений xi ):
здесь
– среднее значение квадратов признака
(или начальный момент второго порядка),
– среднее значение признака (или начальный
момент первого порядка).
Вышеприведенные формулы верны для расчета
вариации по генеральной совокупности или
большой выборке.
Если вариация оценивается по небольшому числу
наблюдений, взятых из неограниченной
генеральной совокупности, то среднее значение
признака ( ) определяется с некоторой
погрешностью. Расчетная величина дисперсии
оказывается смещенной в сторону уменьшения.
Для получения несмещенной оценки
выборочную дисперсию, полученную по
приведенным ранее формулам, надо умножить
на величину n/(n-1).
В итоге, при малом числе наблюдений выборки
(< 30) дисперсию признака рекомендуется
вычислять по формуле:
или (по методу моментов) по формуле:
Обычно уже при n > 15 – 20 расхождение
смещенной и несмещенной оценок
становится несущественным.
Формулы для вычисления дисперсии
генеральной совокупности или
большой выборки
небольшой выборки (n < 30)
Соотношение между дисперсией генеральной
совокупности (большой выборкой) и малой
выборкой:
Среднее квартильное растояние
- показатель силы вариации, характеризующий ее
не по всей совокупности, а лишь в центральной
части (q). Вычисляется по формуле:
a:q
соотношение меду средним линейным
отклонением
и средним квартильным расстоянием (q)
также служит для изучения структуры
вариации: большое значение такого
соотношения говорит о наличии
слабоварьирующего ядра (маленькая
вариация признака) и сильно рассеянного
вокруг этого ядра окружения, или «гало» в
изучаемой совокупности.
Относительные показатели вариации
Для оценки интенсивности вариации и для сравнения ее в
разных совокупностях необходимы относительные показатели
вариации. Они вычисляются как отношение абсолютных
показателей силы вариации к средней арифметической
величине признака. Обычно указываются в %.
(a) относительный размах вариации (ρ):
ρ= R/ ;
(a) относительное отклонение по модулю (m):
m=a/ ;
(c) коэффициент вариации как относительное
квадратическое отклонение (ν):
ν=σ/ ;
(d) Относительное квартильное расстояние (d):
d=q/ .
В статистике совокупности, имеющие
относительные показатели вариации больше
30-35%, принято считать неоднородными.
У такого способа оценки вариации есть
существенный недостаток.
Например, пусть исходная совокупность
рабочих , имеющих средний стаж 15 лет ( ),
со средним квадратическим отклонением
стажа σ = 10 состарилась еще на 20 лет.
Теперь =35 лет, а среднеквадратическое
отклонение по-прежнему равно σ = 10.
Тогда, совокупность ранее бывшая неоднородной,
т.к. относительное квадратическое отклонение
ν = σ / = 10/15 = 67% (>30-35%),
со временем оказывается вполне однородной:
ν = σ / = 10/35 = 29% (<30-35%).
Кроме того, показатели вариации разных
совокупностей воспринимаются по-разному.
Если доходы на душу населения могут различаться
в несколько и даже десятки раз и это
воспринимается как нормальная вариация, то
различие роста людей в полтора раза уже
воспринимается как сильное.
Таким образом, оценка интенсивности вариации
состоит в сравнении наблюдаемой вариации с
некоторой обычной ее интенсивностью,
принимаемой за норматив.
Предельно возможные значения
показателей вариации и их применение
В качестве точки отсчета для сравнения / базы для
сравнения статистических показателей (в том
числе и вариации) предлагается использовать их
предельные значения.
Действительно, если мы можем сравнить
получившееся значение показателя (например,
относительное квадратическое отклонение ν) с его
максимально возможным значением для данной
совокупности, то мы можем сделать вывод
насколько данный показатель мал или велик.
Предельно возможные значения показателей
вариации:
(a) относительный размах вариации (ρ):
ρmax = Rmax / = ∙n / = n
(a) относительное отклонение по модулю (m):
mmax = amax / = (2∙ – (2/n)∙ )/ = 2 – 2/n
(c) коэффициент вариации как относительное
квадратическое отклонение (ν):
(d) относительное квартильное расстояние (d):
не определено, т.к. система с максимально возможной
вариацией
обладает
вырожденной
структурой
распределения признака.
Заметьте, что все показатели зависят только от n –
количество значений изучаемого признака (xi).
Максимальные значения показателей вариации при
разных численностях совокупности
Численность совокупности (n)
ρ
m
ν
2
2
1
1
4
4
1,5
1,73
6
6
1,67
2,24
10
10
1,80
3,00
20
20
1,90
4,36
50
50
1,96
7,00
100
100
1,98
9,95
Допустим для совокупности из 6 предприятий мы получили
коэффициент вариации объема продукции (ν) = 0,58;
а для совокупности из 20 предприятий ν = 0,72.
Мы изучаем один и тот же объект – объем продукции на
предприятиях, производящих один тип продукции (предположим
книги).
Справедливо ли делать вывод о большей неравномерности
(вариации) объема продукции во второй совокупности?
Максимальные значения показателей вариации при
разных численностях совокупности
Численность совокупности
2
4
6
10
20
50
100
ρ
2
4
6
10
20
50
100
m
1
1,5
1,67
1,80
1,90
1,96
1,98
ν
1
1,73
2,24
3,00
4,36
7,00
9,95
Очевидно нет.
Т.к. в первой, меньшей совокупности, коэффициент вариации
составил 0,58/2,24 = 25,9% от максимально возможного
значения,
а во второй, большей совокупности, только 0,72/4,36 = 16,5% от
максимально возможного.
Вариация альтернативного признака.
Среди множества варьирующих признаков,
изучаемых статистикой, существуют признаки,
которыми обладают одни единицы
совокупности и не обладают другие. Эти
признаки называются альтернативными.
Пример.
Наличие высшего образования у сотрудника (есть/нет);
Наличие бракованной продукции в партии товаров
(есть / нет).
Пусть n – размер совокупности, m – количество
единиц обладающим данным признаком, тогда
p – доля единиц, обладающих данным
признаком (p = m/n), q – доля единиц, не
обладающих данным признаком (q=(n – m)/n) =
1 – m/n = 1 – p), причем p + q = 1.
Альтернативный признак принимает всего два
значения – 0 и 1 с весами соответственно q и p.
Среднее значение альтернативного признака
равно (по формуле средней взвешенной):
Дисперсия альтернативного признака
определяется по формуле*:
Корень квадратный из этого показателя
соответствует среднему квадратическому
отклонению альтернативного признака,
Предельное значение дисперсии альтернативного
признака равно 0,25 при p = 0,5.
*Вспомните формулу
, где xi принимает два
значения 0 и 1, fi два значения – p и q, и = p.
Энтропия распределения.
Разберем на следующем занятии