Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по статистике
Понятие частости и плотности распределения. Другие структурные характеристики (квартиль, квантиль, дециль, перцентиль)

Понятие частости и плотности распределения. Другие структурные характеристики (квартиль, квантиль, дециль, перцентиль)

⌛ 2017 год
👀 1950 просмотров
📌 1870 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Понятие частости и плотности распределения. Другие структурные характеристики (квартиль, квантиль, дециль, перцентиль)», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Понятие частости и плотности распределения. Другие структурные характеристики (квартиль, квантиль, дециль, перцентиль)», Word формат

Лекция №9 31.10.2017 1. Понятие частости и плотности распределения. 2. Структурные средние (комментарии). 3. Другие структурные характеристики (квартиль, квантиль, дециль, перцентиль). 4. Показатели вариации (продолжение) • дисперсия генеральной совокупности и выборки; • другие меры вариации – среднее квартильное расстояние; соотношение между средним линейным отклонением и средним квартильным расстоянием; • относительные показатели вариации; • предельно возможные значения показателей вариации и их применение. 5. Вариация альтернативного признака. Энтропия распределения. Понятие частоcти Частость (wi) – относительное выражение частоты. wi – частость i-й группы признака. Пример. Урожайность, Число хозяйств, Число хозяйств, Число хозяйств, ц/га шт. %, (в долях), (i группа (fi– частоты в (fi – частоты в (wi – частости) признака) абсолютном виде) относительном виде) 110 – 115 24 8 0,08 115 – 120 48 16 0,16 120 – 125 72 24 0,24 125 и выше 156 52 0,52 300 100 1 Если число хозяйств с тем или иным уровнем урожайности выразить в процентах к итогу, принимая все число хозяйств за 100% (=300), то данные показатели, выраженные в долях, будем называть частостями. Плотность распределения Плотность – отношение частоты (в абсолютном или относительном виде) к размаху (ширине) соответствующего интервала. fi’ – плотность распределения в i-ой группе признака; fi – частота в i-ой группе признака; hi – размах (ширина) интервала в i-ой группе признака. Плотность распределения Пример. Распределение малых городов и поселков городского типа по числу жителей (данные 1998 г.) Число жителей, тыс. чел. 0– 5 5 – 10 10 – 20 20 – 50 50 – 100 Итого Число городов Ширина интервала, и ПГТ (fi – частота) hi ( тыс. чел.) 26 84 269 371 176 926 5 5 10 30 50 – Плотность распределения fi’ 26 : 5 = 5,2 84 : 5 = 16,8 269 : 10 = 26,9 30 : 371 = 0,081 176 : 50 = 3,52 – Структурные средние. В качестве структурных средних чаще всего используют следующие показатели: Мода (Mo) ─ значение признака, которое наиболее часто встречается в изучаемом множестве. Медиана (Me) ─ значение признака, которое делит упорядоченную последовательность его значений на две равные по численности части. В итоге у одной половины единиц совокупности значение признака не превышает медианный уровень, а у другого – не меньше его. Структурные средние. Если изучаемый признак имеет дискретные значения, то особых сложностей при расчете моды и медианы не бывает. Пример. Найти моду и медиану следующего признака (число поездок на общественном транспорте, совершаемых гражданами за день ): Число поездок за день (xi) 1 2 3 4 5 Количество граждан, совершающих в день данное количество поездок (fi) 221 146 434 405 302 112 Мода = 2. Медиана = 3 (всего значений признака (xi) 1620, значения в центре – №810 и 811 каждое из них равно 3 = xi)= > их среднее арифметическое также равно 3. Структурные средние. Если данные признака xi представлены в виде упорядоченных интервалов (интервальных рядов), расчет Моды и Медианы ведется по формулам. Случай интервального ряда (Медиана). Me – медиана, – нижняя граница интервала, в котором находится медиана, – величина медианного интервала, – число единиц изучаемого множества, – накопленная чистота в интервале, предшествующей медианному, – частота в медианном интервале. Случай интервального ряда (Мода). Mo ─ мода, ─ нижняя граница модального интервала, ─ величина модального интервала, ─ частота в модальном интервале, ─ частота в интервале, предшествующем модальному, ─ частота в интервале, следующим за модальным. Структурные средние. При этом, для расчета Медианы неважно являются интервалы одинаковыми или нет (т.к. медианный интервал определяется по исходному признаку xi, мы ищем в какой интервал попадают центральные значения признака). В случае определения Моды, для вычисления которой модальный интервал выбирается на основании повторяемости значений признака, важно чтобы интервалы были одинаковыми. Структурные средние. Группы предприятий Себестоимость одного изделия, руб. 1 2 3 4 – 110 – 115 115 – 120 120 – 125 125 – 130 Итого Число предприятий, шт. (fi) 8 16 52 24 100 Как мы рассуждаем? В равных интервалах содержатся 8, 16, 52 и 24 значений признака xi (сами значения признака мы не знаем, знаем только их количество). В каком из равных интервалов содержится Мода? Вероятность встретить повторяющиеся значения признака наибольшая в том интервале, где содержится большее количество значений признака. (Верно только если речь идет о равных по ширине интервалах). В данном случае интервалы равные, потому модальным интервалом является интервал с наибольшей частотой, наибольшая частота по количеству предприятий fi_maх= 52, => модальный интервал (120 − 125). Структурные средние. Себестоимость Величина Группы одного изделия, интервала предприятий руб. (h) 1 2 3 4 – 110 – 115 115 – 125 125 – 155 155 – 170 Итого 5 10 30 15 Число предприятий, шт. (fi) 8 16 52 24 100 • В данном случае интервалы разной величины. И выбрать интервал с наибольшей частотой в качестве модального мы не можем. Так как важна частота на единицу длины интервала. Например, первый интервал длины h=5 содержит 8 значений признака, а второй интервал в два раза большей ширины h=10 содержит в два раза больше единиц признака – 16. Т.о. частота на единицу длины интервала у них одинаковая (т.е. плотность распределения значений признака в каждом интервале одинаковая, несмотря на то, что количество значений признака в первом интервале меньше, чем во втором). В случаях когда расчет модального значения выполняется по рядам распределения с неравными интервалами в формуле моды все частоты (в абсолютном или относительном виде (%)) заменяются плотностями, т.е. отношением частоты к размаху (ширине) соответствующего интервала. Затем модальный интервал определяется по максимальному значению плотности. Пример. Распределение малых городов и поселков городского типа по числу жителей (данные 1998). Число жителей, тыс. чел. 0– 5 5 – 10 10 – 20 20 – 50 50 – 100 Итого Число городов Ширина интервала, и ПГТ (fi – частота) hi ( тыс. чел.) 26 84 269 371 176 926 5 5 10 30 50 – Плотность распределения fi’ 26 : 5 = 5,2 84 : 5 = 16,8 269 : 10 = 26,9 371 : 30 = 12,37 176 : 50 = 3,52 – Интервалы признака неравные. Для нахождения моды вычисляем плотность распределения в каждом интервале (fi’ = fi/hi). Выбираем интервал с наибольшей плотностью он и будет модальным интервалом. В нашем случае fi’_max = 26,9, т.е. модальный интервал 10 – 20. Случай неравных интервалов (Мода). Mo ─ мода, ─ нижняя граница модального интервала, ─ величина модального интервала, ─ плотность модальном интервале, ─ плотность в интервале, предшествующем модальному, ─ плотность в интервале, следующим за модальным. Подставляем значения и получаем: Таким образом, чаще всего встречаются города и поселки городского типа с численностью населения 14,1 тыс. чел. Другие структурные характеристики Если необходимо разделить совокупность на две равные по численности части используют медиану. Если необходимо разделить совокупность на две неравные по численности части, то рассчитывают соответствующее квартильное, квантильное, децильное, перцентильное значения признака. Квартиль – значение признака, делящее ряд на четыре равные части, квантиль – на пять равных частей, дециль – на десять равных частей, перцентиль – на сто равных частей. • Например, чтобы определить какой уровень признака является границей, отделяющей первые 20% наблюдений с самыми меньшими значениями признака от остальных 80% наблюдений с большими значениями, следует рассчитать для анализируемой совокупности 20-% квантиль. Пример. Группы предприятий Себестоимость одного изделия, руб. Число предприятий, % 1 2 3 4 110 – 115 115 – 120 120 – 125 125 и выше 8 16 52 24 Итого 100 Необходимо определить уровень себестоимости в руб., что отделяет первые 20% предприятий с наименьшими значениями себестоимости от остальных 80% предприятий с большими значениями себестоимости. Решение: для этих целей следует рассчитать для анализируемой совокупности 20-% квантиль. Методика расчета квантильного уровня та же, что и при расчете медианы: находится квантильный интервал, определяется его размах, далее в формулу подставляют данные о сумме частот, накопленных до начала квантильного интервала, о частоте в квантильном интервале и квантильном номере наблюдения. 20-% квантиль. Кв20 – 20-% квантиль, – нижняя граница интервала, в котором находится 20-% квантиль, – величина 20%-квантильного интервала, – число единиц изучаемого множества, – накопленная чистота в интервале, предшествующем 20%-квантильному, – частота в 20%-квантильном интервале. Пример. Группы предприятий Себестоимость одного изделия, руб. Число предприятий, % (fi) Накопленные частоты (Si) 1 2 3 4 110 – 115 115 – 120 120 – 125 125 и выше 8 16 52 24 8 24 76 100 100 – Итого 20-% квантильный интервал в нашем примере – интервал с себестоимостью 115 – 120 (т.к. 20% признак попадает в этот интервал). Размах интервала = 5 (120-115). Нижняя граница = 115, частота в интервале = 16, накопленная частота в интервале предшествующем 20-% квантильному = 8. Таким образом, 20-% квантиль в нашем примере равен: Следовательно, у 20% предприятий себестоимость единицы продукции не превышает 118,75 руб. А например, чтобы определить какой уровень признака является границей, отделяющей первые 75% наблюдений с самыми меньшими значениями признака от остальных 25% наблюдений с большими значениями, следует рассчитать для анализируемой совокупности 75-% квартиль (или 3-й квартиль, Q3). Методика расчета квартильного уровня будет аналогична. Q3 квартиль (или 75-% квартиль). Q3 – 3-й (75-%) квантиль, – нижняя граница интервала, в котором находится 3-й квартиль, – величина 3-го квартильного интервала, – число единиц изучаемого множества, – накопленная чистота в интервале, предшествующем 3-му квартильному, – частота в 3-м квартильном интервале. Пример. Группы предприятий Себестоимость одного изделия, руб. Число предприятий, % (fi) Накопленные частоты (Si) 1 2 3 4 110 – 115 115 – 120 120 – 125 125 и выше 8 16 52 24 8 24 76 100 100 – Итого 3-й (75-%) квартильный интервал в нашем примере – интервал с себестоимостью 120 – 125 (т.к. 75% признак попадает в этот интервал). Размах интервала = 5 (125-120). Нижняя граница = 120, частота в интервале = 52, накопленная частота в интервале предшествующем 75-% квартильному = 24. Таким образом, 3-й (75-%) квартиль в нашем примере равен: Следовательно, у 75% предприятий себестоимость единицы продукции не превышает 124,9 руб. А 1-й квартиль (25%) равен: Следовательно, у 25% предприятий себестоимость единицы продукции не превышает 120,1 руб. Показатели вариации. Напомним, что Дисперсия признака (σ2) определяется на основе квадратической степенной средней: или (при повторяемости отдельных значений xi ): Можно преобразовать формулу для расчета дисперсии методом моментов, приведя к виду: или (при повторяемости отдельных значений xi ): здесь – среднее значение квадратов признака (или начальный момент второго порядка), – среднее значение признака (или начальный момент первого порядка). Вышеприведенные формулы верны для расчета вариации по генеральной совокупности или большой выборке. Если вариация оценивается по небольшому числу наблюдений, взятых из неограниченной генеральной совокупности, то среднее значение признака ( ) определяется с некоторой погрешностью. Расчетная величина дисперсии оказывается смещенной в сторону уменьшения. Для получения несмещенной оценки выборочную дисперсию, полученную по приведенным ранее формулам, надо умножить на величину n/(n-1). В итоге, при малом числе наблюдений выборки (< 30) дисперсию признака рекомендуется вычислять по формуле: или (по методу моментов) по формуле: Обычно уже при n > 15 – 20 расхождение смещенной и несмещенной оценок становится несущественным. Формулы для вычисления дисперсии генеральной совокупности или большой выборки небольшой выборки (n < 30) Соотношение между дисперсией генеральной совокупности (большой выборкой) и малой выборкой: Среднее квартильное растояние - показатель силы вариации, характеризующий ее не по всей совокупности, а лишь в центральной части (q). Вычисляется по формуле: a:q соотношение меду средним линейным отклонением и средним квартильным расстоянием (q) также служит для изучения структуры вариации: большое значение такого соотношения говорит о наличии слабоварьирующего ядра (маленькая вариация признака) и сильно рассеянного вокруг этого ядра окружения, или «гало» в изучаемой совокупности. Относительные показатели вариации Для оценки интенсивности вариации и для сравнения ее в разных совокупностях необходимы относительные показатели вариации. Они вычисляются как отношение абсолютных показателей силы вариации к средней арифметической величине признака. Обычно указываются в %. (a) относительный размах вариации (ρ): ρ= R/ ; (a) относительное отклонение по модулю (m): m=a/ ; (c) коэффициент вариации как относительное квадратическое отклонение (ν): ν=σ/ ; (d) Относительное квартильное расстояние (d): d=q/ . В статистике совокупности, имеющие относительные показатели вариации больше 30-35%, принято считать неоднородными. У такого способа оценки вариации есть существенный недостаток. Например, пусть исходная совокупность рабочих , имеющих средний стаж 15 лет ( ), со средним квадратическим отклонением стажа σ = 10 состарилась еще на 20 лет. Теперь =35 лет, а среднеквадратическое отклонение по-прежнему равно σ = 10. Тогда, совокупность ранее бывшая неоднородной, т.к. относительное квадратическое отклонение ν = σ / = 10/15 = 67% (>30-35%), со временем оказывается вполне однородной: ν = σ / = 10/35 = 29% (<30-35%). Кроме того, показатели вариации разных совокупностей воспринимаются по-разному. Если доходы на душу населения могут различаться в несколько и даже десятки раз и это воспринимается как нормальная вариация, то различие роста людей в полтора раза уже воспринимается как сильное. Таким образом, оценка интенсивности вариации состоит в сравнении наблюдаемой вариации с некоторой обычной ее интенсивностью, принимаемой за норматив. Предельно возможные значения показателей вариации и их применение В качестве точки отсчета для сравнения / базы для сравнения статистических показателей (в том числе и вариации) предлагается использовать их предельные значения. Действительно, если мы можем сравнить получившееся значение показателя (например, относительное квадратическое отклонение ν) с его максимально возможным значением для данной совокупности, то мы можем сделать вывод насколько данный показатель мал или велик. Предельно возможные значения показателей вариации: (a) относительный размах вариации (ρ): ρmax = Rmax / = ∙n / = n (a) относительное отклонение по модулю (m): mmax = amax / = (2∙ – (2/n)∙ )/ = 2 – 2/n (c) коэффициент вариации как относительное квадратическое отклонение (ν): (d) относительное квартильное расстояние (d): не определено, т.к. система с максимально возможной вариацией обладает вырожденной структурой распределения признака. Заметьте, что все показатели зависят только от n – количество значений изучаемого признака (xi). Максимальные значения показателей вариации при разных численностях совокупности Численность совокупности (n) ρ m ν 2 2 1 1 4 4 1,5 1,73 6 6 1,67 2,24 10 10 1,80 3,00 20 20 1,90 4,36 50 50 1,96 7,00 100 100 1,98 9,95 Допустим для совокупности из 6 предприятий мы получили коэффициент вариации объема продукции (ν) = 0,58; а для совокупности из 20 предприятий ν = 0,72. Мы изучаем один и тот же объект – объем продукции на предприятиях, производящих один тип продукции (предположим книги). Справедливо ли делать вывод о большей неравномерности (вариации) объема продукции во второй совокупности? Максимальные значения показателей вариации при разных численностях совокупности Численность совокупности 2 4 6 10 20 50 100 ρ 2 4 6 10 20 50 100 m 1 1,5 1,67 1,80 1,90 1,96 1,98 ν 1 1,73 2,24 3,00 4,36 7,00 9,95 Очевидно нет. Т.к. в первой, меньшей совокупности, коэффициент вариации составил 0,58/2,24 = 25,9% от максимально возможного значения, а во второй, большей совокупности, только 0,72/4,36 = 16,5% от максимально возможного. Вариация альтернативного признака. Среди множества варьирующих признаков, изучаемых статистикой, существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными. Пример. Наличие высшего образования у сотрудника (есть/нет); Наличие бракованной продукции в партии товаров (есть / нет). Пусть n – размер совокупности, m – количество единиц обладающим данным признаком, тогда p – доля единиц, обладающих данным признаком (p = m/n), q – доля единиц, не обладающих данным признаком (q=(n – m)/n) = 1 – m/n = 1 – p), причем p + q = 1. Альтернативный признак принимает всего два значения – 0 и 1 с весами соответственно q и p. Среднее значение альтернативного признака равно (по формуле средней взвешенной): Дисперсия альтернативного признака определяется по формуле*: Корень квадратный из этого показателя соответствует среднему квадратическому отклонению альтернативного признака, Предельное значение дисперсии альтернативного признака равно 0,25 при p = 0,5. *Вспомните формулу , где xi принимает два значения 0 и 1, fi два значения – p и q, и = p. Энтропия распределения. Разберем на следующем занятии