Числовые характеристики эмпирических распределений

👀 1186 просмотров
📌 1121 загрузка

Выбери формат для чтения

Конспект лекции по дисциплине «Числовые характеристики эмпирических распределений», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Числовые характеристики эмпирических распределений», Word формат

Числовые характеристики эмпирических распределений Исчерпывающие сведения об интересующем нас законе распределения вероятностей дают вариационные ряды, их графические представления, а также статистическая функция распределения. Однако нередко при практическом изучении генеральной совокупности этого бывает недостаточно, и требуется охарактеризовать имеющуюся совокупность значений некоторыми количественными показателями. Характеристики положения, рассеяния и формы дают количественное представление об эмпирических данных и помогают сравнить одну совокупность данных с другой. Эмпирические аналоги характеристик положения В статистической практике в качестве характеристик положения или центра группирования значений исследуемого признака используют несколько видов средних значений, моду и медиану. Рассмотрим эмпирические аналоги этих числовых характеристик, которые вычисляются по выборочным данным. Арифметическое (или выборочное) среднее x (или xв ) для несгруппированной выборки x1 , x2 ,, xn  объема n определяется как 1 n x   xi . n i 1 В случае группированной выборки, представляемой рядом вида (1), выборочное среднее равно 1 r x   ni xi . n i 1 Выборочное среднее является, пожалуй, основной и часто используемой характеристикой центра группирования, относительно которого может быть «сбалансировано» все эмпирическое распределение, фактически это абсцисса центра масс гистограммы. Среднее геометрическое xгеом подсчитывается по выборочным данным по формуле xгеом  n x1 x2 xn , или xгеом  n x1n1 x2n2 xrnr , если имеется сгруппированный ряд. На практике 1 n  lg xi . n i 1 Геометрическое среднее следует применять прежде всего тогда, когда среднее значение должно быть рассчитано из значений, заданных через некоторые равные промежутки времени. Геометрическое среднее применяется, иногда находят lg xгеом  когда переменная меняется во времени с приблизительно постоянным соотношением между измерениями. К этому случаю относятся многообразные явления роста. Прирост населения во времени, число пациентов или эксплуатационные расходы – вот известные примеры подобного типа явлений. Геометрическое среднее применяется также тогда, когда отдельные значения в выборке далеко отстоят от остальных значений; это меньше влияет на геометрическое среднее (чем на арифметическое среднее), так как оно дает более правильное представление о среднем. Пример 1. Пусть служащий получал в течение трех последовательных лет прибавки к зарплате соответственно 6, 10 и 12%. Процентная надбавка относится к окладу предыдущего года. Определить среднюю прибавку к окладу. Решение. Среднюю прибавку к окладу определим как среднее геометрическое из x1  1,06 , x2  1,10 , x3  1,12 , xгеом  3 x1 x2 x3  3 1,06  1,10  1,12  1,093. Таким образом, в среднем оклад возрастает на 9,3%. Среднее гармоническое xгарм вычисляется по формуле xгарм  1 или xгарм  1 . 1 1 1 r ni   n i 1 xi n i 1 xi Гармоническое среднее значение ряда чисел всегда меньше геометрического среднего значения тех же чисел, а тем более – их среднего арифметического, т.е. между тремя средними значениями существует следующее соотношение: xгарм  xгеом  xв , причем равенство справедливо при одинаковых выборочных значениях. Область применения гармонического среднего весьма ограничена. В экономике, в частности, пользуются гармоническим средним при анализе средних норм времени, а также в некоторых видах индексных расчетов, когда суммируемый признак выражен обратной величиной данного признака, т.е. 1 1 1 , , , . Гармоническое среднее используется при расчете средней x1 x2 xn продолжительности жизни. n Пример 2. В трех различных магазинах продается определенный предмет по цене: 10 шт. за 1 у.е., 5 шт. за 1 у.е. и 8 шт. за 1 у.е. Определить среднее число предметов, которое можно купить за 1 у.е. Решение. Среднее число предметов, которые можно купить за 1 у.е., определим как среднее гармоническое из x1  10 , x2  5 и x3  8 , т.е. xгарм  1  7,06  7,1 . 1 1 1 1     3  10 5 8  Этот результат можно проверить. В первом магазине 1 шт. товара стоит 0,1 руб., во втором – 0,2 у.е., в третьем – 0,125 у.е. Таким образом, 3 шт. стоят 0,1 + 0,2 + 0,125 = 0,425 у.е. 0,425 Средняя стоимость 1 шт. составляет  0,1417. Тогда за 1 у.е. можно ку3 1 пить  7 ,06  7 ,1. 0,1417 Медиана, точнее ее эмпирический аналог ~ xmed , определяется как среднее (по местоположению) значение ранжированного, т. е. расположенного в порядке возрастания, ряда наблюдений. В качестве медианы определяется 1 xmed  x 1 средний (т. е. n  1 -ый) член этого ряда, если n нечетно, ~ ;и n 1 2 2 1 1  n -м и  n  1 -м членами этого ря2 2  xn  xn 1 2 да (или как их среднее арифметическое), если n четно, ~ . Так, xmed  2 2 если n  45 , то в качестве медианы следует взять 23-й член в упорядоченном xmed  x23 ; для n  50 медиана определяется как вариационном ряду ~ x  x26 ~ . xmed  25 2 При исчислении медианы интервального вариационного ряда вначале находят интервал, содержащий медиану, путем использования накопленных частот. Медианному интервалу соответствует первая из накопленных частот, превышающая половину объема выборки. Для нахождения медианы при постоянстве плотности внутри интервала, содержащего медиану, используют следующую формулу n m med 1 ~ , xmed  xmed min   h 2 nmed где xmed min  – нижняя граница медианного интервала, h – интервальная разность, mmed 1 – накопленная частота интервала, предшествующего медианному, nmed – частота медианного интервала. Медиана может быть определена графически по кумуляте. Для этого последнюю ординату, равную сумме всех частот, делят пополам. Из полученной точки восстанавливают перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения и дает значение медианы. любое значение между средними, т. е. Модальное значение (или просто мода) ~ xmod есть такое значение исследуемого признака, которое чаще всего встречается в данном вариационном ряду. Для дискретного ряда мода определяется по частотам и соответствует выборочному значению с наибольшей частотой. В случае интервального распределения с равными интервалами модальный интервал, т.е. содержащий моду, определяется по наибольшей частоте, а при неравных интервалах – по наибольшей плотности. Вычисление моды производится по следующей формуле: nmod  nmod 1 , xmod  xmod min   h 2nmod  nmod 1  nmod 1 где xmod(min) – нижняя граница модального интервала; h – интервальная разность; nmod – частота модального интервала; nmod 1 – частота интервала, предшествующего модальному; nmod 1 – частота интервала, последующего за модальным. Графически моду можно определить по полигону. В случае симметричной плотности, в частности, для нормального закона распределения исследуемой случайной величины, среднее значение x , мода ~ xmod и медиана ~ xmed совпадают между собой, что не имеет места для асимметричных распределений (для a,   имеет место равенство ΜΧ  xmod  xmed  a ). Практическое отыскание выборочного среднего, моды и медианы будет подробно рассмотрено ниже. Эмпирические аналоги характеристик рассеивания случайной величины Средние величины, характеризующие вариационный ряд одним числом, не учитывают вариацию признака. Для измерения вариации применяется ряд способов. Вариационный размах R , представляющий собой разность между наибольшим и наименьшим наблюдениями: R  xmax  xmin , применяется в качестве приблизительной оценки вариации. Особенно широко используется размах в ряде отраслей промышленности при статистическом изучении качества продукции. Одной из наиболее часто используемых характеристик рассеивания данных является выборочное среднее квадратическое (или стандартное) отклонение:   2 1 n x  x ,  n i 1 i дающее абсолютный разброс значений признака относительного среднего и определяемое таким образом для несгруппированных данных. Если данные сгруппированы, то в   1 r в  n x  x n i 1 i i  2 . Квадрат этой величины  в2 называется выборочной дисперсией и обозначается Dв . Выборочная дисперсия также может использоваться для оценки разброса значений исследуемого признака. 2 2 1 n 1 n 2 Dв   xi  x   xi  x . n i 1 n i 1 Для оценки относительной изменчивости признака используется коэффициент вариации  V   в  100% , xв который дает возможность охарактеризовать относительный разброс значений признака вокруг его среднего значения, выраженный в процентах. Выборочные коэффициенты асимметрии и эксцесса Коэффициенты асимметрии и эксцесса относятся к мерам, которые характеризуют отклонение эмпирического распределения от нормального закона. Выборочный коэффициент асимметрии является характеристикой степени скошенности и подсчитывается по формуле ~3 3 1 n 1 r ~ 3 ~ As  3 , где  3   xi  x  или 3   ni  xi  x  n i 1 n i 1 в третий центральный выборочный момент. Для симметричных (относительно среднего значения MΧ ) функций ~ плотности Αs должен быть близок к нулю, в то время как для распределения, гистограмма которого имеет «длинную часть», расположенную справа ~ ~ от ее вершины, Αs  0 , а если слева – то Αs  0 . ~ Выборочный эксцесс Ε k используется, как и соответствующая теоретическая характеристика, для оценки островершинности или плосковершинности распределения. Он подсчитывается по формуле ~ 4 μ 1 n 1 r ~ 4 4 ~ Εk  4  3 , где  4   xi  x  или 4   ni  xi  x  n i 1 n i 1 σв четвертый центральный выборочный момент. ~ Напомним, что для нормального закона Εk  0 , для островершинного (по ~ сравнению с нормальным) распределения Εk  0 , а для плосковершинного ~ Εk  0 . Пример 3. При изучении соотношения заемных и собственных средств предприятий региона по данным, представленным в примере 1 первичной обработки данных, определить выборочное среднее x , выборочную дисперсию Dв , выборочное среднее квадратическое отклонение  в , коэффициент вариации V , моду ~ xmod и медиану ~ xmed по точечному ряду 1 и интервальному ~ ~ ряду 2, а также коэффициенты асимметрии s и эксцесса  k . Проанализировать результаты, полученные в итоге первичной статистической обработки данных (лекция 1). Решение. Для упрощения вычислений расчет характеристик выборки произведем по ряду 3. Вспомогательная таблица для вычисления выборочных характеристик по группированным данным   n x  ni xi0  x 0,7105 – 0,2678 0,1010 5 – 1,662 0,4602 – 0,1272 0,0354 11 52,80 – 1,770 0,3130 – 0,0550 0,0098 21 20 107,60 – 1,540 0,1180 – 0,0091 0,0007 41 5 5,48 25 137,00 0,575 0,0132 0,0003 0,0000 66 6 5,58 18 100,44 2,214 0,2723 0,0335 0,0041 84 7 5,68 11 62,48 2,453 0,5470 0,1219 0,0272 95 8 5,78 5 28,90 1,615 0,5216 0,1685 0,0544 100 2,9558 – 0,1349 0,2326 ni xi0 ni ni xi0  x 1 5,08 5 25,40 – 1,885 2 5,18 6 31,08 3 5,28 10 4 5,38 k xi0 Итого 100 545,70 i i x  2  ni xi0  x 3   4 mi Пользуясь данными табл. 2 и формулой (7), вычислим выборочное среднее 1 8 545,70 x ni xi0   5,457 .  100 i 1 100 Для проверки правильности вычисления x полезно убедиться в выполнении условия  ni xi0  x  0 .   На основании данных табл. 2 найдем выборочные:  дисперсию 2 1 8 2,9558 Dв   ni xi0  x   0,0296 ; n i 1 100  среднее квадратическое отклонение  в  0,171;  коэффициент вариации  V  в  100%  3,15% ; x  центральные моменты третьего и четвертого порядков: 3 1 8 0,1349 3   ni xi0  x   0,0013 ; n i 1 100 4 1 8 0,2326 4   ni xi0  x   0,0023 ; n i 1 100  коэффициент асимметрии:  0,0013 0,0013 As  33    0,25 ; в 0,1713 0,0051  коэффициент эксцесса:  0,0023 Ek  43  3   3  0,35 . в 0,00087 Определим моду и медиану. Мода исследуемого признака для заданного xmod  5,48 , так как частота этого значения распределения в виде ряда 1 ~ наибольшая и равна 5. Модальному интервалу, т. е. интервалу, содержащему моду, соответствует наибольшая частота, равная 25 (см. ряд 2, лекция 1). Следовательно, xmod min   5,43, h  0,10 , nmod  25, nmod 1  20 , nmod 1  18 .     Тогда по формуле получим 25  20  5,47 . 2  25  20  18 xmed определим как средний член ряда по точечному распредеМедиану ~ лению выборки. В нашем случае n  100 , поэтому в качестве медианы берем xmed  5,47 . любое значение между 50-м и 51-м членами ряда 1. Здесь ~ Медианному интервалу заданного выборочного распределения 3 соответствует накопленная частота 66, отсюда xmed min   5,43, h  0,1, mmed 1  41, nmed  25 . Используя формулу, получим 50  41 xmed  5,43  0,1   5,466  5,47 . 25 Определим медиану графически по кумуляте. Для этого последнюю ординату, равную объему выборки n  100 , поделим пополам. Восстановим перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения xmed  5,47 и будет медианой. xmod  5,43  0,1  Таким образом, среднее значение коэффициента соотношения заемных и собственных средств предприятий равно 5,457, абсолютный разброс значений показателя Χ равен   0,171, и относительный разброс V  3,15% . Наибольшее число предприятий имеют коэффициент соотношения 5,47, при этом половина предприятий имеют значение этого коэффициента менее 5,47, а половина – более 5,47. Построенные вариационные ряды 1 – 3 и их графические изображения представляют данные в компактном виде. Кроме этого имеется возможность получить сведения о законе распределения вероятностей исследуемой случайной величины. Внешний контур гистограммы, графики кумулятивной кривой и эмпирической функции распределения (лекция 1) свидетельствуют о близости эмпирического распределения к нормальному закону. К этому же выводу можно прийти, сравнивая значения выборочного среднего, моды и медианы. Так как x, xmod и ~ xmed практически не отличаются друг от друга xmed  5,47 ), то есть основание предполагать, что теоретическое ( x  xmod  ~ распределение симметрично относительно своего среднего значения, что является еще одним доводом в пользу выбора модели нормального закона. И, ~ наконец, близость значений выборочных коэффициентов асимметрии Αs и ~ эксцесса E k к нулю также свидетельствует в пользу выбора нормального закона распределения для анализируемой генеральной совокупности. Следовательно, в результате первичной статистической обработки данных мы получили возможность определить некоторые средние показатели интересующего нас признака, а также считать, что случайная величина Χ – коэффициент соотношения заемных и собственных средств предприятий региона – распределена по нормальному закону.

ТЕОРИЯ ВЕРОЯТНОСТЕЙ

#Лекция

Числовые характеристики эмпирических распределений

Тебе могут подойти лекции

Выборка из одномерной генеральной совокупности

Элементы математической статистики

Равномерное, показательное и нормальное распределения непрерывной случайной величины

Генеральная совокупность и выборка. Эмпирическая функция распределения, гистограмма и полигон частот)

Основные понятия математической статистики

Элементы комбинаторики

Математическая статистика

Основные понятия математической статистики

Теория вероятностей и математическая статистика

Технологические основы обработки количественной информации в социологическом исследовании

Числовые характеристики эмпирических распределений

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ