Вычисление элементарных статистик, подбор модели распределения
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
3. Вычисление элементарных статистик, подбор модели
распределения
Генеральная совокупность и выборка
Множество всех обследуемых объектов называется генеральной совокупностью. Если это множество содержит небольшое число элементов, то возможно полное обследование всех его элементов. Однако, в большинстве случаев обследуется некоторая часть генеральной совокупности – выборка. В этом случае основные характеристики генеральной совокупности оцениваются по выборке (т.е. определяются приближенно). Очевидно, что не всякая выборка правильно отражает свойства генеральной совокупности. Например, нельзя судить о среднем душевом доходе населения по выборке, составленной из доходов служащих финансовых компаний. Выборка должна давать правильное, неискажённое представление о генеральной совокупности, или, как говорят, должна быть репрезентативной.
Генеральной совокупностью называется вся исходная изучаемая статистическая совокупность, из которой на основе отбора единиц или групп единиц формируется совокупность выборочная. Поэтому генеральную совокупность также называют основой выборки. Отбор единиц в выборочную совокупность может быть повторным или бесповторным.
Та совокупность, из которой выбираются единицы для обследования, называется генеральной.
Та совокупность, которую отобрали для обследования, называется выборочной.
Элементарные описательные статистики
1) Mean – среднее арифметическое (часто называемое просто средним). Это наиболее часто используемое среднее. Среднее значение случайной величины представляет собой наиболее типичное, наиболее вероятное её значение, своеобразный «центр», вокруг которого разбросаны все значения признака.
Если известны индивидуальные значения признака для каждой единицы наблюдения, то для расчета средней величины используется формула средней арифметической простой. Средняя арифметическая простая определяется как сумма наблюдений, делённая на их количество:
где n – численность совокупности.
Если исходная информация представляет собой ряд распределения, или группировку, то для расчета средней величины используется формула средней арифметической взвешенной:
где xi – значение признака, fi – число единиц, обладающих данным значением признака, n – число групп.
2) Median – медиана. Медиана — величина варьирующего признака, делящая совокупность на две равные по численности части — со значениями признака меньше медианы и со значениями признака больше медианы.
Медиана – это величина, находящаяся посередине набора данных, когда в нём все наблюдения упорядочены по возрастанию; если число наблюдений чётно, то имеются два «срединных» значения, и медиана равна их полусумме.
В интервальном вариационном ряду для нахождения медианы применяется формула:
где – медиана; - начальное значение медианного интервала; - длина медианного интервала; - полусумма всех частот; - сумма накопленных частот интервала, предшествующего медианному; - частота медианного интервала.
3) Мода представляет собой наиболее часто встречающееся значение. В некоторых наборах данных могут быть две или более моды, имеющие одну и ту же частоту (явление мультимодальности).
где - мода; - начальное значение модального интервала; - длина модального интервала; – частота модального интервала; – частота интервала, предшествующего модальному; - частота интервала, следующего за модальным.
4) Standard Deviation – стандартное отклонение. Стандартное отклонение (или среднее квадратическое отклонение) является мерой изменчивости (вариации) признака. Оно показывает, на какую величину в среднем отклоняются наблюдения от среднего значения признака.
В случае, если данные не сгруппированы, то для расчета стандартного отклонения используется формула:
.
Если данные сгруппированы, то применяется формула:
5) Variance – дисперсия. Дисперсия является мерой изменчивости (вариации) признака и представляет собой средний квадрат отклонений наблюдений от среднего значения признака.
Простая дисперсия:
Взвешенная дисперсия:
Чем меньше значения стандартного отклонения и дисперсии, тем более однородна совокупность единиц наблюдения.
6) Coefficient of variation – коэффициент вариации:
Если значение коэффициента вариации менее 33 %, то совокупность считается однородной; если больше 33 %, то неоднородной.
7) Standard error of mean – стандартная ошибка среднего. Стандартная ошибка среднего – это величина, на которую отличается среднее значение выборки от среднего значения генеральной совокупности при условии, что распределение близко к нормальному.
8) Minimum, maximum – минимальное и максимальное значения.
9) Lower, upper quartiles – нижний и верхний квартили. Квартилями называются такие величины Q1 и Q3, что одна четвертая часть наблюдений меньше или равна Q1 и три четверти наблюдений меньше или равны Q3. Подобным образом можно определить и величину Q2, которая в этом случае является медианой.
Часто величину Q1 называют нижней квартилью, а величину Q3 – верхней. Разность между ними называется интерквартильной широтой.
Quartile range – интерквартильная широта.
где - нижняя граница интервала, содержащего нижний квартиль (интервал определяется по накопленной частоте, первой превышающей 25 %);
- нижняя граница интервала, содержащего верхний квартиль (интервал определяется по накопленной частоте, первой превышающей 75 %);
- длина интервала;
- накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль;
- накопленная частота интервала, предшествующего интервалу, содержащему верхний квартиль;
- частота интервала, содержащего нижний квартиль;
- частота интервала, содержащего верхний квартиль.
10) Range – размах вариации. Расстояние между наибольшим (maximum) и наименьшим (minimum) значениями признака.
11) Skewness – асимметрия. Асимметрия характеризует степень смещения вариационного ряда относительно среднего значения по величине и направлению. В симметричной кривой коэффициент асимметрии равен нулю. Если правая ветвь кривой, начиная от вершины, больше левой (правосторонняя асимметрия), то коэффициент асимметрии больше нуля. Если левая ветвь кривой больше правой (левосторонняя асимметрия), то коэффициент асимметрии меньше нуля. Асимметрия менее 0,5 считается малой.
где - для несгруппированных данных,
- для сгруппированных данных,
12) Standard error of Skewness – стандартная ошибка асимметрии.
13) Kurtosis – эксцесс. Эксцесс характеризует степень концентрации случаев вокруг среднего значения и является своеобразной мерой крутости кривой. В кривой нормального распределения эксцесс равен нулю. Если эксцесс больше нуля, то кривая распределения характеризуется островершинностью, т.е. является более крутой по сравнению с нормальной, а случаи более густо группируются вокруг среднего. При отрицательном эксцессе кривая является более плосковершинной, то есть более пологой по сравнению с нормальным распределением (см. Рис. 3.1).
Рис. 3.1 – Эксцесс распределения
Для несгруппированных данных:
Для сгруппированных данных:
Наличие положительного эксцесса означает, что в изучаемой массе явлений существует слабо варьирующее по данному признаку «ядро». При существенном отрицательном эксцессе такого «ядра» нет совсем.
По значениям показателей асимметрии и эксцесса можно судить о близости распределения к нормальному, что бывает существенно важно для оценки результатов корреляционного и регрессионного анализа, возможностей вероятностной оценки прогнозов.
14) Standard error of Kurtosis – стандартная ошибка эксцесса.
Нормальное распределение
Характерное свойство нормального распределения состоит в том, что 68,27% из всех его наблюдений лежат в диапазоне одного стандартного отклонения от среднего [µ–σ, µ+σ], диапазон два стандартных отклонения [µ–2σ, µ+2σ] включает 95,45% значений, диапазон три стандартных отклонения [µ–3σ, µ+3σ] включает 99,73% значений (см. Рис. 3.2). Таким образом, за пределами ±3σ относительно µ вероятность появления случайной величины не превышает значения 0,27%. Это знаменитое правило «три сигма», чрезвычайно популярное на практике.
Рис. 3.2 – Нормальное распределение
Обычно отдельные величины группируются вокруг определённого среднего значения и по мере удаления от него дисперсия всё более и более увеличивается. Величины, наиболее удалённые от среднего значения, могут существенным образом отличаться от основной массы величин данной группы. В каждом конкретном случае нужно чётко знать, что представляет интерес: основная масса величин или крайние для данной группы величины.
Степень отклонения крайних величин от среднего зависит обычно от трёх факторов: от состава выборки; от размера изучаемой выборки; от характера выборки.
О нормальности распределения можно судить по графику, который называется «нормальный вероятностный график». Чем ближе распределение к нормальному виду, тем лучше значения ложатся на прямую линию. Этот метод оценки является фактически глазомерным. В сомнительных случаях проверку на нормальность можно продолжить с использованием специальных статистических критериев (Колмогорова-Смирнова, хи-квадрат). Однако, детальная проверка гипотезы о нормальности выборки требует довольно значительных объемов выборки (не менее 100 наблюдений).
Соотношение между средней величиной, медианой и модой
Если распределение по форме близко к нормальному закону, то медиана находится между модой и средней величиной, причем, ближе к средней, чем к моде.
При правосторонней асимметрии > Me > Mo; при левосторонней асимметрии < Me < Mo (см. Рис. 3.3).
Для умеренно асимметричных распределений справедливо равенство: .
В случае нормального распределения мода, медиана и средняя совпадают.
Рис. 3.3 – Асимметрия распределения:
а – левосторонняя; б – правосторонняя