Основы статистики. Генеральная совокупность. Выборка
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Основы статистики
Генеральная совокупность – множество всех объектов, относительно которых делаются
выводы в рамках исследования.
Выборка – часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).
Виды выборок:
Простая случайная выборка (simple random sample)
Стратифицированная выборка (stratified sample). Страты – группы, на которые разбивается генеральная совокупность, а затем осуществляется выбор. Например, если
хотим, чтобы были представлены студенты всех возрастов, весь институт разбивается на курсы, а потом из них уже осуществляется отбор.
Групповая выборка (claster sample). А если хотим упростить отбор, то алфавитный
список студентов института разбиваем на части, и случайно выбираем из каждой
части списка. Или из каждого курса случайно выбираем группу, студентов которой
будем исследовать
Типы переменных (характеристик генеральной совокупности)
1. Количественные (numerical) – измеренные значения:
Непрерывные ([0; 1]), например, рост;
Дискретные (1, 2,..), например, число детей в семье.
2. Номинативные (categorical) – разделение на группы, имена групп (1=м, 2=ж). Не
имеет смысла сравнивать. Это просто маркеры.
3. Ранговые (ordinal) – операции сравнения (распределение мест в забеге). Но не говорит о преимуществе (на сколько, во сколько).
Можно осуществлять переход из количественных в номинативные. Например, количественная переменная рост – по возрастанию ранговая переменная – разделение на выше
среднего и ниже среднего номинативная переменная
Виды графиков
Histogramm (гистограмма) – график, показывающий как часто значение переменной
встречается на определённом промежутке.
Dot plot (точечный график, полигон) – график, в котором каждой точке соответствует одно значение выборки.
Box plot (ящик с усами) – график, показывающий медиану, нижний x0.25 и x0.75 верхний
квартили, минимальное и максимальное значение выборки и выбросы. В ящик попадают
значения (50% измерений), лежащих между квантилями x0.25 и x0.75 . Это межквартильный размах, который часто используется как мера изменчивости. Чем шире «ящик», тем
больше изменчивость вариативного признака. Вверх и вниз от ящика исходят два отрезка
равные 1,5 x0.75 x0.25 , то есть полтора межквартильных размаха. Точки, превышающие
в своём отклонении полтора межквартильных размаха, отображаются отдельно. Такое
представление выборки позволяет отследить выбросы.
Box plot используется для сравнения двух групп между собой и первого представления о
том, насколько они различаются.
Q-Q plot (график квантиль-квантиль) – показывает, насколько выборочное значение соответствует нормальному распределению, линия – идеальное нормальное распределение.
Scatter plot (диаграмма рассеяния) – диаграмма, изображающая значения двух переменных в виде точек на декартовой плоскости.
Biplot – график первых двух компонент с вкладом каждой переменной.
Описательная статистика
1. Меры центральной тенденции
Мода (mode) – значение признака, которое встречается максимально часто. Распределение
может иметь несколько мод. Унимодальное распределение имеет одну моду.
Медиана (median) – значение признака, которое делит упорядоченное множество данных
пополам. Если количество значений нечётно, то медиана точно посередине, если же количество значений чётно, то медиана равна среднему двух значений, стоящих посередине.
Среднее значение (mean) – сумма всех значений признака, делённая на количество измеренных значений. Среднее значение очень чувствительно к асимметрии (перекосу в левую
или правую сторону), многомодальности и выбросам, то есть к значениям, сильно отличающимся от соседей. Для таких выборок удобнее использовать в качестве меры центральной тенденции моду или медиану.
Обозначения: N – объём генеральной совокупности, n – объём выборки, M (X ) – среднее значение генеральной совокупности, x – среднее значение выборки.
Формулы:
1 n
1 N
M ( X ) xi , x xi
n i 1
N i 1
Методы нахождения точечных оценок:
а) метод моментов;
б) метод максимального правдоподобия.
2. Меры изменчивости
Размах (range) – разность максимального и минимального значения.
Дисперсия (variance) – средний квадрат отклонений индивидуальных значений признака
от их средней величины.
Среднеквадратическое отклонение (standard deviation, стандартное отклонение) – среднее отклонение индивидуальных значений признака от их средней величины.
2
Обозначения: D(X ) – дисперсия генеральной совокупности, Dв – дисперсия выборочной
совокупности, – стандартное отклонение генеральной совокупности, s – стандартное
отклонение выборки.
Формулы:
1 n
1 N
D( X ) ( xi M ( X ))2 , Dв
( xi M ( X ))2 , D(X ) , s Dв
n 1 i 1
N i 1
Квантили распределения
Квантиль – значение, которое заданная случайная величина не превышает с фиксированной вероятностью: P( X x ) .
Квартили – три значения признака, которые делят упорядоченное множество данных на
четыре равные части.
Нормальное распределение
Нормальное распределение – унимодально, симметрично, отклонения наблюдений от
среднего подчиняются определённому вероятностному закону (правило 3 ):
1. P( x X x ) 0,68
2. P( x 2 X x 2) 0,95
3. P( x 3 X x 3) 0,98
В реальном мире множество характеристик и переменных распределены по нормальному
закону.
Стандартизация (Z-преобразование) – преобразование полученных данных в стандартx x
ную Z-шкалу (Z-scores) со средним M (Z ) 0, D(Z ) 1 с помощью замены zi i
s
для упрощения работы с данными. Z-преобразование позволяет ответить на вопрос, какой
процент наблюдений лежит в нужном диапазоне.
Центральная предельная теорема
Пусть признак имеет нормальное распределение, тогда при многократном повторении
эксперимента выборочные средние симметричным образов распределяться вокруг среднего значения генеральной совокупности, а стандартное отклонение такого распределения
выборочных средних – стандартная ошибка среднего:
s
при n 30 .
se
n
n
Доверительные интервалы
Доверительный интервал для среднего
1,96, 1,96 – 95% всех выборочных средних включили бы в данный интервал
среднее генеральной совокупности.
3
2,58, 2,58 – 99% доверительный интервал.
1. Нормальное распределение X N m,
а) доверительный интервал для оценки математического ожидания m при известной дисперсии D и среднем квадратическом отклонении генеральной совокупности с
надёжностью
I (m) ( x ; x ) ,
u / 2
– квантиль нормального распределения (занесена в таб2
n
лицы, можно рассчитать в Excel);
б) доверительный интервал для оценки математического ожидания m при неизвестной дисперсии D и среднем квадратическом отклонении генеральной совокупности с надёжностью
I (m) ( x ; x ) ,
где
s t1
где
, u / 2 : (u / 2 )
, n 1
, t1
– квантиль распределения Стьюдента (занесена в таблицы,
, n 1
n
2
можно рассчитать в Excel);
в) доверительный интервал для оценки дисперсии D с надёжностью
2
(n 1) s 2 (n 1) s 2
,
I ( D)
;
2
(22)
(1)
1 2
1
2
2
где (21) 2 n 1;
, ( 2) n 1;
– квантили -распределения (правосто2
2
роннего, занесены в таблицы, можно рассчитать в Excel).
2. Показательное распределение X P
Существует большое число формул для построения доверительного интервала для оценки
параметра показательного распределения
Доверительный интервал для оценки параметра показательного распределения с
надёжностью при n 100
2
4n 1 u 2
4n 1 u / 2
/2
I ( )
;
4n x
4n x
3. Равномерное распределение
Доверительный интервал для оценки параметров a, b равномерного распределения с
надёжностью
I (a) x(0) ; x(0) , I (b) x( n) ; x(n) ,
где W 1 n 1 ,
W – размах выборки, x( 0) , x(n ) – наименьшее и наибольшее значения выборки.
Идея статистического вывода
Нулевая гипотеза H 0 – отсутствие значимых различий между средним значением выборки и средним значением генеральной совокупности.
Альтернативная гипотеза H1 – значимое отклонение между средним значением выборки и средним значением генеральной совокупности.
4
p -уровень значимости – вероятность получения такого или ещё более сильного отклонения от среднего значения, если верна H 0 . Чем меньше p , тем больше оснований отклонить нулевую гипотезу. Обычно при p 0,05 принимаем H1 , т.е. мы получили статистически значимое отклонение.
Ошибка 1 рода – приняли альтернативную гипотезу, хотя верна нулевая.
Ошибка 2 рода – приняли нулевую гипотезу, хотя верна альтернативная.
5