Первичные описательные статистики: меры центральной тенденции, меры изменчивости, меры связи
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции на тему: «Первичные описательные статистики: меры центральной тенденции, меры изменчивости, меры связи»
План конспекта
1. Понятие первичных описательных статистик.
2. Меры центральной тенденции.
3. Меры изменчивости.
4. Меры связи.
5. Глоссарий
1. Понятие первичных описательных статистик
К первичным описательным статистикам (Descriptive Statistics) относят числовые характеристики распределения измеренного на выборке признака.
Каждая такая характеристика отражает в одном числовом значении свойство распределения множества результатов измерения.
Основное назначение каждой из первичных описательных статистик – замена множества значений признака, измеренного на выборке, одним числом (например, средним значением как мерой центральной тенденции).
Описание группы при помощи первичных статистик позволяет интерпретировать результаты измерений путем сравнения первичных статистик разных групп.
Первичные описательные статистики включают:
1. Меры центральной тенденции.
2. Меры изменчивости.
3. Меры связи.
2. Меры центральной тенденции
Мера центральной тенденции (Central Tendency) — это число, характеризующее выборку по уровню выраженности измеренного признака.
Свойства (значения), используемые для описания совокупности данных, могут быть описаны показателями, известными как «статистики свертки». Различные меры центральной тенденции совокупности данных предполагают разные определения «центрального положения».
Существуют три способа определения «центральной тенденции»:
1) мода
2) медиана
3) выборочное среднее.
1. Мода (Mode) – такое значение в множестве наблюдений, которое встречается наиболее часто.
Например, в совокупности значений (2, 6, 6, 8, 9, 9, 9, 10) модой является 9, потому что оно встречается чаще любого другого значения. Мода представляет собой наиболее частое значение (в данном примере 9), а не частоту этого значения (в примере равную 3).
Соглашения об использовании моды:
1. Если все значения в группе встречаются одинаково часто, принято считать, что группа оценок не имеет моды. Например, в группе (0,5; 0,5; 1,6; 1,6; 3,9; 3,9) мода отсутствует.
2. В случае, когда два соседних значения имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений. Например, мода группы значений (0, 1, 1, 2, 2, 2, 3, 3, 3, 4) равна 2,5.
3. Когда два несмежных значения в группе имеют равные частоты и они больше частот любого значения, то существуют две моды. Например, в группе значений (10, 11, 11, 11, 12, 13, 14, 14, 14, 17) модами являются 11 и 14. В этом случае говорят, что группа оценок является бимодальной.
Различают большие и меньшие моды. Например, рисунок 1.
Рис.1. Пример наличия большей и меньших мод в группе.
На представленном рисунке наибольшая мода наблюдается при значении 6 (единственное значение, которое удовлетворяет определению моды), а меньшие – при значениях 3,5 и 10(локальные вершины).
2.Медиана, Md (Median) – такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам, так что одна половина всех значений оказывается больше медианы, а другая – меньше.
Алгоритм расчета медианы:
1. Если данные содержат нечетное число значений, то медиана является средним значением для случая, когда они упорядочены. Например, для ряда чисел 11, 13, 18, 19, 20 Md = 18.
2. Если данные содержат четное число различных значений, то медианой будет точка, лежащая посередине между двумя центральными значениями, когда они упорядочены. Например, для ряда чисел 4, 9, 13, 14 Md = (9 + 13)/2 = 11.
3. Если в данных есть объединенные классы, необходимо провести табулирование частот.
3. Среднее (Mean) или выборочное среднее, среднее арифметическое – сумма всех значений измеренного признака, деленная на количество суммированных значений.
Среднее совокупности n значений определяется по формуле:
Свойства среднего:
1. Если к каждому значению переменной прибавить одно и то же число, то среднее увеличится на это число или уменьшится, если оно отрицательное.
2. Если каждое значение переменной умножить на одно и то же число, то среднее увеличится в это же число раз, если делить – то уменьшится.
3. Сумма всех отклонений от среднего равна нулю.
4. Среднее отклонение от среднего равно нулю.
3. Меры изменчивости.
Меры изменчивости (Dispersion) применяются в психологии для численного выражения величины межиндивидуальной вариации признака.
Размах (Range) измеряет на числовой шкале расстояние, в пределах которого изменяются оценки.
Различают два типа размаха: включающий и исключающий.
1. Исключающий размах – это разность максимального и минимального значений в группе. Например, исключающий размах значений 0, 2, 3, 5, 8 равен 8(8 - 0 = 8).
2. Включающий размах – это разность между естественной верхней границей интервала, содержащего максимальное значение, и естественной нижней границей интервала, включающего минимальное значение. Например, измеряется рост пяти мальчиков: 150, 155, 157, 165, 168 см. Включающий размах равен разности 168,5 - 149,5 = 19.
Размах является довольно грубой, но общераспространенной мерой изменчивости.
Дисперсия (Variance) – мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений измеренных значений от и арифметического среднего.
Чем больше изменчивость в данных, тем больше отклонения значений от среднего, тем больше величина дисперсии. Дисперсия определяется как:
Свойства дисперсии:
1. Если значения измеренного признака не отличаются друг от друга (равны между собой), дисперсия равна нулю.
2. Прибавление постоянного (не меняющегося) числа к каждому значению в совокупности не меняет величину дисперсии.
3.Прибавление константы к каждому значению переменной не меняет дисперсию.
4. Умножение каждого значения переменной на константу с изменяет дисперсию в с2 раз.
5. При объединении двух выборок с одинаковой дисперсией, но с разными средними значениями дисперсия увеличивается.
6. При объединении двух групп к внутригрупповой дисперсии каждой группы добавляется дисперсия, обусловленная различием между группами (их средними). Чем больше различие между средними значениями, тем больше увеличивается дисперсия объединенных групп.
На практике чаще используется стандартное отклонение, а не дисперсия, т.к. сигма выражает изменчивость в исходных единицах измерения признака, а дисперсия – в квадратах исходных единиц.
Стандартное отклонение, sх (Std. deviation) (сигма, среднеквадратическое отклонение) определяется как положительное значение квадратного корня из дисперсии.
4. Меры связи.
Меры связи служат для описания связи (или корреляции) между переменными.
Любое эмпирическое исследование направлено на изучение взаимосвязей двух или более переменных.
Различают 2 класса задач:
1) исследование корреляций – когда две переменные представлены в числовой шкале;
2) исследование различий – когда хотя бы одна из двух переменных представлена в номинативной шкале.
Взаимосвязь чаще всего описывается при помощи функций, которые графически изображаются в виде линий.
Рис.2. Примеры линейной и нелинейной прямой и обратной связи
Функциональная связь между переменными выступает эмпирически как вероятностная: одному и тому же значению одной переменной соответствует распределение различных значений другой переменной и наоборот. Функциональная взаимосвязь явлений может быть выявлена только как вероятностная связь соответствующих признаков.
Рис.3. Примеры вероятностной связи ( диаграммы рассеивания)
В качестве числовой характеристики вероятностной связи используются коэффициенты корреляции.
Коэффициент корреляции – это количественная мера силы и направления вероятностной взаимосвязи двух переменных; принимает значения в диапазоне от -1 до +1.
Показателем силы связи является абсолютная величина коэффициента корреляции без учета знака (+ или - ).
Показателем направления связи является знак коэффициента корреляции.
Различают четыре типа измерений переменных:
1. Измерения в дихотомической шкале наименований. Фиксируется наличие или отсутствие чего-либо.
2. Измерения в дихотомической шкале наименований в предположении нормального распределения. дихотомические данные, основанные на нормальном распределении.
3. Измерения в шкале порядка.
4. Измерения в шкалах интервалов или отношений.
В исследовании взаимосвязи двух метрических переменных, измеренных на одной и той же выборке применяется Коэффициент корреляции r-Пирсона (Pearson r).
Коэффициент корреляции Пирсона – это мера линейной (прямолинейной) связи между переменными.
Формула:
Этот коэффициент не чувствителен к криволинейным связям. Он позволяет определить, насколько пропорциональна изменчивость двух переменных.
Если переменные пропорциональны друг другу, то графически связь между ними можно представить в виде прямой линии с положительным (прямая пропорция) или отрицательным (обратная пропорция) наклоном.
Таблица 1 - 16 (4x4) возможных пар измерений для двух переменных, которые могут коррелировать с использованием Pearson r
Шкала
переменной Y
Шкала переменной X
Дихотомия
Дихотомия, основанная на нормальном распределении
Шкала порядка
Шкала интервалов или отношений
Дихотомия
А
(B)
(C)
(D)
Дихотомия, основанная на нор-мальном распределении
В
E
(F)
(G)
Шкала порядка
C
F
H
(I)
Шкала интервалов или отношений
D
G
I
J
Другой мерой связи является коэффициент φ («фи»). Он применяется, когда обе переменные измеряются в дихотомических шкалах наименований, фиксируется наличие или отсутствие чего-либо, и данные представляют собой нули и единицы.
Коэффициент φ («фи») – это коэффициент корреляции Пирсона между двумя переменными, каждая из которых имеет оценки 0 и 1.
Формула: или
Таблица 2 – Таблица сопряженности 2х2 с использованием коэффициента φ
Признак X
Итог
1
Признак Y
1
a
b
a + b
9
c
d
с + d
Итог
a + c
b + d
n
Мерой связи, когда обе переменные измеряются в шкалах порядка, служит коэффициент ранговой корреляции r-Спирмена
Коэффициент ранговой корреляции Спирмена (rs) (Spearman’s rho) - это коэффициент корреляции, равный произведению моментов, вычисленный по 2 группам n последовательных, несвязанных рангов 1,…, n.
Формула:
Величина rs не бывает меньше -1 или больше +1.
Коэффициент корреляции Спирмена особенно удобен, когда исходные данные представляют собой ранги.
Коэффициент корреляции Спирмена равен коэффициенту корреляции Пирсона, вычисленному для двух предварительно ранжированных переменных.
Для анализа направления связи используют коэффициент корреляции τ, при котором используется мера связи, называемая «тау» и обозначаемая τ представляет собой счетчик числа несовпадений в ранжировках X и Y.
Коэффициент корреляции τ-Кендалла – это разность относительных частот совпадений и инверсий при переборе всех пар испытуемых в выборке.
Формула:
Согласно Кендаллу, о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по X совпадает по направлению с изменением по Y, то это свидетельствует о положительной связи между переменными, если не совпадает – то наблюдательная отрицательная связь.
При наличии связанных рангов формулы корреляции r-Спирмена и τ-Кендалла не подходят. Изменчивость данных становится меньше. Следовательно, уменьшается возможность оценить степень связи между измеренными свойствами.
5. Глоссарий
Включающий размах – это разность между естественной верхней границей интервала, содержащего максимальное значение, и естественной нижней границей интервала, включающего минимальное значение.
Диаграмма рассеивания – график, оси которого соответствуют значениям двух переменных, а каждый испытуемый представляет собой точку:
Дисперсия (Variance) – мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений измеренных значений от и арифметического среднего.
Исключающий размах – это разность максимального и минимального значений в группе.
Исследование корреляций – когда две переменные представлены в числовой шкале.
Исследование различий – когда хотя бы одна из двух переменных представлена в номинативной шкале.
Коэффициент φ («фи») – это коэффициент корреляции Пирсона между двумя переменными, каждая из которых имеет оценки 0 и 1.
Коэффициент корреляции – это количественная мера силы и направления вероятностной взаимосвязи двух переменных; принимает значения в диапазоне от -1 до +1.
Коэффициент корреляции τ-Кендалла – это разность относительных частот совпадений и инверсий при переборе всех пар испытуемых в выборке.
Коэффициент корреляции Пирсона – это мера линейной (прямолинейной) связи между переменными.
Коэффициент ранговой корреляции Спирмена (rs) (Spearman’s rho) - это коэффициент корреляции, равный произведению моментов, вычисленный по 2 группам n последовательных, несвязанных рангов 1,…, n.
Линейная связь - изменение одной переменной на единицу всегда приводит к изменению другой переменной на одну и ту же величину.
Медиана, Md (Median) – такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам, так что одна половина всех значений оказывается больше медианы, а другая – меньше.
Меньшие моды - локальные вершины распределения частот.
Мера связи — показатель степени взаимосвязи между переменными.
Мера центральной тенденции (Central Tendency) — это число, характеризующее выборку по уровню выраженности измеренного признака.
Меры изменчивости (Dispersion) – статистические показатели разброса значений переменной относительно меры центральной тенденции.
Мода (Mode) – такое значение в множестве наблюдений, которое встречается наиболее часто.
Наибольшая мода в группе - единственное значение, которое удовлетворяет определению моды.
Первичные описательные статистики (Descriptive Statistics) - числовые характеристики распределения измеренного на выборке признака.
Размах вариации (Range) – абсолютная величина разности между максимальным и минимальным значением (вариантами) признака.
Среднее (Mean) – сумма всех значений измеренного признака, деленная на количество суммированных значений.
Стандартное отклонение (сигма, среднеквадратическое отклонение) — показатель рассеивания значений случайной величины относительно её математического ожидания.
Тау (τ) - мера связи, которая представляет собой счетчик числа несовпадений в ранжировках X и Y.
Функциональная связь - одному и тому же значению одной переменной соответствует распределение различных значений другой переменной и наоборот.