Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Раздел 2. Исследование статистических закономерностей в данных
Лекция 4. Понятие о статистической гипотезе,
логика и алгоритм проверки статистической гипотезы
(на примере критерия независимости для таблиц сопряженностей)
В этой теме мы рассмотрим такие понятия как статистическая
гипотеза, статистический критерий, критерий независимости хи-квадрат
(Пирсона) для определения связи между двумя величинами, измеренными
в шкале наименований.
1. Статистическая гипотеза
Рассмотрим понятие статистической гипотезы.
Пример 1. Допустим, у нас есть две выборки (две совокупности
данных), представляющие собой клики по двум разным фирмам в день. И
мы хотим проверить гипотезу о том, что в среднем две эти фирмы получают
одинаковое количество кликов в день. Что мы можем сделать?
Например, мы можем посчитать средние значения кликов для двух
выборок, посмотреть на них и принять решение — считаем ли мы их
одинаковыми или различными.
И здесь мы сталкиваемся с первой проблемой — это субъективность
такого решения.
Один человек посмотрит на эти значения и скажет, что они
одинаковые.
Другой - посмотрит и скажет, что нет, они различные.
На самом деле правильно было бы посмотреть на распределения
кликов в двух этих выборках, посмотреть на гистограммы.
Раздел 2. Исследование статистических закономерностей в данных
Возможно, в одной или сразу в двух выборках у нас имеются сильно
искажающие результат выбросы (значения изучаемой величины, сильно
отличающиеся от основной массы значений этой величины).
Кроме того, одно распределение может быть симметричным, а другое
может быть асимметричным. И сравнивать среднее, в принципе, не очень
корректно в данном случае.
Как мы видим, проблем в таком подходе достаточно много, и
субъективность, на самом деле, главная из них.
Подход, основанный на формулировании статистической гипотезы и
проверки ее с помощью некоторого статистического критерия, помогает
нам, во-первых, учесть все эти особенности, а также уйти от субъективности
такого решения.
Статистическая гипотеза — это любое утверждение о характеристиках,
свойствах или виде распределения значений изучаемой величины ибо
нескольких изучаемых величин, с которыми мы работаем.
2. Статистический критерий
Статистический критерий — математический метод, применяемый для
проверки статистических гипотез.
Рассмотрим пример проверки статистической гипотезы.
Пример 2. В таблице MS Excel данные, поученные на кружках по
занятиям гребли на каноэ, занятиям кулинарией (выпечкой современных
тортов) и по ведению своего блога.
Посмотрите эти данные в дополнительно приложенном файле с этой
таблицей «Расчеты для примера 2 в лекции».
У нас возникает задача – ответить на вопрос: Зависит ли выбор хобби
от пола?
Если данные не сгруппированы, то они плохо поддаются анализу.
Сгруппируем результаты в таблицу, состоящую из двух столбцов: пол и
хобби.
Раздел 2. Исследование статистических закономерностей в данных
Для этого в соседних ячейках сбоку,
размерности 4×3, как представлено на рисунке:
сформируйте
таблицу
Для подсчета количества мужчин, занимающихся греблей на каноэ, в
ячейку E3 введите следующую формулу:
=СЧЁТЕСЛИМН($A$2:$A$101;"муж";$B$2:$B$101;"гребля на каноэ")
Для расчета количества остальных показателей можно протянуть
данную формулу на остальные ячейки, заменив затем некоторые
параметры. Формулы для остальных ячеек должны выглядеть следующим
образом:
Для F3: =СЧЁТЕСЛИМН($A$2:$A$101;"муж";$B$2:$B$101;"блоги")
Для G3: =СЧЁТЕСЛИМН($A$2:$A$101;"муж";$B$2:$B$101;"кулинария")
Для E4: =СЧЁТЕСЛИМН($A$2:$A$101;"жен";$B$2:$B$101;
"гребля на каноэ")
Для F4: =СЧЁТЕСЛИМН($A$2:$A$101;"жен";$B$2:$B$101;"блоги")
Для G4: =СЧЁТЕСЛИМН($A$2:$A$101;"жен";$B$2:$B$101;"кулинария")
В результате получаем таблицу:
Раздел 2. Исследование статистических закономерностей в данных
Таблицы такого вида называются таблицами сопряженности.
Таблица сопряжённости — средство представления совместного
распределения двух изучаемых величин, предназначенное для
исследования связи между ними.
В таблице сопряженности на пересечении значений изучаемых
величин «хобби» и «пол» стоят частоты (абсолютные частоты) встречаемости
этих значений. Так, например, значение 8 – это количество мужчин с хобби
«кулинария».
Анализируя данные в полученной таблице сопряженности мы можем
заметить, что мужчины в большей степени выбирают в качестве хобби
греблю на каноэ, чем женщины, и наоборот ситуация складывается
относительно другого хобби, а именно, в кулинарии.
3. Критерий независимости
Возвращаемся к нашей задаче: Зависит ли выбор хобби от пола?
Для решения этой задачи будем применять статистический критерий критерий независимости хи-квадрат.
Критерий независимости хи-квадрат используется для определения
связи между двумя величинами, измеренными в шкале наименований.
Вопрос. Можно ли применять данный критерий для величин,
измеренных в других шкалах?
Для применения данного критерия сформулируем статистические
гипотезы Н0 и Н1.
Статистическая гипотеза Н0 – основная или нулевая гипотеза в случае
применения данного критерия будет формулироваться следующим образом:
«Между изучаемыми величинами «хобби» и «пол» нет значимой связи»
или
«Пол значимо не влияет на хобби».
Раздел 2. Исследование статистических закономерностей в данных
Статистическая гипотеза Н1 – конкурирующая или альтернативная
гипотеза будет формулироваться следующим образом: «Между изучаемыми
величинами «хобби» и «пол» есть значимая связь»
или
«Пол значимо влияет на хобби».
Частоты в таблице сопряженности, вычисленные по реальным
данным, называются наблюдаемыми частотами.
Если бы гипотеза Н0 была верна, т.е. хобби не зависело бы от пола, то
частоты в строке «мужчины» и «женщины» были бы одинаковыми.
Частоты, которые должны были бы быть в таблице сопряженности при
справедливости основной (нулевой) гипотезы, называются ожидаемыми
частотами.
Для проверки основной гипотезы проведем следующие расчеты.
Вычислим частоты, суммирующие частоты по строчкам и столбцам:
Цветом выделены наблюдаемые частоты.
В «итого» вычислены частоты, о которых говорится в данном пункте.
Вычислим ожидаемые частоты по наблюдаемым:
(Вычисление ожидаемых часто продемонстрируем на частотах
нашего примера, без приведения математических формул с буквенными
значениями и индексами).
Цветом представлен алгоритм вычисления.
Получаем таблицу ожидаемых частот:
муж
жен
итого
гребля на каноэ
блоги
кулинария
итого
20*50/100=10 50*50/100=25 30*50/100=15 50
20*50/100=10 50*50/100=25 30*50/100=15 50
20
50
30
100
Получаем таблицу ожидаемых частот:
муж
жен
итого
гребля на каноэ
10
25
10
25
20
50
блоги
кулинария
15
15
30
итого
50
50
100
В файле «Расчеты для примера 2 в лекции» данные таблицы также
представлены.
Вычислим статистическую характеристику Sвыч, определяющую
разницу между наблюдаемыми и ожидаемыми частотами:
Раздел 2. Исследование статистических закономерностей в данных
Sвыч – сумма по всем ячейкам таблицы сопряженностей квадратов
разностей между наблюдаемыми и ожидаемыми частотами, поделенными
на ожидаемые частоты в данной клетке, т.е.:
а) для каждой ячейки таблицы сопряженностей вычислим следующую
величину: (наблюдаемая частота – ожидаемая частота)2/ожидаемую
частоту.
б) найдем сумму всех полученных значений.
Получаем:
а)
муж
жен
итого
гребля на каноэ
(12-10)2/10
(8-10)210
блоги
(30-25)2/25
(20-25)2/25
кулинария
(8-15)2/15
(22-15)2/15
итого
б) сумма всех полученных значений найдена в файле «Расчеты для
примера 2 в лекции», Sвыч = 9,33
Следующим этапом проверки основной гипотезы по критерию
независимости хи-квадрат является сравнение Sвыч с Sкритич.
Критическое значение статистики критерия Sкритич - величина,
характеризующая максимально допустимую разницу между наблюдаемыми
и ожидаемыми частотами при данных размерах таблицы сопряженностей и
выбранном уровне значимости.
Sкритич = Sкритич ( , k = (r-1)(l-1)), где
r – количество строк в таблице сопряженностей без «итого», т.е.
количество значений одной изучаемой величины,
l – количество столбцов в таблице сопряженностей без «итого», т.е.
количество значений одной изучаемой величины,
, - уровень значимости – вероятность ошибки ошибка
статистического вывода, или вероятность отвергнуть основную гипотезу,
если она верна.
В наших примерах будем использовать значение уровня значимости,
равное 0,05.
Значение Sкритич (k, ) находят по таблицам критических значений
критерия независимости хи-квадрат:
Раздел 2. Исследование статистических закономерностей в данных
На пересечении k= (3-1)(2-1) = 2 и = 0,5 находим значение 6,0,
следовательно, Sкритич (k, ) = 6,0.
Для окончательного решения нашей задачи о справедливости
гипотезы Н0 остается сравнить вычисленное значение статистики критерия
и критическое значение статистики критерия.
Для критерия независимости : если Sвыч > Sкритич (k, ), то гипотезу Н0
отвергают на данном уровне значимости.
В нашем случае имеем, Sвыч = 9,33 > Sкритич (k, ) = 6,0,
следовательно, гипотезу Н0 отвергаем на данном уровне значимости, а
принимаем альтернативную гипотезу Н1 .
Таким образом, мы доказали, что выбор хобби значимо зависит от
пола.
После этого утверждения можно сделать выводы уже и по таблице,
каким образом зависит, представители какого пола какие хобби больше
выбирают. Сделайте это самостоятельно.
Раздел 2. Исследование статистических закономерностей в данных
Анализ значений таблицы сопряженностей лучше производить,
предварительно рассчитав частоты в таблице наблюдаемых частот в
процентном виде.
При принятии гипотезу Н0 анализ значений таблицы сопряженностей
делать не надо. Все существующие различия частот между признаются
незначимыми.
На этом занятии мы рассмотрели алгоритм проверки статистической
гипотезы на примере критерия независимости хи-квадрат.
На следующем занятии мы обобщим данный материал и рассмотрим,
как можно сократить вычисления в программе Excel.