Методы проверки статистических гипотез в педагогических исследованиях.
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция №8
Методы проверки статистических гипотез в педагогических
исследованиях.
В педагогике для проверки эффективности предлагаемого авторского
подхода, как правило, выбираются экспериментальная и контрольная
группы. При этом первым делом проверяется, является ли уровень
подготовленности групп по исследуемому признаку примерно одинаковым.
Следующим
требованием
при
организации
эксперимента
является
одинаковый уровень работающих в этих группах экспериментаторовпедагогов, а ещё лучше, если это делает по-разному сам автор предлагаемого
подхода (традиционно - в контрольной группе и с использованием
разработанного метода - в экспериментальной группе).
Для проверки и подтверждения полученных результатов используют
так называемые критерии согласия. Данные критерии дают возможность
установить, в каком случае результаты проведенных сравнений носят
случайный характер, а в каком являются следствием предложенного автором
подхода.
Например, если найти коэффициент корреляции между уровнем знаний
по точным и гуманитарным наукам для выборки, состоящей из малого числа
учеников или отобранных специальным образом, то полученный результат,
скорее всего, не будет отражать взаимосвязь между уровнями знаний для
учащихся всей школы. В этом случае говорят о нерепрезентативности
выборки.
Таким образом, можно сделать вывод, что в некоторых случаях
найденные числовые характеристики выборки не могут быть использованы в
качестве аргумента для обоснования какого-либо вывода. В таком случае
говорят о несущественности полученных результатов. Проверить, является
ли результат значимым, помогают статистические гипотезы.
В обычном языке слово «гипотеза» означает предположение. В том же
смысле оно употребляется в научном языке, используясь в основном для
1
предположений, вызывающих сомнение. В математической статистике
термин «гипотеза» означает предположение, которое не только вызывает
сомнения, но и которое мы собираемся в данный момент проверить.
Статистическая гипотеза – это предположение о распределении
вероятностей, которое мы хотим проверить по имеющимся данным.
Гипотезы различают простые и сложные:
• простая гипотеза полностью задает распределение вероятностей;
• сложная гипотеза указывает не одно распределение, а некоторое
множество распределений.
Обычно это множество распределений, обладающих определенным
свойством.
Статистические
гипотезы
подразделяются
на
нулевые
и
альтернативные.
Нулевая гипотеза – это гипотеза об отсутствии различий. Она
обозначается как Н0 и называется нулевой потому, что содержит число 0:
Х1 – Х2 = 0, где Х1 и Х2 – сопоставляемые значения признаков. Нулевая
гипотеза – это то, что мы хотим опровергнуть, если перед нами стоит задача
доказать значимость различий.
Альтернативная гипотеза – это гипотеза о значимости различий. Она
обозначается Н1. Альтернативная гипотеза – это то, что мы хотим доказать,
поэтому ее иногда называют экспериментальной гипотезой.
Примером нулевой гипотезы может быть следующая: средние двух
нормально распределенных генеральных совокупностей равны, тогда
альтернативная гипотеза, в частности, может состоять в предположении, что
они
не
равны.
Символически
это
записывается
так:
H 0 : M X M Y ; H1 : M X M Y .
Бываю задачи, когда мы хотим доказать незначимость различий, то
есть подтвердить нулевую гипотезу. Например, если нам нужно убедиться,
что разные испытуемые получают хотя и различные, но уравновешенные по
2
трудности задания, или что экспериментальная и контрольная выборки не
различаются между собой по каким-то значимым характеристикам.
Чаще всего требуется доказать значимость различий, ибо они более
информативны для нас в поиске нового.
Статистические гипотезы проверяются путем сопоставления (по
определенному правилу) выдвинутых предположений с выборочными
данными,
и
по
результатам
этого
сравнения
делается
вывод
о
справедливости, выдвинутой гипотезы.
Проверка
гипотез
осуществляется
с
помощью
критериев
статистической оценки различий.
«Статистический
критерий
–
это
решающее
правило,
обеспечивающее надежное поведение, то есть принятие истинной и
отклонение ложной гипотезы с высокой вероятностью» (Суходольский Г.В.).
Статистические критерии обозначают также метод расчета определенного
числа и само это число.
В большинстве случаев для того, чтобы мы признали различия
значимыми, необходимо, чтобы эмпирическое значение критерия превышало
критическое, в некоторых критериях придерживаются противоположного
правила. Эти правила оговариваются в описании каждого критерия.
В некоторых случаях расчетная формула критерия включает в себя
количество наблюдений в исследуемой выборке, обозначаемое как n. В этом
случае эмпирическое значение критерия одновременно является тестом для
проверки статистических гипотез. По специальной таблице определяется,
какому уровню статистической значимости различий соответствует данная
эмпирическая величина.
В большинстве случаев, одно и то же эмпирическое значение критерия
может оказаться значимым или незначимым в зависимости от количества
наблюдений в выборке (n) или от так называемого количества степеней
свободы, которое обозначается как ν.
3
Число степеней свободыравно числу классов вариационного ряда
минус число условий, при которых он был сформирован. К числу таких
условий относятся: объем выборки, средние и дисперсии.
Если мы расклассифицировали наблюдения по классам какой-либо
номинативной шкалы и подсчитали количество наблюдений в каждой ячейке
классификации, то мы получаем так называемый частотный вариационный
ряд. Единственное условие, которое соблюдается при его формировании –
объем выборки n.
Допустим у нас три класса: «Умеет работать на ПК – умеет выполнять
лишь определенные операции – не умеет работать». Выборка состоит из 50
человек. Если в первом классе – 20 человек, во втором классе – 20 человек, то
в третьем должны оказаться 10 человек. Мы ограничены только одним
условием – объемом выборки. Мы не свободны в определении количества
испытуемых в третьем классе, «свобода» простирается только на первые два
класса ν=k-1=3-1=2.
Аналогичным образом, если бы у нас была классификация из 10
разрядов или классов, то мы были бы свободны только в 9 и т.д.
Зная n и/или число степеней свободы, по специальным таблицам
можно определить критические значения критерия и сопоставить с ними
полученное эмпирическое значение.
Среди
возможных
статистических
критериев
выделяют:
односторонние и двусторонние, параметрические и непараметрические,
более и менее мощные.
Параметрические критерии – это некоторые функции от параметров
совокупности, они служат для проверки гипотез об этих параметрах или для
их оценивания. Параметрические критерии включают в формулу расчета
параметры распределения, т.е. средние и дисперсии.
Непараметрические критерии – это некоторые функции от функций
распределения или непосредственно от вариационного ряда наблюдавшихся
4
значений изучаемого случайного явления. Они служат только для проверки
гипотез о функциях распределения или рядах наблюдавшихся значений.
Непараметрические критерии не включают в формулу расчета параметров
распределения и основанные на оперировании частотами или рангами.
И те, и другие критерии имеют свои преимущества и недостатки.
Параметрические критерии могут оказаться несколько более мощными,
чем непараметрические, но только в том случае, если признак измерен по
интервальной шкале и нормально распределен. Лишь с некоторой натяжкой
мы можем считать данные, представленные в стандартизованных оценках,
как интервальные. Кроме того, проверка распределения «на нормальность»
требует достаточно сложных расчетов, результат которых заранее не
известен. Может оказаться, что распределение признака отличается от
нормального, и нам так или иначе все равно придется обратиться к
непараметрическим критериям.
Непараметрические критерии лишены всех этих ограничений и не
требуют таких длительных и сложных расчетов. По сравнению с
параметрическими критериями они ограничены лишь в одном – с их
помощью невозможно оценить взаимодействие двух или более условий или
факторов, влияющих на изменение признака.
Уровень значимости – это вероятность того, что мы сочли различия
существенными, а они на самом деле случайны.
Когда мы указываем, что различия достоверны на 5% уровне
значимости, или при р≤0,05, то мы имеем ввиду, что вероятность того, что
они недостоверны, составляет 0,05.
Если же мы указываем, что различия достоверны на 1% уровне
значимости, или при р≤0,01, то имеем ввиду, что вероятность того, что они
все-таки недостоверны равна 0,01.
Иначе, уровень значимости – это вероятность отклонения нулевой
гипотезы, в то время как она верна.
5
Статистическая проверка гипотез имеет вероятностный характер, так
как
принимаемые
заключения
основываются
на
изучении
свойств
распределения случайной величины по данным выборки, а потому всегда
существует риск допустить ошибки, при этом возможны ошибки двух родов.
Ошибка, состоящая в том, что мы отклонили нулевая гипотеза, в то время
как она верна, называется ошибкой первого рода.
Вероятность такой ошибки называется уровнем значимости и обычно
обозначается как α. Поэтому правильнее указывать уровень значимости:
α≤0,05 или α≤0,01.
Будем придерживаться следующего правила отклонения гипотезы об
отсутствии
различий
(Н0)
и
принятии
гипотезы
о
статистической
достоверности различий (Н1):
Если эмпирическое значение критерия равняется критическому
значению, соответствующему р ≤ 0,05 или превышает его, Н0 отклоняется, но
мы еще не можем определенно принять Н1. Если эмпирическое значение
критерия равняется критическому значению, соответствующему р ≤ 0,01 или
превышает его, то Н0 отклоняется и принимается Н1.
Исключения: критерий знаков G, критерий Т Вилкоксона и критерий U
Манна-Уитни. Для них устанавливаются обратные соотношения.
Для
облегчения
принятия
решения
значимости».
6
можно
вычерчивать
«ось
Критические значения критерия обозначены как Q0,05 и Q0,01,
эмпирическое значение критерия как Qэмп. Оно заключено в эллипс.
Вправо
от
критического
значения
Q0,01
простирается
«зона
значимости» – сюда попадают эмпирические значения Q, которые ниже Q0.01
и, следовательно, значимые.
Влево
от
критического
значения
Q0.05
простирается
«зона
незначимости», – сюда попадают эмпирические значения Q, которые ниже
Q0,05 и, следовательно, незначимы.
В нашем примере, Q0,05 =6; Q0,01=9; Qэмп=8. Эмпирическое значение
критерия
попадает
в
область
между
Q0,05
и
Q0,01.
Это
«зона
неопределенности»: мы уже можем отклонить гипотезу о недостоверности
различий (Н0), но еще не можем приять гипотезы об их достоверности (Н1).
Практически, можно считать достоверными уже те различия, которые
не попадают в зону незначимости, сказав, что они достоверны при р≤0,05.
Важнейшей
характеристикой
любого
статистического
критерия
является его мощность.
Мощность критерия – это его способность выявлять различия, если
они есть. Иначе, это его способность отклонить нулевую гипотезу об
отсутствии различий, если она неверна.
Ошибка, состоящая в том, что мы приняли нулевую гипотезу, в то время как
она неверна, называется ошибкой второго рода.
Вероятность
ошибки
второго
рода
статистического
критерия
обозначим как β, тогда величина 1–β будет мощностью критерия. Ясно, что
мощность может принимать любые значения от 0 до 1. Чем ближе мощность
к единице, тем эффективнее критерий.
Мощность определяется эмпирическим путем. Одни и те же задачи
могут быть решены с помощью разных критериев, при этом обнаруживается,
что некоторые критерии позволяют выявить различия там, где другие
оказываются неспособными это сделать.
7
Основанием для выбора критерия может быть не только его мощность,
но и другие его характеристики, а именно:
а) простота;
б) более широкий диапазон исследования (по отношению к данным,
определенным по номинативной шкале, или по отношению к большим n);
в) применимость по отношению к неравным по объему выборкам;
г) большая информативность результатов.
Параметрические критерии согласия.
Параметрические критерии применяются для выборок с нормальным
законом распределения.
Формула
расчета
этих
критериев
содержат
параметры выборки: среднее, дисперсии и др. Поэтому они называются
параметрическими. Нормальность закона распределения должна быть
статистически доказана с помощью одного из критериев согласия, например
критерий Пирсона.
В ряде случаев параметрические критерии мощнее непараметрических
критериев. У последних выше вероятность возникновения ошибки второго
рода – принятия ложной нулевой гипотезы.
К параметрическим методам относятся следующие:
– Критерий Стьюдента
– Критерий Фишера
– Методы однофакторного анализа
– Методы двухфакторного анализа
Проверка гипотезы о существенности или несущественности различия двух
выборочных средних - одна из часто встречающихся процедур в исследовательской
работе. В этом случае можно применить Т-критерий Стьюдента (при условии
достаточно больших объёмов выборок (n>30) или убедившись, что статистические ряды
близки к нормальному закону распределения).
8
Т-критерий Стьюдента
Данный критерий был разработан Уильямом Госсеттом для оценки
качества пива в компании Гиннесс. В связи с обязательствами перед
компанией по неразглашению коммерческой тайны (а руководство Гиннесса
считало таковой использование статистического аппарата в своей работе),
статья Госсетта вышла в журнале «Биометрика» под псевдонимом «Student»
(Студент).
Критерий позволяет оценивать различия средних значений выборок,
имеющих нормальное распределение. Критерий применим для сравнения
средних значений двух выборок полученных до и после воздействия
некоторого фактора.
Т-критерий применяется в двух вариантах - когда сравниваемые выборки не
зависимы (не связаны) и когда они зависимы (связаны).
Гипотезы
1) независимые выборки:
Н0: средние значения признака в обоих выборках не различаются,
Н1: средние значения признака в обоих выборках статистически значимо
различаются.
2) зависимые выборки:
Н0: разности оценок испытуемых в двух состояниях не отличаются от нуля,
Н1: разности оценок испытуемых в двух состояниях статистически значимо
отличаются от нуля.
Уровень значимости t-критерия равен вероятности ошибочно отвергнуть
гипотезу о равенстве выборочных средних двух выборок, когда в действительности эта
гипотеза имеет место.
Для проверки разности двух средних с помощью Т-критерия Стьюдента
используется следующий алгоритм:
1.
Записать вариационные ряды результатов Х экспериментальной
группы и результатов Y контрольной группы.
9
Рассчитывается средне арифметические значения X и Y
2.
каждой выборки по формуле X
для
1 n
xi , где xi – значение i-го результата
n i 1
наблюдения.
Рассчитывается
3.
Стьюдента: t
t эмп
эмпирическое
-
значение
критерия
X Y
Sd
Где S d S x2 S y2 квадратичного отклонения. Здесь S x 2 и S y 2 – оценки
дисперсий.
Рассмотрим сначала равночисленные выборки. В этом случае n1 n2 n
Sd S S
2
x
2
y
x
x yi y
2
i
2
n 1n
В случае наравночисленных выборок n1 n2 , выражение
Sd S S
2
x
2
y
x
x yi y n1 n2
n1 n2 2
n1n2
2
2
i
В обоих случаев подсчет числа степеней свободы осуществляется по
формулам
df (n1 1) (n2 1) n1 n2 2
Понятно, что при численном равенстве выборок 2n 2
4.
Эмпирическое значение t'эмп критерия Стьюдента сравнивается с
критическим значением t 'кр (α, ) по таблице критических точек для данного
числа степеней свободы.
Нулевая гипотеза H 0 при заданном уровне значимости принимается,
если эмпирическое значение t 'эмп. t кр . Если tэмп tкр, то принимается гипотеза
Н1
и
различия
между средними
значениями
экспериментальной
контрольной групп существенны на данном уровне значимости.
10
и
Пример 1. Школьный психолог измерял время сложной сенсомоторной
реакции выбора (в мс) в контрольной и экспериментальных группах. В
экспериментальную
группу
(Х)
входило
9
спортсменов
высокой
квалификации. Контрольной группой (Y) являлись 8 учащихся, активно не
занимающиеся спортом. Школьный психолог проверяет гипотезу о том, что
средняя скорость сложной сенсомоторной реакции выбора у спортсменов
выше, чем та же величина у людей, не занимающихся спортом.
Таблица 2
№
1
2
3
4
5
6
7
8
9
Сумма
Среднее
Группы
Отклонения от среднего Квадраты отклонений
X
Y
x
504
560
420
600
580
530
490
580
470
4734
526
580
692
700
621
640
561
680
630
5104
638
-22
34
-106
74
54
4
-36
54
-56
i
x
y
y
i
-58
54
62
-17
-2
-77
42
-8
x
x
2
i
484
1156
11236
5476
2916
16
1296
2916
3136
28632
Cреднее арифметические значения X=
y
y
2
i
3368
2916
3844
289
4
5929
1764
64
18174
4734
5104
526 , и и Y=
638 в
9
8
контрольной группе .
X Y 526 638 112
S d S x2 S y2
x
x yi y n1 n2
n1 n2 2
n1n2
2
2
i
Тогда
t
X Y
Sd
112
4.1
27.14
11
28632 18174 8 9
736,8 27.14
892
8*9
Число степеней свободы k=9+8-2=15
По таблице приложения для данного числа степеней находим:
t кр
2,13 для p 0.05
2,95 для p 0.01
4,07 для p 0.001
Строим ось значимости
Зона неопределенности
Зона незначимости
Зона значимости
0.05
t 2,13
0.01
t 2,95
t 4,07
t ýěď 4,1
Обнаруженные психологом различия между экспериментальной и
контрольной группами значимы более чем на 0,1% уровне или иначе говоря
средняя скорость сложной сенсомоторной реакции выбора в группе
спортсменов существенно выше чем в группе людей активно не
занимающихся спортом.
В терминах статистических гипотез это утверждение звучит так:
гипотеза Н0 о сходстве отклоняется и на 0,1% уровне значимости
принимается
альтернативная
гипотеза
Н1
–
о
различии
между
экспериментальной и контрольной группой.
F-критерий Фишера.
Критерий является параметрическим и используется для сравнения
дисперсий двух вариационных рядов. Сравнения дисперсий двух выборок
производятся по отношению большей по величине дисперсии(записывается в
числителе) к меньшей (записывается в знаменателе). Поэтому значения
критерия больше или равно 1,0.
Fэмп
S x21
S x22
12
Гипотезы
H 0 : Дисперсия выборке 1 не отличается от дисперсии в выборке 2
H1 :
Дисперсия выборке 1 отличается от дисперсии в выборке 2
Ограничения
Данные в выборках должны быть измерены по шкале интервалов или
по шкале отношений.
Обе сравниваемые выборки должны иметь нормальный закон
распределения.
Алгоритм.
1.
Предварительно проверяется нормальность закона распределения
по одному из критериев согласия.
2.
Рассчитывается средне арифметические значения x1 и x2 для
каждой выборки по формуле
x
1 n
xi , где xi – значение i-го результата
n i 1
наблюдения.
3.
Рассчитываются значение S x21 и S x22 –дисперсии для каждой
выборке по формуле S x2
4.
1 n
x i x 2 .
n i 1
Определяется число степеней свободы по выборкам:
df1 (n1 1) - по первой
5.
выборке и df 2 (n2 1) по второй выборке.
Рассчитывается Fэмп - эмпирическое значение критерия по одной
из формул:
Fэмп
S x21
S x22
или Fэмп
S x22
с учетом того, что дисперсия в числителе
S x21
должна быть больше дисперсии в знаменателе.
6.
Найденное
эмпирическое значение критерия Фишера F'эмп
сравнивается критическим значением F'кр (по таблице 2 приложения) для
данного числа степеней свободы .
13
Если эмпирическое значение F'эмп < F'кр , то нулевая гипотеза H 0 о
равенстве дисперсий в выборках при заданном уровне значимости
принимается.
Пример 2. В двух третьих классах проводилось тестирование
умственного развития по тесту ТУРМШ десяти учащихся. Полученные
значения величин средних достоверно не различались, однако психолога
волнует вопрос – есть ли различия в степени однородности показателей
умственного развития между классами.
Решение
Для критерия Фишера необходимо сравнить дисперсии тестовых
оценок в обоих классах. Результаты тестирования представлены в таблице:
Номер учащегося Первый класс Второй класс
Х
Y
1
90
41
2
29
49
3
39
56
4
79
64
5
88
72
6
53
65
7
34
63
8
40
87
9
75
77
10
79
62
Суммы
606
636
Среднее
60,6
63,6
Как видно из таблицы, величины средних в обеих группах практически
совпадают между собой 60.3 60.6 и величина t критерия Стьюдента
оказалась равной 0,341 и незначимой.
Рассчитав дисперсии:
S x21 515,44
S x22 158,44
14
Тогда
Fэмп
S x21 515.44
3.25
S x22 158.44
По таблице приложения 1 для F критерия при степенях свободы 10-1=9
находим Fкр.
3,18 для p 0.05
Fкр 5.35 для p 0.01
Строим ось значимости
Зона неопределенности
Зона незначимости
Зона значимости
0.05
Fкр 3,18
0.01
Fэмп 3.25 F 5,35
кр
Т.о. полученная величина попала в зону неопределенности. В терминах
статистических гипотез можно утверждать, что Н0 (гипотеза о сходстве) м.б.
отвергнута на 5% уровне значимости, а принимается в этом случае гипотеза
Н1. Педагог может утверждать, что по степени однородности, такого
показателя, как умственное развитие, имеется различие между выборками 2-х
классов.
Непараметрические критерии согласия
При
обработке
генеральной
результатов
совокупности
часто
наблюдений
закон
неизвестен,
поэтому
распределения
применение
параметрических методов не обосновано. В этих случаях применяют методы,
свободные от распределения генеральной совокупности, которые называют
непараметрическими методами. Такие методы используют не численные
значения
элементов
выборки,
а
структурные
совокупности.
15
свойства
выборочной
U-критерий Манна-Уитни
Критерий предназначен для оценки различий между двумя выборками
по уровню какого-либо признака, количественно измеренного. Он позволяет
выявлять различия между малыми выборками, когда n1, n2 ≥ 3 или n1 = 2, n2
≥ 5, при этом первой выборкой принято считать ту, где значения признака
больше.
Этот метод определяет, достаточно ли мала зона перекрещивающихся
значений между двумя рядами. Чем меньше область перекрещивающихся
значений, тем более вероятно, что различия достоверны.
Эмпирическое значение критерия U отражает то, насколько велика зона
совпадения между рядами. Поэтому чем меньше Uэмп, тем более вероятно,
что различия достоверны.
Гипотезы
H0: Уровень признака в группе 2 не ниже уровня признака в группе 1.
H1: Уровень признака в группе 2 ниже уровня признака в группе 1.
Ограничения в применении U критерия Вилкоксона:
1) В каждой выборке должно быть не менее 3 наблюдений: n1, n2 ≥ 3;
допускается, чтобы в одной выборке было 2 наблюдения, но тогда во второй
их должно быть не менее 5.
2) В каждой выборке должно быть не более 60 наблюдений; n1, n2 ≤ 60.
Однако уже при n1, n2 > 20 ранжирование становится достаточно
трудоемким.
Правила ранжирования
1. Меньшему значению начисляется меньший ранг. Наименьшему
значению начисляется ранг 1. Наибольшему значению начисляется ранг,
соответствующий количеству ранжируемых значений, за возможным
исключением для тех случаев, которые предусмотрены п. 2.
16
2. В случае, если несколько значений равны, им начисляется ранг,
представляющий собой среднее значение из тех рангов, которые они
получили бы, если бы не были равны.
3. Общая сумма рангов должна совпадать с расчетной, которая
определяется по формуле:
(R )
i
N ( N 1)
,
2
где N - общее количество ранжируемых наблюдений (значений).
Несовпадение реальной и расчетной сумм рангов будет свидетельствовать об
ошибке, допущенной при начислении рангов или их суммировании.
АЛГОРИТМ подсчета U-критерия Манна-Уитни.
1) Объединить все данные в единый ряд, пометив данные,
принадлежащие разным выборкам.
2)
Проранжировать значения, приписывая
меньшему значению
меньший ранг. Всего рангов получится (n1 + n2).
3) Подсчитать сумму рангов отдельно для каждой выборки.
4) Определить большую из двух ранговых сумм.
5) Определить значение U по формуле:
U эмп n1 n2
nx (nx 1)
T x ,
2
где n1 – количество испытуемых в выборке 1;
n2 – количество испытуемых в выборке 2;
Tx – большая из двух ранговых сумм;
nx – количество испытуемых в группе с большей суммой
рангов.
6) Определить критические значения Uкр(α) по таблице. Если Uэмп >
Uкр, то гипотеза H0 принимается. Если Uэмп < Uкр гипотеза H0 отвергается.
Чем меньше значения U, тем достоверность различий выше.
17
Пример 3.
На основании суточной производительности двух
автоматов определить: существенны ли различия двух выборок.
x
105 60 83
y
45
111 138 71 87 130 93 105 122
51 155 117 103 82 93 31
51 71
Решение:
Применим критерий Манна-Уитни
H0 – качество продукции двух станков одинаково,
H1 – качество разное.
Выборки слили и упорядочили, проставили ранги
возрастания,
в
таблице
элементы
2
выборки
выделены
в порядке
шрифтом
(полужирный).
Элемент 31
45
51
Ранг
2
3,5 3,5 5
1
Элемент 93
Ранг
103 105
11,5 13
51
60
105
71
71
82
6,5 6,5 8
83
87
93
9
10
11,5
111 117 122 130 138 155
14,5 14,5 16
17
18
19
20
21
Рассчитаем суммы рангов рассматриваемых выборок. Сумма для
первой выборки равна 144, а для второй – 87. Обозначим наибольшую из
этих сумм через Tx ( Tx = 144). Среди объемов выборок наибольший
обозначим nx.
Рассчитываем критерий
U эмп 11 10
11 (11 1)
144 32
2
Критическое значение находим по специальной таблице для уровня
значимости 0,05
U кр (0,05) 26
18
Uэмп > Uкр, следовательно гипотеза H0 принимается – качество
продукции двух станков одинаково, что свидетельствует о принадлежности
двух выборок одной генеральной совокупности.
Т-критерий Вилкоксона
Критерий применяется для сопоставления показателей, измеренных в
двух разных условиях на одной и той же выборке испытуемых. Он позволяет
установить не только направленность изменений, но и их выраженность. С
его помощью мы определяем, является ли сдвиг показателей в каком-то
одном направлении более интенсивным, чем в другом.
Этот критерий применим в тех случаях, когда признаки измерены по
крайней мере по шкале порядка, и сдвиги между вторым и первым замерами
тоже могут быть упорядочены.
Суть метода состоит в сопоставлении выраженности сдвигов в том и
ином
направлениях
по
абсолютной
величине.
Для
этого
сначала
ранжируются все абсолютные величины сдвигов, а потом суммируются
ранги. Если сдвиги в положительную и в отрицательную сторону происходят
случайно, то суммы рангов абсолютных значений их будут примерно равны.
Если же интенсивность сдвига в одном из направлений перевешивает, то
сумма рангов абсолютных значений сдвигов в противоположную сторону
будет значительно ниже, чем это могло бы быть при случайных изменениях.
Первоначально исходят из предположения о том, что типичным
сдвигом будет сдвиг в более часто встречающемся направлении, а
нетипичным, или редким, сдвигом – сдвиг в более редко встречающемся
направлении.
Гипотезы.
H0: Интенсивность сдвигов в типичном направлении не превосходит
интенсивности сдвигов в нетипичном направлении.
19
HI: Интенсивность сдвигов в типичном направлении превышает
интенсивность сдвигов в нетипичном направлении.
Ограничения в применении Т-критерия Вилкоксона:
1) Минимальное количество испытуемых, прошедших измерения в
двух условиях – 5 человек. Максимальное количество испытуемых – 50
человек, что диктуется верхней границей имеющихся таблиц.
2) Нулевые сдвиги из рассмотрения исключаются, и количество
наблюдений n уменьшается на количество этих нулевых сдвигов.
АЛГОРИТМ подсчета Т-критерия Вилкоксона
1) Составить список испытуемых в любом порядке, например,
алфавитном.
2) Вычислить разность между индивидуальными значениями во втором
и первом замерах ("после" – "до"). Определить, что будет считаться
"типичным" сдвигом и сформулировать соответствующие гипотезы.
3) Перевести разности в абсолютные величины и записать их
отдельным столбцом.
4) Проранжировать абсолютные величины разностей, начисляя
меньшему значению меньший ранг. Проверить совпадение полученной
суммы рангов с расчетной.
5) Отметить кружками или другими знаками ранги, соответствующие
сдвигам в "нетипичном" направлении.
6) Подсчитать сумму этих рангов по формуле: T Rr ,
где Rr – ранговые значения сдвигов с более редким знаком.
7) Определить критические значения Т для данного n по таблице. Если
критическое значение не превосходит эмпирического, то на данном уровне
значимости отсутствуют основания для отклонения нулевой гипотезы о
несущественности различий. Иначе, если Тэмп. меньше или равен Ткр, нулевая
гипотеза отвергается, т.е. сдвиг в "типичную" сторону по интенсивности
достоверно преобладает.
20
Пример 4. Определить значимость различий изменений вербальной
памяти ло и после иппотерапии, используя данные:
Решение:
Результаты
выполняемых
действий
представлены
в
таблице.
Нетипичные сдвиги выделены цветом.
Тэмп = 5, Ткр(0.05)=10.
Т.к. Тэмп < Ткр, то нулевую гипотезу отвергаем. Значит различия в
изменениях вербальной памяти следует считать существенными.
G-критерий Знаков
Критерий
Знаков предназначен
для
исследования
определения
направления сдвига в значениях исследуемого признака в двух выборках.
Критерий позволяет определить изменяются ли значения переменной при
переходе от одного измерения к другому в сторону улучшения или сторону
ухудшения. Он не предназначен для определения интенсивности сдвигов.
Гипотезы.
H0: Преобладание типичного направления сдвига является случайным.
HI: Преобладание типичного направления сдвига не
случайным.
21
является
Ограничения в применении G-критерия Знаков: количество человек в
обоих замерах должно варьироваться от 5 до 300.
АЛГОРИТМ подсчета G-критерия Знаков:
1) Составить таблицу значений двух выборок.
2) Попарно вычесть из значений второй переменной значения первой
переменной.
3) Подсчитать количество нулевых сдвигов. Исключить нулевые сдвиги
из рассмотрения.
4) Подсчитать общее количество значений (без нулевых сдвигов).
Считать это число как n. Убедиться, что количество значений в выборке
варьируется от 5 до 300
5) Подсчитать
количество
«отрицательных»
и
«положительных»
сдвигов. Считать «типичными» те сдвиги количество которых больше.
6) Считать эмпирическим значением G то количество сдвигов которых
меньше.
7) По таблице критических значений определить Gкр(α;n), где α –
уровень значимости, n – общее число сдвигов, т.е. объем выборки.
Сопоставить между собой Gкр и Gэмп. Если Gэмп ≥ Gкр, то принимается
гипотеза Н0 и значит сдвиг является случайным. Если же Gэмп < Gкр, то
принимается гипотеза Н1 и сдвиг в «типичную» сторону достоверен.
22