Дисперсионный анализ (ANOVA – Analysis of Variance)
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Дисперсионный анализ (ANOVA – Analisis of Variance)
Дисперсионный анализ (лат. dispersio – рассеивание) – это анализ изменчивости
признака под влиянием каких-либо контролируемых переменных факторов. Как
правило он применяется для исследования влияния одной или нескольких
качественных переменных, называемых факторами, на одну зависимую
количественную переменную.
Разделение общей дисперсии на несколько источников, позволяет сравнить
дисперсию, вызванную различием между группами, с дисперсией, вызванной
внутригрупповой изменчивостью. Основной целью дисперсионного анализа
является исследование значимости различия между средними с помощью сравнения
(анализа) дисперсий друг с другом посредством F-критерия Фишера.
Фактор, предположительно имеющий или не имеющий существенного влияния,
разделяют на классы градации (говоря иначе, группы) и выясняют, одинаково ли
влияние фактора путём исследования значимости между средними в наборах данных,
соответствующих градациям фактора. Например: исследуется зависимость прибыли
предприятия от типа используемого сырья (тогда классы градации - типы сырья),
зависимость себестоимости выпуска единицы продукции от величины подразделения
предприятия (тогда классы градации - характеристики величины подразделения:
большой, средний, малый). Таким образом, исходным материалом для дисперсионного
анализа служат данные исследования трех и более выборок: 𝑥 , 𝑥 , … , 𝑥 которые
могут быть как равными, так и неравными по численности.
Если сравнивать средние в двух выборках, дисперсионный анализ даст тот же
результат, что и обычный t-критерий для независимых выборок (если сравниваются
две независимые группы объектов или наблюдений) или t-критерий для зависимых
выборок (если сравниваются две переменные на одном и том же множестве объектов
или наблюдений).
В формулу расчета критерия F входят оценки дисперсий, и, следовательно, этот
метод относится к разряду параметрических. Чем в большей степени вариативность
признака обусловлена исследуемыми переменными или их взаимодействием, тем
выше эмпирические значения критерия F. Поскольку дисперсионный анализ относится
к группе параметрических методов его следует применять только тогда, когда
доказано, что распределение является нормальным.
Кроме того, дисперсионный анализ используют, если зависимая переменная
измеряется в шкале отношений, интервалов или порядка, а влияющие переменные
имеют нечисловую природу (шкала наименований).
1
В отличие от корреляционного анализа, в основе дисперсионного анализа лежит
предположение о том, что одни переменные могут рассматриваться как причины
(факторы, независимые переменные) - 𝑓 , … , 𝑓 , а другие как следствия (зависимые
переменные). Независимые переменные называют иногда регулируемыми факторами
именно потому, что в эксперименте исследователь имеет возможность варьировать
ими и анализировать получающийся результат.
Сформулированное допущение лежит в основе математических процедур расчетов,
но требует осторожности в рассуждениях об источнике и объекте влияния. Например,
если выдвигается гипотеза о зависимости успешности работы должностного лица от
фактора K (социальной смелости по Кэттелу), то не исключено обратное: социальная
смелость респондента может возникнуть и усилиться вследствие успешности его
работы. С другой стороны, следует определить, как именно измерялась «успешность»?
Если за ее основу были взяты не объективные характеристики (например, «объемы
продаж»), а экспертные оценки сослуживцев, то имеется вероятность того, что
«успешность» может быть подменена поведенческими или личностными
характеристиками (волевыми, коммуникативными, внешними проявлениями
агрессивности).
Представим смысл дисперсионного анализа графически (рисунок 1-2). Рассмотрим
исследование зависимости учебной успеваемости школьников от развития
кратковременной памяти. В качестве фактора рассматривался уровень развития
кратковременной памяти, в качестве результативных признаков – успеваемость по
предмету. Видно, что фактор оказывает существенное влияние при обучении
иностранному языку, и незначим для чистописания, что, впрочем, вполне согласуется
со здравым смыслом.
Рисунок 1 – Влияние уровня развития кратковременной памяти на оценки по
иностранному языку
2
Рисунок 2 - Влияние уровня развития кратковременной памяти на оценки по
чистописанию
Приведенный пример обращает внимание также и на то, какими именно должны
быть факторы. Здесь фактор имел градации, то есть его величина изменялась при
переходе от одной градации к другой. Следует знать, что такое условие отнюдь не
обязательно: фактор может иметь градации, никак не связанные между собой
количественным отношением, и может быть представлен хоть в номинальной шкале.
В общем (и это точнее) говорят не о градациях фактора, а о различных условиях его
действия. Возможность количественной градации фактора, таким образом, лишь
частный случай. Если исследователь пожелает определить зависимость яйценоскости
от цвета курицы, то он может применить дисперсионный анализ, и в качестве условий
действия фактора «цвет» избрать черных, белых и пестрых кур.
Статистическим комплексом в дисперсионном анализе называется таблица
эмпирических данных. Если во всех классах градаций одинаковое число вариантов, то
статистический комплекс называется однородным (гомогенным), если число
вариантов разное - разнородным (гетерогенным). Данные, относящиеся к одному
условию действия фактора (к одной градации) называют дисперсионным комплексом.
Дисперсионный анализ требует также, чтобы между комплексами соблюдалось
равенство дисперсий. В литературе по этому вопросу предлагается удовлетворять
такое требование уравниванием числа значений в каждом из комплексов. Иными
словами, если в тихой аудитории решали задачу 10 человек, то и в шумную мы должны
посадить столько же; если белых кур набралось 100, черных – 80, а пестрых – 70, - мы
обязаны взять только по 70 кур каждого цвета. Причем, отбор следует осуществлять
случайным образом.
Формулировка гипотез в дисперсионном анализе
При дисперсионном анализе определяют удельный вес суммарного воздействия
одного или нескольких факторов. Существенность влияния фактора определяется
путём проверки гипотез:
3
𝐻 : 𝜇 = 𝜇 = ⋯ = 𝜇 , где a - число классов градации - все классы градации
имеют одно значение средних: «средние величины результативного признака во всех
условиях действия фактора (или градациях фактора) одинаковы».
𝐻 : не все 𝜇 равны - не все классы градации имеют одно значение средних:
«средние величины результативного признака в разных условиях действия фактора
различны».
Если влияние фактора не существенно, то несущественна и разница между
классами градации этого фактора и в ходе дисперсионного анализа нулевая гипотеза
𝐻 не отвергается. Если влияние фактора существенно, то нулевая гипотеза
𝐻 отвергается: не все классы градации имеют одно и то же среднее значение, то есть
среди возможных разниц между классами градации одна или несколько являются
существенными.
Виды дисперсионного анализа
Дисперсионный анализ схематически можно подразделить (таблица 1) на
несколько категорий.
Таблица 1 - Виды дисперсионного анализа
№
1 Однофакторный
2
3
Многофакторный
Многомерный
Виды ДА и их характеристика
При наличии одного Анализ несвязанных (различных) выборок.
фактора,
влияние Например: одна группа респондентов решает
которого
задачу в условиях тишины, вторая – в шумной
исследуется; анализ комнате (в этом случае 𝐻 имеет вид: «среднее
распадается на две время решения задач определённого типа будет
разновидности:
одинаково в тишине и в шумном помещении», то
есть не зависит от фактора шума)
Анализ связанных выборок (двух замеров,
проведенных на одной и той же группе
респондентов в разных условиях). Пример: в
первый раз задача решалась в тишине, второй –
сходная задача – в условиях шумовых помех (на
практике к подобным опытам следует подходить с
осторожностью, поскольку в действие может
вступить неучтенный фактор «научаемость»,
влияние
которого
исследователь
рискует
приписать изменению условий, а именно, - шуму)
В случае, когда исследуется одновременное воздействие двух или более
факторов (который также можно подразделить по типу выборки.
Если воздействию факторов подвержено несколько переменных, - речь
идет о многомерном анализе
4
Примеры задач
В задачах, которые решаются дисперсионным анализом, присутствует отклик
числовой природы, на который воздействует несколько переменных, имеющих
номинальную природу. Например, несколько видов рационов откорма скота или два
способа их содержания и т.п.
Пример 1: В течение недели в трех разных местах работало несколько аптечных
киосков. В дальнейшем мы можем оставить только один. Необходимо определить,
существует ли статистически значимое отличие между объемами реализации
препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным
объемом реализации. Если же разница объема реализации окажется статистически
незначимой, то основанием для выбора киоска должны быть другие показатели.
Пример 2: Cравнение контрастов групповых средних. Семь политических
пристрастий упорядочены от крайне либеральные до крайне консервативные, и
линейный контраст используется для проверки того, есть ли отличная от нуля
тенденция к возрастанию средних значений по группам - т. е. есть ли значимое
линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в
направлении от либеральных до консервативных.
Пример 3: Двухфакторный дисперсионный анализ. На количество продаж товара,
помимо размеров магазина, часто влияет расположение полок с товаром. Данный
пример содержит показатели недельных продаж, характеризуемые четырьмя типами
расположения полок и тремя размерами магазинов. Результаты анализа показывают,
что оба фактора - расположение полок с товаром и размер магазина -влияют на
количество продаж, однако их взаимодействие значимым не является.
Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с
двумя обработками. Исследуется влияние на припек хлеба всех возможных
комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из
четырех разных источников, служили в качестве блоковых факторов. Необходимо
выявить значимость взаимодействия жир-рыхлитель. После этого определить
различные возможности выбора контрастов, позволяющих выяснить, какие именно
комбинации уровней факторов различаются.
Пример 5: Модель иерархического (гнездового) плана с смешанными эффектами.
Изучается влияние четырех случайно выбранных головок, вмонтированных в станок,
на деформацию производимых стеклянных держателей катодов. (Головки
вмонтированы в станок, так что одна и та же головка не может использоваться на
разных станках). Эффект головки обрабатывается как случайный фактор. Статистики
ANOVA показывают, что между станками нет значимых различий, но есть признаки
5
того, что головки могут различаться. Различие между всеми станками не значимо, но
для двух из них различие между типами головок значимо.
Пример 6: Одномерный анализ повторных измерений с использованием плана
расщепленных делянок. Этот эксперимент проводился для определения влияния
индивидуального рейтинга тревожности на сдачу экзамена в четырех
последовательных попытках. Данные организованы так, чтобы их можно было
рассматривать как группы подмножеств всего множества данных («всей делянки»).
Эффект тревожности оказался незначимым, а эффект попытки - значим.
6
Однофакторный дисперсионный анализ: суть метода, формулы, примеры
Введём обозначения:
𝑛 - число вариантов в каждом классе градации (группе)
∑
𝑛 = 𝑛 - общее число наблюдений
a - общее число градаций фактора (групп)
𝑥̅ = ∑
𝑥 = ∑
𝑥 - общее среднее наблюдений
∑
𝑥 - среднее наблюдений в каждой градации фактора (группе)
𝑠 - дисперсия градации фактора (группы)
Таблица 2 – Элементы дисперсионного анализы
Сумму квадратов отклонений статистического комплекса можно разделить на компоненты
𝑆𝑆 = 𝑆𝑆 + 𝑆𝑆
суммы
квадратов
SS
𝑆𝑆 =
𝑆𝑆
𝑥 − 𝑥̅
𝑆𝑆 =
𝑆𝑆
𝑛 (𝑥 − 𝑥̅ )
𝑆𝑆 =
𝑆𝑆 = ∑
∑
𝑥 −𝑥
𝑥 −𝑥
=∑
(𝑛 − 1) 𝑠 =
= (𝑛 − 1)𝑠 + (𝑛 − 1)𝑠 + ⋯ + (𝑛 − 1)𝑠
общая сумма
квадратов
отклонений
число
степеней
свободы
𝜈 =𝑛−1
дисперсии
𝑀𝑆 =
объяснённая
необъяснённая
сумма
влиянием
отклонений или сумма
фактора a сумма отклонений ошибки
квадратов
отклонений
𝜈 =𝑎−1
𝜈 =𝑛−𝑎
𝑀𝑆 =
𝑆𝑆
𝑎−1
𝑀𝑆 =
𝑆𝑆
𝑛−𝑎
общая дисперсия объяснённая
необъяснённая дисперсия
дисперсия
𝑀𝑆
наблюдаемое значение сатистики Фишера –
𝐹=
𝑀𝑆
это
отношение дисперсии, объяснённой
влиянием
фактора
(межрупповой),
и
необъяснённой дисперсии (внутригрупповой):
𝐹, ,
критическое значение сатистики Фишера
7
квадратов
квадратов
Чтобы провести однофакторный дисперсионный анализ данных статистического
комплекса, нужно найти фактическое отношение Фишера 𝐹 =
критическим значением Фишера 𝐹
,
,
и сравнить его с
.
Критическое значение отношения Фишера с определёнными значениями уровня
значимости и степеней свободы можно найти в статистических таблицах или
рассчитать с помощью функции MS Excel F.ОБР (рисунок 3).
Рисунок 3 - Вычисление критического значения статистики Фишера
Функция требует ввести следующие данные:
Вероятность - уровень значимости 𝛼
Степени_свободы1 - число степеней свободы объяснённой дисперсии 𝜈 ,
Степени_свободы2 - число степеней свободы необъяснённой дисперсии 𝜈 .
Если фактическое значение отношения Фишера больше критического 𝐹 >
𝐹 , , , то нулевая гипотеза отклоняется с уровнем значимости α. Это означает, что
фактор существенно влияет на изменение данных и данные зависимы от фактора с
вероятностью 𝑃 = 1 − 𝛼. Если фактическое значение отношения Фишера меньше
критического 𝐹 > 𝐹 , , , то нулевая гипотеза не может быть отклонена с уровнем
значимости α. Это означает, что фактор не оказывает существенного влияния на
данные с вероятностью 𝑃 = 1 − 𝛼.
8
Однофакторный дисперсионный анализ: примеры
Пример 1. Требуется выяснить, влияет ли тип используемого сырья на прибыль
предприятия. В шести классах градации (группах) фактора (1-й тип, 2-й тип и т.д.)
собраны данные о прибыли от производства 1000 единиц продукции в миллионах
рублей в течении 4 лет (таблица 3).
Таблица 3 – Статистический комплекс
Тип сырья
2014
2015
2016
2017
Среднее 𝑥
Дисперсия 𝑠
1-й
7,21
7,55
7,29
7,6
7,413
0,0367
2-й
7,89
8,27
7,39
8,18
7,933
0,1571
3-й
7,25
7,01
7,37
7,53
7,290
0,0480
4-й
7,75
7,41
7,27
7,42
7,463
0,0414
5-й
7,7
8,28
8,55
8,6
8,283
0,1706
6-й
7,56
8,05
8,07
7,84
7,880
0,0563
Число классов градации фактора (групп) 𝑎 = 6 и в каждом классе (группе) 𝑛 =
4 наблюдения. Общее число наблюдений n = 24.
Числа степеней свободы:
𝜈 =𝑎−1= 6−1= 5
𝜈 = 𝑛 − 𝑎 = 24 − 6 = 18
𝜈 = 𝑛 − 1 = 24 − 1 = 3
Вычислим суммы квадратов отклонений:
𝑥̅ = ∑
∑
𝑥 =
,
= 7,71 - общее среднее наблюдений
𝑆𝑆 =
𝑛 (𝑥 − 𝑥̅ ) =
= 4 ∙ (7,413 − 7,71) + 4 ∙ (7,933 − 7,71) + ⋯ + 4 ∙ (7,880 − 7,71) = 2,9293
9
𝑆𝑆 =
𝑥 −𝑥
(𝑛 − 1) 𝑠 = 3 ∙ 0,0367 + 3 ∙ 0,1571 + ⋯ + 3 ∙ 0,0563 =
=
= 1,5303
𝑆𝑆 =
= (7,21 − 7,71) + (7,89 − 7,71) + ⋯ (7,84 − 7,71)
𝑥 − 𝑥̅
= 4,4596
Вычислим дисперсии:
𝑀𝑆 =
=
𝑀𝑆 =
=
,
= 0,58586 - объяснённая дисперсия,
,
= 0,085017 - необъяснённая дисперсия,
Вычислим фактическое отношение Фишера:
𝐹=
𝑀𝑆
0,58586
=
= 6,89
𝑀𝑆
0,085017
Критическое значение отношения Фишера:
𝐹
,
,
,
= 𝐹. ОБР(0,05; 5; 18) = 2,27
Так как фактическое отношение Фишера больше критического:
𝐹 = 6,89 > 𝐹
,
,
,
= 2,27
с уровнем значимости α = 0,05 делаем вывод, что прибыль предприятия в
зависимости от вида сырья, использованного в производстве, существенно отличается.
Или, что то же самое, отвергаем основную гипотезу о равенстве средних во всех
классах градации фактора (группах).
В только что рассмотренном примере в каждом классе градации фактора было
одинаковое число вариантов. Но, как говорилось во вступительной части, число
вариантов может быть и разным. И это ни в коей мере не усложняет процедуру
дисперсионного анализа. Таков следующий пример.
10
Пример 2. Требуется выяснить, существует ли зависимость себестоимости
выпуска единицы продукции от величины подразделения предприятия. Фактор
(величина подразделения) делится на три класса градации (группы): малые, средние,
большие. Обобщены соответствующие этим группам данные о себестоимости выпуска
единицы одного и того же вида продукции за некоторый период (таблица 4).
Таблица 4 – Статистический комплекс
№
малый
средний
большой
1
48
47
46
2
50
61
57
3
63
63
57
4
72
47
55
5
43
32
6
59
59
7
58
Среднее 𝑥
Дисперсия 𝑠
58,6
54,0
51,0
128,25
65,00
107,60
Число классов градации фактора (групп) a=3, число наблюдений в классах
(группах) 𝑛 = 4, 𝑛 = 7, 𝑛 = 6 . Общее число наблюдений 𝑛 = 17.
Числа степеней свободы:
𝜈 =𝑎−1=2
𝜈 = 𝑛 − 𝑎 = 17 − 3 = 14
𝜈 = 𝑛 − 1 = 16
Вычислим суммы квадратов отклонений:
𝑥̅ = ∑
𝑆𝑆 =
∑
𝑥 =
= 53,9 - общее среднее наблюдений
𝑛 (𝑥 − 𝑥̅ ) =
11
= 4 ∙ (58,6 − 53,9) + 7 ∙ (54,0 − 53,9) + ⋯ + 6 ∙ (51,0 − 53,9) = 126,1912
𝑆𝑆 =
𝑥 −𝑥
(𝑛 − 1) 𝑠 = 3 ∙ 128,25 + 6 ∙ 65,00 + 5 ∙ 107,60
=
= 1312,75
𝑆𝑆 =
= (48 − 53,9) + (50 − 53,9) + ⋯ + (59 − 53,9) = 1438,941
𝑥 − 𝑥̅
Вычислим дисперсии:
𝑀𝑆 =
=
𝑀𝑆 =
=
,
= 63,096 - объяснённая дисперсия,
,
= 93,768 - необъяснённая дисперсия,
Вычислим фактическое отношение Фишера:
𝐹=
𝑀𝑆
63,096
=
= 0,67
𝑀𝑆
93,768
Критическое значение отношения Фишера:
𝐹
,
,
,
= 𝐹. ОБР(0,05; 2; 14) = 3,47
Так как фактическое значение отношения Фишера меньше критического:
𝐹 = 0,67 < 𝐹
,
,
,
= 3,47
делаем вывод, что размер подразделения предприятия
существенного влияния на себестоимость выпуска продукции.
не
оказывает
Или, что то же самое, с вероятностью 95% принимаем основную гипотезу о том,
что средняя себестоимость выпуска единицы одной и той же продукции в малых,
средних и крупных подразделениях предприятия существенно не различается.
12
Однофакторный дисперсионный анализа в MS Excel
Однофакторный дисперсионный анализ можно провести с помощью процедуры
MS Excel Однофакторный дисперсионный анализ. Используем его для анализа
данных о связи типа используемого сырья и прибыли предприятия из примера 1.
В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем
средство анализа Однофакторный дисперсионный анализ.
В окошке Входной интервал (рисунок 5) указываем область данных (в нашем
случае это $A$2:$E$7). Указываем, как сгруппирован фактор - по столбцам или по
строкам (в нашем случае по строкам). Если первый столбец содержит названия классов
фактора, помечаем галочкой окно Метки в первом столбце. В окне Альфа указываем
уровень значимости α = 0,05.
Рисунок 5 – Расчёты в MS Excel
В результате действия процедуры выводятся две таблицы. Первая таблица
(рисунок 6) - Итоги. В ней содержатся данные обо всех классах градации фактора:
число наблюдений, суммарное значение, среднее значение и дисперсия.
Рисунок 6 – Расчёты в MS Excel
13
Во второй таблице - Дисперсионный анализ - содержатся данные о величинах для
фактора между группами и внутри групп и итоговых. Это сумма квадратов отклонений
(SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах фактическое значение отношения Фишера (F), p-уровень (P-value) и критическое
значение отношения Фишера (F crit).
Таблица 5 – Результат дисперсионного анализа
Дисперсионный анализ
Источник
вариации
SS
df
MS
F
P-value
F crit
Между группами
2,9293
5
0,58585
6,891119
0,000936
2,77285
Внутри групп
1,5303
18
0,085017
Итого
4,4596
23
Так как фактическое значение отношения Фишера (6,89) больше критического
(2,77), с вероятностью 95% отклоняем нулевую гипотезу о равенстве средних
производительности при использовании всех типов сырья, то есть делаем вывод о том,
что тип используемого сырья влияет на прибыль предприятия.
14