Однофакторный дисперсионный анализ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Однофакторный дисперсионный анализ
Под дисперсионным анализом понимается статистический метод
обработки результатов наблюдений, зависящих от различных одновременно
действующих факторов. Его задача состоит в оценке вклада этих факторов и
их взаимодействий в изменение некоторой выходной величины,
предположительно от них зависящей. Дисперсионный анализ используется
для оценки влияния на изучаемый показатель некоторых факторов, которые
обычно не поддаются количественному измерению, т.е. факторов
качественной природы.
Примерами дисперсионного анализа может быть, например, изучение
спроса на туристические путевки от возраста туристов или качество
получаемой продукции от уровня образования рабочих и др.
В зависимости от количества факторов, которые участвуют в описании
модели, дисперсионный анализ может быть одно-, двух- или
многофакторным. Рассмотрим основную идею метода на примере
однофакторного дисперсионного анализа.
Предположим, что исследуется влияние одного качественного фактора
А на результирующий показатель у. Данный фактор содержит несколько
наименований уровней a1 , a2 ,...,am . Пусть над каждым уровнем фактора А
осуществлена серия из п независимых наблюдений. В результате, были
получены данные yij - это результат измерения изучаемого признака i – го
уровня фактора А в j – той серии наблюдений. Тогда аддитивная модель
однофакторного дисперсионного анализа может быть представлена в виде:
yij = + ij + ij ( i = 1,...,m; j = 1,...,n; ), где − общее среднее; ij − эффект
влияния i – го уровня фактора А в j – той серии наблюдений; ij − случайные
ошибки, которые являются случайными величинами, распределенными по
нормальному закону с параметрами M ( ij ) = 0 ; D( ij ) = 2 . Смысл этой
модели показать, из каких компонент составляется значение интересующего
нас измеряемого качественного признака.
Данные наблюдений можно записать в таблицу:
Уровни фактора
1
2
а1
y11
y12
…
…
п
y1n
Итог
Средний итог
n
1 n
y1 j = y1
n j =1
1 n
y2 j = y2
n j =1
y
j =1
а2
y 21
y 22
…
y2 n
n
y
j =1
…
…
…
аm
ym1
ym2
…
…
…
y mn
2j
…
…
n
y
j =1
Здесь yi =
1j
1 n
yij – групповая выборочная средняя;
n j =1
1
ymj = ym
n j =1
n
mj
тогда общая средняя будет y =
1 m
yi .
m i =1
Введем в рассмотрение величины: ss A = n ( yi − y ) − сумма квадратов,
m
2
i =1
обусловленная действием фактора А; ssост = ( yij − yi ) − остаточная сумма
m
n
2
i =1 j =1
квадратов, обусловленная ошибками взаимодействий и ssобщ = ( yij − y ) −
m
n
2
i =1 j =1
общая сумма квадратов отклонений результирующего признака от общего
среднего. В общем случае, должно выполняться равенство ssобщ = ss A + ssост .
Суммы квадратов, деленные на соответствующие числа степеней
свободы, дадут несмещенные оценки соответствующих дисперсий:
ss
ssост
ss
2
2
=
−
sобщ
= общ − общая дисперсия; s A2 = A − межгрупповая и sост
m(n − 1)
mn − 1
m −1
внутригрупповая дисперсии.
Для того, чтобы проверить значимость влияния фактора А на
результирующий показатель, в дисперсионном анализе используют
противоположное предположение. Проверяют статистическую гипотезу об
отсутствии влияния определенного уровня фактора на модель, т.е.
рассматривают гипотезу: H 0 : 1 = 2 = ... = m = 0 , где i − средний эффект
влияния i – го уровня.
На заданном уровне значимости используют критерий Фишера, в
котором сравниваются межгрупповая и внутригрупповая дисперсии.
Очевидно, что если эти дисперсии различаются между собой незначительно,
то основное предположение верно, т.е. фактор А не оказывает никакого
влияния на результирующий признак. Иначе, есть все основания
предполагать, что фактор А оказывает важное влияние и является значимым.
Далее, необходимо проверить различия между его уровнями с целью
выделения наиболее информативных значений (процедура множественного
сравнения).
В критерии Фишера определяют критическую точку критерия
Fкр = F ( , m − 1, m(n − 1)) из специальных таблиц или с помощью ППП Excel.
Она делит все множество критерия на d 0 − область принятия основной
гипотезы и критическую правостороннюю область d 1 . По полученным
s А2
данным находят наблюдаемое значение критерия Fо = 2 . В зависимости от
sост
того, в какую из областей попадет значение Fо , делается вывод о принятии или
отклонении основной гипотезы Н о .
Пример 1.
При изучении влияния многих факторов на объемы продаж карамели
выделен один фактор А = {привлекательность упаковки}. Уровнями этого
фактора являются: а1 = {упаковка из дешевой цветной бумаги}; а 2 =
{упаковка из дорогой цветной бумаги }; а 3 = {упаковка из разноцветной
фольги}. Требуется установить значимость влияния этого фактора на объемы
продаж, если наблюдения проводились в идентичных магазинах в четырех
районах города.
Решение.
Были получены следующие результаты:
Уровни фактора
а1
а2
а3
1
9
2
10
3
22
4
15
15
11
20
14
20
22
36
24
Вычислим средние продажи по каждой категории упаковок yi =
1 n
yij :
n j =1
1 m
y1 = 14 ; y 2 = 15 ; y3 = 25,5 . Тогда общая средняя y = yi : y = 18,17 .
m i =1
Проверим условие Фишера: ssобщ = ss A + ssост . Для того найдем:
(
)
ss A = 4 (14 − 18,17) + (15 − 18,17) + (25,5 − 18,17) = 324,67 ;
2
2
2
2
2
ssост = (9 − 14) + ... + (15 − 14) + (15 − 15) + ... + (14 − 15) + (20 − 25,5) + ... = 303
;
2
2
ssобщ = (9 − 18,17) + ... + (24 − 18,17) = 627,67 . Очевидно равенство.
Проверим гипотезу о незначимости влияния красочности упаковки на
объемы продаж:
H 0 : 1 = 2 = ... = m = 0 , где i − средний эффект влияния.
Проверку осуществим на 5% уровне значимости, т.е. = 0,05 .
ssост
303
ss A
324,67
2
=
=
= 33,67 .
s A2 =
=
= 162,35 ; sост
m(n − 1) 3(4 − 1)
m −1 3 −1
s А2 162,35
Следовательно, Fо = 2 =
= 4,82 против критической точки
sост 33,67
Fкр = F (0,05;3 − 1;3(4 − 1)) = 4,29 (из специальных таблиц). В результате,
Fo Fкр , т.е. наблюдаемая точка попадает в критическую область, поэтому на
5% уровне значимости основную гипотезу нужно отвергнуть и считать, что
фактор А = {привлекательность упаковки} влияет на объемы продаж
карамели.
2
2
2