Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Дисперсионный анализ
1. Постановка задачи параметрического дисперсионного анализа.
2. Однофакторный дисперсионный анализ с фиксированными и случайными уровнями фактора.
3. Математическая модель, проверка гипотез об отсутствии влияния уровней фактора на результативный признак.
4. Двухфакторный дисперсионный анализ: модели с фиксированными, случайными и смешанными уровнями факторов. Математическая модель двухфакторного дисперсионного анализа. Разложение дисперсии. Проверка гипотез об отсутствии влияния уровней факторов на результативный признак.
Дисперсионный анализ предназначен для проверки наличия зависимости нормально распределенной результативной случайной величины (ее реализация Y) от нескольких факторов (k факторных величин), а именно для выявления причинно-следственной связи между вариацией факторов и вариацией результативных признаков. Среди факторов будем различать случайные и неслучайные величины, измеряемые в любой из шкал: интервальной, порядковой или номинальной. Суть дисперсионного анализа состоит в разделении дисперсии признака на составляющие, обусловленные влиянием конкретных факторов и проверке гипотез о значимости их влияния. Например, как пол работника влияет на уровень его заработной платы или как сезоны года влияют на объем продаж мороженого.
Модели дисперсионного анализа будем классифицировать:
1) в зависимости от числа факторов на однофакторные, двухфакторные и т.д.;
2) по природе факторов на детерминированные (М1), случайные (М2) и смешанные, в зависимости от того какими являются уровни факторов.
Постановка задачи.
Пусть имеется выборка из нормально распределенной генеральной совокупности .
Пусть требуется проверить наличие влияния на результативный признак одного контролируемого фактора , имеющего m уровней , . Наблюдаемые значения результативного признака на каждом из фиксированных уровней обозначим , , где - число объектов наблюдения.
Однофакторный анализ
Например, - это стоимость квартиры, фактором может выступать наличие балкона. Тогда фактор имеет два уровня (m=2): есть балкон и нет балкона.
Любое наблюдение можно представить в виде:
, , , (1)
где а – генеральная средняя результативного признака ;
- влияние (эффект) фактора на j-ом уровне;
- случайные величины (остатки), отражающие влияние на всех неконтролируемых факторов (например, на стоимость квартиры помимо основных факторов таких как общая площадь, площадь кухни и т.д. влияют множество неконтролируемых факторов: удобство подъездных путей, состояние подъезда, качества соседей, наличие парковочных мест и т.п. Таких факторов множество и их влияние разнонаправлено. Учесть все их невозможно, но в этом и нет необходимости – их влияние на стоимость квартиры минимально).
Относительно будем предполагать, что они распределены нормально и удовлетворяют следующим условиям (2):
; или ; (2)
- остаточная дисперсия остаточная дисперсия.
В зависимости от изучаемой модели относительно предполагаем:
- модель М1 – - фиксирование величин, такие что и основная гипотеза H0: ; то есть нет влияния фактора на результативный признак;
- модель М2 – - случайные величины, удовлетворяющие условиям - ; ; ; - факторная дисперсия и основная гипотеза H0: , то есть нет влияния фактора на результативную переменную.
Для проверки основной гипотезы дисперсионного анализа, утверждающей, что нет влияние фактора (уровней фактора ) на изменение результативного признака, вычислим следующие статистики:
групповые средние (средние уровней );
(3)
общая средняя результативного признака:
, (4)
где .
Определим две дисперсии: межгрупповую (дисперсию групповых средних) или факторную, обусловленную влиянием изучаемого фактора и внутригрупповую (остаточную), величина которой рассматривается как случайная. Необходимые суммы квадратов отклонений обозначим:
- факторная сумма квадратов отклонений:
(5)
- остаточная сумма квадратов отклонений:
. (6)
- общая сумма квадратов отклонений:
. (7)
Легко проверить .
Несмещенные оценки общей, факторной и остаточной дисперсий:
; ; . (8)
Если влияние фактора отсутствует, то и можно рассматривать как независимые оценки дисперсии всей совокупности. Наоборот, если фактор оказывает существенное влияние, то отношение : будет расти и превзойдет некоторый критический предел. Таким образом, первоначальную гипотезу Н0 можно заменить такой Н0: = . Для проверки нулевой гипотезы рассмотрим статистику:
(9)
распределенную, очевидно, по закону Фишера-Снедекора со и степенями свободы. Если , то гипотеза не отвергается, то есть влияние фактора на результативный признак не доказано. Если , то Н0 отвергается и с вероятностью ошибки можно утверждать: влияние фактора на результативный признак существенно.
Если влияние фактора доказано, то можно проверить гипотезы:
1) Н0: - о равенстве двух средних выбранных уровней с помощью статистики
, (10)
распределенной по закону Фишера-Снедекора с и
2) При проверке гипотезы Н0: а=а0 не пользуется:
в случае модели М1 статистика
, (11)
имеющая F – распределение с и ;
в случае модели М2 и статистика
, (12)
имеющая F – распределение с и .
Несмещенную точечную оценку для факторной дисперсии, в случае отклонения нулевой гипотезы, можно уточнить
. (13)
Интервальная оценка для с надежностью
. (14)
2 Двухфакторный дисперсионный анализ
Будем исследовать влияние двух факторов А и В на результативный нормально распределенный признак . Пусть , ; , - уровни факторов. Рассмотрим два случая.
I. Пусть каждой паре уровней факторов и соответствует одно наблюдаемое значение результативного признака , то есть наблюденные значение можно представить в виде таблицы с двумя входами.
Таблица 1
Аi Bj
B1
B1
…
Bl
А1
y11
y12
…
y1l
А2
y21
y22
…
y2l
…
…
…
…
…
Аm
ym1
ym2
…
yml
В этом случае модель дисперсионного анализа будем рассматривать в виде:
, (15)
где а – общая генеральная средняя;
- независимые нормально распределенные остатки, с и , ;;
- отклонения от а, обусловленные влиянием соответствующих уровней факторов А и В.
Если уровни факторов и фиксированные (модель М1), то и есть неслучайные величины, удовлетворяющие очевидным условиям
; . (16)
Ненулевые гипотезы формулируются в виде:
Н0: , ;
Н0: , ;
Если уровни факторов и случайные, то и будем считать независимыми между собой и с случайными величинами распределенными нормально с и ; . Отсутствие влияния уровней факторов на изменения результативного признака – нулевые гипотезы – формально записывается в виде:
Н0: ;
Н0: .
Если уровни фактора А – случайные, а В – фиксированные (смешанная модель), то независимые между собой и с случайные величины с , ; - неслучайные величины, удовлетворяющие условию . Нулевые гипотезы об отсутствии влияния уровней факторов на изменения результативного признака формулируются в виде:
Н0: ;
Н0: , .
Аналогично строиться смешанная модель, в которой фактор А имеет фиксированные уровни, а фактор В – случайные.
Построим разложение для:
(17)
где
;
; (18)
Для проверки нулевой гипотезы об отсутствии влияния одного из факторов рассматриваем статистику
, (19)
где
распределенную, очевидно, по закону Фишера-Снедекора с и степенями свободы.
II. В общем случае, когда для каждой пары уровней и имеется n(n>1) наблюдений, модель дисперсионного анализа представим в виде
,
, ,
где - к-ое наблюдение результативного признака для i-го уровня фактора А и j-го уровня фактора В;
а – общая генеральная средняя;
- отклонения от а, обусловленные влиянием соответствующих уровней Аi и Вj;
- отклонения от а, обусловленные совместным влиянием уровней факторов А и В;
и независимы между собой.
Если уровни факторов Аi и Вj фиксированные (модель М1), то отклонения и - неслучайные величины, удовлетворяющие условиям:
; ; ; . (20)
Сформулируем гипотезы об отсутствии влияния:
фактора А – Н0: ; ;
фактора В – Н0: ; ;
совместное влияние факторов А и В – Н0: ;;.
В случае модели М2 и есть независимые между собой и с случайные величины, распределенные нормально с нулевым математическим ожиданием и с дисперсиями , и . Сформулируем нулевые гипотезы от отсутствии влияния:
фактора А – Н0: ;
фактора В – Н0: ;
совместного влияния факторов А и В – Н0: .
Для смешанной модели, когда, к примеру, уровни фактора А случайные, а фактора В – фиксированные, отклонения и независимые между собой и с нормально распределены случайные величины с нулевыми математическими ожиданиями, с дисперсиями и , при этом , а ; .
Нулевые гипотезы об отсутствии влиянием факторов имеют вид:
фактора А – Н0: ;
фактора В – Н0: ; ;
совместное влияние факторов А и В – Н0: .`
Аналогично строится другая смешанная модель. Разложив, как и при n=1, общую сумму квадратов на составляющие:
, (21)
где
;
;
приведем в нижеследующей таблице схему проверки основных гипотез для различных моделей двухфакторного дисперсионного анализа.
Таблица
Вариации
Сумма квадратов
Число степеней свободы
Несмещенные оценки дисперсий
М1
М2
Смешанная
модель
А - случай
В - случай
Fнабл.
Fнабл.
Fнабл.
Fнабл.
А
В
АВ
Остат.
QА
QВ
QАВ
Qост
m-1
l-1
(m-1)(l-1)
ml(n-1)
1 QА/(m-1)
2 QВ/(l-1)
3 QАВ/(m-1)(l-1)
4 Qост/ml(n-1)
1 : 3
2 : 4
3 : 4
1 : 3
2 : 3
3 : 4
1 : 4
2 : 3
3 : 4
1 : 3
2 : 4
3 : 4