Дисперсионный анализ
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Институт математики и информационных технологий ИГУ
ЭКОНОМЕТРИКА
2020-21 уч.г.
Тюрнева Т.Г.,к.ф.-м.н., доцент,
кафедра теории вероятностей и дискретной математики
Планирование
Загрузка работы №3 открыта с 10:00 5 марта 2021г. до 10:00 19 марта 2021г.
19 марта – Дисперсионный анализ (лекция)
23 марта, 24 марта – ИТОГОВАЯ РАБОТА ПО МАТЕМАТИЧЕСКОЙ
СТАТИСТИКЕ
26 марта – Эконометрика (лекция)!
2
Дисперсионный анализ
Лекция
3
Понять правило – одно,
а научиться его применять – другое.
Первое достигается разумом и сразу, второе –
опытом и постепенно.
Артур Шопенгауэр
(немецкий философ)
(1788-1860)
Предположение о каком распределении?!
5
6
КВАНТИЛИ!
7
?
8
Большинство работ выполнено верно! Оформлено аккуратно!
группа
Всего
студентов
по
списку
Зарегис
трирова
ны на
портале
Сдали
практи
ческую
работу
№2
%
2321
13
13
9
69,2
2322
21
21
12
57,1
2341
19
19
14
73,7
12
2
2342
18
18
9
50
3
1
2361
25
22
17
77,3
5
6
1
всего
98
93
61
65,6
27
13
10
5
4,5
7
4
3,5
3
1
7
2
1
1
5
1
1
2
2
1
2
3
3
3
3
9
Математическая статистика
Планирование, БРС
10
БРС
Практические, домашние • 1. Математическая статистика
• 2. Эконометрика
работы
Коллоквиумы и
контрольные работы
• 1. Математическая статистика
• 2. Эконометрика
Математическая статистика
Эконометрика
1. ПР №1. Описательная статистика
1. Модель парной линейной регрессии
2. ПР №2. Статистическое оценивание
параметров
2. Модель множественной линейной
3. ПР №3. Проверка статистических
3. Итоговый коллоквиум
гипотез
4. Итоговая контрольная работа
4. Итоговый коллоквиум
5. Модель временного ряда
5. ДПР. Дисперсионный анализ
6. Презентация (домашние работы)
регрессии
11
11
Контроль успеваемости и порядок определения
рейтинговых баллов
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
ЭКОНОМЕТРИКА
1. ПР №1. Описательная статистика – 5б.
1. Модель парной линейной регрессии – 5б.
2. ПР №2. Статистическое оценивание
параметров – 5б.
2. Модель множественной линейной
3. ПР №3. Проверка статистических
Регрессии – 5б.
3. Итоговый коллоквиум – 10б.
гипотез – 5б.
4. Итоговая контрольная работа – 10б.
4. Итоговый коллоквиум – 15б.
5. Модель временного ряда – 10б.
5. ДПР. Дисперсионный анализ – 10б.
6. Презентация (домашние работы) – 10б.
30б. + 10б.
30б. + 20б.
12
Дисперсионный анализ
13
Однофакторный дисперсионный анализ
Требования к работе
ДПР. Дисперсионный анализ – 10б.
1. Сформулировать задачу (как правило такая задача возникает при исследовании влияния,
которое оказывает изменение некоторого фактора А на измеряемую величинурезультирующий показатель).
2. Собрать статистические данные (выборка включает в себя: качественный фактор А, 3-5 его
уровней, не менее 4-5 наблюдений по каждому уровню фактора А), дать интерпретацию
фактору и его уровню, а также результирующему показателю.
3. Записать и проверить необходимые предположения дисперсионного анализа (выборки
получены из независимых нормально распределенных совокупностей с одной и той же
дисперсией).
4. Записать основную и альтернативные гипотезы, критерий.
5. Составить таблицу однофакторного анализа.
6. Сделать выводы о значимости фактора А.
7. Рассчитать коэффициент детерминации, сделать выводы.
14
Принципы дисперсионного анализа (англ. analysisof variance, ANOVA) были разработаны в
1920-х гг. сэром Рональдом Эйлмером Фишером
Аббревиатура ANOVA, которая используется наряду с полным названием метода, была
введена Тьюки (J.W. Tukey).
Рональд Эйлмер Фишер
17 февраля 1890 г. – 29 июля 1962 г.
Английский статистик, биолог-эволюционист, генетик
Классический пример: исследование зависимости урожая
от характера почвы и способа ее обработки. Наблюдаемый
признак – вес урожая некоторой культуры и задача состоит
в построении статистической модели зависимости
количественного признака от двух качественных факторов.
вес урожая
характер почвы;
способ обработки почвы
Дисперсионный анализ
применяется для исследования влияния одной или нескольких качественных переменных (факторов) на
одну зависимую количественную переменную Y (отклик).
Основан на разложении (анализе) общей дисперсии зависимой переменной Y на компоненты, каждая из
которых соответствует определенному источнику изменчивости измеряемой переменной Y.
Это и объясняет название метода - дисперсионный анализ.
Исходным материалом для дисперсионного анализа служат данные исследования трех и более
выборок, которые могут быть как равными, так и неравными по численности, как
связными, так и несвязными.
По количеству выявляемых регулируемых факторов дисперсионный анализ может быть
однофакторным, двухфакторным и многофакторным (позволяет оценить не только влияние
каждого из факторов в отдельности, но и их взаимодействие).
Если доказано, что распределение отклика является нормальным, то дисперсионный анализ
проводится с помощью параметрического F-критерия Фишера-Снедекора (однофакторный
дисперсионный анализ).
ДА основан на разложении (анализе) общей дисперсии зависимой переменной Y на компоненты
Виды дисперсий
В зависимости от того, как представлены статистические данные (единая совокупность
или несколько совокупностей), различают следующие виды дисперсии:
групповая или внутригрупповая – остаточная; межгрупповая – факторная; общая.
Групповая дисперсия измеряет вариацию признака внутри группы
(выборки) и по своей сути является выборочной дисперсией для данной
группы значений. Групповая дисперсия отражает изменчивость, которая
возникает только за счет причин, действующих внутри группы
Межгрупповая дисперсия (дисперсия групповых средних) характеризует
систематическую вариацию признака, которая обусловлена влиянием
фактора, положенного в основание группировки.
Общая дисперсия измеряет вариацию признака по всей совокупности в
целом под влиянием всех факторов, определяющих эту вариацию.
Средняя из внутригрупповых дисперсий определяется следующим
образом:
2
σ
𝑛
(𝑥
−
𝑥
)
𝑖
𝑖
𝑖
𝜎𝑖2 =
σ 𝑛𝑖
2∙ 𝑛
σ
(𝑥
𝑥)
𝑖
−
𝑖
2
𝛿 =
σ 𝑛𝑖
2 =
2
(
)
x
−
x
fi
i
i2 =
f
i
i2 f i
fi
Правило сложения дисперсий
› Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой
дисперсий:
2
=
2
i
+
2
18
Задача. Правило сложения дисперсий
Определить групповые дисперсии, среднюю из групповых дисперсий, межгрупповую
дисперсию, общую дисперсию по данным:
Межгрупповая дисперсия
1-я бригада
2-я бригада
1
13
1
18
2
14
2
19
3
15
3
22
4
17
4
20
5
16
5
24
6
15
6
23
Σ
90
среднее
𝜎𝑖2
126
общая
2∙ 𝑛
2
2
σ
(𝑥
𝑥)
(15
−
18)
∙
6
+
(21
−
18)
∙6
𝑖
−
𝑖
𝛿2 =
=
=9
σ 𝑛𝑖
6+6
Средняя из внутригрупповых дисперсий
216
15
21
18
𝟏𝟎
𝟔
𝟐𝟖
𝟔
𝟏𝟒𝟔
𝟏𝟐
Групповые дисперсии
Общая дисперсия
2
i
=
2
2
i
=
fi
fi
i2
+
=
𝟑𝟖
𝟏𝟐
2 = 𝟑𝟖 + 9= 𝟏𝟒𝟔
𝟏𝟐
𝟏𝟐
Однофакторный дисперсионный анализ
Пусть имеется некоторая нормально распределенная генеральная совокупность Y, над которой
проводятся наблюдения. Результатом этих наблюдений является выборка объема N.
Есть основания предполагать, что на формирование значений влияет некоторый качественный
фактор А. По предполагаемой степени воздействия разбиваем фактор А на k групп, называемых
уровнями фактора, соответственно разбиваем и всю совокупность на k выборок. Чем сильнее
влияние фактора на Y, тем существеннее различие средних в группах.
20
Постановка задачи
классического дисперсионного анализа
› Предположим, что то н. с. в. Y1 , Y2 ,…Yk имеют нормальное распределение и дисперсии
с.в. одинаковы.
› Проверить гипотезу ( о равенстве средних):
› Н0 : а1 = а2 =…= аk
(об отсутствии влияния на результативный признак Y фактора А, имеющего k уровней).
› Альтернативная гипотеза
не данные,
все равны.
Исходные
y
Вариант
Уровни фактора А
А1
А2
….
Аk
1
y11
y12
…
y1k
2
y21
y22
…
y2k
…
…
…
…
…
n
yn1
yn2
…
ynk
1. Наблюдения 𝑦𝑖𝑗 изучаемого признака
принято располагать в однофакторной таблице.
2. В этой таблице всего N = 𝑛1 + 𝑛2 + ⋯ 𝑛𝑘
наблюдений (числа 𝑛𝑗 могут быть различны) .
3. Предположим, что наблюдения рассматриваемого
признака подчиняются линейной аддитивной
модели:
𝑦𝑖𝑗 = 𝑎𝑗 +𝜀𝑖𝑗 , i = 1,2, … , n, j = 1,2, … k, k ≥ 3,
где 𝑎𝑗 - эффект влияния уровня фактора А, 𝜀𝑖𝑗 неизвестные случайные независимые ошибки
наблюдений ( нормально распределены с общим
нулевым средним и общей неизвестной
дисперсией).
Основная идея дисперсионного анализа
› Сопоставить дисперсию за счет воздействия фактора А с дисперсией,
обусловленной случайными причинами.
› Если различие между факторной и остаточной дисперсией значимо, то это
говорит о влиянии фактора А на рассматриваемый признак Y.
F – критерий
Анализ основан на расчете F – статистики (статистика Фишера), которая представляет
собой отношение двух дисперсий: межгрупповой и внутригрупповой (факторной и
остаточной).
F – тест в однофакторном дисперсионном анализе устанавливает, значимо ли отличаются
средние нескольких независимых выборок.
Он заменяет t – тест для независимых выборок при наличии более двух выборок и дает тот же
результат в случае двух выборок.
Непосредственному расчету F – критерия предшествует анализ
дисперсии результативного признака Y. Центральное место в нем занимает
разложение общей суммы квадратов отклонений переменной у от среднего
F – критерий
значения
у
на
две
части
–
«объясненную»
=
(
y
i − y)2
и
«остаточную»
(«необъясненную»):
2
(
у
−
y
)
i
i
+
i
Общая сумма квадратов
отклонений
i
Сумма квадратов
= отклонений факторная +
Обозначим SSобщ = ( у i
i
− y)2 ,
2
(
y
−
y
i i)
SSА = ( y i
i
− y)2
Остаточная сумма
квадратов
отклонений
и SSост = ( y i
− yi ) 2 .
i
Любая сумма квадратов отклонений связана с числом степеней свободы
df (degree of freedom), т.е. с числом свободы независимого варьирования
признака.
Число степеней свободы связано с числом единиц совокупности n и с числом
определяемых по ней констант.
23
Число степеней свободы остаточной суммы квадратов – k(n-1) , общей
суммы квадратов – kn -1 и число степеней свободы для факторной суммы
F – критерий
квадратов равно k-1. Имеем равенство:
kn – 1 =k – 1+ (kn – k).
Разделив
каждую
сумму
квадратов
на
соответствующее ей число степеней свободы, получим
средний квадрат отклонений или дисперсию на одну
степень свободы.
Определение дисперсии на одну степень свободы
приводит дисперсии к сравнимому виду. Сопоставляя
факторную и остаточную дисперсии в расчете на одну
степень свободы, получим величину F –отношения или F –
критерий, статистика которого F при нулевой гипотезе
F=
MS A
MS ост
(
y
− y)2 k − 1
=
2
(
y
−
y
) k ( n − 1)
~ F (k-1, k(n-1))
распределена по закону Фишера со степенями свободы (k-1,k(n-1).
24
F - отношение
Источники
вариации
Число
Сумма
степеней квадратов
Дисперсия на одну
фактическое табличное
степень свободы
свободы отклонений
(y
k-1
i
− y)2
i
Объясненная
(y
kn – k
− yi ) 2
i
i
Остаточная
kn– 1
(у
i
MS A =
MS ост =
SS A
k −1
( y − y)
=
SS ост
k ( n − 1)
2
Fфакт =
k −1
( y − y)
=
k ( n − 1)
MS R
MS ост
2
F табл = F(α; k-1,k(n-1))
− y)2
i
Общая
Таблица дисперсионного анализа
25
Статистическое решение
Если вычисленное значение F –отношения - F факт при
заданном
уровне
значимости
α
больше
критического
(табличного) F табл , т.е.
F факт > F табл = F(α; k-1,k(n-1)),
то гипотеза Н0 отвергается.
Критическое значение F табл = F(α; k-1,k(n-1)), при
заданном уровне значимости α и числе степеней свободы k1,k(n-1) находится по таблицам квантилей распределения
Фишера
26
Проверка гипотезы о равенстве дисперсий
Критерий Фишера
https://mse.msu.ru
Для сравнения дисперсий нескольких
совокупностей применяют критерий
Бартлетта;
критерий Кокрена или критерий Хартли
(если объёмы всех выборок равны).
В пакете STATISTICA можно
использовать критерий Левена либо
критерий Брауна-Форсайта
27
Замечания
Нулевая гипотеза: равенство всех средних значений.
Альтернативная гипотеза: по крайней мере два средних значения различаются.
Если нулевая гипотеза отклоняется, то необходимы дополнительные методы для определения какое
именно среднее (или средние) значимо отличаются друг от друга.
Разработаны процедуры для корректного сравнения пар средних с целью выявления статистически
значимых различий – критерии множественных сравнений.
Пример апостериорных процедур (если нулевая гипотеза уже отклонена на основе применения
ANOVA) – тест Шеффе.
Метод априорных контрастов (существуют две модификации этого метода)используется для
проведения множественной проверки выборок до применения ANOVA)
Критерий Стьюдента с поправкой Бонферрони (критерий Ньюмена – Кейлса)
28
Примеры
29
Валеев С. Г.
Практикум по прикладной статистике :
учебное пособие / С. Г. Валеев,
В. Н. Клячкин. – Ульяновск : УлГТУ, 2008.
30
1
2
3
3
6
3
31
Excel позволяет провести однофакторный дисперсионный анализ.
Воспользуемся надстройкой Пакет анализа и выберем Однофакторный
дисперсионный анализ.
В диалоговом окне нужно заполнить Входной интервал, указав ссылку на ячейки,
содержащие исходные данные (первая верхняя ячейка : последняя нижняя ячейка).
В графе Группирование нужно указать, как сгруппированы данные (по строкам, по
столбцам).
Альфа (уровень значимости) по умолчанию предполагается равным 0,05. Если
значение нужно изменить, то желаемое значение вводится в эту ячейку. Также
указываются параметры выхода (Выходной интервал или Новый рабочий лист).
В результате расчетов выводятся две таблицы.
Если Р-значение меньше Альфа (т.е. F > Fкр), то нулевая гипотеза отвергается и
влияние фактора принимают существенным.
Кроме того, Excel позволяет провести Двухфакторный дисперсионный анализ без
повторений и Двухфакторный дисперсионный анализ с повторениями.
32
Удобрения для комнатных растений фасуются в пакеты весом 0,5 кг. Из партии пакетов,
расфасованных в течение суток, случайным образом отобрали 30 пакетов. Они были распределены по
трем различным условиям хранения. После хранения в течении одной недели определялось
содержание влаги в продукте, хранящемся в каждом пакете.
На уровне значимости α=0,05 проверить гипотезу о том, что условия хранения продукта не оказывают
влияния на содержание влаги.
Предполагается, что выборки получены из независимых нормально распределенных совокупностей с
одной и той же дисперсией.
Если Р-значение меньше Альфа (т.е. F > F ), то нулевая гипотеза
кр
отвергается и влияние фактора принимают существенным
Гипотеза отвергается, условия хранения продукта оказывают влияние на содержание влаги в удобрении.
33
34
Загрузка работ
Загрузка практической работы по дисперсионному анализу открыта
с 10:00 22 марта и до 8:30 16 апреля 2021г.
35