«Аналитическая статистика»

Конспект лекции по дисциплине «Аналитическая статистика», Word формат

Аналитическая статистика http://www.tsput.ru/res/math/mop/lections/lection_7.htm 1 Дисперсионный анализ 1.1 Однофакторный дисперсионный анализ для несвязанных выборок 1.2 Дисперсионный анализ для связанных выборок 2 Корреляционный анализ 2.1 Понятие корреляционной связи 2.2 Коэффициент корреляции Пирсона 3 Регрессионный анализ Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик). Анализ временных рядов применим к одиночным или связанным временным рядам и позволяет выделять различные формы периодичности и взаимовлияния временных процессов, а также осуществлять прогнозирование будущего поведения временного ряда. Регрессионные процедуры позволяют рассчитать модель, описываемую некоторым уравнением и отражающую функциональную зависимость между экспериментальными количественными переменными, а также проверяют гипотезу об адекватности модели экспериментальным данным. По полученным результатам можно оценить природу и степень зависимости переменных и предсказать новые значения зависимой переменной. Корреляционный анализ – это группа статистических методов, направленная на выявление и математическое представление структурных зависимостей между выборками. Кластерный анализ осуществляет разбиение объектов на заданное число удаленных друг от друга классов, а также строит дерево классификаций объектов посредством иерархического объединения их в группы (кластеры). Основной задачей факторного анализа является нахождение в многомерном пространстве первичных переменных (значения которых регистрируются в эксперименте), сокращенной системы вторичных переменных (факторов). Метод факторного анализа первоначально был разработан в психологии с целью выделения отдельных компонентов человеческого интеллекта из многомерных данных по измерению различных проявлений умственных способностей. Методы контроля качества предназначены для контроля выпускаемой продукции с целью выявления нарушений и узких мест в организации производства и в технологических процессах, ведущих к снижению качества продукции. 7.1 Дисперсионный анализ Дисперсионный анализ, предложенный Р. Фишером, является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов. В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат. Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов. Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие). Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным. (Суходольский Г.В., 1972; Шеффе Г., 1980). 7.1.1 Однофакторный дисперсионный анализ для несвязанных выборок Изучается действие только одной переменной (фактора) на исследуемый признак. Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой, средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором – степень наглядности, в третьем – фактор публичности.[1] В данном варианте метода влиянию каждой из градаций подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех. Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в табл. 1. Таблица 1. Количество воспроизведенных слов (по J. Greene, M D'Olivera, 1989, p. 99) № испытуемого Группа 1 низкая скорость Группа 2 средняя скорость Группа 3 высокая скорость 1 8 7 4 2 7 8 5 3 9 5 3 4 5 4 6 5 6 6 2 6 8 7 4 суммы 43 37 24 средние 7,17 6,17 4,00 Общая сумма 104 Дисперсионный однофакторный анализ позволяет проверить гипотезы: H0: различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы H1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы. Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок: 1. подсчитаем SSфакт - вариативность признака, обусловленную действием исследуемого фактора. Часто встречающееся обозначение SS - сокращение от "суммы квадратов" (sum of squares). Это сокращение чаще всего используется в переводных источниках (см., например: Гласс Дж., Стенли Дж., 1976). , (1) где Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. табл. 1); с – количество условий (градаций) фактора (=3); n – количество испытуемых в каждой группе (=6); N – общее количество индивидуальных значений (=18); - квадрат общей суммы индивидуальных значений (=1042=10816) Отметим разницу между , в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и , где индивидуальные значения сначала суммируются для получения общей суммы, а потом уже эта сумма возводится в квадрат. По формуле (1) рассчитав фактическую вариативность признака, получаем: 2. подсчитаем SSобщ – общую вариативность признака: (2) 3. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами: (3) 4. число степеней свободы равно: =3-1=2 (4) 5. «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна: (5) 6. значение статистики критерия Fэмп рассчитаем по формуле: (6) Для нашего примера имеем: Fэмп=15,72/2,11=7,45 7. определим Fкрит по статистическим таблицам Приложения 3 для df1=k1=2 и df2=k2=15 табличное значение статистики равно 3,68 8. если Fэмп< Fкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера Fэмп > Fкрит (7.45>3.68), следовательно принимается альтернативная гипотеза. Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения. 7.1.2 Дисперсионный анализ для связанных выборок Метод дисперсионного анализа для связанных выборок применяется в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых. Градаций фактора должно быть не менее трех. В данном случае различия между испытуемыми - возможный самостоятельный источник различий. Однофакторный дисперсионный анализ для связанных выборокпозволит определить, что перевешивает - тенденция, выраженная кривой изменения фактора, или индивидуальные различия между испытуемыми. Фактор индивидуальных различий может оказаться более значимым, чем фактор изменения экспериментальных условий. Пример 2. Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной, настойчивости (Сидоренко Е. В., 1984). Каждому испытуемому индивидуально предъявлялись последовательно три одинаковые анаграммы: четырехбуквенная, пятибуквенная и шестибуквенная. Можно ли считать, что фактор длины анаграммы влияет на длительность попыток ее решения? Таблица 2. Длительность решения анаграмм (сек) Код испытуемого Условие 1. четырехбуквенная анаграмма Условие 2. Пятибуквенная анаграмма Условие 3. шестибуквенная анаграмма Суммы по испытуемым 1 5 235 7 247 2 7 604 20 631 3 2 93 5 100 4 2 171 8 181 5 35 141 7 183 суммы 51 1244 47 1342 Сформулируем гипотезы. Наборов гипотез в данном случае два. Набор А. Н0(А): Различия в длительности попыток решения анаграмм разной длины являются не более выраженными, чем различия, обусловленные случайными причинами. Н1(А): Различия в длительности попыток решения анаграмм разной длины являются более выраженными, чем различия, обусловленные случайными причинами. Набор Б. Но(Б): Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами. Н1(Б): Индивидуальные различия между испытуемыми являются более выраженными, чем различия, обусловленные случайными причинами. Последовательность операций в однофакторном дисперсионном анализе для связанных выборок: 1. подсчитаем SSфакт - вариативность признака, обусловленную действием исследуемого фактора по формуле (1). , где Тс – сумма индивидуальных значений по каждому из условий (столбцов). Для нашего примера 51, 1244, 47 (см. табл. 2); с – количество условий (градаций) фактора (=3); n – количество испытуемых в каждой группе (=5); N – общее количество индивидуальных значений (=15); - квадрат общей суммы индивидуальных значений (=13422) 2. подсчитаем SSисп - вариативность признака, обусловленную индивидуальными значения испытуемых. где Ти – сумма индивидуальных значений по каждому испытуемому. Для нашего примера 247, 631, 100, 181, 183 (см. табл. 2); с – количество условий (градаций) фактора (=3); N – общее количество индивидуальных значений (=15); 3. подсчитаем SSобщ – общую вариативность признака по формуле (2): 4. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами по формуле (3): 5. число степеней свободы равно (4): ; ; ; 6. «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна (5): ; 7. значение статистики критерия Fэмп рассчитаем по формуле (6 ): ; 8. определим Fкрит по статистическим таблицам Приложения 3 для df1=k1=2 и df2=k2=8 табличное значение статистики Fкрит_факт=4,46, и для df3=k3=4 и df2=k2=8Fкрит_исп=3,84 9. Fэмп_факт > Fкрит_факт (6,872>4,46), следовательно принимается альтернативная гипотеза. 10. Fэмп_исп < Fкрит_исп (1,054<3,84), следовательно принимается нулевая гипотеза. Вывод: различия в объеме воспроизведения слов в разных условиях являются более выраженными, чем различия, обусловленные случайными причинами (р<0,05). Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами. 7.2 Корреляционный анализ 7.2.1 Понятие корреляционной связи Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, могут ли учащиеся с высоким уровнем тревожности демонстрировать стабильные академические достижения, или связана ли продолжительность работы учителя в школе с размером его заработной платы, или с чем больше связан уровень умственного развития учащихся — с их успеваемостью по математике или по литературе и т.п.? Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь — это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого. Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д. Корреляционные связи — это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. «Оба термина, — пишет Е.В. Сидоренко, — корреляционная связь и корреляционная зависимость — часто используются как синонимы. Зависимость подразумевает влияние, связь — любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого. Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака (Е.В. Сидоренко, 2000). Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции. Корреляционные связи различаются по форме, направлению и степени (силе). По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (см. рис. 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности. Рис.1. Связь между эффективностью решения задачи и силой мотивационной тенденции (по J. W. Atkinson, 1974, р 200) По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого. При отрицательной корреляции соотношения обратные. При положительной корреляции коэффициент корреляции имеет положительный знак, например r=+0,207, при отрицательной корреляции - отрицательный знак, например r=—0,207. Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции. Максимальное возможное абсолютное значение коэффициента корреляции r=1,00; минимальное r=0,00. Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992): сильная, или тесная при коэффициенте корреляции r>0,70; средняя при 0,50 0,54 , следовательно, гипотеза Н1 отвергается и принимается гипотеза H0, иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана. 7.3 Регрессионный анализ Это группа методов, направленных на выявление и математическое выражение тех изменений и зависимостей, которые имеют место в системе случайных величин. Если такая система моделирует педагогическую, то, следовательно, путем регрессионного анализа выявляются и математически выражаются психолого-педагогические явления и зависимости между ними. Характеристики этих явлений измеряются в разных шкалах, что накладывает ограничения на способы математического выражения изменений и зависимостей, которые изучаются педагогом-исследователем. Методы регрессионного анализа рассчитаны, главным образом, на случай устойчивого нормального распределения, в котором изменения от опыта к опыту проявляются лишь в виде независимых испытаний. Выделяются различные формальные задачи регрессионного анализа. Они могут быть простыми или сложными по формулировкам, по математическим средствам и трудоемкости. Перечислим и рассмотрим на примерах те из них, которые представляются основными. Первая задача — выявить факт изменчивости изучаемого явления при определенных, но не всегда четко фиксированных условиях. В предыдущей лекции мы уже решали эту задачу с помощью параметрических и непараметрических критериев. Вторая задача — выявить тенденцию как периодическое изменение признака. Сам по себе этот признак может быть зависим или не зависим от переменной-условия (он может зависеть от неизвестных или неконтролируемых исследователем условий). Но это не важно для рассматриваемой задачи, которая ограничивается лишь выявлением тенденции и ее особенностей. Проверка гипотез об отсутствии или наличии тенденции может выполняться с использованием критерия Аббе. Критерий Аббе предназначен для проверки гипотез о равенстве средних значений, установленных для 4

Аналитическая статистика

Тебе могут подойти лекции

Статистика

Предмет статистики. Сводка и группировка статистических данных

Предмет и метод статистики

Теория статистики

Теория статистики

Общие понятия о статистике. Предмет статистики

Предмет и метод статистики

Статистика. Статистические данные

Статистика. Математические основы анализа статистических данных. Сводка и группировка статистических данных

Предмет и метод статистики. Математические основы анализа статистических данных

Аналитическая статистика

Тебе могут подойти лекции

Другие экономические предметы

Помощь с написанием учебных работ