Справочник от Автор24
Поделись лекцией за скидку на Автор24

Аналитическая статистика

  • 👀 798 просмотров
  • 📌 750 загрузок
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Аналитическая статистика» doc
Аналитическая статистика http://www.tsput.ru/res/math/mop/lections/lection_7.htm 1 Дисперсионный анализ 1.1 Однофакторный дисперсионный анализ для несвязанных выборок 1.2        Дисперсионный анализ для связанных выборок 2 Корреляционный анализ 2.1 Понятие корреляционной связи 2.2 Коэффициент корреляции Пирсона 3 Регрессионный анализ  Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик). Анализ временных рядов применим к одиночным или связанным времен­ным рядам и позволяет выделять различные формы периодичности и взаимовлияния временных процессов, а также осуществлять прогнозирование будущего поведения временного ряда. Регрессионные процедуры позволяют рассчитать модель, описываемую некоторым уравнени­ем и отражающую функциональную зависимость между эксперименталь­ными количественными переменными, а также проверяют гипотезу об адекватности модели экспериментальным данным. По полученным резуль­татам можно оценить природу и степень зависимости переменных и пред­сказать новые значения зависимой переменной. Корреляционный анализ – это группа статистических методов, направленная на выявление и математическое представление структурных зависимостей между выборками. Кластерный анализ осуществляет разбиение объектов на заданное число удаленных друг от друга классов, а также строит дерево классификаций объектов посредством иерархического объединения их в группы (кластеры). Основной задачей факторного анализа является нахождение в многомерном пространстве первичных переменных (значения которых регистрируются в эксперименте), сокращенной системы вторичных переменных (факторов). Метод факторного анализа первоначально был разработан в психологии с целью выделения отдельных компонентов человеческого интеллекта из многомерных данных по измерению различных проявлений умственных способностей. Методы контроля качества ­ предназначены для контроля выпускаемой продукции с целью выявления нарушений и узких мест в организации производства и в технологических процессах, ведущих к снижению качества продукции. 7.1 Дисперсионный анализ  Дисперсионный анализ, предложенный Р. Фишером, является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов. В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные).  Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат. Сущность дисперсионного анализа заключается в расчлене­нии общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и про­верке гипотез о значимости влияния этих факторов на исследуе­мый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловле­на действием регулируемых факторов. Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых фак­торов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты экспери­мента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие). Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным. (Суходольский Г.В., 1972; Шеффе Г., 1980). 7.1.1 Однофакторный дисперсионный анализ для несвязанных выборок Изучается действие только одной переменной (фактора) на исследуемый признак. Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой,  средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором – степень наглядности, в третьем – фактор публичности.[1] В данном варианте метода влиянию каждой из градаций подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех. Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в табл. 1. Таблица 1. Количество воспроизведенных слов (по J. Greene, M D'Olivera, 1989, p. 99) № испытуемого Группа 1 низкая скорость Группа 2 средняя скорость Группа 3 высокая скорость 1 8 7 4 2 7 8 5 3 9 5 3 4 5 4 6 5 6 6 2 6 8 7 4 суммы 43 37 24 средние 7,17 6,17 4,00 Общая сумма 104     Дисперсионный однофакторный анализ позволяет проверить гипотезы: H0: различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы H1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы. Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок: 1. подсчитаем SSфакт - вариативность признака, обусловленную действи­ем исследуемого фактора. Часто встречающееся обозначе­ние SS - сокращение от "суммы квадратов" (sum of squares). Это со­кращение чаще всего используется в переводных источниках (см., на­пример: Гласс Дж., Стенли Дж., 1976).  ,                                                                             (1) где Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. табл. 1); с – количество условий (градаций) фактора (=3); n – количество испытуемых в каждой группе (=6); N – общее количество индивидуальных значений (=18);  - квадрат общей суммы индивидуальных значений (=1042=10816) Отметим разницу между  , в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и  , где индивидуальные значения сначала суммируются для получения об­щей суммы, а потом уже эта сумма возводится в квадрат. По формуле (1) рассчитав фактическую вариативность признака, получаем: 2. подсчитаем SSобщ – общую вариативность признака:                                (2) 3. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами:                                                    (3) 4.      число степеней свободы равно:                     =3-1=2                                                                                      (4)       5.      «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна:                                                                        (5) 6.      значение статистики критерия Fэмп рассчитаем по формуле:                                                                                        (6) Для нашего примера имеем: Fэмп=15,72/2,11=7,45 7.      определим Fкрит по статистическим таблицам Приложения 3 для df1=k1=2 и df2=k2=15 табличное значение статистики равно 3,68 8. если Fэмп< Fкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера Fэмп > Fкрит (7.45>3.68), следовательно принимается альтернативная гипотеза. Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р<0,05). Т.о. скорость предъявления слов влияет на объем их воспроизведения. 7.1.2    Дисперсионный анализ для связанных выборок  Метод дисперсионного анализа для связанных выборок применяется в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых. Градаций фактора должно быть не менее трех. В данном случае различия между испытуемыми - возможный са­мостоятельный источник различий. Однофакторный дисперсионный анализ для связанных выборокпозволит определить, что перевешивает - тенденция, выраженная кривой изменения фактора, или индивидуальные различия между испытуемыми. Фактор индивидуальных различий может оказаться более значимым, чем фактор изменения экспериментальных условий. Пример 2. Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной, настойчивости (Сидоренко Е. В., 1984). Каждому испытуемому инди­видуально предъявлялись последовательно три одинаковые анаграммы: четырехбуквенная, пятибуквенная и шестибуквенная. Можно ли счи­тать, что фактор длины анаграммы влияет на длительность попыток ее решения? Таблица 2. Длительность решения анаграмм (сек) Код испытуемого Условие 1. четырехбуквенная анаграмма Условие 2. Пятибуквенная анаграмма Условие 3. шестибуквенная анаграмма Суммы по испытуемым 1 5 235 7 247 2 7 604 20 631 3 2 93 5 100 4 2 171 8 181 5 35 141 7 183 суммы 51 1244 47 1342 Сформулируем гипотезы. Наборов гипотез в данном случае два. Набор А. Н0(А): Различия в длительности попыток решения анаграмм разной длины являются не более выраженными, чем различия, обусловленные случайными причинами. Н1(А): Различия в длительности попыток решения  анаграмм  разной длины являются более выраженными, чем различия, обусловлен­ные случайными причинами.   Набор Б. Но(Б): Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами. Н1(Б): Индивидуальные различия между испытуемыми являются более выраженными, чем различия, обусловленные случайными причи­нами. Последовательность операций в однофакторном дисперсионном анализе для связанных выборок: 1. подсчитаем SSфакт - вариативность признака, обусловленную действи­ем исследуемого фактора по формуле (1).  ,                       где Тс – сумма индивидуальных значений по каждому из условий (столбцов). Для нашего примера 51, 1244, 47 (см. табл. 2); с – количество условий (градаций) фактора (=3); n – количество испытуемых в каждой группе (=5); N – общее количество индивидуальных значений (=15);  - квадрат общей суммы индивидуальных значений (=13422) 2. подсчитаем SSисп - вариативность признака, обусловленную индивидуальными значения испытуемых. где Ти – сумма индивидуальных значений по каждому испытуемому. Для нашего примера 247, 631, 100, 181, 183 (см. табл. 2); с – количество условий (градаций) фактора (=3); N – общее количество индивидуальных значений (=15); 3. подсчитаем SSобщ – общую вариативность признака по формуле (2): 4. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами по формуле (3):                          5. число степеней свободы равно (4):  ;  ;  ;  6.      «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна (5):  ;  7.      значение статистики критерия Fэмп рассчитаем по формуле (6 ):  ;  8.      определим Fкрит по статистическим таблицам Приложения 3 для df1=k1=2 и df2=k2=8 табличное значение статистики Fкрит_факт=4,46, и для df3=k3=4 и df2=k2=8Fкрит_исп=3,84 9.      Fэмп_факт > Fкрит_факт (6,872>4,46), следовательно принимается альтернативная гипотеза. 10.   Fэмп_исп < Fкрит_исп (1,054<3,84), следовательно принимается нулевая гипотеза. Вывод: различия в объеме воспроизведения слов в разных условиях являются более выраженными, чем различия, обусловленные случайными причинами (р<0,05). Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами. 7.2 Корреляционный анализ 7.2.1 Понятие корреляционной связи Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, могут ли учащиеся с высоким уровнем тревожности демонстрировать стабильные академичес­кие достижения, или связана ли продолжительность работы учителя в школе с размером его заработной платы, или с чем больше связан уровень умственного развития учащихся — с их успеваемостью по математике или по литературе и т.п.? Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь — это согласованное изме­нение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью дру­гого. Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем боль­ше рост, тем больше вес человека. Однако из этого правила име­ются исключения, когда относительно низкие люди имеют из­быточный вес, и, наоборот, астеники, при высоком росте име­ют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д. Корреляционные связи — это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статисти­ки. «Оба термина, — пишет Е.В. Сидоренко, — корреляционная связь и корреляционная зависимость — часто используются как синони­мы. Зависимость подразумевает влияние, связь — любые согласован­ные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого. Корреляционная зависимость -  это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака (Е.В. Сидоренко, 2000). Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (ли­нейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимо­сти полученных коэффициентов корреляции.   Корреляционные связи различаются по форме, направлению и степени (силе). По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решае­мых задач в контрольной сессии. Криволинейной может быть, напри­мер, связь между уровнем мотивации и эффективностью выполнения задачи (см. рис. 1). При повышении мотивации эффективность вы­полнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутст­вует уже снижение эффективности. Рис.1. Связь между эффективностью решения задачи и силой мотивационной тен­денции (по J. W. Atkinson, 1974, р 200) По направлению корреляционная связь может быть положитель­ной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значе­ниям одного признака - низкие значения другого. При отрицательной корреляции соотношения обратные. При положительной корреляции коэффициент корреляции имеет положительный знак, например r=+0,207, при отрицательной корреля­ции - отрицательный знак, например r=—0,207. Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции. Максимальное воз­можное абсолютное значение коэффициента корреляции r=1,00; минимальное r=0,00. Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992): сильная, или тесная при коэффициенте корреляции r>0,70; средняя                                                        при 0,50 0,54 , следовательно, гипотеза Н1 отвергается и при­нимается гипотеза H0, иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана. 7.3 Регрессионный анализ Это группа методов, направ­ленных на выявление и математическое выражение тех измене­ний и зависимостей, которые имеют место в системе случайных величин. Если такая система моделирует педагогическую, то, следовательно, путем регрессионного анализа выявляются и ма­тематически выражаются психолого-педагогические явления и зависимости между ними. Характеристики этих явлений изме­ряются в разных шкалах, что накладывает ограничения на спо­собы математического выражения изменений и зависимостей, которые изучаются педагогом-исследователем. Методы регрессионного анализа рассчитаны, главным обра­зом, на случай устойчивого нормального распределе­ния, в котором изменения от опыта к опыту проявляются лишь в виде независимых испытаний. Выделяются различные формальные задачи регрессионного анализа. Они могут быть простыми или сложными по формулировкам, по математиче­ским средствам и трудоемкости. Перечислим и рассмотрим на примерах те из них, которые представляются основными. Первая задача — выявить факт изменчивости изучаемого яв­ления при определенных, но не всегда четко фиксированных условиях. В предыдущей лекции мы уже решали эту задачу с помощью параметрических и непараметрических критериев. Вторая задача — выявить тенденцию как периодическое изменение признака. Сам по себе этот признак мо­жет быть зависим или не зависим от переменной-условия (он может зависеть от неизвестных или неконтролируемых иссле­дователем условий). Но это не важно для рассматриваемой за­дачи, которая ограничивается лишь выявлением тенденции и ее особенностей. Проверка гипотез об отсутствии или наличии тенденции мо­жет выполняться с использованием кри­терия Аббе. Критерий Аббе предназначен для проверки гипотез о равенстве средних значений, установленных для 4
«Аналитическая статистика» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ

Тебе могут подойти лекции

Смотреть все 270 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot