Математические методы в психологии
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Образовательный консорциум Среднерусский университет
Автономная некоммерческая организация
высшего профессионального образования
«Московский областной гуманитарный институт»
МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ
КУРС ЛЕКЦИЙ
Укрупненная группа направлений и специальностей
030000 Гуманитарные науки
Специальность
030300.62 Психология
Разработал: ст. преподаватель Антошкина Е.А.
Подольск 2011
Содержание
Раздел 1. Основы измерения и количественного описания данных
3
ТЕма 1.1. Генеральная совокупность и выборка……………………………………..3
Тема 1.2. Измерения и шкалы………………………………………………………...7
Тема 1.3. Таблицы и графики…………………………………….………………….10
Тема 1.4. Первичные описательные статистики…………………….......................13
ТЕМА 1.5. Нормальное распределение……………………………………………….25
Раздел 2. Общие принципы проверки статистических гипотез
31
Тема 2.1. Введение в проблему статистического вывода………………………….31
Тема 2.2. Корреляционный анализ………………………………...………………..35
ТЕМА 2.3. Статистические критерии различий……………………………………..38
Тема 2.4. Непараметрические критерии для независимых выборок……………..39
Тема 2.5. Критерии согласия распределений. Параметрические критерии различий……………………..…………………………………………………………..67
Раздел 3. Многомерные методы и модели
73
ТЕМА 3.1. Множественный регрессионный анализ………..…………..…………...73
ТЕМА 3.2. Факторный анализ……………………………….…………………….......89
ТЕМА 3.3. Дискриминантный анализ……………………………………….………..91
ТЕМА 3.4. Многомерное шкалирование……………………………………………..99
ТЕМА 3.5. Кластерный анализ……............................................................................101
1. Основы измерения и количественного описания данных
1.1.Генеральная совокупность и выборка
Пусть нам нужно обследовать количественный признак в партии экземпляров некоторого товара. Проверку партии можно проводить двумя способами:
1) провести сплошной контроль всей партии;
2) провести контроль только части партии.
Первый способ не всегда осуществим, например, из–за большого числа экземпляров в партии, из–за дороговизны проведения операции контроля, из–за того, что контроль связан с разрушением экземпляра (проверка электролампы на долговечность ее работы).
При втором способе множество случайным образом отобранных объектов называется выборочной совокупностью или выборкой. Все множество объектов, из которого производится выборка, называется генеральной совокупностью. Число объектов в выборке называется объемом выборки. Обычно будем считать, что объем генеральной совокупности бесконечен.
Выборки разделяются на повторные (с возвращением) и бесповторные (без возвращения).
Обычно осуществляются бесповторные выборки, но благодаря большому (бесконечному) объему генеральной совокупности ведутся расчеты и делаются выводы, справедливые лишь для повторных выборок.
Выборка должна достаточно полно отражать особенности всех объектов генеральной совокупности, иначе говоря, выборка должна быть репрезентативной (представительной).
Выборки различаются по способу отбора.
1. Простой случайный отбор.
Все элементы генеральной совокупности нумеруются и из таблицы случайных чисел берут, например, последовательность любых 30-ти идущих подряд чисел. Элементы с выпавшими номерами и входят в выборку.
2. Типический отбор.
Такой отбор производится в том случае, если генеральную совокупность можно представить в виде объединения подмножеств, объекты которых однородны по какому–то признаку, хотя вся совокупность такой однородности не имеет (партия товара состоит из нескольких групп, произведенных на разных предприятиях). Тогда по каждому подмножеству проводят простой случайный отбор, и в выборку объединяются все полученные объекты.
3. Механический отбор.
Отбирают каждый двадцатый (сотый) экземпляр.
4. Серийный отбор.
В выборку подбираются экземпляры, произведенные на каком–то производстве в определенный промежуток времени.
В дальнейшем под генеральной совокупностью мы будем подразумевать не само множество объектов, а множество значений случайной величины, принимающей числовое значение на каждом из объектов. В действительности генеральной совокупности как множества объектов может и не существовать. Например, имеет смысл говорить о множестве деталей, которые можно произвести, используя данный технологический процесс. Используя какие–то известные нам характеристики данного процесса, мы можем оценивать параметры этого несуществующего множества деталей. Размер детали – это случайная величина, значение которой определяется воздействием множества факторов, составляющих технологический процесс. Нас, например, может интересовать вероятность, с которой эта случайная величина принимает значение, принадлежащее некоторому интервалу. На этот вопрос можно ответить, зная закон распределения этой случайной величины, а также ее параметры, такие как M и D.
Итак, отвлекаясь от понятия генеральной совокупности как множества объектов, обладающих некоторым признаком, будем рассматривать генеральную совокупность как случайную величину , закон распределения и параметры которой определяются с помощью выборочного метода.
Рассмотрим выборку объема n, представляющую данную генеральную совокупность. Первое выборочное значение x1 будем рассматривать как реализацию, как одно из возможных значений случайной величины 1, имеющей тот же закон распределения с теми же параметрами, что и случайная величина . Второе выборочное значение x2 – одно из возможных значений случайной величины 2 с тем же законом распределения, что и случайна величина . То же самое можно сказать о значениях x3, x4,..., xn .
Таким образом, на выборку будем смотреть как на совокупность независимых случайных величин 1, 2, ..., n, распределенных так же, как и случайная величина , представляющая генеральную совокупность. Выборочные значения x1, x2, ..., xn – это значения, которые приняли эти случайные величины в результате 1-го, 2-го, ..., n-го эксперимента.
Вариационный ряд.
Пусть для объектов генеральной совокупности определен некоторый признак или числовая характеристика, которую можно замерить (размер детали, удельное количество нитратов в дыне, шум работы двигателя). Эта характеристика – случайная величина , принимающая на каждом объекте определенное числовое значение. Из выборки объема n получаем значения этой случайной величины в виде ряда из n чисел:
x1, x2,..., xn. (*)
Эти числа называются значениями признака.
Среди чисел ряда (*) могут быть одинаковые числа. Если значения признака упорядочить, то есть расположить в порядке возрастания или убывания, написав каждое значение лишь один раз, а затем под каждым значением xi признака написать число mi, показывающее сколько раз данное значение встречается в ряду (*):
x1
x2
x3
...
xk
m1
m2
m3
...
mk
то получится таблица, называемая дискретным вариационным рядом. Число mi называется частотой i-го значения признака.
Очевидно, что xi в ряду (*) может не совпадать с xi в вариационном ряду. Очевидна также справедливость равенства
.
Если промежуток между наименьшим и наибольшим значениями признака в выборке разбить на несколько интервалов одинаковой длины, каждому интервалу поставить в соответствие число выборочных значений признака, попавших в этот интервал, то получим интервальный вариационный ряд. Если признак может принимать любые значения из некоторого промежутка, то есть является непрерывной случайной величиной, приходится выборку представлять именно таким рядом. Если в вариационном интервальном ряду каждый интервал [i; i+1) заменить лежащим в его середине числом (i+i+1)/2, то получим дискретный вариационный ряд. Такая замена вполне естественна, так как, например, при измерении размера детали с точностью до одного миллиметра всем размерам из промежутка [49,5; 50,5), будет соответствовать одно число, равное 50.
Точечные оценки параметров генеральной совокупности.
Во многих случаях мы располагаем информацией о виде закона распределения случайной величины (нормальный, бернуллиевский, равномерный и т. п.), но не знаем параметров этого распределения, таких как M, D. Для определения этих параметров применяется выборочный метод.
Пусть выборка объема n представлена в виде вариационного ряда. Назовем выборочной средней величину
Величина называется относительной частотой значения признака xi. Если значения признака, полученные из выборки не группировать и не представлять в виде вариационного ряда, то для вычисления выборочной средней нужно пользоваться формулой
.
Естественно считать величину выборочной оценкой параметра M. Выборочная оценка параметра, представляющая собой число, называется точечной оценкой.
Выборочную дисперсию
можно считать точечной оценкой дисперсии D генеральной совокупности.
Приведем еще один пример точечной оценки. Пусть каждый объект генеральной совокупности характеризуется двумя количественными признаками x и y. Например, деталь может иметь два размера – длину и ширину. Можно в различных районах измерять концентрацию вредных веществ в воздухе и фиксировать количество легочных заболеваний населения в месяц. Можно через равные промежутки времени сопоставлять доходность акций данной корпорации с каким-либо индексом, характеризующим среднюю доходность всего рынка акций. В этом случае генеральная совокупность представляет собой двумерную случайную величину , . Эта случайная величина принимает значения x, y на множестве объектов генеральной совокупности. Не зная закона совместного распределения случайных величин и , мы не можем говорить о наличии или глубине корреляционной связи между ними, однако некоторые выводы можно сделать, используя выборочный метод.
Выборку объема n в этом случае представим в виде таблицы, где
i-тый отобранный объект (i= 1,2,...n) представлен парой чисел xi, yi :
x1
x2
...
xn
y1
y2
...
yn
Выборочный коэффициент корреляции рассчитывается по формуле
Здесь
, ,
.
Выборочный коэффициент корреляции можно рассматривать как точечную оценку коэффициента корреляции , характеризующего генеральную совокупность.
Выборочные параметры или любые другие зависят от того, какие объекты генеральной совокупности попали в выборку и различаются от выборки к выборке. Поэтому они сами являются случайными величинами.
Пусть выборочный параметр рассматривается как выборочная оценка параметра генеральной совокупности и при этом выполняется равенство
M =.
Такая выборочная оценка называется несмещенной.
Для доказательства несмещённости некоторых точечных оценок будем рассматривать выборку объема n как систему n независимых случайных величин 1, 2,... n , каждая из которых имеет тот же закон распределения с теми же параметрами, что и случайная величина , представляющая генеральную совокупность. При таком подходе становятся очевидными равенства: Mxi = Mi =M;
Dxi = Di =D для всех k = 1,2,...n.
Теперь можно показать, что выборочная средняя есть несмещенная оценка средней генеральной совокупности или, что то же самое, математического ожидания интересующей нас случайной величины :
.
Выведем формулу для дисперсии выборочной средней:
.
Найдем теперь, чему равно математическое ожидание выборочной дисперсии 2. Сначала преобразуем 2 следующим образом:
Здесь использовано преобразование:
Теперь, используя полученное выше выражение для величины 2, найдем ее математическое ожидание.
.
Так как M 2 D, выборочная дисперсия не является несмещенной оценкой дисперсии генеральной совокупности.
Чтобы получить несмещенную оценку дисперсии генеральной совокупности, нужно умножить выборочную дисперсию на . Тогда получится величина , называемая исправленной выборочной дисперсией.
Пусть имеется ряд несмещенных точечных оценок одного и того же параметра генеральной совокупности. Та оценка, которая имеет наименьшую дисперсию, называется эффективной.
Полученная из выборки объема n точечная оценка n параметра генеральной совокупности называется состоятельной, если она сходится по вероятности к . Это означает, что для любых положительных чисел и найдется такое число n , что для всех чисел n, удовлетворяющих неравенству n > n выполняется условие. и являются несмещёнными, состоятельными и эффективными оценками величин M и D.
1.2. Измерения и шкалы
В психологии довольно часто приходится иметь дело с измерением. По сути дела любой психологический тест является инструментом измерения, результатом которого, чаще всего, являются числовые данные.
Измерение – операция для определения отношения одного объекта к другому. Измерение реализуется за счет приписывания объектам значений так, чтобы отношения между значениями отражали отношения между объектами. К примеру, мы измеряем рост двух людей (объект измерения - рост). Получив значения 170 и 185 см. мы можем точно сказать, что один человек выше другого. Данный вывод был получен благодаря измерению роста. Таким образом, отношение между объектами было передано с помощью чисел.
В психологии можем видеть аналогичные предыдущему примеру явления. Мы используем тесты интеллекта, чтобы получить числовое значение IQ и иметь возможность сравнить его с нормативным значением, используем тесты личности, чтобы на основе полученных чисел описать психологические особенности человека, используем тесты достижений, чтобы выяснить насколько хорошо был усвоен учебный материал. Измерением так же является подсчет количества определённых актов поведения в ходе наблюдения за испытуемыми, подсчет площади штриховки в проективных рисунках, подсчет количества ошибок в корректурной пробе.
В случае с ростом объектом измерения был не человек, а его рост. Изучая психику человека мы так же измеряем не его самого, а определённые психологические особенности: черты личности, интеллект, отдельные характеристики познавательной сферы и т.д. Всё, что мы измеряем называется переменными.
Переменная – свойство, которое может менять своё значение. Рост является свойством всех людей, но у каждого он разный, а значит является переменной. Пол так же является переменной, но может принимать всего 2 значения. Все показатели тестов в психологии являются переменными.
Результаты некоторых психологических тестов, на первый взгляд, очень трудно представить как результат измерения и трудно понять, какие свойства (переменные) измеряются этими тестами. Яркий пример тому – проективные тесты, особенно рисуночные и вербальные. За каждым элементом рисунка скрывается какая-либо психологическая особенность (переменная) и говоря о выраженности либо невыраженности этой переменной на основе элемента рисунка мы производим акт измерения. Таким образом, несмотря на огромное количество переменных, измеряемых с помощью проективных рисунков измерение чаще всего сводится к простой констатации факта «переменная выражена / не выражена», реже имеется три или больше градации. Гораздо проще обстоит дело с тестами, в которых нужно что-либо упорядочить, т.к. их результат – число, отражающее порядковое место. Ещё более очевидны результаты тестов-опросников, тестов интеллекта и познавательных способностей.
Таким образом, тест, как инструмент измерения, накладывает свои ограничения на получаемый результат. Такое ограничение называется шкалой измерения.
Шкала измерения – ограничение типа отношений между значениями переменных, накладываемое на результаты измерений. Чаще всего, шкала измерения зависит от инструмента измерения.
К примеру, если переменной является цвет глаз, то мы не можем сказать, что один человек больше или меньше другого по этой переменной, мы так же не можем найти среднее арифметическое цвета. Если переменной является порядок (именно порядок) рождения детей в семье, то мы можем сказать, что первый ребенок однозначно старше второго, но не можем сказать на сколько он старше (отношения «больше/меньше»). Имея результаты теста интеллекта, мы можем однозначно сказать на сколько один человек интеллектуальнее другого.
С.Стивенс рассматривал четыре шкалы измерения.
1. Шкала наименований - простейшая из шкал измерения. Числа (равно как буквы, слова или любые символы) используются для различения объектов. Отображает те отношения, посредством которых объекты группируются в отдельные непересекающиеся классы. Номер (буква, название) класса не отражает его количественного содержания. Примером шкалы такого рода может служить классификация испытуемых на мужчин и женщин, нумерация игроков спортивных команд, номера телефонов, паспортов, штрих-коды товаров. Все эти переменные не отражают отношений больше/меньше, а значит являются шкалой наименований.
Особым подвидом шкалы наименований является дихотомическая шкала, которая кодируется двумя взаимоисключающими значениями (1/0). Пол человека является типичной дихотомической переменной.
В шкале наименований нельзя сказать, что один объект больше или меньше другого, на сколько единиц они различаются и во сколько раз. Возможна лишь операция классификации — отличается/не отличается.
В психологии иногда невозможно избежать шкалы наименований, особенно при анализе рисунков. К примеру, рисуя дом, дети часто рисуют солнце в верхней части листа. Можно предположить, что расположение солнца слева, посередине, справа или отсутствие солнца вообще может говорить о некоторых психологических качествах ребенка. Перечисленные варианты расположения солнца являются значениями переменной шкалы наименований. Причем, мы можем обозначить варианты расположения номерами, буквами или оставить их в виде слов, но как бы мы их не называли, мы не можем сказать, что один ребенок «больше» другого, если нарисовал солнце не посередине, а слева. Но мы можем точно сказать, что ребенок, нарисовавший солнце справа однозначно не является тем, кто нарисовал солнце слева (или не входит в группу).
Таким образом, шкала наименований отражает отношения типа: похож/не похож, тот/не тот, относится к группе/не относится к группе.
2. Порядковая (ранговая) шкала - отображение отношений порядка. Единственно возможные отношения между объектами измерения в данной шкале – это больше/меньше, лучше/хуже.
Самой типичной переменной этой шкалы является место, занятое спортсменом на соревнованиях. Известно, что победители соревнований получают первое, второе и третье место и мы точно знаем, что спортсмен с первым местом имеет лучшие результаты, чем спортсмен со вторым местом. Кроме места, имеем возможность узнать и конкретные результаты спортсмена.
В психологии возникают менее определенные ситуации. К примеру, когда человека просят проранжировать цвета по предпочтению, от самого приятного, до самого неприятного. В этом случае, мы точно можем сказать, что один цвет приятнее другого, но о единицах измерения мы не можем даже предположить, т.к. человек ранжировал цвета не на основе каких-либо единиц измерения, а основываясь на собственных чувствах. То же самое происходит в тесте Рокича, по результатам которого мы так же не знаем на сколько единиц одна ценность выше (больше) другой. Т.е., в отличие от соревнований, мы даже не имеем возможности узнать точные баллы различий.
Проведя измерение в порядковой шкале нельзя узнать на сколько единиц отличаются объекты, тем более во сколько раз они отличаются.
3. Интервальная шкала - помимо отношений указанных для шкал наименования и порядка, отображает отношение расстояния (разности) между объектами. Разности между соседними точками в этой шкале равны. Большинство психологических тестов содержат нормы, которые и являются образцом интервальной шкалы. Коэфициент интеллекта, результаты теста FPI, шкала градусов цельсия – всё это интервальные шкалы. Ноль в них условный: для IQ и FPI ноль – это минимально возможный балл теста (очевидно, что даже проставленные наугад ответы в тесте интеллекта, позволят получить какой-либо балл отличный от нуля). Если бы мы не создавали условный ноль в шкале, а использовали реальный ноль как начало отсчета, то получили бы шкалу отношений, но мы знаем, что интеллект не может быть нулевым.
Не психологический пример шкалы интервалов — шкала градусов Цельсия. Ноль здесь условный — температура замерзания воды и существует единица измерения — градус Цельсия. Хотя мы знаем, что существует абсолютный температурный ноль - это минимальный предел температуры, которую может иметь физическое тело, который в шкале Цельсия равен -273,15 градуса. Таким образом, условный ноль и наличие равных интервалов между единицами измерения являются главными признаками шкалы интервалов.
Измерив явление в интервальной шкале, мы можем сказать, что один объект на определенное количество единиц больше или меньше другого.
4. Шкала отношений. В отличие от шкалы интервалов может отражать то, во сколько один показатель больше другого. Шкала отношений имеет нулевую точку, которая характеризует полное отсутствие измеряемого качества. Данная шкала допускает преобразование подобия (умножение на константу). Определение нулевой точки - сложная задача для психологических исследований, накладывающая ограничение на использование данной шкалы. С помощью таких шкал могут быть измерены масса, длина, сила, стоимость (цена), т.е. всё, что имеет гипотетический абсолютный ноль.
Любое измерение производится с помощью инструмента измерения. То, что измеряется называется переменной, то чем измеряют – инструмент измерения. Результаты измерения называются данными либо результатами (говорят «были получены данные измерения»). Полученные данные могут быть разного качества – относиться к одной из четырех шкал измерения. Каждая шкала ограничивает использование определённых математических операций, и соответственно ограничивает применение определённых методов математической статистики.
1.3. Таблицы и графики
Статистические таблицы являются средством наглядного выражения результатов исследования.
Практикой выработаны определенные требования к составлению и оформлению таблиц.
1. Таблица по возможности должна быть краткой.
2. Каждая таблица должна иметь подробное название, из которого становится известно:
а) какой круг вопросов излагает и иллюстрирует таблица;
б) каковы географические границы представленной статистической совокупности;
в) за какой период времени, которому они относятся;
г) каковы единицы измерения (если они одинаковы для всех табличных клеток). Если единицы измерения неодинаковы, то в верхних или боковых заголовках обязательно следует указывать, в каких единицах приводятся статистические данные (тонн, штук, рублей и пр.).
3. Таблица может сопровождаться примечаниями, в которых указываются источники данных, более подробно раскрывается содержание показателей, даются и другие пояснения, а также оговорки в случае, если таблица содержит данные, полученные в результате вычислений.
4. При оформлении таблиц обычно применяются такие условные обозначения: знак тире (-) – когда явление отсутствует; х – если явление не имеет осмысленного содержания; многоточие (...) – когда отсутствуют сведения о его размере (или делается запись «Нет сведений»). Если сведения имеются, но числовое значение меньше принятой в таблице точности, оно выражается дробным числом (0,0).
Округленные числа приводятся в таблице с одинаковой степенью точности (до 0,1; до 0,01 и т.п.). Если в таблице приводятся проценты роста, то во многих случаях целесообразно проценты от 300 и более заменять отношениями в разах. Например, писать не «1000 %», а «в 10,0 раз».
Использование графиков для изложения статистических показателей позволяет придать последним наглядность и выразительность, облегчить их восприятие, а во многих случаях помогает уяснить сущность изучаемого явления, его закономерности и особенности, увидеть тенденции его развития, взаимосвязь характеризующих его показателей.
Статистические графики можно классифицировать по разным признакам: назначению (содержанию), способу построения и характеру графического образа.
По содержанию или назначению можно выделить графики сравнения в пространстве, графики различных относительных величин (структуры, динамики и т.п.), графики вариационных рядов, графики размещения по территории, графики взаимосвязанных показателей. Возможны и комбинации этих графиков, например графическое изображение вариации в динамике или динамики взаимосвязанных показателей и т.п.
По способу построения графики можно разделить на диаграммы, картодиаграммы и картограммы.
По характеру графического образа различают графики точечные, линейные, плоскостные (столбиковые, почасовые, квадратные, круговые, секторные, фигурные) и объемные.
Примером диаграммы служит рис. 3.2.
Рис. 3.2. Запасы нефти в отдельных странах в 1987 г.
Разновидностью столбиковой диаграммы является полосовая (ленточная) диаграмма, для которой характерны горизонтальная ориентация столбиков (полос) и вертикальное расположение базовой линии. Полосовая диаграмма особенно удобна в тех случаях, когда отдельные объекты сравнения характеризуются противоположными по знаку показателями (рис. 3.3).
Рис. 3.3. Добыча нефти в отдельных странах в 1986 г. по сравнению с 1970 г.
Квадратные и круговые диаграммы менее наглядны, чем столбиковые и полосовые, что связано с трудностью визуальной оценки соотношения площадей. Поэтому внутри квадратов и кругов следует проставлять величины изображаемых показателей (рис. 3.4). Еще меньшей наглядностью отличаются объемные диаграммы (например, в виде кубов), в которых лимитные размеры графического образа пропорциональны корням кубическим из сравниваемых величин.
Рис. 3.4. Численность населения Китая и Канады, млн. чел.
Основной формой структурных диаграмм являются секторные диаграммы (рис. 3.5). «Работающим» геометрическим параметром в секторной диаграмме удельных весов служит величина угла между радиусами: 1 % принимается на диаграмме равным 3,6°, а сумма всех углов, составляющая 360°, приравнивается к 100 %.
Рис. 3.5. Структура активов коммерческого банка по степени риска.
Для изображения экономических явлений, протекающих во времени, применяют динамические диаграммы. В отличие от диаграмм, отображающих сравнительные величины отдельных объектов или их структуры, в динамических диаграммах объектом отображения служат процессы.
Геометрически адекватной формой их отражения являются линейные координатные диаграммы (рис. 3.6.).
Рис. 3.6. Уровень средней цены приватизационных чеков на торгах РТСБ, руб.
Рис. 3.7. Распределение квартир по числу проживающих в них.
Для изображения вариационных рядов применяются линейные и плоскостные диаграммы, построенные в прямоугольной системе координат. При дискретной вариации признака графиком вариационного ряда служит полигон распределения (рис. 3.7.).
Полигон распределения представляет собой замкнутый многоугольник, абсциссами вершин которого являются значения варьирующегося признака, а ординатами – соответствующие им частоты.
1.4. Первичные описательные статистики
Описательная статистика позволяет обобщать первичные результаты, полученные при наблюдении или в эксперименте. Процедуры здесь сводятся к группировке данных по их значениям, построению распределения их частот, выявлению центральных тенденций распределения (например, средней арифметической) и, наконец, к оценке разброса данных по отношению к найденной центральной тенденции.
Гипотетический эксперимент. Влияние потребления марихуаны на глазодвигательную координацию и время реакции.
На группе из 30 добровольцев-студентов и студенток, курящих обычные сигареты, но не марихуану, — был проведен опыт по изучению глазодвигательной координации. Задача испытуемых заключалась в том, чтобы поражать предъявляемые на дисплее движущиеся мишени, манипулируя подвижным рычагом. Каждому испытуемому были предъявлены 10 последовательностей из 25 мишеней.
Для того чтобы установить исходный уровень, рассчитали среднее число попаданий из 25, а также среднее время реакции для 250 попыток. Далее группа была разделена на две подгруппы как можно более равным образом. Семь девушек и восемь юношей из контрольной группы получили сигарету с обычным табаком и сушеной травой, дым от которой напоминал по запаху дым марихуаны. В отличие от этого семь девушек и восемь юношей из опытной (экспериментальной) группы получили сигарету с табаком и марихуаной. Выкурив сигарету, каждый испытуемый снова был подвергнут тесту на глазодвигательную координацию.
В табл. 1 и 2 представлены средние результаты обоих измерений для испытуемых той и другой группы до и после воздействия.
Таблица 1. Результативность испытуемых контрольной и опытной групп (среднее число пораженных мишеней из 25 в 10 сериях испытаний)
Контрольная группа
Опытная группа
Испытуемые
Фон
(довоздей-ствия)
После воздействия (табак с нейтральной добавкой)
Испытуемые
Фон
(довоздей-ствия)
После воздействия (табак с марихуаной)
Д1
19
21
Д8
12
8
2
10
8
9
21
20
3
12
13
10
10
6
4
13
11
11
15
8
5
17
20
12
15
17
6
14
12
13
19
10
7
17
15
14
17
10
Ю1
15
17
Ю9
14
9
2
14
15
10
13
7
3
15
15
11
И
8
4
17
18
12
20
14
5
15
16
13
15
13
6
18
15
14
15
16
7
19
19
15
14
11
8
22
25
16
17
12
Итого
237
240
Итого
228
169
Средняя
15,8
16,0
Средняя
15,2
11,3
Стандартное отклонение
3,07
4,25
Стандартное отклонение
3,17
4.04
Девушки: Д1-Д14
Юноши: Ю1-Ю16
Таблица 2. Время реакции испытуемых контрольной и опытной групп (среднее время 1/10 с в серии из 10 испытаний)
Контрольная группа
Опытная группа
Испытуемые
Фон
(до воздей-ствия)
После воздействия
(табак с нейтральной добавкой)
Испытуемые
Фон
(до воздей-ствия)
После воздействия (табак с марихуаной)
Д 1
8
9
Д 8
15
17
2
15
16
9
11
13
3
13
14
10
16
20
4
14
13
11
13
18
5
15
12
12
18
21
6
13
15
13
14
22
7
14
15
14
13
19
Ю1
12
10
Ю9
15
20
2
16
13
10
18
17
3
13
15
11
15
19
4
11
12
12
11
14
5
18
13
13
14
12
6
12
И
14
11
18
7
13
12
15
12
21
8
14
10
16
15
17
Средняя
13,4
12,7
Средняя
14,06
17,9
Стандартное отклонение
2,29-
2,09
Стандартное отклонение
2,28
2,97
Девушки: Д1-Д14
Юноши: Ю1-Ю16
Группировка данных
Для группировки необходимо прежде всего расположить данные каждой выборки в возрастающем порядке. Так, в нашем эксперименте для переменной «число пораженных мишеней» данные будут располагаться следующим образом:
Контрольная группа
Фон: 10 12 13 14 14 15 15 15 17 17 17 18 19 19 22
После воздействия: 8 11 12 13 15 15 15 15 16 17 18 19 20 21 25
Опытная группа (дополнить цифрами самостоятельно)
Фон: ............
После воздействия: .......
Распределение частот (числа пораженных мишеней)
Уже при первом взгляде не полученные ряды можно заметить, что многие данные принимают одни и те же значения, причем одни значения встречаются чаще, а другие — реже. Поэтому было бы интересно вначале графически представить распределение различных значений с учетом их частот. При этом получают следующие столбиковые диаграммы:
Контрольная группа
Опытная группа
Такое распределение данных по их значениям дает нам уже гораздо больше, чем представление в виде рядов. Однако подобную группировку используют в основном лишь для качественных данных, четко разделяющихся на обособленные категории.
Что касается количественных данных, то они всегда располагаются на непрерывной шкале и, как правило, весьма многочисленны. Поэтому такие данные предпочитают группировать по классам, чтобы яснее видна была основная тенденция распределения.
Такая группировка состоит в основном в том, что объединяют данные с одинаковыми или близкими значениями в классы и определяют частоту для каждого класса. Способ разбиения на классы зависит от того, что именно экспериментатор хочет выявить при разделении измерительной шкалы на равные интервалы. Например, в нашем случае можно сгруппировать данные по классам с интервалами в две или три единицы шкалы:
Выбор того или иного типа группировки зависит от различных соображений. Так, в нашем случае группировка с интервалами между классами в две единицы хорошо выявляет распределение результатов вокруг центрального «пика». В то же время группировка с интервалами в три единицы обладает тем преимуществом, что дает более обобщенную и упрощенную картину распределения, особенно если учесть, что число элементов в каждом классе невелико. При большом количестве данных число классов по возможности должно быть где-то в пределах от 10 до 20, с интервалами до 10 и более. Именно поэтому в дальнейшем мы будем оперировать классами в три единицы.
Опытная группа
Данные, разбитые на классы по непрерывной шкале, нельзя представить графически так, как это сделано выше. Поэтому предпочитают использовать так называемые гистограммы способ графического представления в виде примыкающих друг к другу прямоугольников:
Наконец, для еще более наглядного представления общей конфигурации распределения можно строить полигоны распределения частот. Для этого отрезками прямых соединяют центры верхних сторон всех прямоугольников гистограммы, а затем с обеих сторон «замыкают» площадь под кривой, доводя концы полигонов до горизонтальной оси (частота = 0) в точках, соответствующих самым крайним значениям распределения. При этом получают следующую картину:
Если сравнить полигоны, например, для фоновых (исходных) значений контрольной группы и значений после воздействия для опытной группы, то можно будет увидеть, что в первом случае полигон почти симметричен (т.е. если сложить полигон вдвое по вертикали, проходящей через его середину, то обе половины належатся друг на друга), тогда как для экспериментальной группы он асимметричен и смещен влево (так что справа у него как бы вытянутый шлейф).
Полигон для фоновых данных контрольной группы сравнительно близок к идеальной кривой, которая могла бы получиться для бесконечно большой популяции. Такая кривая — кривая нормального распределения - имеет колоколообразную форму и строго симметрична. Если же количество данных ограничено (как в выборках, используемых для научных исследований), то в лучшем случае получают лишь некоторое приближение (аппроксимацию) к кривой нормального распределения.
Если вы построите полигон для фоновых значений опытной группы и значений после воздействия для контрольной группы, то вы наверняка заметите, что так же будет обстоять дело и в этих случаях.
Оценка центральной тенденции
Если распределения для контрольной группы и для фоновых значений в опытной группе более или менее симметричны, то значения, получаемые в опытной группе после воздействия, группируются, как уже говорилось, больше в левой части кривой. Это говорит о том, что после употребления марихуаны выявляется тенденция к ухудшению показателей у большого числа испытуемых.
Для того чтобы выразить подобные тенденции количественно, используют три вида показателей моду, медиану и среднюю.
1. Мода (Мо) — это самый простой из всех трех показателей. Она соответствует либо наиболее частому значению, либо среднему значению класса с наибольшей частотой. Так, в нашем примере для экспериментальной группы мода для фона будет равна 15 (этот результат встречается четыре раза и находится в середине класса 14-15-16), а после воздействия — 9 (середина класса 8-9-10).
Мода используется редко и главным образом для того, чтобы дать общее представление о распределении. В некоторых случаях у распределения могут быть две моды; тогда говорят о бимодальном распределении. Такая картина указывает на то, что в данном совокупности имеются две относительно самостоятельные группы.
2. Медиана (Me) соответствует центральному значению в последовательном ряду всех полученных значений. Так, для фона в экспериментальной группе, где мы имеем ряд
10 11 12 13 14 14 15 15 15 15 17 17 19 20 21,
медиана соответствует 8-му значению, т.е. 15. Для результатов воздействия в экспериментальной группе она равна 10.
В случае если число данных n, четное, медиана равна средней арифметической между значениями, находящимися в ряду на n/2-м и n/2+1-м местах. Так, для результатов воздействия для восьми юношей опытной группы медиана располагается между значениями, находящимися на 4-м (8/2 = 4) и 5-м местах в ряду. Если выписать весь ряд для этих данных, а именно
7 8 9 11 12 13 14 16,
то окажется, что медиана соответствует (11 + 12)/2=11,5 (видно, что медиана не соответствует здесь ни одному из полученных значении).
3. Средняя арифметическая (М) (далее просто «средняя») — это наиболее часто используемый показатель центральной тенденции. Ее применяют, в частности, в расчетах, необходимых для описания распределения и для его дальнейшего анализа. Ее вычисляют, разделив сумму всех значений данных на число этих данных. Так, для нашей опытной группы она составит 15,2(228/15) для фона и 11,3(169/15) для результатов воздействия.
Если теперь отметить все эти три параметра на каждой из кривых экспериментальной группы, то будет видно, что при нормальном распределении они более или менее совпадают, а при асимметричном распределении — нет.
Прежде чем идти дальше, полезно будет вычислить все эти показатели для обеих распределений контрольной группы — они пригодятся нам в дальнейшем:
Оценка разброса
Как мы уже отмечали, характер распределения результатов после воздействия изучаемого фактора в опытной группе дает существенную информацию о том, как испытуемые выполняли задание. Сказанное относится и к обоим распределениям в контрольной группе:
Сразу бросается в глаза, что если средняя в обоих случаях почти одинакова, то во втором распределении результаты больше разбросаны, чем в первом. В таких случаях говорят, что у второго распределения больше диапазон, или размах вариаций, т. е. разница между максимальным и минимальным значениями.
Так, если взять контрольную группу, то диапазон распределения для фона составит 22-10=12, а после воздействия 25-8=17. Это позволяет предположить, что повторное выполнение задачи на глазодвигательную координацию оказало на испытуемых из контрольной группы определенное влияние: у одних показатели улучшились, у других ухудшились. Здесь мог проявиться эффект плацебо, связанный с тем, что запах дыма травы вызвал у испытуемых уверенность в том. что они находятся под воздействием наркотика. Для проверки этого предположения следовало бы повторить эксперимент со второй контрольной группой, в которой испытуемым будут давать только обычную сигарету.
Однако для количественной оценки разброса результатов относительно средней в том или ином распределении существуют более точные методы, чем измерение диапазона.
Чаще всего для оценки разброса определяют отклонение каждого из полученных значений от средней (М-М), обозначаемое буквой d, а затем вычисляют среднюю арифметическую всех этих отклонений. Чем она больше, тем больше разброс данных и тем более разнородна выборка. Напротив, если эта средняя невелика» то данные больше сконцентрированы относительно их среднего значения и выборка более однородна.
Итак, первый показатель, используемый для оценки разброса, — это среднее отклонение. Его вычисляют следующим образом (пример, который мы здесь приведем, не имеет ничего общего с нашим гипотетическим экспериментом). Собрав все данные и расположив их в ряд 3 5 6 9 11 14, находят среднюю арифметическую для выборки:
Затем вычисляют отклонения каждого значения от средней и суммируют их:
Однако при таком сложении отрицательные и положительные отклонения будут уничтожать друг друга, иногда даже полностью, так что результат (как в данном примере) может оказаться равным нулю. Из этого ясно, что нужно находить сумму абсолютных значений индивидуальных отклонений и уже эту сумму делить на их общее число. При этом получится следующий результат:
среднее отклонение равно
Общая формула:
где (сигма) означает сумму;
|d| — абсолютное значение каждого индивидуального отклонения от средней; n — число данных. Однако абсолютными значениями довольно трудно оперировать в алгебраических формулах, используемых в более сложном статистическом анализе. Поэтому статистики решили пойти по «обходному пути», позволяющему отказаться от значений с отрицательным знаком, а именно возводить все значения в квадрат, а затем делить сумму квадратов на число данных. В нашем примере это выглядит следующим образом:
В результате такого расчета получают так называемую вариансу. (Варианса представляет собой один из показателей разброса, используемых в некоторых статистических методиках (например, при вычислении критерия F; см. следующий раздел). Следует отметить, что в отечественной литературе вариансу часто называют дисперсией. — Прим. перев.) Формула для вычисления вариансы, таким образом, следующая:
Наконец, чтобы получить показатель, сопоставимый по величине со средним отклонением, статистики решили извлекать из вариансы квадратный корень. При этом получается так называемое стандартное отклонение:
В нашем примере стандартное отклонение равно √14 = 3,74.
Следует еще добавить, что для того, чтобы более точно оценить стандартное отклонение для малых выборок (с числом элементов менее 30), в знаменателе выражения под корнем надо использовать не n, а n-1:
(*Стандартное отклонение для популяции обозначается маленькой греческой буквой сигма (σ), а для выборки — буквой s. Это касается и вариансы, т.е. квадрата стандартного отклонения: для популяции она обозначается σ2, а для выборки — s2.)
Вернемся теперь к нашему эксперименту и посмотрим, насколько полезен оказывается этот показатель для описания выборок.
На первом этапе, разумеется, необходимо вычислить стандартное отклонение для всех четырех распределений. Сделаем это сначала для фона опытной группы:
Расчет стандартного отклонения для фона контрольной группы
Испытуемые
Число пораженных мишеней в серии
Средняя
Отклонение от средней (d)
Квадрат отклонения от средней (d2)
1
2
3
.
.
.
15
19
10
12
.
.
.
22
15,8
15,8
15,8
.
.
.
15,8
-3,2
+5,8
+3,8
.
.
.
-6,2
10,24
33,64
14,44
.
.
.
38,44
Сумма ()d2 =
131,94
О чем же свидетельствует стандартное отклонение, равное 3,07? Оказывается, оно позволяет сказать, что большая часть результатов (выраженных здесь числом пораженных мишеней) располагается в пределах 3,07 от средней, т.е. между 12,73 (15,8-3,07) и 18,87 (15,8+3,07).
Для того чтобы лучше понять, что подразумевается под «большей частью результатов», нужно сначала рассмотреть те свойства стандартного отклонения, которые проявляются при изучении популяции с нормальным распределением.
Статистики показали, что при нормальном распределении «большая часть» результатов, располагающаяся в пределах одного стандартного отклонения по обе стороны от средней, в процентном отношении всегда одна и та же и не зависит от величины стандартного отклонения: она соответствует 68% популяции (т.е. 34% ее элементов располагается слева и 34% — справа от средней):
Точно так же рассчитали, что 94,45% элементов популяции при нормальном распределении не выходит за пределы двух стандартных отклонений от средней:
и что в пределах трех стандартных отклонений умещается почти вся популяция — 99,73%.
Учитывая, что распределение частот фона контрольной группы довольно близко к нормальному, можно полагать, что 68% членов всей популяции, из которой взята выборка, тоже будет получать сходные результаты, т.е. попадать примерно в 13-19 мишеней из 25. Распределение результатов остальных членов популяции должно выглядеть следующим образом:
Что касается результатов той же группы после воздействия изучаемого фактора, то стандартное отклонение для них оказалось равным 4,25 (пораженных мишеней). Значит, можно предположить, что 68% результатов будут располагаться именно в этом диапазоне отклонений от средней, составляющей 16 мишеней, т.е. в пределах от 11,75 (16-4,25) до 20,25 (16+4,25), или, округляя, 12 — 20 мишеней из 25. Видно, что здесь разброс результатов больше, чем в фоне. Эту разницу в разбросе между двумя выборками для контрольной группы можно графически представить следующим образом:
Поскольку стандартное отклонение всегда соответствует одному и тому же проценту результатов, укладывающихся в его пределах вокруг средней, можно утверждать, что при любой форме кривой нормального распределения та доля ее площади, которая ограничена (с обеих сторон) стандартным отклонением, всегда одинакова и соответствует одной и той же доле всей популяции. Это можно проверить на тех наших выборках, для которых распределение близко к нормальному, — на данных о фоне для контрольной и опытной групп.
Итак, ознакомившись с описательной статистикой, мы узнали, как можно представить графически и оценить количественно степень разброса данных в том или ином распределении. Тем самым мы смогли понять, чем различаются в нашем опыте распределения для контрольной группы до и после воздействия. Однако можно ли о чем-то судить по этой разнице — отражает ли она действительность или же это просто артефакт, связанный со слишком малым объемом выборки? Тот же вопрос (только еще острее) встает и в отношении экспериментальной группы, подвергнутой воздействию независимой переменной. В этой группе стандартное отклонение для фона и после воздействия тоже различается примерно на 1 (3,14 и 4,04 соответственно). Однако здесь особенно велика разница между средними — 15,2 и 11,3. На основании чего можно было бы утверждать, что эта разность средних действительно достоверна, т.е. достаточно велика, чтобы можно было с уверенностью объяснить ее влиянием независимой переменной, а не простой случайностью? В какой степени можно опираться на эти результаты и распространять их на всю популяцию, из которой взята выборка, т. е. утверждать, что потребление марихуаны и в самом деле обычно ведет к нарушению глазодвигательной координации?
1.5. Нормальное распределение
Некоторые законы распределения:
1. Равномерное распределение вероятностей случайной величины X, принимающей п значений, задается формулой
(2.26)
где – все возможные значения случайной величины.
Говорят, что распределение вероятностей непрерывной случайной величины X равномерно на интервале , если ее плотность вероятности постоянна на этом интервале и равна нулю вне его:
(2.27)
В этом случае вероятность того, что значение величины принадлежит части интервала , равна отношению длин этих интервалов:
. (2.28)
2. Биномиальное распределение вероятностей случайной величины X, значениями которой являются возможные значения числа т появления события А при проведении п повторных независимых испытаний, задается формулой
, (2.29)
где .
Если случайная величина X имеет биномиальное распределение вероятностей, то
. (2.30)
3. Геометрическое распределение вероятностей случайной величины X, значениями которой являются возможные значения числа т проведенных испытаний, удовлетворяющих схеме Бернулли (причем опыт прекращается после первого же испытания, в котором рассматриваемое событие появилось), задается формулой
, (2.31)
где .
Если случайная величина X имеет геометрическое распределение вероятностей, то
. (2.32)
4. Показательное (экспоненциальное) распределение Пуассона задается формулой
, (2.33)
где .
Если случайная величина X имеет пуассоновское распределение вероятностей, то
. (2.34)
Показательным (экспоненциальным) называют распределение вероятностей непрерывной случайной величины X, которое описывается плотностью
(2.35)
где λ – постоянная положительная величина.
Функция распределения показательного закона
(2.36)
Вероятность попадания в интервал непрерывной случайной величины X, распределенной по показательному закону,
.
Найдем математическое ожидание показательного распределения
.
Используем формулу
.
Учитывая, что при и при , получим
.
Интегрируя по частям, положив и выполнив необходимые выкладки, окончательно получим .
Итак, математическое ожидание показательного распределения равно обратной величине параметра λ.
Найдем дисперсию и среднее квадратическое отклонение показательного распределения. Учитывая, что при х < 0, , получим
.
Интегрируя дважды по частям, найдем
.
Следовательно, искомая дисперсия
.
Т. е. дисперсия показательного распределения равна величине, обратной .
Найдем среднее квадратическое отклонение
.
Т. е. среднее квадратическое отклонение показательного распределения равно величине, обратной λ.
Таким образом, математическое ожидание и среднее квадратическое отклонение показательного распределения равны между собой.
5. Нормальным называют распределение вероятностей непрерывной случайной величины X, плотность которого имеет вид
. (2.37)
где а – математическое ожидание, σ – среднее квадратическое отклонение X.
Заметим, что при нормальную кривую называют нормированной.
Вероятность того, что X примет значение, принадлежащее интервалу (α, β),
, (2.38)
где – функция Лапласа.
Вероятность того, что абсолютная величина отклонения меньше положительного числа δ,
. (2.39)
В частности, при = 0 справедливо равенство .
Если в (39) положить δ = σ; δ = 2σ; δ = 3σ, то
,
,
.
Таким образом, практически достоверно, что распределенная по нормальному закону случайная величина Х принимает свои значения в интервале (правило трех сигм).
Оценка отклонения теоретического распределения от нормального.
Эмпирическим называют распределение относительных частот. Теоретическим называют распределение вероятностей. При изучении распределений, отличных от нормального, возникает необходимость количественно оценить это различие. С этой целью вводят специальные характеристики, в частности асимметрию и эксцесс.
Асимметрией теоретического распределения называют отношение центрального момента третьего порядка к кубу среднего квадратического отклонения: .
Эксцессом теоретического распределения называют характеристику, которая определяется равенством .
Асимметрия, эксцесс, мода и медиана нормального распределения соответственно равны:
, где .
Пример 1. Случайная величина X задана следующей таблицей распределения вероятностей:
X
2
5
8
9
p
0,1
0,4
0,3
0,2
Найдем .
Решение. Так как известен закон (таблица) распределения вероятностей, то по формуле (2.9)
= 2 ∙ 0,1 + 5 ∙ 0,4 + 8 ∙ 0,3+ 9 ∙ 0,2 = 6,4.
Для вычисления найдем сначала :
М (X2) = 4 ∙ 0,1 + 25 ∙ 0,4 + 64 ∙ 0,3 + 81 ∙ 0,2 = 45,8.
По формуле (2.15)
= 45,8 – 6,42 = 4,84.
И, наконец, по формуле (2.19)
.
Пример 2. Найдем математическое ожидание и дисперсию числа лотерейных билетов, на которые выпадут выигрыши, если приобретено 100 билетов, а вероятность выигрыша на каждый билет равна 0,05.
Решение. Пусть X – число лотерейных билетов, на которые выпали выигрыши. Случайная величина X имеет биномиальное распределение, так как испытания, рассматриваемые в задаче, удовлетворяют схеме Бернулли. Поэтому
= 100 ∙ 0,05 = 5, = 100 ∙ 0,05 ∙ 0,95 = 4,75.
Пример 3. Три стрелка независимо друг от друга стреляют по одной - цели. Вероятность попадания первого стрелка в цель равна 0,7, второго – 0,8 и третьего – 0,9. Найдите математическое ожидание числа попаданий в цель.
Решение. Пусть случайная величина – число попаданий в цель для первого стрелка, Х2 – число попаданий в цель для второго стрелка, Х3 – число попаданий в цель для третьего стрелка. Тогда случайная величина Z = Х1 + Х2 + Х3 – число попаданий в цель трех стрелков. Но математическое ожидание суммы конечного числа независимых случайных величин равна сумме их математических ожиданий. Следовательно,
М(Z) = М (Х1) + М (Х2) + М (Х3).
Таблица распределения вероятностей случайной величины Х1
X
1
P
0,3
0,7
Следовательно, М (Х1) = 0,7. Аналогично М (Х2) = 0,8 и М (Х3) = 0,9. Значит, М (Z) = 0,7 + 0,8 + 0,9 = 2,4.
Большинство применяемых в практике контроля статистических методов основано на предположении, что распределение контролируемого признака подчиняется определенному теоретическому закону (нормальному, биноминальному, пуассоновскому и так далее) с параметрами, либо оцениваемыми по выборке, либо заранее известными. Применению этих методов должна предшествовать проверка по данным выборочных наблюдений гипотезы о законе распределения.
Чаще всего на практике имеют дело с нормальным распределением. Чем это объясняется? Ответ на этот вопрос дан А.М.Ляпуновым в центральной предельной теореме теории вероятности. Приведем следствие из нее: если случайная величина X представляет собой сумму очень большого числа взаимно независимых случайных величин, влияние каждой из которых на всю сумму ничтожно мало, то X имеет распределение, близкое к нормальному.
Функция плотности нормального закона распределения имеет вид , а интегральная функция распределения -
У нормального распределения два параметра (r =2): математическое ожидание и среднее квадратическое отклонение . Их оцениваем по выборке: .
Кривая нормального распределения симметрична относительно прямой .
1) Для нормального закона средняя арифметическая , мода и медиана равноправны, как характеристики центра распределения:
У нас: . Как видно, значения этих величин отличаются друг от друга. Это можно объяснить тем, что три интервала имеют одинаковую частоту, которая является максимальной.
2) У кривой нормального распределения коэффициенты асимметрии и эксцесса равны нулю.
У нас: . Как видно, значение коэффициента асимметрии можно считать равным нулю, тогда как значение коэффициента эксцесса значительно отличается от нуля. Это можно объяснить неоднородностью статистического материала.
3) В случае нормального распределения справедливо следующее условие:
.
Проверим выполнение этого условия для нашего примера. В нашем случае выборочные коэффициенты асимметрии и эксцесса равны , следовательно, условие выполнено, а именно для :, ; для ,
4) На практике для выдвижения гипотезы о нормальном распределении используют правило 3-х сигм: если случайная величина распределена нормально, то абсолютная величина её отклонения от математического ожидания не превосходит утроенного среднеквадратического отклонения, т.е. все значения случайной величины должны попасть в интервал: .
В нашем случае все значения величины попадают в интервал , равный , т.к.
Рисунок 5 - Правило 3-х сигм.
Таким образом, у нас есть основания предположить, что изучаемая случайная величина распределена по нормальному закону (нулевая гипотеза)
.
2. Общие принципы проверки статистических гипотез
2.1. Введение в проблему статистического вывода
Вывод является видом логического анализа, направленного на получение общих заключений о всей совокупности на основе наблюдений за малой группой единиц данной совокупности. Выводы делаются на основе анализа малого числа фактов. Статистический же вывод основан на статистическом анализе результатов выборочных исследований и направлен на оценку параметров совокупности в целом. В данном случае результаты выборочных исследований являются только отправной точкой для получения общих выводов.
Используя логический анализ, можно сделать вывод, что большая выборка содержит меньшую ошибку и что на ее основе можно сделать более правильные выводы о мнении всей совокупности потребителей. Видно, что решающим фактором для получения правильных выводов является размер выборки. Данный показатель присутствует во всех формулах, определяющих содержание различных методов статистического вывода. При проведении анализа используются следующие методы статистического вывода: оценка параметров и проверка гипотез.
Оценка параметров генеральной совокупности представляет из себя процесс определения, исходя из данных о выборке, интервала, в котором находится один из параметров генеральной совокупности, например среднее значение. Для этого используют следующие статистические показатели: средние величины, среднюю квадратическую ошибку и желаемый уровень доверительности (обычно 95% или 99%). Средняя квадратическая ошибка является, как отмечалось выше, мерой вариации выборочного распределения при теоретическом предположении, что исследовалось множество независимых выборок одной и той же генеральной совокупности.
Она определяется по следующей формуле:
где sx — средняя квадратическая ошибка выборочной средней; s — среднее квадратическое отклонение от средней величины в выборке; п — объем выборки.
Если используются процентные меры, выражающие альтернативную изменчивость качественных признаков, то где s — средняя квадратическая ошибка выборочной средней при использовании процентных мер; р — процент респондентов в выборке, поддержавших первую альтенативу; q = (100 — q) — процент респондентов в выборке, поддержавших вторую альтенативу; п — объем выборки.
Видно, что средняя ошибка выборки тем больше, чем больше вариация, и тем меньше, чем больше объем выборки. Поскольку всегда существует выборочная ошибка, то необходимо оценить разброс значений изучаемого параметра генеральной совокупности. Предположим, исследователь выбрал уровень доверительности, равный 99%. Из свойств нормальной кривой распределения вытекает, что ему соответствует параметр Z =±2,58. Средняя для генеральной совокупности в целом вычисляется по формуле
Если используются процентные меры, то
Это означает, что если вы хотите, чтобы при 99%-ном уровне доверительности диапазон оценок включал истинную для генеральной совокупности оценку, то необходимо умножить среднюю квадратическую ошибку на 2,58 и добавить полученный результат к процентному значению «р» (верхняя предельная оценка). Если же произвести вычитание данного произведения, то найдем нижнюю предельную оценку.
Как эти формулы связаны со статистическим выводом?
Поскольку производится оценка параметра генеральной совокупности, то здесь указывается диапазон, в который попадает истинное значение параметра генеральной совокупности. С этой целью этого для выборки берутся статистическая мера центральной тенденции, величина дисперсии и объем выборки. Далее делается предположение об уровне доверительности и рассчитывается диапазон разброса параметра для генеральной совокупности.
Таким образом, логика статистического вывода направлена на получение конечных заключений об изучаемом параметре генеральной совокупности на основе выборочного исследования, осуществленного по законам математической статистики. Бели используется простое заключение, не основанное на статистических измерениях, то конечные выводы носят субъективный характер и на основе одних и тех же фактов разные специалисты могут сделать разные выводы.
При использовании статистического вывода используются формулы, носящие объективный характер, в основе которых лежат общепризнанные статистические концепции. В результате конечные выводы носят намного более объективный характер. В ряде случаев делаются суждения относительно какого-то параметра генеральной совокупности (величине средней, дисперсии, характере распределения, форме и тесноте связи между переменными) исходя только из некоторых предположений, размышлений, интуиции, неполных знаний. Такие суждения называются гипотезами. Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки.
Под проверкой гипотезы понимается статистическая процедура, применяемая для подтверждения или отклонения гипотезы, основанной на результатах выборочных исследований. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими. Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных.
Проверка гипотезы проводится в пять этапов:
1. Делается некоторое предположение относительно какой-то характеристики генеральной совокупности, например о средней величине определенного параметра.
2. Формируется случайная выборка, проводится выборочное исследование и определяются статистические показатели выборки.
3. Сравниваются гипотетическое и статистическое значения исследуемой характеристики.
4. Определяется, соответствуют или нет результаты выборочного исследования принятой гипотезе.
5. Если результаты выборочного исследования не подтверждают гипотезу, последняя пересматривается — она должна соответствовать данным выборочного исследования.
Вследствие вариации результатов выборочных исследований невозможно сделать абсолютно точный вывод о достоверности гипотезы, проводя простое арифметическое сравнение величин характеристик. Поэтому статистическая проверка гипотезы включает использование: выборочного значения характеристики, среднего квадратического отклонения, желательного уровня доверительности и гипотетического значения характеристики для генеральной совокупности в целом.
Для проверки гипотез о средних величинах применяется следующая формула:
где — средняя для выборки;
— гипотетическое значение средней;
— средняя квадратическая ошибка средней.
В ряде случаев целесообразно использовать направленные гипотезы. Направленные гипотезы определяет направления возможных значений какого-то параметра генеральной совокупности.
Здесь, правда, возникает вопрос. Если можно провести выборочные исследования, то зачем выдвигать гипотезы? Обработка результатов выборочных исследований дает возможность получить средние величины и их статистические характеристики, не выдвигая никаких гипотез. Поэтому проверка гипотез скорее применяется в случаях, когда невозможно или чрезвычайно трудоемко проводить полномасштабные исследования и когда требуется сравнивать результаты нескольких исследований (для разных групп респондентов или проведенных в разное время). Такого рода задачи, как правило, возникают в социальной статистике. Трудоемкость статистико-социологических исследований приводит к тому, что почти все они строятся на не-сплошном учете. Поэтому проблема доказательности выводов в социальной статистике стоит особенно остро. Применяя процедуру проверки гипотез, следует помнить, что она может гарантировать результаты с определенной вероятностью лишь по «беспристрастным» выборкам, на основе объективных данных.
Анализ различий
Проверка существенности различий заключается в сопоставлении ответов на один и тот же вопрос, полученных для двух или более независимых групп респондентов. Кроме того, в ряде случаев представляет интерес сравнение ответов на два или более независимых вопросов для одной и той же выборки.
Примером первого случая может служить изучение вопроса: что предпочитают пить по утрам жители определенного региона: кофе или чай. Первоначально было опрошено на основе формирования случайной выборки 100 респондентов, 60% которых отдают предпочтение кофе; через год исследование было повторено, и только 40% из 300 опрошенных человек высказалось за кофе. Как можно сопоставить результаты этих двух исследований? Прямым арифметическим путем сравнивать 40% и 60% нельзя из-за разных ошибок выборок. Хотя в случае больших различий в цифрах, скажем, 20 и 80%, легче сделать вывод об изменении вкусов в пользу кофе. Однако если есть уверенность, что эта большая разница обусловлена прежде всего тем, что в первом случае использовалась очень малая выборка, то такой вывод может оказаться сомнительным. Таким образом, при проведении подобного сравнения в расчет необходимо принять два критических фактора: степень существенности различий
между величинами параметра для двух выборок и средние квадратические ошибки двух выборок, определяемые их объемами.
Для проверки, является ли существенной разница измеренных средних, используется нулевая гипотеза. Нулевая гипотеза предполагает, что две совокупности, сравниваемые по одному или нескольким признакам, не отличаются друг от друга. При этом предполагается, что действительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный характер.
Для проверки существенности разницы между двумя измеренными средними (процентами) вначале проводится их сравнение, а затем полученная разница переводится в значение среднеквадратических ошибок, и определяется, насколько далеко они отклоняются от гипотетического нулевого значения.
Как только определены среднеквадратические ошибки, становится известной площадь под нормальной кривой распределения и появляется возможность сделать заключение о вероятности выполнения нулевой гипотезы.
Числитель данной формулы характеризует разницу средних. Кроме того, необходимо учесть различие формы двух кривых распределения. Это осуществляется в знаменателе формулы. Выборочное распределение теперь рассматривается как выборочное распределение разницы между средними (процентными мерами). Если нулевая гипотеза справедлива, то распределение разницы является нормальной кривой со средней равной нулю и средней квадратической ошибкой, равной 1. Видно, что величина 6,43 существенно превышает значение ±1,96 (95%-ный уровень доверительности) и ±2,58 (99%-ный уровень доверительности). Это означает, что нулевая гипотеза не является истинной.
На (рис. 1) приводятся кривые распределения для этих двух сравниваемых выборок и средняя квадратическая ошибка кривой разницы. Средняя квадратическая ошибка средней кривой разницы равна 0. Вследствие большого значения среднеквадратических ошибок вероятность справедливости нулевой гипотезы об отсутствии разницы между двумя средними меньше 0,001.
Рис 1. Проверка нулевой гипотезы
Результаты испытания интерпретируются следующим образом. Если бы гипотеза была истинной, то, образовав большое число выборок, проводя каждый раз аналогичные сравнения, пришли бы к выводу, что 99% разницы будет лежать в границах ±2,58 среднеквадратической ошибки нулевой разницы. Безусловно, может быть сделано только одно сравнение, и можно полагаться только на концепцию выборочного распределения.
2.2. Корреляционный анализ
При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.
Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.
До сих пор при анализе результатов нашего опыта по изучению действия марихуаны мы сознательно игнорировали такой показатель, как время реакции. Между тем было бы интересно проверить, существует ли связь между эффективностью реакций и их быстротой. Это позволило бы, например, утверждать, что чем человек медлительнее, тем точнее и эффективнее будут его действия и наоборот.
С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве-Пирсона (r) и вычисление коэффициента корреляции рангов Спирмена (rs), который применяется к порядковым данным, т.е. является непараметрическим. Однако разберемся сначала в том, что такое коэффициент корреляции.
Коэффициент корреляции
Коэффициент корреляции — это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной — минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:
В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю:
В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.
В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции. Существуют таблицы с критическими значениями коэффициента корреляции Браве-Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. n-2). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными. Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных (h=n-2=6) при вычислении r и 7 пар данных (h=n-2=5) при вычислении rs .
Хотелось бы еще раз подчеркнуть, что сущность этих двух коэффициентов несколько различна. Отрицательный коэффициент r указывает на то, что эффективность чаще всего тем выше, чем время реакции меньше, тогда как при вычислении коэффициента rs требовалось проверить, всегда ли более быстрые испытуемые реагируют более точно, а более медленные — менее точно.
Коэффициент корреляции Браве-Пирсона (r) — этопараметрический показатель, для вычисления которого сравнивают средние и стандартные отклонения результатов двух измерений. При этом используют формулу (у разных авторов она может выглядеть по разному)
где ΣXY — сумма произведений данных из каждой пары; n-число пар;
X — средняя для данных переменной X;
Y — средняя для данных переменной Y
Sx — стандартное отклонение для распределения х;
Sy — стандартное отклонение для распределения у.
Коэффициент корреляции рангов Спирмена (rs) — это непараметрический показатель, с помощью которого пытаются выявить связь между рангами соответственных величин в двух рядах измерений.
Этот коэффициент рассчитывать проще, однако результаты получаются менее точными, чем при использовании r. Это связано с тем, что при вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.
Дело в том, что при использовании коэффициента корреляции рангов Спирмена (rs) проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми (например, будут ли одинаково «ранжироваться» студенты при прохождении ими как психологии, так и математики, или даже при двух разных преподавателях психологии?). Если коэффициент близок к +1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к -1, можно говорить о полной обратной зависимости.
Коэффициент rs вычисляют по формуле где d — разность между рангами сопряженных значений признаков (независимо от ее знака), n — число пар.
Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент r (в этих случаях бывает необходимо превратить количественные данные в порядковые).
Итак, мы рассмотрели различные параметрические и непараметрические статистические методы, используемые в психологии. Наш обзор был весьма поверхностным, и главная задача его заключалась в том, чтобы читатель понял, что статистика не так страшна, как кажется, и требует в основном здравого смысла. Напоминаем, что данные «опыта», с которыми мы здесь имели дело, — вымышленные и не могут служить основанием для каких-либо выводов. Впрочем, подобный эксперимент стоило бы действительно провести. Поскольку для этого опыта была выбрана сугубо классическая методика, такой же статистический анализ можно было бы использовать во множестве различных экспериментов. В любом случае нам кажется, что мы наметили какие-то главные направления, которые могут оказаться полезны тем, кто не знает, с чего начать статистический анализ полученных результатов.
2.3. Статистические критерии различий
Одной из наиболее встречающихся статистических задач, с которыми сталкивается психолог, является задача сравнения результатов обследования какого-либо психологического признака в разных условиях измерения (например, до и после определенного воздействия) или обследования контрольной и экспериментальной групп. Также нередко возникает необходимость оценить характер изменения того или иного психологического показателя в одной или нескольких группах в разные периоды времени или выявить динамику изменения этого показателя под влиянием экспериментальных воздействий. Для решения подобных задач используется большой выбор статистических способов, называемых в наиболее общем виде критериями различий. Эти критерии позволяют оценить степень статистической достоверности различий между разнообразными показателями. Важно учитывать, что уровень достоверности различий включается в план проведения эксперимента.
Существует достаточно большое количество критериев различий. Каждый из них имеет свою специфику, различаясь между собой по основаниям (например, тип измерительной шкалы, максимальный объем выборки, количество выборок, качество выборки - зависимая и независимая).
Кроме того, критерии различаются по мощности. Мощность критерия - это способность выявлять различия или отклонять нулевую гипотезу, если она не верна.
Разнообразие критериев различий позволяет:
выбирать критерий, адекватный типу шкалы, в которой получены экспериментальные данные;
работать со связными (зависимыми) и несвязными (независимыми) выборками;
работать с неравными по объему выборками;
выбирать из критериев разные по мощности (в зависимости от целей исследования)
Все критерии различий условно подразделены на две группы: параметрические и непараметрические критерии.
Критерий различия называют параметрическим, если он основан на конкретном типе распределения генеральной совокупности (как правило, нормальном) или использует параметры этой совокупности (среднее, дисперсии и т. д.).
Критерий различия называют непараметрическим, если он не базируется на предположении о типе распределения генеральной совокупности и не использует параметры этой совокупности. Поэтому для непараметрических критериев предлагается также использовать такой термин как «критерий, свободный от распределения».
При нормальном распределении генеральной совокупности параметрические критерии обладают большей мощностью по сравнению с непараметрическими (способны с большей достоверностью отвергать нулевую гипотезу, если последняя не верна).
Однако, как показывает практика, подавляющее большинство данных, получаемых в психологических экспериментах, не распределены нормально, поэтому применение параметрических критериев при анализе результатов психологических исследований может привести к ошибкам в статистических выводах. В таком случае непараметрические критерии становятся более мощными, т. е. способными с большей достоверностью отвергать нулевую гипотезу.
При проверке статистических гипотез используются два понятия: нулевая гипотеза (обозначение Н0) и альтернативная гипотеза (обозначение Н1). Принято считать, что нулевая гипотеза Н0 - это гипотеза о сходстве, а альтернативная Н1 - гипотеза о различии. Таким образом, принятие нулевой гипотезы Н0 свидетельствует об отсутствии различий, а гипотезы Н1 о наличии различий.
Рекомендации к выбору критерия различий
Прежде всего, следует определить, является ли выборка зависимой (связной) или независимой (несвязной).
Выборки называют независимыми (несвязными), если процедура эксперимента и полученные результаты измерения некоторого свойства у испытуемых одной выборки не оказывают влияние на особенности протекания этого же эксперимента и результаты измерения этого же свойства у испытуемых другой выборки.
Зависимыми (связными) называют выборки, если процедура эксперимента и полученные результаты измерения некоторого свойства, проведенные по одной выборке, оказывают влияние на другую.
Следует определить однородность - неоднородность выборки.
Однородность выборки означает, что психолог, изучая, например, подростков не может включать в исследование взрослых людей. Основаниями для формирования однородной выборки могут служить следующие характеристики: пол, возраст, уровень интеллекта, национальность, отсутствие определенных заболеваний и т. д.
Затем следует оценить объем выборки и, зная ограничения каждого критерия по объему, выбрать соответствующий критерий.
При этом целесообразнее всего начинать работу с выбора наименее трудоемкого критерия.
Если используемый критерий не выявил различия - следует применить более мощный, но одновременно и более трудоемкий критерий.
Если имеется несколько критериев, то следует выбирать те из них, которые наиболее полно используют информацию, содержащуюся в экспериментальных данных.
2.4. Непараметрические критерии для независимых выборок
По существу, для каждого параметрического критерия имеется, по крайней мере, одна непараметрическая альтернатива.
В общем, эти процедуры попадают в одну из следующих категорий:
• критерии различия для независимых выборок;
• критерии различия для зависимых выборок;
• оценка степени зависимости между переменными.
Вообще, подход к статистическим критериям в анализе данных должен быть прагматическим и не отягощен лишними теоретическими рассуждениями. Имея в своем распоряжении компьютер с системой STATISTICA, вы легко примените к своим данным несколько критериев. Зная о некоторых подводных камнях методов, вы путем экспериментирования выберете верное решение. Развитие сюжета довольно естественно: если нужно сравнить значения двух переменных, то вы используете t-критерий. Однако следует помнить, что он основан на предположении нормальности и равенстве дисперсий в каждой группе. Освобождение от этих предположений приводит к непараметрическим тестам, которые особенно полезны для малых выборок.
Далее имеются две ситуации, связанные с исходными данными: зависимые и независимые выборки, в которых применяется t-критерий для зависимых и независимых выборок соответственно.
Развитие t-критерия приводит к дисперсионному анализу, который используется, когда число сравниваемых групп больше двух. Соответствующее развитие непараметрических процедур приводит к непараметрическому дисперсионному анализу, правда, существенно более бедному, чем классический дисперсионный анализ.
Для оценки зависимости, или, выражаясь несколько высокопарно, степени тесноты связи, вычисляют коэффициент корреляции Пирсона. Строго говоря, его применение имеет ограничения, связанные, например, с типом шкалы, в которой измерены данные, и нелинейностью зависимости, поэтому в качестве альтернативы используются также непараметрические, или так называемые ранговые, коэффициенты корреляции, применяемые, например, для ранжированных данных. Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий хи-квадрат Пирсона с различными вариациями и поправками на точность.
Итак, по существу имеется всего несколько типов критериев и процедур, которые нужно знать и уметь использовать в зависимости от специфики данных. Вам нужно определить, какой критерий следует применять в конкретной ситуации.
Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n >100), часто не имеет смысла использовать непараметрическую статистику.
Если размер выборки очень мал (например, n = 10 или меньше), то уровни значимости для тех непараметрических критериев, которые используют нормальное приближение, можно рассматривать только как грубые оценки.
Различия между независимыми группами. Если имеются две выборки (например, мужчины и женщины), которые нужно сравнить относительно некоторого среднего значения, например, среднего давления или количества лейкоцитов в крови, то можно использовать t-тест для независимых выборок.
Непараметрическими альтернативами этому тесту являются критерий серий Валъда—Волъфовица, Манна—Уитни.
Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке, например, медицинские показатели одних и тех же пациентов до и после приема лекарства, то обычно используется t-критерий для зависимых выборок.
Альтернативными непараметрическими тестами являются критерий знаков и критерий Вилкоксона.
Если рассматриваемые переменные категориальны, то подходящим является хи-тадрат Макнемара.
Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ (ANOVA) с повторными измерениями.
Альтернативным непараметрическим методом является Ранговый дисперсионный анализ Фридмана и Q-критерий Кохрена.
Исследование зависимости между порядковыми переменными
Для того чтобы оценить зависимость между двумя переменными, обычно вычисляют коэффициент корреляции Пирсона. Непараметрическими аналогами коэффициента корреляции Пирсона являются коэффициенты ранговой корреляции Спирмена R, статистика Кендалла и коэффициент Гамма (более подробно см. например, книгу Кендалл М. Дж., Ранговые корреляции 1975, ).
Коэффициент ранговой корреляции (rank correlation coefficients') оценивает величину зависимости между переменными, измеренными в порядковых шкалах, т. е. между порядковыми переменными.
Прозрачный способ построения парных коэффициентов корреляции из обобщенного коэффициента корреляции предложил Daniels. Обобщенный коэффициент корреляции определяется формулой:
, где аij = a(Xi Xj), bij = b(Yi, Yj) — некоторые функции пар наблюдений X и Y соответственно, суммирование ведется по всем парам i, j.
Заметим, что при аij =Xj - Хi, bij= Yj- Yi. получаем обычный коэффициент корреляции Пирсона. Если переменные ранжированы, то мы работаем с рангами. Упорядочим значения Xi по возрастанию, то есть построим вариационный ряд этих величин. Номер величины Хi в этом ряде называется ее рангом и обозначается Ri
Затем упорядочим значения Yi в порядке возрастания. Номер величины Yii в этом ряде называется ее рангом и обозначается Si
Коэффициент ранговой корреляции Спирмена вычисляется как обобщенный коэффициент парной корреляции с заменой наблюдений их рангами. Формально для обобщенного коэффициента корреляции нужно положить aij = Rj — Ri,bij = Sj - Si.
Коэффициент Кендалла вычисляется, если в формуле для обобщенного коэффициента положить аij = 1 при Ri< Rj и аij = -1 при
Ri > Rj Величины bij задаются аналогичными соотношениями с заменой рангов Rij ранги Si наблюдений Y. Итак, мы ясно видим, что идея всех корреляций возникает из одного и того же источника.
Если имеется более двух переменных, то используют коэффициент конкордации Кендалла. Например, он применяется для оценки согласованности мнений независимых экспертов (судей), например, баллов, выставленных одному и тому же участнику конкурса.
Если имеются две категориальные переменные, то для оценки степени зависимости используют стандартные статистики и соответствующие критерии для таблиц сопряженности: хи-квадрат, фи-коэффициент, точный критерий Фишера.
Нелегко дать простой и однозначный совет, касающийся использования этих процедур. Каждая имеет свои достоинства и свои недостатки.
Например, двухвыборочный критерий Колмогорова—Смирнова чувствителен не только к различию в положении двух распределений, но также и к форме распределения. Фактически он чувствителен к любому отклонению от гипотезы однородности, но не указывает, с каким именно отклонением мы имеем дело.
Критерий Вилкоксона предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если этого сделать нельзя, то используют критерий знаков, который учитывает лишь знаки разностей сравниваемых величин.
В общем, если результат исследования является важным и наблюдений немного (например, отвечает на вопрос — оказывает ли людям помощь определенная очень дорогая и болезненная лекарственная терапия?), то всегда целесообразно испытать непараметрические тесты. Возможно, результаты тестирования (разными тестами) будут различны. В таком случае следует попытаться понять, почему разные тесты дали разные результаты.
С другой стороны, непараметрические тесты имеют меньшую мощность, чем их параметрические конкуренты, и если важно обнаружить даже слабые эффекты (например, при выяснении, является ли данная пищевая добавка опасной для здоровья), следует провести многократные испытания и особенно внимательно выбирать статистику критерия.
Описание непараметрических процедур на примерах
Стартовая панель модуля Непараметрические статистики
Стартовая панель модуля имеет вид:
Таблицы частот 2× 2: статистики Хи/V/Фи-квадрат, Макнемара, точный критерий Фишера
Опция открывает диалоговое окно, в котором можно ввести частоты в таблицу 2×2 (состоящую из двух строк и двух столбцов) и вычислить различные статистики, позволяющие оценить зависимость между двумя переменными, принимающими только два значения.
Типичный пример таких таблиц — определение, например, числа мужчин и женщин, предпочитающих рекламу ПЕПСИ или КОКИ, или числа заболевших и не заболевших людей из числа сделавших и не сделавших прививки, и т. д.
Итак, одна переменная — ПОЛ, другая переменная — НАПИТОК. Первая переменная имеет 2 уровня (принимает 2 значения) — мужчина, женщина. Вторая переменная, НАПИТОК, также имеет 2 уровня, например, ПЕПСИ или КОКА.
Задача состоит в том, чтобы оценить зависимость между двумя табулированными переменными.
Укажем на важное методологическое отличие использования слова связь (зависимость) в повседневной жизни и в анализе данных. Обычно мы говорим, что два признака А и В связаны между собой, если они часто встречаются вместе. В анализе данных дается строгое определение: если А встречается относительно чаще с В, чем с не-В, то А и В связаны. Или переходя на язык теории вероятностей, Р( АХВ) должна быть больше Р(АХ не-В). Оценкой вероятности является частота.
В приведенной выше таблице пусть признак А — пол, признак В — напиток, принимающий, например, два значения: пепси — не-пепси. Пусть a, b — частоты в первой строке, с, d — частот во второй строке. Если а/(а+с) = b/(b+d) то признаки независимы. Формально имеем: 17/(17+27) = 0,39, 19/(19+29) - 0,396. Теперь нам нужно понять, существенно или нет различие в частотах. Статистические критерии, реализованные в этом диалоге, как раз и позволяют это сделать. В данном случае различие, конечно, несущественно (или, как говорят в анализе данных, незначимо). Следовательно, признаки независимы, — пол не связан с выбором напитка.
Опция 2x2 может быть использована как альтернатива корреляциям, если обе рассматриваемые переменные являются категориальными.
Дополнительно к стандартному критерию хи-квадрат Пирсона и скорректированному хи-квадрат (V-квадрат) вычисляются следующие статистики:
Классическая статистика хи-квадрат Пирсона замечательна тем, что ее распределение приближается распределением хи-квадрат, для которого имеются подробные таблицы. Процентные точки распределения хи-квадрат могут быть также эффективно вычислены в системе STATISTICA с помощью вероятностного калькулятора.
Свойство критерия хи-квадрат (точность аппроксимации распределения статистики распределением хи-квадрат) для таблиц 2× 2 с малыми ожидаемыми частотами может быть улучшено за счет уменьшения абсолютного значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0,5 перед возведением в квадрат.
Это так называемая поправка Йетса на непрерывность для таблиц частот 2×2, которая обычно применяется, когда ячейки содержат только малые частоты и некоторые ожидаемые частоты становятся меньше 5 (или даже меньше 10).
Фи-коэффициент. Статистика фи-квадрат представляет собой меру связи между номинальными или категориальными переменными, значения которых нельзя упорядочить.
Пусть даны маргинальные или суммарные частоты в таблице 2×2. Предположим, что оба фактора в таблице независимы. Зададимся вопросом: какова вероятность получить наблюдаемые частоты, исходя из маргинальных? Замечательно, что эта вероятность вычисляется точно, подсчетом всех возможных таблиц, которые можно построить, основываясь на данных маргинальных частотах. Это и делается в критерии Фишера. STATISTICA вычисляет р-уровни одностороннего и двустороннего критерия Фишера.
Если сумма частот небольшая, то лучше использовать точный критерий Фишера вместо критерия хи-квадрат.
Известны рекомендации Кокрена для таблиц 2×2: если сумма всех частот в таблице меньше 20, то следует использовать точный критерий Фишера.
Если сумма частот больше 40, то можно применять критерий хи-квадрат с поправкой на непрерывность.
Однако эти рекомендации не универсальны.
Рассмотрим следующий пример.
Пример. Исследуются 30 человек, совершивших преступления. У каждого из преступников есть брат-близнец. Спрашивается, имеется ли связь между родственными отношениями и преступлением. Данные приведены в таблице:
Оба брата преступники
Только один брат преступник
Сумма
Однояйцевые близнецы
10
3
13
Разнояйцовые близнецы
2
15
17
Сумма
12
18
18
Проверяемая гипотеза состоит в том, что зависимости между родством и преступностью нет. Альтернативная гипотеза заключается в следующем: чем теснее родственные связи, тем более вероятно совместное участие в преступлении (то есть между признаками имеется положительная связь). Заметьте — это односторонняя альтернатива, т. к. нас интересует отклонение от гипотезы лишь в одну сторону (вольно выражаясь, с сохранением знака больше).
Введем данные в систему STATISTICА.
После нажатия на кнопку ОК получим следующую электронную таблицу с результатами:
Значение статистики хи-квадрат равно 13,03.
Так как в данных имеются ячейки с малыми частотами (2 и 3), то для улучшения точности критерия хи-квадрат используем поправку Йетса. Поскольку нас интересует односторонняя альтернатива, мы делим уровень р = 0,0012 пополам и получаем 0,0006.
Точное значение одностороннего критерия Фишера равно 0,0005. Оба эти результата высокозначимы, следовательно, мы отвергаем исходную гипотезу об отсутствии зависимости между родством и преступлением в пользу альтернативы: «между признаками имеется тесная положительная связь».
Заметьте, что сумма всех частот в таблице меньше 40, но оба критерия, точный Фишера и хи-квадрат Йетса, дают почти одинаковые результаты.
Критерий хи-квадрат Макнемара. Этот критерий применяется, когда частоты в таблице 2x2 получены по зависимым выборкам. Например, когда наблюдения фиксируются до и после воздействия на одном и том же экспериментальном материале.
STATISTICА включает также модуль Логлинейный анализ, позволяющий выполнить полный логлинейный анализ многовходовых таблиц сопряженности. STATISTICA содержит программу на STATISTICA BASIC для вычисления критерия Ментела—Хенцела (файл Ma.nthaen.stb в каталоге STBASIC), позволяющего сравнить две группы данных. Обратитесь к комментариям в программе Manthaen.stb за дополнительной информацией.
Наблюдаемые частоты в сравнении с ожидаемыми.
Опция позволяет оценить согласие наблюдаемых частот с произвольным набором ожидаемых частот.
Процедура предлагает пользователю ввести две переменные: одна содержит ожидаемые, другая — наблюдаемые частоты. Для проверки согласия наблюдаемых и ожидаемых частот вычисляется критерий хи-квадрат.
Следующий пример основан на данных (искусственных) об авариях на шоссе. Данные записывались с интервалом, равным месяцу, в 1983 и 1985 годах.
Допустим, что в 1984 году были потрачены значительные средства с тем, чтобы улучшить безопасность движения на этом шоссе. Если затраченные средства ни к чему не привели (нулевая гипотеза), то число несчастных случаев в 1985 году могло бы прогнозироваться на том же уровне, что и в 1983-м (при условии, что общее число машин на трассе и интенсивность движения не менялись). Таким образом, данные за 1985 год рассматриваются здесь как ожидаемые значения, данные за 1983 год — как наблюдаемые.
Задание анализа. После запуска модуля Непараметрические статистики и распределения откройте файл Accident.sta и выберите в стартовой панели опцию Наблюдаемые в сравнении ожидаемыми. В появившемся диалоговом окне Наблюдаемые и ожидаемые частоты нажмите кнопку Переменные и выберите Y_1983 — переменную с наблюдаемыми частотами и Y_1985 — переменную с ожидаемыми частотами.
После нажатия ОК таблица с результатами появится на экране.
Из таблицы ясно видно, что снижение числа аварий в 1985 году по сравнению с 1983 годом высокозначимо.
Заметим, что в нижней части таблицы результатов показано общее число аварий за каждый год (Сумма); разности между наблюдаемыми и ожидаемыми значениями даны в третьем столбце, квадраты разностей, деленные на ожидаемые значения (слагаемые хи-квадрат), — в четвертом столбце.
Обратите внимание на число степеней свободы (ее) распределения хи-квадрат, в этом примере оно равно 11.
Корреляции (Спирмена R, тау Кендалла, Гамма)
Опция позволяет вычислить три различные альтернативы коэффициенту корреляции Пирсона: корреляцию Спирмена R, статистику тay Кендалла и статистику Гамма. После выбора опции на экране появится диалоговое окно, в котором можно выбрать переменные и определенный тип корреляции для вычисления. Можно вычислить одну непараметрическую корреляцию или матрицу непараметрических корреляций.
Следующий пример основывается на данных (файл Striving.sta), представленных Siegel and Castellan (1988) Nonparametric statistics for the behavioral sciences (2nded.) New York: McGraw-Hill.
Двенадцать студентов ответили на вопрос анкеты, чтобы оценить связь между двумя переменными: авторитарностью и борьбой за социальное положение. Авторитарность (Adorno и др., 1950) — психологическая концепция, состоящая, грубо говоря, в том, что властные люди имеют тенденцию считать, что власть должна быть жесткой и ей следует подчиняться (иными словами, придерживаются принципа: «закон и порядок»).
Данные показаны ниже.
Цель исследования состояла в том, чтобы выяснить, зависимы, в действительности, эти две переменные или нет.
Задание анализа. После запуска модуля Непараметрические статистики и распределения откройте файл Accident.sta и выберите в стартовой панели опцию Корреляции (Спирмена, may Кендалла, гамма). В появившемся диалоговом окне нажмите кнопку переменные и выберите Authorit как первую переменную, Striving — как вторую переменную.
Модуль Непараметрические статистики и распределения вычисляет также корреляционные матрицы. В этом примере выберите простоСпирмена R и Подробный отчет.
После нажатия OK таблица с результатами появится на экране.
Вы видите, что корреляция между двумя шкалами высокозначима, и можно сделать вывод, что индивидуумы, имеющие внутреннюю установку на авторитарность, в свою очередь, стремятся к борьбе за свое положение в обществе (при условии, что анкета адекватна данному исследованию), тем самым подтверждается концепция Адорно.
Авторитаризм — внутренняя установка (ее трудно непосредственно измерить). В отличие от этого борьба за положение в обществе и продвижение по иерархической лестнице наблюдается отчетливо. Итак, между властностью и карьеризмом имеется отчетливая зависимость.
Вы можете визуализировать найденную зависимость двумя способами. Либо нажав кнопку Матричная диаграмма в диалоговом окне Непараметрические корреляции (после того как выбрали переменные), либо щелкнув правой кнопкой мыши на таблице результатов и выбрав опцию Диаграмма рассеяния/довер из менюБыстрые статистические графики.
Параметрическая корреляция (r Пирсона) между шкалами (r = 0,77) показана в заголовке графика (см. ниже). Интересно, что эта корреляция меньше ранговой корреляций Спирмена (Спирмена R равно 0,82).
Если бы в этом примере мы располагали большим объемом данных, то могли бы сделать вывод, что рассмотрение рангов (а не самих наблюдений) в действительности улучшает оценку зависимости между переменными, так как «подавляет» случайную изменчивость и уменьшает воздействия выбросов.
Статистики Кендалла тay и Гамма. Для сравнения вернитесь в окно Непарамет рические корреляции и выберите опцию Статистика тay Кендалла а также опциюГамма. Обе статистики Кендалла тay и Гамма будут вычислены и окажутся равными 0,67.
Как было сказано ранее, эти статистики тесно связаны между собой, но отличаются от статистики Спирмена. Статистику Спирмена R можно представить себе как вычисленную по рангам корреляцию Пирсона, т. е. в терминах доли изменения одной величины, связанной с изменением другой. Статистики Кендалла тay и Гамма скорее оценивают вероятности, точнее, разность между вероятностью того, что наблюдаемые значения переменных имеют один и тот же порядок, и вероятностью того, что порядок различный.
Матрицы двух списков. Опция вычисляет только корреляции между переменными, заданными в первом списке, с переменными, заданными во втором списке.
Квадратная матрица. Опция вычисляет корреляции для одного списка переменных (квадратная матрица). Заметим, если выбраны два списка переменных, а затем выбрана эта опция, то списки будут «объединены» в один.
Матричная диаграмма
Нажмите кнопку, чтобы построить матричную диаграмму рассеяния для выбранных переменных.
Этот график полезен тем, что он позволяет быстро оценить и сравнить распределения выбранных переменных и форму зависимости между ними (например, коэффициент ранговой корреляции R Спирмена может измерять нелинейную монотонную зависимость между переменными).
Критерий серий Вальда—Вольфовица
Критерий серий Вальда—Вольфовица представляет собой непараметрическую альтернативу t-критерию для независимых выборок. Данные имеют тот же вид, что и в t-критерии для независимых выборок. Файл должен содержать группирующую (независимую) переменную, принимающую, по крайней мере, два различных значения (кода), чтобы однозначно определить, к какой группе относится каждое наблюдение в файле данных.
Программа открывает диалоговое окно выбора группирующей переменной и списка зависимых переменных (переменных, по которым две группы сравниваются между собой), а также кодов для группирующей переменной (опция Коды).
Критерий серий Вальда—Вольфовица устроен следующим образом. Представьте, что вы хотите сравнить мужчин и женщин по некоторому признаку. Вы можете упорядочить данные, например, по возрастанию, и найти те случаи, когда субъекты одного и того же пола примыкают друг к другу в построенном вариационном ряде (иными словами, образуют серию).
Если нет различия между мужчинами и женщинами, то число и длина «серий», относящиеся к одному и тому же полу, будут более или менее случайными. В противном случае две группы (мужчины и женщины) отличаются друг от друга, то есть не являются однородными.
Критерий предполагает, что рассматриваемые переменные являются непрерывными и измерены, по крайней мере, в порядковой шкале.
Критерий серий Вальда—Вольфовица проверяет гипотезу о том, что две независимые выборки извлечены из двух популяций, которые в чем-то существенно различаются между собой, иными словами, различаются не только средними, но также формой распределения. Нулевая гипотеза состоит в том, что обе выборки извлечены из одной и той же популяции, то есть данные однородны.
U-критерий Манна—Уитни
Критерий Манна—Уитни представляет непараметрическую альтернативу t-критерию для независимых выборок. Опция предполагает, что данные расположены таким же образом, что в и t-критерии для независимых выборок. В частности, файл должен содержать группирующую переменную, имеющую, по крайней мере, два разных кода для однозначной идентификации принадлежности каждого наблюдения к определенной группе.
Критерий U Манна—Уитни предполагает, что рассматриваемые переменные измерены, по крайней мере, в порядковой шкале (ранжированы). Заметим, что во всех ранговых методах делаются поправки на совпадающие ранги.
Интерпретация теста, по существу, похожа на интерпретацию результатов t-критерия для независимых выборок за исключением того, что U-критерий вычисляется как сумма индикаторов парного сравнения элементов первой выборки с элементами второй выборки.
U-критерий — наиболее мощная (чувствительная) непараметрическая альтернатива t-критерию для независимых выборок; фактически, в некоторых случаях он имеет даже большую мощность, чем t-критерий. Формально статистика Манна—Уитни вычисляется как:
где W — так называемая статистика Вилкоксона,
Таким образом, статистика U считает общее число тех случаев, в которых элементы второй группы, например, мужчины, превосходят элементы первой группы, например, женщин.
Двухвыборочный критерий Колмогорова—Смирнова
Критерий Колмогорова—Смирнова — это непараметрическая альтернатива t-кри-терию для независимых выборок. Формально он основан на сравнении эмпирических функций распределения двух выборок. Данные имеют такую же организацию, как в t-критерии для независимых выборок. Файл должен содержать кодовую (независимую) переменную, имеющую, по крайней мере, два различных кода для однозначного определения, к какой группе принадлежит каждое наблюдение.
Опция открывает диалоговое окно выбора кодовой переменной и списка зависимых переменных (переменных, по которым две группы сравниваются между собой), а также кодов, используемых в кодовой переменной для идентификации двух групп (опция Коды).
Критерий Колмогорова—Смирнова проверяет гипотезу о том, что выборки извлечены из одной и той же популяции, против альтернативной гипотезы, когда выборки извлечены из разных популяций. Иными словами, проверяется гипотеза однородности двух выборок.
Однако в отличие от параметрического i-критерия для независимых выборок и от U-критерия Манна—Уитни (см. выше), который проверяет различие в положении двух выборок, критерий Колмогорова—Смирнова также чувствителен к различию общих форм распределений двух выборок (в частности, различия в рассеянии, асимметрии и т. д.).
Пример. Критерий серий Вальда—Вольфовица, Манна—Уитни U-критерий, двухвыборочный критерий Колмогорова—Смирнова
Все эти критерии представляют собой альтернативы t-критерию для независимых выборок. Пример основан на исследовании агрессивности четырехлетних мальчиков и девочек (Siegel, S. (1956) Nonparametric statistics for the behavioral sciences (2nded.) New York: McGraw-Hill).
Двенадцать мальчиков и двенадцать девочек наблюдались в течение 15-минутной игры; агрессивность каждого ребенка оценивалась в баллах (в терминах частоты и степени проявления агрессивности) и суммировалась в один индекс агрессивности, который вычислялся для каждого ребенка.
Задание анализа. После запуска модуля Непараметрические статистики откройте электронную таблицу с данными (файл Aggressn.sta), выберите опцию Критерий серий Вальда—Волъфовица.
<>
Далее нажмите ОК.
Нажмите кнопку Переменные и выберите переменную Пол — Gender как группирующую и переменную Aggressn как зависимую.
Коды для однозначного отнесения каждого наблюдения к определенному полу будут автоматически выбраны программой.
Далее нажмите OK, чтобы выполнить анализ.
Как видно из таблицы результатов, различие между агрессивностью мальчиков и девочек в этом исследовании высокозначимо.
Выполните то же самое исследование с помощью критерия Манна—Уитни.
Нажмите кнопку Переменные и выберите переменную Пол — Gender как группирующую и переменную Aggressn — как зависимую.
Коды для однозначного отнесения каждого наблюдения к определенному полу будут автоматически выбраны программой.
Выберите опцию Двухвыборочный критерий Колмогорова—Смирнова.
Нажмите кнопку Переменные и выберите переменную Пол — Gender как группирующую и переменную Aggressn — как зависимую.
Коды для однозначного отнесения каждого наблюдения к определенному полу будут автоматически выбраны программой.
Электронная мультимедийная таблица с результатами имеет вид:
Заметьте, что стандартные отклонения в обеих группах не равны (см. шестой и седьмой столбец в таблице результатов) и мы не можем непосредственно применить t-критерий.
График по умолчанию для этих тестов — диаграмма размаха. Вы можете построить его двумя способами: нажав кнопку Диаграмма размаха в окне Критерий знаков или щелкнув на таблице результатов правой кнопкой мыши и выбрав затем опциюДиаграмма размаха в меню Быстрые статистические графики. Далее программа попросит выбрать переменные. В этом примере выберите обе переменные. Затем выберите тип графика в окне Диаграмма размаха: (см. ниже). Выберите Медиана/кварт./размах и нажмите ОК.
<>
На диаграмме размаха для каждой переменной показаны: медиана, квартальный размах (25%, 75% процентили), размах (минимум, максимум).
Из графика видно, что мальчики более агрессивны, чем девочки. Для того чтобы увидеть распределение зависимой переменной, разбитой на группы, нажмите кнопку Категоризованная гистограмма.
ANOVA Краскела—Уоллиса и медианный тест
Эти два теста являются непараметрическими альтернативами однофакторного дисперсионного анализа. Мы применяем t-критерий, чтобы сравнить средние значения двух переменных. Если переменных больше двух, то применяется дисперсионный анализ. Английское сокращение дисперсионного анализа — ANOVA (analysis of variation).
Критерий Краскела—Уоллиса основан на рангах (а не на исходных наблюдениях) и предполагает, что рассматриваемая переменная непрерывна и измерена как минимум в порядковой шкале. Критерий проверяет гипотезу: имеют ли сравниваемые выборки одно и то же распределение или же распределения с одной и той же медианой. Таким образом, интерпретация критерия схожа с интерпретацией параметрической однофакторной ANOVA за исключением того, что этот критерий основан на рангах, а не на средних значениях.
Медианный тест — это «грубая» версия критерия Краскела—Уоллиса. STATISTIC A просто подсчитывает число наблюдений каждой выборки, которые попадают выше или ниже общей медианы выборок, и вычисляет затем значение хи-квадрат для таблицы сопряженности 2× k.
При нулевой гипотезе (все выборки извлечены из популяций с равными медианами) ожидается, что примерно 50% всех наблюдений в каждой выборке попадают выше (или ниже) общей медианы. Медианный тест особенно полезен, когда шкала содержит искусственные границы, и многие наблюдения попадают в ту или иную крайнюю точку (оказываются «вне шкалы»).
Пример основан на данных, представленных в книге Hays (1981) Statistics (3rd ed.) New York: CBS College Publishing, которые содержатся в файле Kruskaista. Откройте файл данных.
Файл содержит результаты исследования маленьких детей, которые случайным образом приписывались к одной из трех экспериментальных групп. Каждому ребенку предлагалась серия парных тестов, например, давались два мяча: красный и зеленый. Далее ребенка просили выбрать зеленый мяч, если он делал правильный выбор, то получал вознаграждение.
В первой группе тестом была форма (группа 1-Форма — 1-Fonri), во второй — цвет (группа2-Цвет — 2-Соlor), в третьей — размер (3-Размер — 3-Size) предмета.
Зависимая переменная, показанная во втором столбце, — это число испытаний, которые потребовались каждому ребенку, чтобы получить вознаграждение.
Задание анализа. После запуска модуля Непараметрические статистики и распределения и выбора файла KruskaLsta выберите опцию ANOVA Краскела—Уоллиса и медианный тест, чтобы открыть диалоговое окно Дисперсионный анализ Краскела—Уоллиса и медианный тест.
Далее нажмите кнопку Переменные и выберите переменную Conditn как независимую и переменную Perfrmnc — как зависимую.
Нажмите кнопку Коды и выберите все коды для независимой переменной (нажмите кнопку Все).
Диалоговое окно Дисперсионный анализ Краскела-Уоллиса и медианный тест появится на экране:
Результаты. В диалоговом окне нажмите ОК для начала анализа. Результаты ранговой ANOVA Краскела—Уоллиса будут показаны в первой таблице результатов, результаты медианного теста — во второй.
Вы видите, что критерий Краскела—Уоллиса высокозначим (р= 0,001). Таким образом, характеристики различных экспериментальных групп значимо отличаются друг от друга. Напомним, что процедура Краскела—Уоллиса, по существу, является дисперсионным анализом, основанным на рангах. Суммы рангов (для каждой группы) показаны в правом столбце таблицы результатов. Наибольшая ранговая сумма (самое худшее выполнение теста) относится к Размеру — Size (это тот параметр, который надо различить, чтобы получить вознаграждение). Наименьшая ранговая сумма (лучшее выполнение) относится к Форме — Form.
Медианный критерий также значим, однако в меньшей степени (р - 0,0131).
В таблице результатов показано число детей в каждой группе, число попыток которых меньше (или равно) общей медианы, и число наблюдений, лежащих выше общей медианы.
И вновь оказывается, что наибольшее число испытуемых с числом попыток (до получения вознаграждения) выше общей медианы относятся к группе Размер — Size.
Больше всего испытуемых с числом попыток ниже медианы относятся к группе Форма — Form.
Таким образом, медианный тест также подтверждает гипотезу, согласно которой форма предмета наиболее легко различается детьми, тогда как размер различается хуже всего.
Графическое представление результатов. График по умолчанию для этих тестов — диаграмма размаха. Его можно построить двумя способами: нажав кнопку Диаграмма размаха в окне Дисперсионный анализ Краснела—Уоллиса и медианный тест или щелкнув на таблице результатов правой кнопкой мыши и выбрав опцию Диаграмма размаха в меню Быстрые статистические графики. Далее программа попросит выбрать переменные для графика. В этом примере выберите обе переменные. Затем выберите тип статистики для графика в окне Диаграмма размаха: (см. ниже). Выберите опцию Медиана/кварт./размах и нажмите ОК.
На диаграмме размаха для каждой переменной показаны: медиана, квартальный размах (25%, 75% процентили), размах (минимум, максимум).
Отчетливо видно, что выполнение теста в группе Форма — Form было лучше любого другого; медиана числа испытаний при этом условии ниже, чем при любом другом.
Для того чтобы увидеть распределение зависимой переменной, разбитой на группы, нажмите кнопку Категоризованная гистограмма. Этот график снова подтверждает, что в группе Форма — Form выполнение «лучше» (распределение слегка скошено влево), чем при других условиях. Самое худшее выполнение, как отчетливо видно из графиков, относится к группе Размер — Size.
Отсюда также можно заключить, что наиболее легко дети различают Форму — Form.
Критерий знаков
Это непараметрическая альтернатива t-критерию для зависимых выборок.
Критерий применяется в ситуациях, когда исследователь проводит два измерения (например, при разных условиях) одних и тех же субъектов и желает установить наличие или отсутствие различия результатов.
Для применения этого критерия требуются очень слабые предположения (например, однозначная определенность медианы для разности значений). Не нужно никаких предположений о природе или форме распределения.
Критерий основан на интуитивно ясных соображениях. Подсчитаем количество положительных разностей между значениями переменной (А) и значениями переменной (В).
При нулевой гипотезе (отсутствие эффекта обработки) число положительных разностей имеет биномиальное распределение со средним, равным половине объема выборки (положительных разностей будет примерно столько же, сколько отрицательных). Основываясь на биномиальном распределении, можно вычислить критические значения. Для малых объемов выборки n (меньше 20) предпочтительнее использовать значения, табулированные Siegel and Castellan (1988) Nonparametric statistics for the behavioral sciences (2nded.) New York: McGraw-НШ, чтобы оценить статистическую значимость результатов.
Критерий Вилкоксона
Критерий Вилкоксона парных сравнений является непараметрической альтернативой t-критерию для зависимых выборок.
После выбора опции на экране появится диалоговое окно, в котором можно выбрать переменные из двух списков. Каждая переменная первого списка сравнивается с каждой переменной второго списка. Это то же самое расположение данных, что и в f-критерии (зависимые выборки) в модуле Основные статистики и таблицы.
Предполагается, что рассматриваемые переменные ранжированы. W — статистика Вилкоксона равна сумме рангов элементов второй выборки в общем вариационном ряду двух выборок. Итак, наблюдения двух групп объединяются, строится общий вариационный ряд и вычисляется сумма рангов второй группы в построенном ряде.
Требования к критерию Вилкоксона более строгие, чем к критерию знаков. Однако если они удовлетворены, то критерий Вилкоксона имеет большую мощность, чем критерий знаков.
ANOVA Фридмана и коэффициент конкордации, или согласия, Кендалла
ANOVA Фридмана — это непараметрическая альтернатива однофакторному дисперсионному анализу с повторными измерениями. Коэффициент конкордации (согласия) Кендалла — аналог R Спирмена (непараметрический коэффициент корреляции между двумя переменными), когда число переменных больше двух.
В следующем файле приведены рейтинги, выставленные пятью каталогам программ независимыми экспертами. Экспертов просили учесть: информативность издания, привлекательность, качество рекламы.
Анализ преследовал следующие цели:
1. Определить, можно ли на основании оценок экспертов сделать вывод о значимых различиях между каталогами. Это? вопрос может быть решен с помощью рангового дисперсионного анализа" (ANOVA) Фридмана.
2. Можно ли доверять экспертам? Иными словами, согласованы их оценки или нет (зависимы или нет эксперты)? Если нет, то вы, очевидно, не можете доверять их оценкам. Гипотезу о том, что эксперты согласованы в большей степени, чем можно было бы ожидать из-за чисто случайных совпадений их мнений, можно проверить с помощью коэффициента конкордации Кендалла.
Задание анализа. После запуска модуля Непараметрические статистики и распределения и выбора файла cataloge.sta выберите опцию ANOVA Фридмана и кон-кордация Кендалла.
Теперь нажмите OK, таблица с результатами появится на экране. Можно отметить, что между каталогами имеются высокозначимые различия. Дополнительно также видно, что эксперты, выставившие оценки, согласованы друг с другом — конкордация Кендалла равна 0,57 (среднее ранговых корреляций равно 0,53).
График по умолчанию для этих таблиц результатов — диаграмма размаха. Его можно построить двумя способами: нажав кнопку Диаграмма размаха в окне Ранговый дисперсионный анализ Фридмана или щелкнув на таблице результатов правой кнопкой мыши и выбрав опцию Диаграмма размаха в меню Быстрые статистические графики. Далее программа попросит выбрать переменные для графика. В этом примере выберите все 20 переменных. Затем выберите тип статистики для графика в окне Диаграмма размаха: (см. ниже). Выберите опцию Медиана/кварт./размах и нажмите ОК.
Q-критерий Кохрена
Q-критерий Кохрена — это развитие критерия хи-квадрата Макнемара. Критерий проверяет, значимо или нет различаются между собой несколько сравниваемых переменных, принимающих значения 0-1. После выбора опции Q-критерий Кохрена в стартовой панели программа предложит определить список переменных и коды, идентифицирующие две категории или два уровня факторов.
Реализация критерия в системе STATISTICA предполагает, что переменные закодированы как единицы и нули, и коды, определенные пользователем, соответственно преобразуются в эти значения (только для данного анализа, сам по себе файл не будет изменен).
2.5. Критерии согласия распределений. Параметрические критерии различий
Так как все предположения о характере того или иного распределения – это гипотезы, то они должны быть подвергнуты статистической проверке с помощью критериев согласия, которые дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда – существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.
Существует ряд критериев согласия. Чаще применяют критерии Пирсона, Романовского и Колмогорова.
Критерий согласия Пирсона – один из основных:
, где k – число групп, на которые разбито эмпирическое распределение,
– наблюдаемая частота признака в i-й группе,
– теоретическая частота.
Для распределения составлены таблицы, где указано критическое значение критерия согласия для выбранного уровня значимости и степеней свободы df. (или )
Уровень значимости – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. В статистике пользуются тремя уровнями:
• а = 0,10, тогда Р=0,90 (в 10 случаях их 100 может быть отвергнута правильная гипотеза);
• a = 0,05, тогда Р=0,95;
• a = 0,01, тогда Р=0,99.
Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты.
Например, при выравнивании по кривой нормального распределения имеется три связи: ; ; .
Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df = k – 3. Для оценки существенности расчетное значение сравнивается с табличным . При полном совпадении теоретического и эмпирического распределений , в противном случае >0. Если >, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем.
В случае, если , заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении и с вероятностью Р=(1-a) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно.
Критерий согласия Пирсона используется, если объем совокупности достаточно велик , при этом частота каждой группы должна быть не менее 5.
Критерий Романовского с основан на использовании критерия Пирсона, т.е. уже найденных значений , и числа степеней свободы df: .
Он удобен при отсутствии таблиц для .
Если с<3, то расхождения распределений случайны, если же с>3, то не случайны и теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.
Критерий Колмогорова l основан на определении максимального расхождения между накопленными частотами и частостями эмпирических и теоретических распределений:
или ,где D и d – соответственно максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического рядов распределений; N – число единиц совокупности. Рассчитав значение l, по таблице Р(l) определяют вероятность, с которой можно утверждать, что отклонения эмпирических частот от теоретических случайны. Вероятность Р(l) может изменяться от 0 до 1. При Р(l)=1 происходит полное совпадение частот, Р(l)=0 – полное расхождение. Если l принимает значения до 0,3, то Р(l)=1.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.
Критерий Стьюдента был разработан английским химиком У.Госсетом, когда он работал на пивоваренном заводе Гиннеса и по условиям контракта не имел права открытой публикации своих исследований. Поэтому публикации своих статей по t-критерию У.Госсет сделал в 1908г. в журнале «Биометрика» под псевдонимом «Student», что в переводе означает «Студент». В отечественной же литературе принято писать «Стьюдент». Коварная простота вычисления t-критерия Стьюдента, а также его наличие в большинстве статистических пакетов и программ привели к широкому использованию этого критерия даже в тех условиях, когда применять его нельзя.
Особенности использования t-критерия Стьюдента. Наиболее часто t-критерий используется в двух случаях. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и опытная группа, состоящая из разных пациентов, количество которых в группах может быть различно. Во втором же случае используется так называемый парный t-критерий, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних. Поэтому эти выборки называют зависимыми, связанными. Например, измеряется содержание лейкоцитов у здоровых животных, а затем у тех же самых животных после облучения определенной дозой излучения. В обоих случаях должно выполняться требование нормальности распределения исследуемого признака в каждой из сравниваемых групп.
Критерий для независимых выборок.
Цель, предположения. t-критерий является наиболее часто используемым методом обнаружения различия между средними двух выборок. Например, t-критерий можно использовать для сравнения средних показателей группы пациентов, принимавших определенное лекарство, с контрольной группой, где принималось безвредное лекарство. Теоретически, t-критерий может применяться, даже если размеры выборок очень небольшие (например, 10; некоторые исследователи утверждают, что можно исследовать выборки меньшего размера), и если переменные нормально распределены (внутри групп), а дисперсии наблюдений в группах не слишком различны. Предположение о нормальности можно проверить, исследуя распределение или применяя какой-либо критерий нормальности. Равенство дисперсий в двух группах можно проверить с помощью F критерия или использовать более устойчивый критерий Левена. Если условия применимости t-критерия не выполнены, следует использовать непараметрические альтернативы t-критерия.
Расположение данных. Чтобы применить t-критерий для независимых выборок, требуется, по крайней мере, одна независимая (группирующая) переменная (например, Пол: мужчина/женщина) и одна зависимая переменная (например, тестовое значение некоторого показателя, кровяное давление, число лейкоцитов и т.д.). С помощью специальных значений независимой переменной (эти значения называются кодами, например, мужчина и женщина) данные разбиваются на две группы. Можно произвести анализ следующих данных с помощью t-критерия, сравнивающего среднее WCC для мужчин и женщин.
ПОЛ
WCC
наблюдение 1
наблюдение 2
наблюдение 3
наблюдение 4
наблюдение 5
мужчина
мужчина
мужчина
женщина
женщина
111
110
109
102
104
среднее WCC для мужчин = 110
среднее WCC для женщин = 103
Таблица 1. Данные для двух групп (Мужчины и Женщины).
Графики t-критериев. Анализ данных с помощью t-критерия, сравнения средних и меры отклонения от среднего в группах можно производить с помощью диаграмм размаха (см. график).
Рисунок 1. График сравнения средних двух групп (Мужчины и Женщины) и их размахов.
Эти графики позволяют визуально оценить степень зависимости между группирующей и зависимой переменными.
Более сложные групповые сравнения. На практике часто приходится сравнивать более двух групп данных (например, имеется лекарство 1, лекарство 2 и успокоительное лекарство) или сравнивать группы, созданные более чем одной независимой переменной (например, Пол, тип Лекарства и Доза). В таких более сложных исследованиях следует использовать дисперсионный анализ, который можно рассматривать как обобщение t-критерия. Фактически в случае однофакторного сравнения двух групп, дисперсионный анализ дает результаты, идентичные t-критерию. Однако, если план существенно более сложный, ANOVA предпочтительнее t-критерия (даже если используется последовательность t-критериев).
Критерий для зависимых выборок.
Внутригрупповая вариация. Как объясняется в разделе Элементарные понятия статистики, степень различия между средними в двух группах зависит от внутригрупповой вариации (дисперсии) переменных. В зависимости от того, насколько различны эти значения для каждой группы, «грубая разность» между групповыми средними показывает более сильную или более слабую степень зависимости между независимой (группирующей) и зависимой переменными. Например, если среднее WCC (число лейкоцитов - White Cell Count) равнялось 102 для мужчин и 104 для женщин, то разность внутригрупповых средних только на величину 2 будет чрезвычайно важной, когда все значения WCC мужчин лежат в интервале от 101 до 103, а все значения WCC женщин - в интервале 103 - 105. В этом случае можно довольно хорошо предсказать WCC (значение зависимой переменной) исходя из пола субъекта (независимой переменной). Однако если та же разность 2 получена из сильно разбросанных данных (например, изменяющихся в пределах от 0 до 200), то этой разностью вполне можно пренебречь. Таким образом, можно сказать, что уменьшение внутригрупповой вариации увеличивает чувствительность критерия.
Цель. t-критерий для зависимых выборок очень полезен в тех довольно часто возникающих на практике ситуациях, когда важный источник внутригрупповой вариации (или ошибки) может быть легко определен и исключен из анализа. Например, это относится к экспериментам, в которых две сравниваемые группы основываются на одной и той же совокупности наблюдений (субъектов), которые тестировались дважды (например, до и после лечения, до и после приема лекарства). В подобных экспериментах значительная часть внутригрупповой изменчивости (вариации) в обеих группах может быть объяснена индивидуальными различиями субъектов. Заметим, что на самом деле, такая ситуация не слишком отличается от той, когда сравниваемые группы совершенно независимы, где индивидуальные отличия также вносят вклад в дисперсию ошибки. Однако в случае независимых выборок, вы ничего не сможете поделать с этим, т.к. не сможете определить (или «удалить») часть вариации, связанную с индивидуальными различиями субъектов. Если та же самая выборка тестируется дважды, то можно легко исключить эту часть вариации. Вместо исследования каждой группы отдельно и анализа исходных значений, можно рассматривать просто разности между двумя измерениями (например, «до приема лекарства» и «после приема лекарства») для каждого субъекта. Вычитая первые значения из вторых (для каждого субъекта) и анализируя затем только эти «чистые (парные) разности», вы исключите ту часть вариации, которая является результатом различия в исходных уровнях индивидуумов. Именно так и проводятся вычисления в t-критерии для зависимых выборок. В сравнении с t-критерием для независимых выборок, такой подход дает всегда «лучший» результат (критерий становится более чувствительным).
Предположения. Теоретические предположения t-критерия для независимых выборок относятся также к критерию для зависимых выборок. Это означает, что попарные разности должны быть нормально распределены. Если это не выполняется, то можно воспользоваться одним из альтернативных непараметрических критериев.
Расположение данных. Вы можете применять t-критерий для зависимых выборок к любой паре переменных в наборе данных. Заметим, применение этого критерия мало оправдано, если значения двух переменных несопоставимы. Например, если вы сравниваете среднее WCC в выборке пациентов до и после лечения, но используете различные методы вычисления количественного показателя или другие единицы во втором измерении, то высоко значимые значения t-критерия могут быть получены искусственно, именно за счет изменения единиц измерения. Следующий набор данных может быть проанализирован с помощью t-критерия для зависимых выборок.
WCC
до
WCC
после
наблюдение 1
наблюдение 2
наблюдение 3
наблюдение 4
наблюдение 5
...
111.9
109
143
101
80
...
113
110
144
102
80.9
...
средняя разность между WCC
«до» и «после» = 1
Таблица 2. Данные для двух переменных («До» и «После»).
Средняя разность между показателями в двух столбцах относительно мала (d=1) по сравнению с разбросом данных (от 80 до 143, в первой выборке). Тем не менее t-критерий для зависимых выборок использует только парные разности, "игнорируя" исходные численные значения и их вариацию. Таким образом, величина этой разности 1 будет сравниваться не с разбросом исходных значений, а с разбросом индивидуальных разностей, который относительно мал: 0.2 (от 0.9 в наблюдении 5 до 1.1 в наблюдении 1). В этой ситуации разность 1 очень большая и может привести к значимому t-значению.
Матрицы t-критериев. t-критерий для зависимых выборок может быть вычислен для списков переменных и просмотрен далее как матрица. Пропущенные данные при этом обрабатываются либо построчно, либо попарно, точно так же как при вычислении корреляционных матриц. Все те предостережения, которые относились к использованию этих методов обработки пропусков при вычислении матриц коэффициентов корреляций, остаются в силе при вычислении матриц t-критериев. Именно, возможно:
1. появление артефактов (искусственных результатов) из-за попарного удаления пропусков в t-критерии;
2. возникновение чисто «случайно» значимых результатов.
Более сложные групповые сравнения. Если имеется более двух «зависимых выборок» (например, до лечения, после лечения способом 1 и после лечения способом 2), то можно использовать дисперсионный анализ с повторными измерениями. Повторные измерения в дисперсионном анализе (ANOVA) можно рассматривать как обобщение t-критерия для зависимых выборок, позволяющие увеличить чувствительность анализа. Например, можно одновременно контролировать не только базовый уровень зависимой переменной, но и другие факторы, а также включать в план эксперимента более одной зависимой переменной (многомерный дисперсионный анализ MANOVA).
F - критерий Фишера является параметричесикм критерием и используется для сравнения дисперсий двух вариационных рядов. Эмпирическое значение критерия вычисляется по формуле:
где - большая дисперсия, - меньшая дисперсия рассматриваемых вариационных рядов.
Если вычисленное значение критерия Fэмп больше критического для определенного уровня значимости и соответствующих чисел степеней свободы для числителя и знаменателя, то дисперсии считаются различными. Иными словами, проверяется гипотеза, состоящая в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой: H0={Dx=Dy}.
Критическое значение критерия Фишера следует определять по специальной таблице, исходя из уровня значимости α и степеней свободы числителя (n1-1) и знаменателя (n2-1).
Проиллюстрируем применение критерия Фишера на следующем примере. Дисперсия такого показателя, как стрессоустойчивость для учителей составила 6,17 (n1=32), а для менеджеров 4,41 (n2=33). Определим, можно ли считать уровень дисперсий примерно одинаковым для данных выборок на уровне значимости 0,05.
Для ответа на поставленный вопрос определим эмпирическое значение критерия: При этом критическое значение критерия Fкр(0,05;31;32)=2.
Таким образом, Fэмп=1,4<2=Fкр, поэтому нулевая гипотеза о равенстве генеральных дисперсий на уровне значимости 0,05 принимается.
3. Многомерные методы и модели
3.1. Множественный регрессионный анализ
Множественный регрессионный анализ – это метод установления зависимости одной переменной от двух или более независимых переменных. В то время как зависимая переменная (та переменная, которую Вы хотите предсказать) должна быть непрерывной (за исключением логистической регрессии), независимые переменные могут быть как прерывными, так и категориальными, такими как «пол» или «тип применяемого препарата». В случае категориальных независимых переменных необходимо будет создавать переменные «пустышки», а не использовать соответствующие значения (подробнее это будет обсуждено позднее). Если все независимые переменные являются категориальными (или большинство из них являются категориальными), то в этом случае лучше использовать дисперсионный анализ.
Имеются две причины для использования множественной регрессии, и они будут анализироваться по отдельности. Первая – это использование множественной регрессии в тех исследованиях, когда значения независимых переменных находились под экспериментальным контролем (например, когда изменялось количество применяемого препарата, или количество дней между приемами препарата). Обычно подобный подход называется «запланированная регрессия». Второй вариант включают ситуации, когда анализируется группа пациентов, у которых измерили некоторые количество естественно возникающих переменных (возраст, доход, уровень тревоги и т.д.), и эти переменные связываются с некой переменной, которая нас интересует. Обычно подобный подход называется «не экспериментальная регрессия».
Достаточно легко использовать регрессию неправильно. Мы попытаемся обратить внимание на некоторые распространенные ошибки, но мы не можем перечислить их все. Основным правилом должно быть использование здравого смысла. Если результаты анализа не выглядят достаточно разумными, попытайтесь найти какую-то помощь. Не следует забывать, что статистика – это инструмент, который используется для того, чтобы понимать жизнь. Хотя понимание жизни может быть достаточно сложным, оно обычно не является извращенным. Прежде чем, базируясь на статистическом анализе, принять выводы, которые кажутся глупыми, проконсультируетесь с аналитиком, который имеет большой опыт. Большинство действительно революционных результатов полученных в результате анализа данных, базируется на ошибках ввода.
Запланированная регрессия.
Представьте себе исследователя, который заинтересован в оценке эффекта постоянных физических нагрузок при использовании стимулянтов, на потерю веса. Исследователь проводит эксперимент, привлекая 24 студента университета, и при этом этот эксперимент имеет 4 уровня стимулянтов и 3 уровня физических нагрузок. Имеется 24 человека, вошедших в этот эксперимент, и каждый случайным образом относится к определенному сочетанию уровней физической нагрузки и дозы стимулянта таким образом, что на каждую возможную комбинацию нагрузок и стимулянтов приходится по два студента, 12(3х4). Через три недели после начала исследования измеряется уменьшение веса (разность веса «до» и «после») для каждого пациента. Данные этого эксперимента могут выглядеть следующим образом:
Табл. Данные эксперимента по снижению веса
Обследованный
Доза стимулянта (мг/день)
Объем нагрузки (часы/неделя)
Потеря веса (фунты)
1
100
-4
2
100
3
100
5
-7
4
100
5
-6
5
100
10
-2
6
100
10
-14
7
200
-5
8
200
-2
9
200
5
-5
10
200
5
-8
11
200
10
-9
12
200
10
-9
13
300
1
14
300
15
300
5
-3
16
300
5
-3
17
300
10
-8
18
300
10
-12
19
400
-5
20
400
-4
21
400
5
-4
22
400
5
-6
23
400
10
-9
24
400
10
-7
Эти данные могут быть проанализированы либо как дисперсионный анализ (3х4), либо как множественная регрессия с двумя переменными. Регрессионный подход обычно предполагает, что эффект нагрузки и лекарства увеличивается линейным образом (т.е. лежит на прямой линии), дисперсионные модели не делают подобных допущений. Если мы будем использовать множественную регрессию, то тогда следующая программа даст нам желаемый результат.
DATA REGRESSN;
INPUT ID DOSAGE EXERCISE LOSS;
DATALINES;
1 100 0 -4
2 100 0 0
3 100 5 -7
… еще строки с данными…;
PROC REG DATA=REGRESSN;
TITLE 'Weight Loss Experiment - Regression Example';
MODEL LOSS = DOSAGE EXERCISE / P R;
RUN;
QUIT;
Первые три строки в данной программе создают набор данных. Процедура REG может строить большое количество регрессионных моделей. Команда MODEL указывает, что зависимая переменная (с левой стороны от знака равенства) называется LOSS, а две независимых (или предсказывающих) переменных (расположенных справа от знака равенства) – это переменные DOSAGE и EXERCISE. Опции «P» и «R» указывают, что мы хотим, чтобы были рассчитаны предсказанные значения и остаточные значения. Обратите внимание, что в конце процедуры используется команда QUIT. Процедура REG, так же как процедуры ANOVA и GLM рассматриваются как «интерактивные процедуры». Иными словами, после того, как была обнаружена команда RUN и процедура была выполнена, Вы можете выполнить дополнительные команды (сформулировав новые модели, например). Наверху строки окна SAS будет гореть надпись «Running» (Работа) до тех пор, пока не будет запущена для выполнения новая процедура, или пока не будет выполнена команда QUIT. Поэтому использование команды QUIT не является обязательным. Ниже представлены результаты работы этой программы:
Weight Loss Experiment - Regression Example
Model: MODEL1
Dependent Variable: LOSS
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 2 162.97083 81.48542 11.185 0.0005
Error 21 152.98750 7.28512
C Total 23 315.95833
Root MSE 2.69910 R-square 0.5158
Dep Mean -5.45833 Adj R-sq 0.4697
C.V. -49.44909
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 -2.562500 1.50884052 -1.698 0.1042
DOSAGE 1 0.001167 0.00492785 0.237 0.8151
EXERCISE 1 -0.637500 0.13495480 -4.724 0.0001
Dep Var Predict Std Err Std Err Student Cook's
Obs LOSS Value Predict Residual Residual Residual -2-1-0 1 2 D
1 -4.0000 -2.4458 1.142 -1.5542 2.445 -0.636 | *| | 0.029
2 0 -2.4458 1.142 2.4458 2.445 1.000 | |** | 0.073
3 -7.0000 -5.6333 0.922 -1.3667 2.537 -0.539 | *| | 0.013
4 -6.0000 -5.6333 0.922 -0.3667 2.537 -0.145 | | | 0.001
5 -2.0000 -8.8208 1.142 6.8208 2.445 2.789 | |***** | 0.566
6 -14.0000 -8.8208 1.142 -5.1792 2.445 -2.118 | ****| | 0.326
7 -5.0000 -2.3292 0.905 -2.6708 2.543 -1.050 | **| | 0.047
8 -2.0000 -2.3292 0.905 0.3292 2.543 0.129 | | | 0.001
9 -5.0000 -5.5167 0.604 0.5167 2.631 0.196 | | | 0.001
10 -8.0000 -5.5167 0.604 -2.4833 2.631 -0.944 | *| | 0.016
11 -9.0000 -8.7042 0.905 -0.2958 2.543 -0.116 | | | 0.001
12 -9.0000 -8.7042 0.905 -0.2958 2.543 -0.116 | | | 0.001
13 1.0000 -2.2125 0.905 3.2125 2.543 1.263 | |** | 0.067
14 0 -2.2125 0.905 2.2125 2.543 0.870 | |* | 0.032
15 -3.0000 -5.4000 0.604 2.4000 2.631 0.912 | |* | 0.015
16 -3.0000 -5.4000 0.604 2.4000 2.631 0.912 | |* | 0.015
17 -8.0000 -8.5875 0.905 0.5875 2.543 0.231 | | | 0.002
18 -12.0000 -8.5875 0.905 -3.4125 2.543 -1.342 | **| | 0.076
19 -5.0000 -2.0958 1.142 -2.9042 2.445 -1.188 | **| | 0.103
20 -4.0000 -2.0958 1.142 -1.9042 2.445 -0.779 | *| | 0.044
21 -4.0000 -5.2833 0.922 1.2833 2.537 0.506 | |* | 0.011
22 -6.0000 -5.2833 0.922 -0.7167 2.537 -0.283 | | | 0.004
23 -9.0000 -8.4708 1.142 -0.5292 2.445 -0.216 | | | 0.003
24 -7.0000 -8.4708 1.142 1.4708 2.445 0.601 | |* | 0.026
Sum of Residuals 0
Sum of Squared Residuals 152.9875
Predicted Resid SS (Press) 212.0359
Распечатка начинается с таблицы дисперсионного анализа, который выглядит практически так же, как он бы выглядел при выполнении стандартной процедуры дисперсионного анализа. Мы видим, что в данной модели имеется две степени свободы: одна степень свободы для переменной EXERCISE и одна для переменной DOSAGE. Имеется только одна степень свободы для каждой их этих переменных, поскольку регрессия оценивает одну единственную прямую линию для каждой переменной, а не оценивает некоторое количество средних в ячейке таблицы.
Сумма квадратов для данной модели (162.971) сообщает нам, какую часть дисперсии потери веса можно объяснить действиями переменных DOSAGE и EXERCISE (НАГРУЗКА и ДОЗИРОВКА). Средний квадрат для модели (81.485) равен сумме квадратов (162.971) деленный на количество степеней свободы для данной модели (2). Средний квадрат затем делится на средний квадрат ошибки (7.285) для того, чтобы получить F – статистику для регрессии (11.185), р-значения для этой статистики соответствуют 0,0005. «CTOTAL» означает «откорректированное общее» и указывает общее количество степеней свободы (23) и сумму квадратов (315.958) для зависимой переменной. При выполнении регрессии «откорректированное общее» количество степеней свободы всегда равняется общему размеру выборки минус один, поскольку одна степень свободы используется для того, чтобы оценить общее среднее. ROOT MSE (2.699) означает квадратный корень из среднего квадрата ошибки и соответствует в единицах стандартного отклонения дисперсии в системе, которая не может быть объяснена значениями переменных DOSAGE и EXERCISE (Нагрузка и Дозировка). DEP Mean (-5.458) - это всего лишь среднее зависимой переменной (LOSS). R-SQUARE (0,5158) – это квадрат множественного коэффициента корреляции между значениями переменных DOSAGE и EXERCISE и переменной LOSS. Его можно трактовать как процент дисперсии переменной LOSS, (которая может быть объяснена независимыми переменными). ADJ R-SQ (0,4697) – это откорректированное значение R-квадрата. Откорректированное значение R- квадрата - это количество переменных, которые были использованы в данном уравнении и оно немножко ниже, чем оценка объясненной дисперсии. C.V. (-49.449) обозначает коэффициент вариации, и он рассчитывается делением ROOT MSE на среднее, а затем умножением полученного результата на 100. C.V. иногда оказывается полезным, когда среднее и стандартное отклонения коррелируют друг с другом (как это бывает при анализе данных по доходам).
Нижняя часть распечатки показывает нам значения LOSS для каждой переменной, предсказанное значение и разность между ними (остаточные значения). В дополнение к этому идет столбец, помеченный «Student Residuals», который описывает остаточные значения в t-единицах, а также приводится дистанция Кука D, которая помогает нам оценить, насколько сильно данная точка воздействует на общие результаты регрессионного анализа. Большие абсолютные значения (2 или более) указывают на возможные проблемы в вашей модели или на точки, которые требуют большего внимания.
После того как мы объяснили термины, которые используются в таблице дисперсионного анализа для регрессии, давайте просуммируем, что мы можем вынести из этих данных. В основном таблица показывает, что независимые переменные связаны с зависимой переменной, (поскольку значения статистики F было значимым р = 0,0005). Более того, мы обнаружили, что примерно 50% дисперсии потери веса может быть объяснено двумя экспериментальными воздействиями. Многие исследователи более заинтересованы в статистике R- квадрат, чем в р-оценке, поскольку R- квадрат показывает, насколько сильно переменные связаны друг с другом. Нижняя часть распечатки содержит оценки параметров регрессионного уравнения. Оцениваются три параметра: (1) постоянный член уравнения, (2) коэффициент для переменной DOSAGE (Доза), и (3) коэффициент для переменной EXERCISE (Нагрузка). Оценка каждого параметра базируется на одной степени свободы (это всегда так для регрессионных уравнений). Для каждой оценки параметра оценивается стандартная ошибка вместе с t-статистикой и р-значением для этой t-статистики. t-статистика – это не что иное, как оценка параметра деленное на стандартную ошибку, и она базируется на количестве степеней свободы для ошибки (21 в данном случае).
Эта половина распечатки говорит нам, что на самом деле к потере веса приводили физические нагрузки. Регрессионный коэффициент для переменной DOSAGE статистически не отличается от нуля (р = 0,8151). Тот факт, что постоянный член уравнения не отличается достоверно от нуля, для нас не важен. Постоянный член уравнения в основном говорит нам, где регрессионная линия или плоскость (как в этом случае) пересекает ось-у, и он не объясняет никакой вариабельности.
В данной ситуации многие исследователи заново бы проанализировали свои данные при помощи регрессионного анализа, удалив переменную DOSAGE для того, чтобы лучше оценить влияние переменной EXERCISE. Поскольку это спланированный эксперимент, мы бы рекомендовали оставить регрессионное уравнение таковым, каково оно есть. Удаление переменной DOSAGE не оценит оказанное воздействие переменной EXERCISE, поскольку переменные DOSAGE и EXERCISE не связаны друг с другом (это было сделано сознательно на этапе планирования эксперимента). Когда независимые переменные в регрессии не связаны друг с другом, оценки регрессионного коэффициента не меняются при добавлении (или удалении) независимых переменных. В случае, когда независимые переменные коррелируют друг с другом, удаление переменной весьма сильно влияет на оценки регрессии и не тестирование гипотез.
Не экспериментальная регрессия.
Многие, если не все, анализы регрессионных данных проводятся на наборах данных, в которых независимые перемененные имеют некоторую степень связи друг с другом. Эти наборы данных, происходящие из не экспериментальных исследований, встречаются достаточно часто во всех областях науки. Это могут быть исследования факторов, которые воздействуют на сердечно-сосудистые заболевания или возникновение новых случаев рака; исследования, устанавливающие связь между характеристиками студентов и их достижениями, а также исследования, которые предсказывают экономические тенденции, все подобные исследования используют не экспериментальные данные. Потенциал для ошибок у исследователя, который использует не экспериментальный набор данных, очень высок. Для начинающего исследователя он практически неизбежен. Мы крайне рекомендуем обратиться к хорошему учебнику по этому вопросу (великолепным учебником, например, является книга Pedhazur «Множественная регрессия в поведенческих науках»), или проконсультироваться со специалистом по статистике. После того как мы сделали это предупреждение, давайте посмотрим на регрессионный анализ для не экспериментальных наборов данных.
Природа данных. Имеется достаточное количество поверхностных сходств между экспериментальными и не экспериментальными наборами данных. Во-первых, имеется одна или более переменная результата, или зависимая переменная. Во-вторых, имеется несколько независимых переменных (иногда достаточно много). Основные различия заключаются в том, что независимые переменные коррелируют друг с другом. Это связано с тем, что в не экспериментальных условиях исследователь определяет интересующую его популяцию (например, люди, перенесшие инфаркт миокарда; школьники шестого класса и т.д.), затем берет из этой популяции выборку и в ней измеряет переменные, которые его интересуют. Обычно целью исследования является объяснение дисперсии одной переменной, одной (или большим количеством) независимых переменных. До настоящего момента все кажется простым.
Проблема заключается в том, что корреляция между независимыми переменными приводит к тому, что регрессионные оценки меняются в зависимости от того, какие независимые переменные использовались для проведения анализа. Иными словами, влияние В на А зависит от того, было ли внесено в уравнение С или нет. Если С опущено, В выглядит достаточно влиятельным фактором, а если С включено, влияние В может полностью исчезнуть. Причиной этому является следующее: регрессионный коэффициент говорит нам об уникальном воздействии независимой переменной на зависимую переменную. Иными словами, коэффициент для В говорит нам, что В делает само по себе, когда оно не зависит от действия какой-то другой переменной. Если В является одной единственной переменной в уравнении, никаких проблем нет, но если мы добавляем С, и В и С коррелируют друг с другом, тогда уникальное влияние В на А будет меняться. Посмотрим, как это происходит на следующем примере.
Объектом данного исследования была случайная выборка школьников шестого класса из школы в центре города. У этих школьников были измерены следующие показатели:
1. ACH6: способности к чтению в конце шестого класса.
2. ACH5: способности к чтению в конце пятого класса.
3. APT: показатель вербальных способностей в пятом классе.
4. AТT: показатель отношения к школе в пятом классе.
5. INCOME: показатель, который измеряет доход родителей (в тысячах долларов в год).
Наш набор данных приведен ниже. (Обратите внимание на то, что это не настоящие данные).
ID
ACH6
ACH5
APT
ATT
INCOME
1
7.5
6.6
104
60
67
2
6.9
6.0
116
58
29
3
7.2
6.0
130
63
36
4
6.8
5.9
110
74
84
5
6.7
6.1
114
55
33
6
6.6
6.3
108
52
21
7
7.1
5.2
103
48
19
8
6.5
4.4
92
42
30
9
7.2
4.9
136
57
32
10
6.2
5.1
105
49
23
11
6.5
4.6
98
54
57
12
5.8
4.3
91
56
29
13
6.7
4.8
100
49
30
14
5.5
4.2
98
43
36
15
5.3
4.3
101
52
31
16
4.7
4.4
84
41
33
17
4.9
3.9
96
50
20
18
4.8
4.1
99
52
34
19
4.7
3.8
106
47
30
20
4.6
3.6
89
58
27
Целью исследования является понять, какие факторы определяют способности к чтению у школьников в этом районе. Следующая программа была написана для того, чтобы проанализировать эти данные:
DATA NONEXP;
INPUT ID ACH6 ACH5 APT ATT INCOME;
DATALINES;
1 7.5 6.6 104 60 67
2 6.9 6.0 116 58 29
… еще строки с данными…;
PROC REG DATA=NONEXP;
TITLE 'Nonexperimental Design Example';
MODEL ACH6 = ACH5 APT ATT INCOME /
SELECTION = FORWARD;
MODEL ACH6 = ACH5 APT ATT INCOME /
SELECTION = MAXR;
RUN;
QUIT;
Используя опцию SELECTION=FORWARD в процедуре REG, мы указали, что нам необходимо будет провести регрессию с включением переменных, при этом зависимой переменной является переменная ACH6 , а переменные ACH5, ART, ATT и INCOME являются независимыми. Каждая переменная будет протестирована и та, которая дает наибольшее значение F, будет внесена в модель первой (если р-значение для входа меньше, чем указанное значение, или значение по умолчанию). Поскольку мы не указали критерии для входа в модель, используется значение по умолчанию равное 0,5. Если мы хотим изменить значение р-оценки для включения в модель, мы можем включить в команду MODEL опцию SLENTRY = (наше значение р-оценки). Хотя мы не захотели этого демонстрировать, мы могли бы выполнить и пошаговую регрессию, (переменные, которые входят в модель, могут затем из модели выйти), когда мы можем указать р-значения для входа (с опцией SLENTRY = наше значение р-оценки), а также р-значения для оставления переменной в модели (со значением SLSTAY = наша р-оценка). Для метода выбора STEPWISE, по умолчанию используются значения входа и оставления в модели равные 0, 15.
Мы также хотели бы проанализировать нашу модель, используя технику MAXR. Прежде чем проанализировать распечатку, мы хотели бы коротенько обсудить пошаговую регрессию и не экспериментальные данные.
Пошаговый отбор переменных и другие методы отбора переменных.
Как указывалось ранее, если имеется не экспериментальный набор данных, независимые переменные не являются «независимыми» в полном смысле слова (в том смысле, что они обычно коррелируют друг с другом). Если эти корреляции имеют умеренный или высокий уровень (скажем, коэффициент корреляции будет 0,5 или выше), тогда регрессионные коэффициенты во многом находятся под воздействием того, какой поднабор независимых переменных был внесен в регрессионное уравнение. Если имеется некоторое количество независимых переменных, достаточно сложной задачей может оказаться выбор наилучшего набора этих переменных. Методы отбора переменных, включая пошаговую регрессию, были разработаны для того, чтобы помочь исследователям в нахождении этого, самого оптимального, поднабора данных. К сожалению, многие из этих методов очень часто используются неправильно. Проблема заключается в том, что со статистической точки зрения решения зачастую не являются наилучшими, с точки зрения понимания проблемы. Иными словами, объяснена большая часть дисперсии, регрессия не является разумной и не очень-то полезна. Мы обсудим это в деталях, когда будем анализировать распечатку.
Пошаговая регрессия рассматривает большое количество различных регрессионных уравнений. В основном целью пошаговой регрессии является: взять набор независимых переменных и поместить их в регрессионное уравнение по одной, каждый раз определенным образом, до тех пор, пока не будут добавлены все переменные (либо не будут выполняться определенные критерии). Этими критериями обычно являются критерии статистической значимости и улучшение процента объясненной дисперсии.
Программа SAS позволяет использовать несколько техник отбора переменных, среди них:
1. FORWARD (Отбор вперед): начинается с наилучшим предиктором, затем находит наилучший из тех, что остались, затем следующий наилучший и т.д.
2. BACKWARD (Отбор назад): начинает со включения всех переменных уравнения, затем выбрасывает из него самую плохую, обладающую наименьшей предиктивной силой, затем следующую наиболее плохую и т.д.
3. STEPWISE (Пошаговая): аналогична отбору вперед за исключением того, что имеется дополнительный шаг, в котором в каждом уравнении все переменные снова проверяются с целью проверки того, что они остаются значимыми даже после того, как была внесена новая переменная.
4. MAXR: достаточно сложная процедура, но в основном она пытается найти уравнение регрессии с одной переменной, которая имеет наибольшее значение общего квадрата корреляции. Затем пытается найти уравнение с двумя переменными, которые имеют наибольшие значения коэффициента множественной корреляции и т.д.
5. MINR: очень похожа на MAXR за исключением того, что система отбора данных немножко отличается.
Теперь давайте рассмотрим распечатку результатов программы:
Nonexperimental Design Example
Maximum R-square Improvement for Dependent Variable ACH6
Step 1 Variable ACH5 Entered R-square = 0.66909805 C(p) = 1.87549647
DF Sum of Squares Mean Square F Prob>F
Regression 1 12.17624633 12.17624633 36.40 0.0001
Error 18 6.02175367 0.33454187
Total 19 18.19800000
Parameter Standard Type II
Variable Estimate Error Sum of Squares F Prob>F
INTERCEP 1.83725236 0.71994457 2.17866266 6.51 0.0200
ACH5 0.86756297 0.14380353 12.17624633 36.40 0.0001
Bounds on condition number: 1, 1
---------------------------------------------------------------------------------------------
The above model is the best 1-variable model found.
Step 2 Variable APT Entered R-square = 0.70817380 C(p) = 1.76460424
DF Sum of Squares Mean Square F Prob>F
Regression 2 12.88734675 6.44367337 20.63 0.0001
Error 17 5.31065325 0.31239137
Total 19 18.19800000
Parameter Standard Type II
Variable Estimate Error Sum of Squares F Prob>F
INTERCEP 0.64269963 1.05397972 0.11615840 0.37 0.5501
ACH5 0.72475202 0.16813652 5.80435251 18.58 0.0005
APT 0.01824901 0.01209548 0.71110042 2.28 0.1497
Bounds on condition number: 1.463985, 5.855938
---------------------------------------------------------------------------------------------
The above model is the best 2-variable model found.
Step 3 Variable ATT Entered R-square = 0.71086255 C(p) = 3.61935632
DF Sum of Squares Mean Square F Prob>F
Regression 3 12.93627670 4.31209223 13.11 0.0001
Error 16 5.26172330 0.32885771
Total 19 18.19800000
Parameter Standard Type II
Variable Estimate Error Sum of Squares F Prob>F
INTERCEP 0.80013762 1.15586303 0.15758855 0.48 0.4987
ACH5 0.74739939 0.18222852 5.53198290 16.82 0.0008
APT 0.01972808 0.01298905 0.75861687 2.31 0.1483
ATT -0.00797735 0.02068119 0.04892995 0.15 0.7048
Bounds on condition number: 1.633564, 14.15998
---------------------------------------------------------------------------------------------
The above model is the best 3-variable model found.
Step 4 Variable INCOME Entered R-square = 0.72232775 C(p) = 5.00000000
DF Sum of Squares Mean Square F Prob>F
Regression 4 13.14492048 3.28623012 9.76 0.0004
Error 15 5.05307952 0.33687197
Total 19 18.19800000
Parameter Standard Type II
Variable Estimate Error Sum of Squares F Prob>F
INTERCEP 0.91164562 1.17841159 0.20161506 0.60 0.4512
ACH5 0.71373964 0.18932981 4.78747493 14.21 0.0019
APT 0.02393740 0.01419278 0.95826178 2.84 0.1124
ATT -0.02115577 0.02680560 0.20983199 0.62 0.4423
INCOME 0.00898581 0.01141792 0.20864378 0.62 0.4435
Bounds on condition number: 2.431593, 31.79315
---------------------------------------------------------------------------------------------
The above model is the best 4-variable model found.
No further improvement in R-square is possible.
Поскольку вначале был запрошен отбор переменных вперед, обратите внимание на то, что именно эта задача и была выполнена в первую очередь. В первом шаге данная техника выбрала ACH5 как первый регрессор, поскольку он имеет наивысший коэффициент корреляции зависимой переменной ACH6. R-квадрат (объясненная дисперсия) равняется 0,669, что является достаточно высоким коэффициентом корреляции. «Cp» – это статистика, которая используется для того, чтобы определить, какое количество переменных следует использовать в регрессии. Вам необходимо будет посмотреть на одну из книг, упомянутых в первой главе, или проконсультироваться с дружелюбным статистиком для того, чтобы получить помощь в интерпретации статистики Mallow’s Cp. Оставшиеся статистические показатели, перечисленные в этой распечатке, аналогичны тем, что были в распечатке действия процедуры REG, описанной ранее. На втором шаге система определила, что добавление APT приведет к наибольшему увеличению множественного коэффициента корреляции. Мы можем обратить внимание, что при этом сам R-квадрат увеличился всего лишь с 0,669 до 0,708 (увеличение достаточно небольшое). Более того, регрессионный коэффициент для APT оказался незначимым (р = 0,1497). Это указывает на то, что APT не дает нам какой-то дополнительной информации, не известной нам на основании изучения переменной ACH5. Большинство исследователей исключили бы эту переменную из модели и использовали бы модель с одной переменной (ACH5). После того, как был закончен второй этап анализа, техника отбора переменных вперед указывает на то, что ни одна другая переменная даже близко не оказывается к уровню значимости. На самом деле ни одна другая переменная даже не будет иметь значения 0,50 (мы обычно требуем, чтобы значение было меньше 0,05, хотя в регрессионном анализе достаточно часто уровень включения в модель устанавливается на 0,1).
Подход MAXR обнаруживает наилучшую модель с одной переменной, затем наилучшую модель с двумя переменными и т.д. до тех пор, пока не будет проанализирована полная модель (со всеми включенными переменными). Как можно видеть, обе эти техники приводят к одному и тому же выводу: ACH5 является наилучшим предиктором (причем достаточно мощным), поэтому ни одна другая переменная не должна быть включена в регрессионное уравнение с возможным исключением APT.
Однако здесь имеется одна проблема. Любой учитель шестиклассников может Вам сказать, что наилучшим предиктором того, как будет учиться ученик в шестом классе, является то, как он учился в пятом классе. Однако это мало что говорит нам. Было бы значительно более интересным посмотреть на APT, ATT и INCOME без ACH5 в регрессионном уравнении. Кроме того, было бы полезно сделать ACH5 зависимой переменной, и тогда APT ATT и INCOME являлись бы регрессорами. Конечно, это заставляет нас сделать достаточно много предположений. Имеется другая регрессионная техника, которая значительно облегчает возможность быстрого просмотра большего количества возможных вариантов. Это метод отбора RSQUARE в процедуре REG. Метод RSQUARE дает нам множественные значения коэффициента корреляции для любой комбинации из одной, двух, трех и т.д. переменных среди списка независимых переменных. Следующие команды генерируют все упоминавшиеся ранее регрессионные уравнения, а также модель с ACH5 в качестве зависимой переменной:
PROC REG DATA=NONEXP;
MODEL ACH6 = INCOME ATT APT ACH5 / SELECTION=RSQUARE;
MODEL ACH5 = INCOME ATT APT / SELECTION=RSQUARE;
RUN;
Результаты работы процедуры REG с опцией RSQUARE показаны ниже:
N = 20 Regression Models for Dependent Variable: ACH6
Number in R-square Variables in Model
Model
1 0.66909805 ACH5
1 0.38921828 APT
1 0.18113085 ATT
1 0.10173375 INCOME
------------------------------
2 0.70817380 APT ACH5
2 0.66964641 INCOME ACH5
2 0.66917572 ATT ACH5
2 0.45629702 INCOME APT
2 0.40687404 ATT APT
2 0.18564520 INCOME ATT
----------------------------------
3 0.71086255 ATT APT ACH5
3 0.71079726 INCOME APT ACH5
3 0.66967022 INCOME ATT ACH5
3 0.45925077 INCOME ATT APT
--------------------------------------
4 0.72232775 INCOME ATT APT ACH5
-------------------------------------------
N = 20 Regression Models for Dependent Variable: ACH5
Number in R-square Variables in Model
Model
1 0.31693268 APT
1 0.26115761 ATT
1 0.13195687 INCOME
------------------------------
2 0.41273318 INCOME APT
2 0.38784142 ATT APT
2 0.26422291 INCOME ATT
----------------------------------
3 0.41908115 INCOME ATT APT
--------------------------------------
Верхняя часть данной распечатки содержит все R-квадраты для каждой одно, двух, трех и четырех переменных регрессии с ACH6 в качестве переменной исхода. Из этой таблицы, можно очень быстро получить большой объем информации.
Предположим, что Вы пришли к выводу, что Вы не хотите включать ACH5 в качестве регрессора, Вы можете быстро обнаружить, что среди регрессионных уравнений с одной переменной, APT является лучшим регрессором (R-квадрат = 0,389). Следующий возникающий вопрос: «Каково наилучшее регрессионное уравнение с двумя переменными?» и «Насколько велико улучшение и стоит оно того, чтобы анализировать уравнение с двумя переменными?» Давайте посмотрим на регрессионное уравнение с двумя переменными, в которых имеется переменная APT:
R-квадрат для: APT- ATT = 0,407
APT -INCOME = 0,456
(Помните, что для данного анализа мы исключили уравнение с ACH5).
Наилучшим уравнением является уравнение, включающее в себя ATT и INCOME, с выигрышем 0,067, (которое рассчитывается как разность 0, 456 и 0,389). Стоит ли 6,7% объясненной дисперсии того, чтобы анализировать уравнение с двумя переменными? Возможно, да, хотя оно может быть и статистически незначимым, учитывая небольшой размер нашей выборки. Используя регрессию с ACH5 в качестве переменной результата, мы видим, что ATT и INCOME и здесь тоже выглядят как наилучший предиктор. Интерпретируя эти данные, мы можем придти к выводу, что отношение к учебе в комбинации с богатством родителей, являются достаточно мощными переменными, объясняющими достижения в умении читать. Важно помнить, что статистический анализ должен иметь и разумное объяснение. Возникает вопрос в том, как эти две переменные могут воздействовать на умение читать. Некоторые исследователи могут согласиться с тем, что APT – это психологическая переменная, а INCOME – это социологическая переменная и две этих переменных не должны быть внесены в одно и то же регрессионное уравнение. Хотя обсуждение этого вопроса находится за пределами данной книги, но надо иметь в виду, что когда мы анализируем не экспериментальную регрессию, лучше всего руководствоваться следующими двумя принципами:
1. Парсимония: по отношению к регрессорам - чем меньше, тем лучше. Другой регрессор будет позволять объяснить немножко больше, но очень часто это приводит к тому, что наше понимание затуманивается.
2. Здравый смысл: регрессор должен иметь логические взаимоотношения с зависимой переменной, кроме статистических взаимоотношений (ACH6 был бы великолепным предиктором ACH5, но логически это невозможно).
Когда используется регрессионный анализ, исследователь должен оценить обычные корреляции среди переменных. Команды, перечисленные ниже, приведут к генерации простой корреляционной матрицы среди всех, интересующих нас, переменных:
PROC CORR DATA=NONEXP NOSIMPLE;
VAR APT ATT ACH5 ACH6 INCOME;
RUN;
Распечатка результатов этой программы приведена ниже:
PROC REG DATA=NONEXP;
MODEL ACH6 = INCOME ATT APT ACH5 / SELECTION=RSQUARE;
MODEL ACH5 = INCOME ATT APT / SELECTION=RSQUARE;
RUN;
Результаты работы процедуры REG с опцией RSQUARE показаны ниже:
N = 20 Regression Models for Dependent Variable: ACH6
Number in R-square Variables in Model
Model
1 0.66909805 ACH5
1 0.38921828 APT
1 0.18113085 ATT
1 0.10173375 INCOME
------------------------------
2 0.70817380 APT ACH5
2 0.66964641 INCOME ACH5
2 0.66917572 ATT ACH5
2 0.45629702 INCOME APT
2 0.40687404 ATT APT
2 0.18564520 INCOME ATT
----------------------------------
3 0.71086255 ATT APT ACH5
3 0.71079726 INCOME APT ACH5
3 0.66967022 INCOME ATT ACH5
3 0.45925077 INCOME ATT APT
--------------------------------------
4 0.72232775 INCOME ATT APT ACH5
-------------------------------------------
N = 20 Regression Models for Dependent Variable: ACH5
Number in R-square Variables in Model
Model
1 0.31693268 APT
1 0.26115761 ATT
1 0.13195687 INCOME
------------------------------
2 0.41273318 INCOME APT
2 0.38784142 ATT APT
2 0.26422291 INCOME ATT
----------------------------------
3 0.41908115 INCOME ATT APT
--------------------------------------
Анализ простых корреляций часто приводит к более хорошему пониманию более сложного регрессионного анализа. Здесь мы можем видеть, почему ATT, который имеет достаточно хорошую корреляцию с ACH6, никогда не включается в финальную модель. Она достаточно сильно связана с доходами (r = 0,626) и APT (r = 0, 497). Какими бы ни были взаимоотношения этой переменной с ACH6, она является избыточной, когда мы включаем в анализ APT и INCOME. Обратите также внимание на то, что INCOME и АРТ не связаны друг с другом, что и приводит к тому, что они включаются в модель. Простые корреляции также защищают от неправильной интерпретации «подавляющих» переменных. Эти переменные чересчур сложны для того, чтобы обсуждать их здесь, однако их можно обнаружить, когда мы видим, что переменная значимо не коррелирует с зависимой переменной, но во множественной регрессии она имеет значимый регрессионный коэффициент (обычно отрицательный). Вы должны обратиться за помощью (к учебникам или консультанту), когда интерпретируете подобные переменные.
3.2. Факторный анализ
Факторный анализ позволяет определить, какое влияние на изучаемый показатель оказало изменение того или иного фактора.
В любой компании все показатели неразрывно связаны между собой (не будет продаж, не будет прибыли), также они в свою очередь зависят от различных внешних условий (курсы валют, объемы продаж у конкурентов, условия поставщиков и многое другое). Любые показатели компании и показатели внешних условий являются факторами как по отношению к какому-то расчетному показателю (рентабельность продаж, срок товарного кредита, оборачиваемость товаров и т.д.), так и по отношению друг к другу.
Факторный анализ представляет собой выявление числовой зависимости одного показателя (изучаемого) от других показателей (факторов), способных оказать влияние на изучаемый показатель.
Факторный анализ различается по способам его проведения.
Можно проводить факторный анализ методом цепных подстановок или по другому шаговый факторный анализ, от периода к периоду. При шаговом факторном анализе выявляется произошедшее изменение изучаемого показателя, после чего само изменение раскладывается на доли, вызванные влиянием каждого фактора (например, прибыль от продаж снизилась за один квартал на 6%, при чем снижение на 1% обусловлено снижением выручки, а снижение на 5% удорожанием цен поставщиков). Шаговый факторный анализ проводится в отношении показателей, которые нужно рассчитывать, например, прибыль, рентабельность активов, коэффициент заемных средств и т.д.
Шаговый факторный анализ может быть расширен путем раскрытия факторов, участвующих в расчете. Кроме того, можно строить модели шагового факторного анализа при помощи введения факторов, не принимающих участие в расчете изучаемого показателя, но оказывающих существенное влияние на изучаемый показатель.
При моделировании функциональных факторных моделей необходимо соблюдать ряд требований:
1. Факторы, включаемые в модель, должны реально существовать и иметь конкретное физическое значение.
2. Факторы, которые входят в систему факторного анализа, должны иметь причинно-следственную связь с изучаемым показателем.
3. Факторная модель должна обеспечивать измерение влияния конкретного фактора на общий результат.
В факторном анализе используют следующие виды наиболее часто встречающихся моделей:
1. Когда результативный показатель получается как алгебраическая сумма или разность результирующих факторов, применяются аддитивные модели, например:
Прибыль = Выручка - Себестоимость производственная - Управленческие расходы - Коммерческие расходы
2. Мультипликативные модели применяются, когда результирующий показатель получается как произведение нескольких результирующих факторов:
Рентабельность активов = Рентабельность продаж * Фондоотдача активов
Рентабельность активов = Прибыль/Среднегодовая стоимость активов
В свою очередь рентабельность активов может быть представлена в виде произведения:
(Прибыль/Выручка) * (Выручка/Среднегодовая стоимость активов)
Прибыль/Выручка - это Рентабельность продаж
Выручка/Среднегодовая стоимость активов - это Фондоотдача активов
3. Когда результативный показатель получаем делением одного фактора на другой, применяются кратные модели:
К кратной модели относится функция Рентабельность активов, равная отношению прибыли к среднегодовой стоимости активов.
4. Различные комбинации приведенных выше моделей представляют модели смешанные или комбинированные.
Рассмотренные выше модели представляют собой модели для проведения шагового факторного анализа, от периода к периоду. Не смотря на то, что существует возможность построить многофакторную модель изучаемого показателя, такой анализ не удобен громоздкостью расчетов при большом количестве факторов. Кроме того, расчеты искажаются из-за проблемы последовательности изменения факторов. Зачастую просто невозможно зафиксировать какой фактор изменился первым, а какие после, да еще в какой последовательности. Многие не уделяют внимание последовательности изменения факторов и, как результат, получают неверные расчеты.
Проблему громоздкости расчетов решает регрессионный анализ (статистический). Несмотря на то, что вычисления при создании модели нелегки, но, когда уже модель зависимости изучаемого показателя от выбранных факторов получена, строить прогнозы легко и удобно. Регрессионный анализ - это анализ не от периода к периоду. Такой анализ может быть проведен только, если аналитик располагает набором наблюдений: значений изучаемого показателя и его факторов за необходимый период времени. При чем, чем больше факторов участвуют в модели, тем больше наблюдений требуется для составления модели зависимости. В многофакторной регрессионной модели (множественной регрессии) на первый план выступает определение «наилучших» мест факторов в модели. Неоспоримым преимуществом регрессионных моделей факторного анализа является возможность для введения в модель нечисловых переменных, по другому называемых фиктивными переменными. Такими фиктивными переменными могут быть события или обстоятельства: к примеру, смена руководства, проведение рекламных или маркетинговых акций, рост деловой репутации и многое другое, что не имеет числовых выражений. В итоге может быть спрогнозировано изменение изучаемого показателя от изменения событий (обстоятельств). Предназначением регрессионного факторного анализа является прогнозирование изменений изучаемого показателя от изменения того или иного фактора модели. Таким образом, регрессионный анализ позволяет не только оценить влияние факторов, но и строить прогнозы будущих изменений. Прогнозирование на базе шагового факторного анализа не имеет смыслового значения как раз в силу ограниченности в использовании наблюдений.
Значение факторного анализа сложно переоценить. Методы проведения шагового и регрессионного анализа различны, в каждом есть свои трудности, но вместе с тем оба метода полезны и каждый в отдельности позволяет получить интересные и ценные результаты при правильном применении.
3.3. Дискриминантный анализ
Если критериальный показатель z измерен в номинальной шкале или связь этого показателя с исходными признаками является нелинейной и носит неизвестный характер, для определения параметров диагностической модели используются методы дискриминантного анализа. В этом случае испытуемые, результаты обследования которых представлены в ТЭД, в соответствии с внешним критерием разбиваются на группы (классы), а эффективность диагностической модели рассматривается под углом зрения ее способности разделять (дискриминировать) диагностируемые классы.
Большая группа методов дискриминантного анализа в той или иной мере основана на байесовской схеме принятия решения о принадлежности объектов диагностическим классам. Байесовский подход базируется на предположении, что задача сформулирована в терминах теории вероятностей и известны все представляющие интерес величины: априорные вероятности P(ωi) для классов ωi(i=1,K) и условные плотности распределения значений вектора признаков Р(х/ωi). Правило Байеса заключается в нахождении апостериорной вероятности Р(ωi/х), которая вычисляется следующим образом:
Решение о принадлежности объекта хk к классу ωj принимается при выполнении условия, обеспечивающего минимум средней вероятности ошибки классификации:
Если рассматриваются два диагностических класса ω1 и ω2, то в соответствии с этим правилом принимается решение ω1 при Р (ω1/х )>Р( ω2/х) и ω2 при P(ω2/x)>Р(ω1/x). Величину Р(ωi/х) в правиле Байеса часто называют правдоподобием ωi при данном х и принятие решения осуществляется через отношение правдоподобия или через его логарифм:
Для дихотомических признаков, с которыми во многих случаях приходится иметь дело при конструировании психодиагностических тестов, р-мерный вектор признаков х может принимать одно из n=2р дискретных значений v1,...,vn. Функция плотности Р(х/ωi) становится сингулярной и заменяется на Р(vk/ωi) — условную вероятность того, что х=vk при условии класса ωi. На практике в дискретном случае, как и в непрерывном, когда число исходных признаков xi велико, определение условных вероятностей встречает значительные трудности и зачастую не может быть осуществлено. Это связано, с одной стороны, с нереальностью даже простого просмотра всех точек дискретного пространства дихотомических признаков. Так, например, если использовать в качестве исходных признаков для построения диагностического правила утверждения тест-опросника MMPI, то р=550 и тем самым n=2550. С другой стороны, даже при гораздо меньшем количестве признаков для достоверной оценки условных вероятностей необходимо иметь результаты обследования весьма большого количества испытуемых.
Распространённым приемом преодоления указанных трудностей служит модель, в основе которой лежит допущение о независимости исходных дихотомических признаков. Пусть для определенности компоненты вектора х принимают значения 1 либо 0. Обозначим pi=Р(xi=1/ωi) — вероятность того, что признак xi равен 1 при условии извлечения объектов из диагностического класса ω1, и qi=Р(xi=1/(ω2) — вероятность равенства 1 признака xi в классе ω2. В случае pi>qi следует ожидать, что z-й признак будет чаще принимать значение 1 в классе ω1, нежели в ω2. В предположении о независимости признаков можно представить Р(х/ωi) в виде произведения вероятностей:
Логарифм отношения правдоподобия в этом случае определяется следующим образом:
Видно, что данное уравнение линейно относительно признаков xi. Поэтому можно записать:
где весовые коэффициенты
а величина порога
Если L(xk)>0, то принимается решение о принадлежности объекта хk к диагностическому классу ω1, а если L(xk)<0, то ω2.
Приведенный результат аналогичен рассмотренным выше схемам лцнейного регрессионного анализа для независимых признаков. Можно выразить значения рi и qi с помощью обозначений, принятых для элементов таблицы сопряженности дихотомических признаков (см. табл. 2) Здесь в качестве одного из двух дихотомических признаков будет выступать индекс диагностического класса ωi. Подставив эти обозначения в логарифм, получим wi=log(bc/ad). To есть выражение для вычисления весовых коэффициентов в байесовской решающей функции для независимых признаков дает значения wi, монотонно связанные с коэффициентом Пирсона φ, который в ряде случаев может использоваться при определении коэффициентов уравнения линейной регрессии.
Результаты дискриминантного и регрессионного анализа для случая двух классов во многом совпадают. Различия проистекают в основном из-за применения разных критериев эффективности диагностической модели. Если интегральным показателем качества регрессионного уравнения служит квадрат коэффициента множественной корреляции с внешним критерием, то в дискриминантном анализе этот показатель, как правило, сформулирован относительно вероятности ошибочной классификации (ВОК) исследуемых объектов. В свою очередь, для вскрытия взаимосвязи ВОК со структурой экспериментальных данных в дискриминантном анализе широко используются геометрические представления о разделении диагностируемых классов в пространстве признаков. Воспользуемся этими представлениями для описания других, отличных от байесовского, подходов дискриминантного анализа.
Совокупность объектов, относящихся к одному классу ωi, образует «облако» в р-мерном пространстве Rp, задаваемом исходными признаками. Для успешной классификации необходимо, чтобы:
а) облако из ωi в основном было сконцентрировано в некоторой области Di пространства Rp;
б) в область Di попала незначительная часть «облаков» объектов, соответствующих остальным классам.
Построение решающего правила можно рассматривать как задачу поиска К непересекающихся областей Di(i=l,K), удовлетворяющих условиям а) и б). Дискриминантные функции (ДФ) дают определение этих областей путем задания их границ в многомерном пространстве Rp. Если объект х попадает в область Di, то будем считать, что принимается решение о принадлежности объекта к ωi. Обозначим Р (ωi/ωj) — вероятность того, что объект из класса ωj ошибочно попадает в область Di, соответствующую классу ωi. Тогда критерием правильного определения областей А будет
где Р(ωi — априорная вероятность появления объекта из ωi. Критерий Q называется критерием средней вероятности ошибочной классификации. Минимум Q достигается при использовании, в частности, рассмотренного выше байесовского подхода, который, однако, может быть практически реализован только при справедливости очень сильного допущения о независимости исходных признаков и в этом случае дает оптимальную линейную диагностическую модель. Большое количество других подходов также использует линейные дискриминантные функции, но при этом на структуру данных накладываются менее жесткие ограничения. Рассмотрим основные из этих подходов.
Для случая двух классов ω1 и ω2 методы построения линейной дискриминантной функции (ЛДФ) опираются на два предположения. Первое состоит в том, что области D1 и D2, в которых концентрируются объекты из диагностируемых классов ω1 и ω2, могут быть разделены
(р-1) - мерной гиперплоскостью у(х)+wo=w1x1+w2x2+...+wpxp+w0=0. Коэффициенты wi в данном случае интерпретируются как параметры, характеризующие наклон гиперплоскости к координатным осям, a wo называется порогом и соответствует расстоянию от гиперплоскости до начала координат. Преимущественное расположение объектов одного класса, например ω1, по одну сторону гиперплоскости выражается в том, что для них, большей частью, будет выполняться условие у(х)<0, а для объектов другого класса ω2 — обратное условие у(х)>0. Второе предположение касается критерия качества разделения областей D1 и D2 гиперплоскостью у(х)+wo=0. Наиболее часто предполагается, что разделение будет тем лучше, чем дальше отстоят друг от друга средние значения случайных величин m1=Е{у(х)}, хєω1 и m2=Е{у(х)}, хєω2 , где Е{•} — оператор усреднения. В простейшем случае полагают, что классы ω1 и ω2 имеют одинаковые ковариационные матрицы S1=S2=S. Тогда вектор оптимальных весовых коэффициентов w определяется следующим образом:
где μi — вектор средних значений признаков для класса ωi. Весовые коэффициенты обеспечивают максимум критерия
где σ2у — дисперсия у(х), полагаемая одинаковой для обоих классов. Максимальное значение h2(w) носит название расстояния Махаланобиса между классами ω1 и ω2 и равно
Для определения величины порога wo вводят предположение о виде законов распределения объектов. Если объекты каждого класса имеют многомерное нормальное распределение с одинаковой ковариационной матрицей S и векторами средних значений μi, то пороговое значение wo, минимизирующее критерий Q, будет
Верно следующее утверждение об оптимальности ЛДФ: если объекты из ωi(i=l,2) распределены согласно многомерному нормальному закону с одинаковой ковариационной матрицей, то решающее правило w'x>w0, параметры которого определены, является наилучшим в смысле критерия средней вероятности ошибочной классификации.
Для случая, когда число классов больше двух (К>2), обычно определяется К дискриминантных весовых векторов (направлений)
и пороговые величины
Объект х относится к классу ωi, если выполняется
условие: где gj(x)=wj'/x—woj.
В формулы вычисления пороговых значений wo и woi входят величины априорных вероятностей Р(ωi). Априорная вероятность Р(ωi) соответствует доле объектов, относящихся к классу ωi в большой серии наблюдений, проводящейся в некоторых стационарных условиях. Обычно Р(ωi) неизвестны. Поэтому при решении практических задач, не меняя дискриминантных весовых векторов, эти значения задаются на основании субъективных оценок исследователя. Также нередко полагают эти значения равными или пропорциональными объемам обучающих выборок из рассматриваемых диагностических классов. Другой подход к определению параметров линейных дискриминантных функций использует в качестве критерия соотношение внутриклассовой дисперсии проекций объектов на направление у(х)=w'x с общей дисперсией проекций объединенной выборки. Обычно используются те же предположения, что и в предыдущем случае. А именно, классы ωi(i=l,K) представлены совокупностями нормально распределенных в р-мерном пространстве объектов с одинаковыми ковариационными матрицами S и векторами средних значений μi. Обозначим С — ковариационную матрицу объединенной совокупности объектов объема , где μ0 — вектор средних значений этой совокупности. Выражение С через S и дается следующей формулой:
Дисперсия проекций всей совокупности объектов на направление у(х) составит c2у=w'Cw, а внутриклассовая дисперсия будет S2y=w'Sw. Таким образом, критерий оптимальности выбранного направления у(х) для разделения классов ωi запишется в следующем виде:
Это отношение показывает, во сколько раз суммарная дисперсия, которая обусловлена как внутриклассовым разбросом, так и различиями между классами, больше дисперсии, обусловленной только внутриклассовым разбросом. Весовой вектор w, удовлетворяющий данному уравнению, исходя из рассмотренной ранее геометрической интерпретации линейной диагностической модели, задает новую координатную ось в р-мерном пространстве y(x)=w'x (||w||=1) с максимальной неоднородностью исследуемой совокупности объектов. Новой переменной у(х)=w'x соответствует, no-существу, первая главная компонента объединенной совокупности объектов, полученная с учетом дополнительной обучающей информации о принадлежности объектов диагностическим классам ωi. Весовой вектор w, при котором достигается максимальное значение критерия оптимальности выбранного направления, определяется в результате решения обобщенной задачи на собственные значения
Всего существует р собственных векторов, удовлетворяющих приведенному уравнению. Эти векторы упорядочивают по величине собственных чисел l1>l2>...>lp и получают систему ортогональных канонических направлений w1, ..., wp.
Минимальное значение отношения
равно 1 и означает, что для выбранного направления w весь имеющийся разброс переменной у(х) объясняется только внутриклассовым разбросом и не несет никакой информации о различии между классами ωi. Для случая К=2 оценка весового дискриминантного вектора wF=S-1(μ1-μ2) является собственным вектором для (C-1S)w=0 с собственным числом lF=T2+1. Любой вектор, ортогональный wF, будет также решением (C-1S)w=0 с собственным значением равным единице. Поэтому для ответа на вопрос, какое число n<р канонических направлений необходимо учесть при К>2, чтобы не потерять информацию о межклассовых различиях, проверяют гипотезу Hо о равенстве единице последних р-n собственных чисел. Там же достаточно подробно для практического применения рассматриваются некоторые другие аспекты дискриминантного анализа.
Рассмотренные выше методы определения дискриминантных весовых векторов приводят к оптимальным результатам при соблюдении достаточно жестких условий нормальности распределений объектов внутри классов и равенства ковариационных матриц Si. В практике психодиагностических исследований эти условия, как правило, не выполняются. Но отклонения реальных распределений объектов от нормального и различия ковариационных матриц, которые в отдельных случаях хорошо теоретически изучены, не являются главными причинами ограниченного применения классических формул дискриминантного анализа. Здесь, как и при построении регрессионных психодиагностических моделей, качественный и дихотомический характер признаков, их большое количество и наличие групп связанных признаков обусловливают применение «грубых» алгоритмов нахождения дискриминантных функций. Данные алгоритмы также в основном сводятся к отбору информативных признаков с помощью эвристических процедур k — лучших признаков и последовательного увеличения и уменьшения группы признаков. Отличие указанных процедур заключается в иных критериях оптимальности признаков, чем при построении регрессионных моделей. Такие критерии в дискриминантном анализе формулируются относительно средней вероятности ошибочной классификации и часто мерой информативности признака при его добавлении в группу признаков или исключения из группы, не зависящей от объема группы, служит где Т2 — расстояние Махаланобиса между двумя диагностируемыми классами ω1 и ω2;
с-1=N1-1+N2-1. В целом можно заключить, что для двух классов методы дискриминантного анализа во многом аналогичны методам регрессионного анализа. Расширением по отношению к регрессионной схеме в дискриминантном анализе служит представление о разделяющих границах диагностируемых классов, которое может приводить к более изощренным формам этих границ и процедурам их нахождения.
Типологический подход
Публикации, посвященные типологическому подходу, обычно рассматривают его в рамках психопрогностики. Известна точка зрения, которая разделяет психопрогностику и психодиагностику. В то же время с позиции формального математического аппарата психопрогностика и психодиагностика имеют много общего. И в том и в другом случае испытуемый описывается набором чисел (р-мерным вектором признаков), точно так же каждому испытуемому ставится в соответствие значение некоторого критериального показателя z, и задача состоит в том, чтобы построить математическую модель, имеющую максимальную корреляцию с z или дискриминирующую испытуемых подобно z. Конечно, чем продолжительнее временной интервал, на который распространяется прогноз, тем с более серьезными трудностями сталкивается исследователь при определении критериального показателя и тем сложнее может оказаться структура модели у=у(х). Но, так или иначе, в данном изложении не будет проводиться граница между понятиями психопрогностики и психодиагностики, а внимание будет сконцентрировано большей частью на феноменологии процедуры обработки экспериментальных данных, получившей название типологического подхода.
Целесообразность применения типологического подхода обусловлена недостаточной эффективностью линейных диагностических моделей. Отмечается, что это простейший способ интеграции индивидуальных факторов в реальное поведение и что психологические факторы могут взаимодействовать более сложным образом. Рассматриваются проблемы построения диагностических моделей в целях профотбора и указывается, что, как правило, совокупность обследуемых кандидатов идеализированно считается однородной выборкой из некоторой генеральной совокупности и модель прогнозирования успешности профессиональной деятельности оказывается усредненной для всех испытуемых, включенных в обследование. Это приводит к снижению доли совпадения прогноза с реальной профессиональной успешностью, которая в данном случае практически никогда не превышает 70-80%. Далее рассуждения приведенных выше авторов хотя и несколько различаются, но приводят к одинаковым выводам. Эти рассуждения примерно таковы.
В условиях неоднородности обучающей выборки линейные диагностические модели должны смениться нелинейными. Однако решение задачи построения нелинейных моделей затруднено из-за отсутствия априорных сведений о виде искомых функций у=у(х). В таких случаях эффективный результат может быть достигнут с помощью методов кусочно-линейной аппроксимации у=у(х). В свою очередь, успешность кусочно-линейной аппроксимации зависит от того, насколько хорошо удается разбить испытуемых на однородные группы, для каждой из которых в отдельности строится собственная линейная диагностическая модель. Это можно рассматривать как индивидуализацию диагностического правила, которая заключается в выборе одной из нескольких функций у=у(х) для каждого испытуемого с учетом его принадлежности той или иной группе.
Таким образом, процедура построения диагностической модели состоит из двух этапов. На первом этапе производится разбиение всего множества испытуемых X={хi}, i=1,N на М однородных групп Gj(X=UGj), j = 1,M. На втором этапе для каждой группы Gj вырабатывается линейное диагностическое правило yj=yj(х) с помощью рассмотренных выше методов линейного регрессионного или дискриминантного анализа. Соответственно процедура собственно диагностики также осуществляется в два приема. Сначала определяется принадлежность испытуемого хi к одной из ранее выделенных групп Gj и затем для диагностики хi применяется требуемая диагностическая модельyj=yj(х).
«Слабое звено» данного подхода заключается в трудно формализуемом и нечетком определении понятия однородности группы объектов. Как известно, задаче разбиения объектов на однородные группы уделяется значительное место в общей проблематике анализа данных. Методы решения этой задачи носят разные названия: автоматическая классификация, распознавание без учителя, таксономия, кластерный анализ, расщепление смеси и т. д., но имеют одинаковую сущность. Все они в явной или неявной форме опираются на категорию близости (различия) объектов в пространстве признаков. Для решения задачи выделения однородных групп объектов исследования необходимо дать ответы на три основных вопроса:
а) какие признаки будут считаться существенными для описания объектов?
б) какая мера будет применяться для измерения близости объектов в пространстве признаков?
в) какой будет выбран критерий качества разбиения объектов на однородные группы?
На каждый из приведенных вопросов существует много вариантов ответов, и в зависимости от выбранного ответа можно получить совершенно различные разбиения объектов на однородные группы. Поэтому решение конкретной задачи выделения однородных групп объектов всегда не лишено субъективной оценки исследователя. В следующей главе будут более подробно рассмотрены возможные алгоритмы разбиения множества объектов на группы в рамках общей проблемы анализа многомерной структуры экспериментальных данных. Здесь же ограничимся рекомендациями, полезность которых подтверждена значимыми практическими результатами.
Рекомендуется для группирования испытуемых отбирать признаки, хорошо дискриминирующие массив исходных данных и слабо коррелирующие между собой. Кроме того, набор этих признаков должен быть минимизирован. Предлагается выделять группировки объектов в пространстве общих факторов, полученных методами факторного анализа исходного пространства признаков. И в той и в другой работе важное, если не решающее, значение придается психологическому осмыслению выделяемых группировок испытуемых. Возможность четкой интерпретации полученных группировок как определенных психологических типов служит достаточно веским доводом в пользу не случайного разбиения испытуемых на группы, которое могло бы произойти под действием какого-либо иррелевантного решаемой диагностической задаче фактора (отсюда, собственно, и проистекает название «типологический подход»).
Оценка качества диагностической модели, полученной в результате применения типологического подхода, обычно осуществляется путем сравнения с обычной линейной диагностической моделью, построенной без разделения объектов обучающей выборки на группы. Например, используется следующий показатель
где σ20 — остаточная дисперсия обычной линейной регрессионной модели, а σ2T вычисляется по формуле
Здесь σ2j — остаточная дисперсия регрессионной диагностической модели уj= уj(х) для группировки Gj, определяемая из выражения
где N — общее количество испытуемых;
Nj — число испытуемых в группировке Gj;
М — число группировок.
Также для проверки гипотезы об идентичности обычной линейной регрессионной модели и набора регрессионных уравнений уj=yj(х) может быть использован F-критерий Фишера
Эффективность типологического подхода по сугубо формальным соображениям не может быть ниже эффективности обычной линейной диагностической модели, которую можно рассматривать как вырожденный случай кусочно-линейной модели. В то же время кроме практического выигрыша типологический подход имеет определенную теоретическую ценность — он раскрывает взаимосвязь диагностики психологических черт, как группировок признаков, и психологических типов, как группировок испытуемых. Идеалом типологического подхода, является разработка такого метода, который позволит для каждой отдельной индивидуальности выбирать оптимальную диагностическую модель.
3.4. Многомерное шкалирование
Основной вопрос, которым задается пользователь информационной системы, формулируется следующим образом:
«Возможно ли построить на имеющемся множестве данных сколько-либо разумную (естественную, полезную) систему отношений?»
Поэтому подавляющее большинство разрабатываемых статистических моделей, так или иначе связано с классификацией. У истоков любой модели всегда лежит замысел человека научить компьютер «отличать одно от другого», т.е. по значению прогнозируемого показателя-отклика явно или неявно оценить некоторую категориальность изучаемого объекта, процесса или явления. Например, хочется:
а) определить степень («класс») техногенного преобразования участков территории;
б) узнать, является ли скорость депонирования фосфора большой или маленькой;
в) предположить, что в ходе эволюции плотность популяции будет возрастать или убывать;
г) оценить, насколько опасным для здоровья является действие того или иного химического вещества,
т.е. в конечном итоге что-то расклассифицировать. Получив результаты моделирования, исследователь чаще всего начинает выполнять диагностику, т.е. сравнивать между собой изучаемые объекты, процессы или явления по выделенным отличительным признакам классов (или «дискриминирующим правилам»). Здесь было бы кстати упомянуть, что само классифицирование является своеобразной «сверткой» исходных информационных таблиц, поскольку число выделяемых классов всегда меньше, чем уникальных объектов, т.е. в итоге получается по возможности лаконичное, наглядное и полезное представление данных в пространстве существенно меньшей размерности. В то же время, математические методы редукции пространства признаков сами являются одним из эффективных средств классифицирования.
Задача кластерного анализа состоит в выяснении по эмпирическим данным, каким образом элементы «группируются» или распадаются на изолированные «скопления», «кластеры» (cluster (англ.) — гроздь, скопление), причем никаких априорных предположений о классовой структуре, как правило, не делается. Иными словами, задача — выявление естественного разбиения на классы, свободного от субъективизма исследователя, а цель—выделение групп однородных объектов, сходных между собой, при резком отличии этих групп друг от друга.
Абсолютное большинство методов кластеризации основывается на анализе квадратной и симметричной относительно главной диагонали матрицы D коэффициентов сходства (расстояния, сопряженности, корреляции и т.д.) между объектами исходной матрицы наблюдений:
В ЭИС REGION реализована возможность расчета матрицы D по заданному набору показателей с использованием различных формул для меры дистанции, выбираемых пользователем. Наиболее общей формулой для подсчета расстояния в m-мерном признаковом пространстве между объектами X1 и X2 является мера Минковского:
, где r и p – параметры, определяемые исследователем, с помощью которых можно прогрессивно увеличить или уменьшить вес, относящийся к переменной i, по которой соответствующие объекты наиболее отличаются. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r определяет прогрессивное взвешивание больших расстояний между объектами.
Мера расстояния по Евклиду получается, если метрике Минковского положить r=p=2, и является, по-видимому, наиболее общим типом расстояния, знакомым всем по школьной теореме Пифагора, – геометрическим расстоянием в многомерном пространстве, которое вычисляется следующим образом:
.
Заметим, что евклидово расстояние может быть вычислено как по исходным, так и по стандартизованным данным (например, нормированным на интервале от 0 до 1).
При r=p=1 метрика Минковского дает «расстояние городских кварталов» (манхэттенское расстояние), которое является просто суммой разностей по координатам:
.
В большинстве случаев эта мера расстояния приводит к таким же результатам, что и обычное расстояние Евклида. Однако отметим, что для нее влияние отдельных больших разностей (выбросов) уменьшается, так как они не возводятся в квадрат.
При r = p имеем метрику доминирования (она же, супремум-норма или расстояние Чебышева), которая вычисляется по формуле:
DT(X1, X2) = max | x1i – x2i |.
Это расстояние может оказаться полезным, когда желают определить два объекта как «различные», если они различаются по какой-либо одной лимитирующей координате (каким-либо одним измерением).
Отдавая дань устоявшимся экологическим традициям, в алгоритм формирования матрицы D был включен еще нескольких десятков выражений, часто применяемых для различных шкал (меры сходства Жаккара и Съеренсена, коэффициент корреляции Пирсона, коэффициент Гауэра и т.д.)
Программные средства ЭИС REGION обеспечивают расчет компонентов матрицы расстояний D с использованием любой из перечисленных выше концепций или формул, что не имеет принципиального значения для работы собственно алгоритмов классификации, которые реализуются с использованием внешних пакетов прикладных программ. С этой целью реализован вывод сформированной матрицы в файл формата ППП Statistica 5.5.
3.5. Кластерный анализ
Кластерный анализ включает в себя набор различных алгоритмов классификации, сутью которых является группировка данных в наглядные структуры (таксоны). К этому семейству алгоритмов относятся: иерархическое объединение (древовидная кластеризация), двувходовое объединение, метод К-средних и др.
Пусть исходные данные — матрица сходства ||d(x, y)|| , где d(х, у) - некоторая мера близости между каждой парой классифицируемых объектов x и y. Хорошо известно, что для любого заданного разбиения объектов на группы и любого > 0 можно указать метрику, такую, что расстояния между объектами из одной группы будут меньше , а между объектами из разных групп — больше 1/ . Тогда любой разумный алгоритм кластеризации даст именно заданное разбиение.
Наиболее часто применяется так называемый агломеративный иерархический алгоритм «Дендрограмма», отдельные версии которого отличаются правилами вычисления расстояния между кластерами. Рассмотрим, к примеру, один определенный алгоритм — алгоритм средней связи. На первом шаге каждый объект рассматривается как отдельный кластер. На каждом следующем шаге объединяются две ближайших кластера. Расстояние между кластерами рассчитывается как средняя связь (отсюда и название алгоритма), т.е. как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой — во второй. В конце концов, все объекты объединяются вместе, и результат работы алгоритма представляет собой дерево последовательных объединений (в терминах теории графов), или «Дендрограмму». Из нее можно выделить кластеры разными способами. Один подход — исходя из заданного числа кластеров. Другой — из соображений предметной области. Третий — исходя из устойчивости (если разбиение долго не менялось при возрастании порога объединения, значит оно отражает реальность) и т.д.
К алгоритму средней связи естественно сразу добавить:
• алгоритм ближайшего соседа, когда расстоянием между кластерами считается минимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой — во второй;
• алгоритм дальнего соседа, когда расстоянием между кластерами считается максимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой — во второй.
• невзвешенный и взвешенный центроидный метод, метод Уорда, использующий методы дисперсионного анализа для оценки расстояний между кластерами) и др.
Каждый из описанных алгоритмов (средней связи, ближайшего соседа, дальнего соседа), порождает бесконечное (континуальное) семейство алгоритмов кластер-анализа. Дело в том, что величина d (х, у), > 0, также является мерой близости между х и у и порождает новый алгоритм. Если параметр пробегает отрезок, то получается бесконечно много алгоритмов классификации. При этом каждое полученное разбиение на классы, разумеется, не является «реальными», поскольку отражает, прежде всего, свойства алгоритма, а не исходных данных.
В качестве критерия естественности классификации можно рассматривать устойчивость относительно выбора алгоритма кластер-анализа. Проверить устойчивость можно, применив к данным несколько подходов, например, столь непохожие алгоритмы, как «ближайшего соседа» и «дальнего соседа». Если полученные результаты содержательно близки, то классификации адекватны действительности. В противном случае следует предположить, что естественной классификации не существует и задача кластер-анализа не имеет решения.
Кроме иерархических методов классификации большое распространение получили также различные итерационные процедуры, которые пытаются найти наилучшее разбиение, ориентируясь на заданный критерий оптимизации, не строя при этом полного дерева (метод К-средних Мак-Кина, алгоритмы «Форель», «Медиана», «Краб» и т.д.). Итерационный процесс начинается, как правило, с K случайно выбранных кластеров, а затем изменяется принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Для этих алгоритмов важной является «проблема остановки»: завершится ли процесс улучшения положения центра кластера через конечное число шагов или же он может быть бесконечным.
В качестве вычислительного примера реализации кластерного анализа сформируем произвольную многомерную выборку из базы данных по Волжскому бассейну, составляющую некоторый набор из 15 следующих показателей, полученных по состоянию на 2000-2001 гг. и преобразованных в нормированную шкалу:
Наименование
Шифр
Валовый региональный продукт, млн.руб./чел.
E_VP
Плотность населения, тыс.чел./кв.км
E_PN
Производство электроэнергии, млн.кВт в час/чел.
E_PE
Общие затраты на природоохранные мероприятия в различных средах
E_ZP
Внесение минеральных удобрений, кг/га
C_MU
Сумма использованных пестицидов, кг/га всей посевной площади
C_SP
Сброс загрязненных сточных вод, куб.м/чел.
Z_SV
Удельный вес проб, не отвечающих гигиеническим номативам по санитарно-токсикологическим показателям
Z_KP
Суммарные выбросы в атмосферу загрязняющих веществ, т/чел.
Z_VA
Выбросы в атмосферу от автомобильного транспорта,т/чел.
Z_AA
Образование токсичных отходов, т/чел.
Z_TO
Общая заболеваемость на 1000 чел.
M_OZ
Болезни органов дыхания на 1000 чел.
M_OD
Смертность от рака кожи на 100 тыс. чел.
M_RK
Число умерших детей в возрасте до 1 года на 1000 родившихся
M_DS
На рис. 7 приведены дендрограммы иерархической классификации административных единиц Волжского бассейна с использованием различных методов и метрик для матрицы расстояний объектов по всему представленному списку показателей. На рис. 8 показано разбиение тех же точек на 5 заданных классов с использованием итеративной процедуры к-средних Мак-Кина, локализующей сгущения в многомерном пространстве из 15 признаков. Характер полученных классификаций может быть оценен как умеренно размытый. Все алгоритмы устойчиво подчеркивают абсолютную уникальность Московской обл., хотя метод дальнего соседа наделил подобной специфичностью и Башкирию. Также единодушно подчеркивается относительная близость Нижегородской и Кировской, Калужской и Пензенской, Мари Эл и Ульяновской областей.
а) Метод ближнего соседа (ось Y - евклидово расстояние)
б) Метод дальнего соседа (ось Y - евклидово расстояние)
в) Метод средней связи (ось Y - манхеттенское расстояние)
г) Метод Уорда (ось Y - манхеттенское расстояние)
Рис. 7. Дендрограммы классификации административных территорий Волжского бассейна с использованием различных методов и мер расстояний (условные обозначения областей - см. на рис. 8 )
Рис. 8. Разбиение административных территорий Волжского бассейна на классы с использованием алгоритма к-средних и расстояния по Евклиду в пространстве 15 показателей
Редукция данных методами факторного анализа и многомерного шкалирования
Для понижения размерности исходной информации (редукция данных) используются различные методы: факторный анализ и выделение главных компонент, многомерное шкалирование, нейросетевое моделирование, саморганизующиеся карты Кохонена.
Сущность факторного анализа заключается в представлении исходных показателей Х в виде некоторой совокупности латентных переменных F, называемых факторами:
, где p<
Тебе могут подойти лекции
А давай сэкономим
твое время?
твое время?
Дарим 500 рублей на первый заказ,
а ты выбери эксперта и расслабься
Включи камеру на своем телефоне и наведи на Qr-код.
Кампус Хаб бот откроется на устройстве
Не ищи – спроси
у ChatGPT!
у ChatGPT!
Боты в Telegram ответят на учебные вопросы, решат задачу или найдут литературу
Попробовать в Telegram
Оставляя свои контактные данные и нажимая «Попробовать в Telegram», я соглашаюсь пройти процедуру
регистрации на Платформе, принимаю условия
Пользовательского соглашения
и
Политики конфиденциальности
в целях заключения соглашения.
Пишешь реферат?
Попробуй нейросеть, напиши уникальный реферат
с реальными источниками за 5 минут
с реальными источниками за 5 минут
Математические методы в психологии
Хочу потратить еще 2 дня на работу и мне нужен только скопированный текст,
пришлите в ТГ