Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Тема 6. Моделирование ценностной сферы человека (Кластерный анализ)
Лекция 1. Кластерный анализ
План лекции
1. Кластерный анализ (КА)
2 Q-тест на выявление иерархии ценностных предпочтений респондента
1. Кластерный анализ (КА)
КА имеет определенное сходство с ДА; сходство заключается в том, что исследователь в обоих случаях ставит перед собой цель разделить совокупность объектов (а не переменных) на несколько более мелких групп. Тем не менее, процесс классификации в двух видах анализа принципиально различен. В КА объекты классифицируются на основе их различия без какой-либо предварительной информации о количестве и составе классов. В ДА количество и состав классов изначально задан, и основная задача заключается в определении того, насколько точно можно предсказать принадлежность объектов к классам при помощи данного набора дискриминантных переменных (предикторов).
Выделяют несколько этапов КА: 1) выбор переменных-критериев для кластеризации; 2) выбор способа измерения расстояния между объектами, или кластерами (изначально считается, что каждый объект соответствует одному кластеру); 3) формирование кластеров; 4) интерпретация результатов.
Задача 1. Для решения требуется программа SPSS и файл данных KA.sav, который содержит данные о 16 подержанных кардиотренажерах «беговая дорожка» разных марок, выставленных на продажу. Провести КА объектов.
1. Откройте файл данных KA.sav.
2. В меню Analyze (анализ) выберите команду Classify ► Hierarchical Cluster (Классификация ► иерархическая кластеризация). Откроется диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ) (рис. 1). Переменную фирма переместите в поле Label Cases by (Различать объекты по), а переменные цена – усл_км переместите в список Variable(s) (переменные).
3. Щелкните на кнопке Plots (диаграммы), чтобы открыть диалоговое окно Hierarchical Cluster Analysis: Plots (иерархический кластерный анализ: диаграммы) (рис. 2). Установите флажок Dendrogram (дендрограмма) и переключатель None (нет) в группе Icicle (диаграмма накопления). Щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ).
4. Щелкните на кнопке Method (метод), чтобы открыть диалоговое окно Hierarchical Cluster Analysis: Method (иерархический кластерный анализ: метод) (рис. 3). В списке Cluster Method (метод кластеризации) оставьте выбранным пункт Between–groups linkage (межгрупповое связывание), в списке Standardize (стандартизация) выберите пункт Z score (z-шкала) и щелкните па кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ).
5. Щелкните па кнопке Save (сохранить), чтобы открыть диалоговое окно Hierarchical Cluster Analysis: Save New Variables (иерархический кластерный анализ: сохранение новых переменных) (рис.4). Установите переключатель Single Solution (заданное число кластеров), введите в расположенное рядом поле значение 3 и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ).
6. Щелкните па кнопке ОК, чтобы открыть окно вывода.
Примечания: 1. В данном примере кластеризация осуществляется по следующим переменным: цена (стоимость), т_сост (экспертная оценка технического состояния по 10-балльной шкале), эксплуат (количество месяцев эксплуатации), усл_км (кол-во условных километров пробега с начала эксплуатации).
2. По умолчанию используется квадрат Евклидова расстояния, согласно которому расстояние между объектами равно сумме квадратов разностей между значениями одноименных переменных объектов. Предположим, что тренажер А имеет показатели технического состояния и эксплуатации 7 и 7, а тренажер В – 6 и 13. В этом случае расстояние между тренажерами вычисляется следующим образом: (7 – 6)2 + (7 – 13)2 = 37. При выполнении КА сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров. Помимо Евклидова существуют и другие виды расстояний. При необходимости обратитесь к руководству пользователя SPSS. Относительно вычисления расстояния может возникнуть следующий вопрос: будет ли адекватным результат КА в том случае, если переменные имеют различные шкалы измерения? Так, все переменные файла KA.sav имеют самые разные шкалы. Для решения проблемы шкалирования в SPSS используется стандартизация, в частности, ее простой метод – нормализация переменных, приводящая все переменные к стандартной z-шкале (среднее равно 0, стандартное отклонение – 1). Помимо одинаковой шкалы нормализованные переменные также имеют равные веса. В случае, если все исходные данные имеют одну и ту же шкалу измерения либо веса переменных по смыслу должны быть разными, стандартизацию переменных проводить не нужно.
3. Существует два основных метода формирования кластеров: метод слияния и метод дробления. В первом случае исходные кластеры увеличиваются путем объединения до тех пор, пока не будет сформирован единственный кластер, содержащий все данные. Метод дробления основан на обратной операции: сначала все данные объединяются в один кластер, который затем делится на части до тех пор, пока не будет достигнут желаемый результат. По умолчанию программой SPSS используется метод слияния, и мы рассмотрим его в этом разделе. В методе слияния предусмотрено несколько способов объединения объектов. Способ, применяемый по умолчанию, называется межгрупповым связыванием, или связыванием средних внутри групп. SPSS вычисляет наименьшее среднее значение расстояния между всеми парами групп и объединяет две группы, оказавшиеся наиболее близкими. На первом шаге, когда все кластеры представляют собой одиночные объекты, данная операция сводится к обычному попарному сравнению расстояний между объектами. Термин «среднее значение» приобретает смысл лишь на втором этапе, когда сформированы кластеры, содержащие более одного объекта. Так, в нашем примере на начальном этане имеется 16 кластеров (объектов); сначала в кластер объединяются два объекта с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторяется, и в кластер объединяется еще одна пара переменных. На втором этапе вы получите либо 13 свободных объектов и 1 кластер, объединяющий 2 объекта, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В конечном счете, все объекты окажутся в одном большом кластере. Существуют и другие методы объединения объектов. При необходимости обратитесь к руководству пользователя SPSS.
4. Как и в случае ФА, желаемое число кластеров и оценка результатов анализа зависят от целей исследователя. Для данного примера наиболее предпочтительно число кластеров, равное 3. Как показывает анализ, все тренажеры можно разделить на 3 группы: 1-я группа (на дендрограмме занимает центральное положение) имеет среднюю стоимость (среднее значение – 11883), небольшой срок эксплуатации (8 мес) и низкий условный километраж (3139 км). 2-я группа (на дендрограмме – вверху) имеет низкую стоимость (8750), небольшой пробег, наибольший возраст, не высокое техническое состояние (6). 3-я группа (на дендрограмме – внизу) содержит дорогие модели с небольшим сроком эксплуатации и изношенности, высоким баллом технического состояния.
Задача 2. Для решения требуется программа SPSS и файл данных DA-FA-KA.sav. В этой задаче проводится КА, в котором вместо объектов участвуют переменные и1 – и11.
Обычно при группировании переменных исследователя интересует их взаимосвязь, а не их различие (сходство), как при группировании объектов. Исключением является случай, когда данные представляют собой оценки объектов экспертами, в этом случае строки соответствуют экспертам, а столбцы – оцениваемым объектам. Поскольку в нашем примере интерес представляют именно взаимосвязи между переменными и мы хотим сравнить результаты с ФА, то в качестве меры близости целесообразно выбрать корреляцию. При этом корреляции надо учитывать по абсолютной величине, так как большие (по модулю) отрицательные их величины так же свидетельствуют о связи, как и большие положительные. Все это необходимо иметь в виду, если речь идет о кластеризации переменных. Большинство остальных параметров команды оставим установленными по умолчанию; даже в стандартизации в данном случае нет необходимости, так как на величину корреляции не влияют единицы измерения переменных. Добавим лишь дендрограмму в выводимые результаты и исключим оттуда диаграмму накопления.
1. Откройте файл данных DA-FA-KA.sav.
2. В меню Analyze (анализ) выберите команду Classify ► Hierarchical Cluster (классификация ► иерархическая кластеризация). Откроется диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ) (рис.5). В группе Cluster (кластеризация) установите переключатель Variables (переменные). Переместите переменные и1 – и11 в список Variable(s) (переменные).
3. Щелкните на кнопке Plots (диаграммы), чтобы открыть диалоговое окно Hierarchical Cluster Analysis: Plots (иерархический кластерный анализ: диаграммы) (рис. 2). Установите флажок Dendrogram (дендрограмма) и переключатель None (нет) в группе Icicle (диаграмма накопления). Щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ).
4. Щелкните на кнопке Method (метод), чтобы открыть диалоговое окно Hierarchical Cluster Analysis: Method (иерархический кластерный анализ: метод) (рис. 6). В списке Interval (интервал) выберите пункт Pearson correlation (корреляция Пирсона), а в группе Transform Measures (преобразование значений) установите флажок Absolute values (абсолютные значения). Щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ).
5. Щелкните на кнопке ОК, чтобы открыть окно вывода.
2 Q-тест на выявление иерархии ценностных предпочтений респондента
Последнее время в психодиагностике все чаще применяют ипсативное оценивание или ипсативное шкалирование (ipsative scaling), при котором конкретный человек служит мерилом или эталоном для самого себя. В системе определения отношений к экстремальным ситуациям, готовности к ним, прогнозирования поведения в экстремальных ситуациях оказалась достаточно перспективной Q-технология, создателем которой считается В. Стефенсон (William Stephenson 1909 – 1989) англ. ученый, физик-ядерщик, занявшийся экспериментальной психологией в 1935 году. Его преемник С. Боун (Steven Brown) назвал систему «Q-методология» (1980), а Смит и Смит (Smith & Smith) в 1996 году назвали систему «квантовым субъективизмом» («quantum subjectivity») или «оцифровка субъективного».
Вопросы, изначально стоящие перед Q-технологией: 1. Являются ли ДЕЙСТВИЯМИ (acts) убеждения (beliefs), воззрения, предпочтения, чувствования? 2. Если ДА, то можно ли их квалифицировать как ПОВЕДЕНИЕ (behaviors)? 3. Если ДА, то можно ли подвергнуть такое поведение ИЗМЕРЕНИЮ? 4. Возможно ли измерять ЕДИНСТВЕННОГО испытуемого?
Господствующие в психологии в 20-х годах ХХ века взгляды гласили: «...научное изучение индивидуума невозможно... Наука должна заниматься поисками общих законов и универсальных принципов; она не может базироваться на изучении интраиндивидуального поведения или субъективности» (Febbraro, 1995) Таким образом, исследования Q-методологии долгое время рассматривались как ненаучные, несмотря на изощренность предлагаемых ею методов количественного и многомерного анализа. Но еще в 1920-х годах Артур Бентли (Arthur Bentley) с его концепцией «транзакционализма» и Дж. Р. Кантор с его «организмической психологией» (позднее названной «интербихевиоральной полевой психологией») утверждали, что психологические события не локализуются внутри (в разуме) или снаружи (в теле), но представляют собой отношения между индивидуумом и объектом, и что эти отношения поддаются изучению научными методами. Нет ни внутреннего, ни внешнего, нет дуализма «разум-тело»; есть лишь конкретные транзакции (Бентли) или интеракции (Кантор) между конкретными людьми и их конкретным окружением.
В 2008 году, автором настоящей лекции была разработана и создана достаточно простая, но эффективная методика по системе Q-технологии. Цель методики – выявить персональную систему отношений между индивидуумом и объектами; иерархию ценностных ориентаций респондента, его убеждения, воззрения, предпочтения, чувствования. Методика состоит из списка условий-ситуаций (который можно произвольно изменять) и набора тестовых объектов (таб. 1), которые респондент должен ипсативно оценить (не проранжировать) по 11-балльной системе (от 0 до 10) для каждого условия: от 0 (я считаю, что объект абсолютно не соответствует данному условию) до 10 (этот объект полностью подходит для указанного условия). Тестовый материал: любые однотипные объекты: игрушки, картины, орудия производства и пр. В нашем случае в качестве картинок были взяты рисунки (рис. 7) зарубежных художников-иллюстраторов XX века, малоизвестных в России, начиная от романтических и заканчивая «темными» (с учетом соблюдения этики преподавателя вуза). Рисунки должны вызывать какую-либо эмоцию, респондент не должен оставаться равнодушным к рисунку, к объекту. После заполнения таблицы респондентом, проводится кластерный анализ условий (например с помощью SPSS). В результате исследователь получает дендрограмму (рис. 8), по виду которой проводится интерпретация данных.
Таблица 1
Бланк методики
Условия: (0-10) картина должна…
k01
k02
k03
k04
km
выставляться в Эрмитаже
быть подарена другу на ДР
украшать мою квартиру
украшать рабочее место
быть выкинута на помойку
быть подарена любимой(му)
быть взята в путешествие
висеть в туалете
символизировать мою жизнь
вызывать насмешки моих друзей
выявлять структуру мироздания
Рис. 7. Некоторые из рисунков зарубежных
художников-иллюстраторов XX века, используемые с тесте
Рис.8. Дендрограмма, изображающая иерархию отношения объектов
Постулаты:
1. Методика может быть «наращена» другими условиями и/или объектами.
2. Методика должна применяться в комплексе с другими методиками, беседой, учетом возрастных, личных и профессиональных особенностей.
3. Интерпретацию данных необходимо проводить только профессионально подготовленному психологу, знакомому не только с психологической диагностикой, но и с этикой психолога.
Вопросы и задания для самоконтроля
1. С какой целью проводят кластерный анализ?
2. Требуется ли обучающая выборка в кластерном анализе?
3. Что является результатом кластерного анализа?