Подготовка и ввод социологической информации в программу IBM SPSS Statistics.
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 6. Подготовка и ввод социологической информации в программу IBM SPSS Statistics
Знакомство с IBM SPSS Statistics. Подготовка данных. Кодирование и кодировочные таблицы. Матрица данных. Форматы представления социологических данных на компьютере. Понятие “переменная”. Соотношение вопросов социологических анкет и переменных. Требования к переменным. Типы переменных. Основные характеристики переменных: имя переменной, метка переменной, метки значений, тип переменной, формат столбца, коды пропущенных данных. Схема организации данных, окна SPSS. Окна: редактор данных, окно просмотра переменных, окно просмотра текста, редактор мобильных таблиц, редактор диаграмм, редактор текстового вывода, редактор синтаксиса, редактор скриптов. Формирование файла данных. Работа с меню “Файл”. Работа с меню “Файл”. Работа с результатами. Мобильные таблицы. Типы шкал: метрическая, порядковая, номинальная Перекодирование значений переменных и диапазоны значений в новые значения. Построение одномерных частотных распределений с помощью команды «Частоты» как первый этап статистического анализа данных. Частотный анализ. Таблицы сопряженности.
Вопросы для проведения опроса:
1. Подготовка массива первичной (“сырой”) социологической информации к вводу данных. Проверка массива первичных данных на точность, полноту и качество заполнения.
2. Формализация ответов на открытые вопросы. Значение адекватной кодировки переменных в инструментарии для последующего создания базы данных.
3. Планирование обработки первичной социологической информации; составление логической блок-схемы обработки.
4. Понятие “переменная”. Соотношение вопросов социологических анкет и переменных исследования. Требования к переменным. Типы переменных.
5. Основные характеристики переменных: имя переменной, метка переменной, метки значений, тип переменной, формат столбца, коды пропущенных данных.
6. Методы описания и корректировки характеристик данных. Понятие «единица наблюдения».
7. Структура пакета IBM SPSS Statistics. Схема организации данных, окна SPSS.
8. Окна: редактор данных, окно просмотра переменных, окно просмотра текста, редактор мобильных таблиц, редактор диаграмм, редактор текстового вывода, редактор синтаксиса, редактор скриптов.
9. Формирование файла данных. Работа с меню “Файл”.
10. Работа с результатами. Мобильные таблицы.
11. Тип шкал: метрическая, порядковая, номинальная.
12. Структурирование, вывод и проверка данных.
13. Описательный (дескриптивный) анализ.
14. Аналитическая статистика. Выбор статистической процедуры.
Основная литература:
Воронин, Г.Л. Программа анализа социологической информации IBM SPSS STATISTICS V21.0.0.0. : учеб.-метод. пособие / Г.Л. Воронин; Нижегород. ин-т упр. - Нижний Новгород : НИУ РАНХиГС, 2016. - 104 с. - ISBN 978-5-00036-146-7.
Готлиб, А.С. Введение в социологическое исследование: качественный и количественный подходы [Электронный ресурс] : учебное пособие / А.С. Готлиб. — Электрон. дан. — Москва : ФЛИНТА, 2014. — 382 с. — Режим доступа: https://e.lanbook.com/book/51896. — Загл. с экрана.
Зерчанинова, Т. Е. Социология: методы прикладных исследований : учеб. пособие для вузов / Т. Е. Зерчанинова. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2018. — 207 с. — (Серия : Университеты России). — ISBN 978-5-534-00106-8. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://www.biblio-online.ru/bcode/414518 (дата обращения: 05.04.2019
Дополнительная литература:
Готлиб, А.С. Качественное социологическое исследование: познавательные и экзистенциальные горизонты [Электронный ресурс] : монография / А.С. Готлиб. — Электрон. дан. — Москва : ФЛИНТА, 2014. — 353 с. — Режим доступа: https://e.lanbook.com/book/51986. — Загл. с экрана.
Климантова, Г. И. Методология и методы социологического исследования : учебник / Г. И. Климантова, Е. М. Черняк, А. А. Щегорцов. — Москва : Дашков и К, 2017. — 256 с. — ISBN 978-5-394-02248-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/93460
(дата обращения: 25.03.2020). — Режим доступа: для авториз. пользователей
Первое знакомство с IBM SPSS Statistics. Подготовка матрицы и внесение данных в программу
Прежде чем переходить непосредственно к SPSS, отметим, что в настоящее время в России наиболее распространенными операционными системами являются продукты Microsoft Windows, в частности, сюда можно отнести Windows XP, Windows Vista, которые устанавливаются на большинстве компьютеров и ноутбуков. Большую популярность завоевывает и относительно недавно вышедший в свет Windows 7. В связи с этим программное обеспечение компании SPSS до недавнего времени выпускалось в основном под операционные системы корпорации Microsoft.
Не будем заострять внимания на вопросах, связанных с инсталляцией программного обеспечения SPSS, поскольку с каждым лицензионным диском идет подробная инструкция по установке программы, и, кроме того, установщик имеет удобный и доступный интерфейс, который пошагово поможет установить пакет.
С запуском программы также не должно возникнуть особых сложностей, поскольку это стандартная процедура, которую можно осуществить через меню «Пуск», выбрав пункт «Все программы» и найдя там SPSS.
Кроме того, запуск можно осуществить непосредственно двойным щелчком по соответствующему ярлыку, который при инсталляции по желанию пользователя может быть размещен на рабочем столе компьютера. При запуске программы появляется окно редактора данных, которое в левом нижнем углу имеет две вкладки: «Данные» и «Переменные» (рис. 1). Во вкладке «Переменные» кодируется анкета, по которой было проведено социологическое исследование, а вкладка «Данные» нужна для переноса в нее ответов респондентов со всего собранного массива анкет. Переход между вкладками осуществляется простым щелчком мыши по нужной вкладке.
Рис. 1 Окно редактора данных SPSS
В верхней части окна находится меню, с помощью которого осуществляется весь процесс работы с данными, однако сейчас мы не будем рассматривать подробно все его пункты, чтобы не перегружать читателя лишней информацией. Вернемся к ним в процессе работы в SPSS позже, по мере возникновения в этом необходимости.
Для логического завершения первого знакомства с интерфейсом программы отметим, что при осуществлении какого-либо действия в меню программы появляется второе окно – окно вывода, в котором фиксируется вся история операций, производимых пользователем в процессе работы.
Выглядит окно вывода следующим образом (рис 2):
Рис. 2. Окно вывода
Итак, приступим непосредственно к работе в SPSS. Допустим, имеется массив анкет, полученных в результате социологического исследования, которые необходимо обработать в программе. С чего начать? Начинать нужно с составления матрицы анкеты в программе. Это своего рода «скелет», состоящий из вопросов анкеты, на который впоследствии будет наращиваться «тело» в виде многочисленных ответов респондентов.
Матрица составляется во вкладке «Переменные» окна редактора данных, которая выглядит следующим образом (рис.3). Каждая строка пронумерована и предназначена для создания только одной переменной. На рисунке видно, что в SPSS переменные могут иметь девять основных параметров, представленных соответственно девятью столбцами. Рассмотрим каждый из них подробнее.
1. Имена переменных нужны для того, чтобы программа могла различать их. Именно поэтому имя каждой переменной должно быть уникальным, дублирующиеся имена не допускаются. Существуют и другие требования, в частности, имена переменных могут иметь длину до 64 символов, первый из которых должен быть буквой либо одним из символов – @, #, или $. Последующие символы могут быть любой комбинацией букв, чисел, точек и др. Кроме того, имена переменных не должны содержать пробелов.
Рис. 3. Вкладка «Переменные» Окна редактора данных
2. Тип переменной позволяет указать тип данных для каждой переменной. Если нажать левой кнопкой мыши в ячейке, которая находится в столбце «Тип», можно увидеть, что в этой ячейке появляется небольшая кнопка (рис. 4), нажав на которую активизируется диалоговое окно (рис. 5). Отметим, что таким образом активируются все диалоговые окна при создании матрицы.
Рис. 4. Ячейка «Тип» после нажатия на ней левой клавишей мыши
Рис. 5. Диалоговое окно «Тип переменной»
В появившемся диалоговом окне задается тип данных для каждой переменной. Для некоторых типов данных появляются поля для ввода ширины переменной и числа знаков после запятой, для IBM SPSS Statistics доступны следующие типы данных (рис. 6):
• Числовая. Переменная, значения которой являются числами. Значения отображаются в стандартном числовом формате. При вводе данных Редактор данных принимает числовые значения в стандартном формате или в научной записи.
• Запятая. Числовая переменная, значения которой отображаются с запятыми, разделяющими каждые три разряда, а для отделения дробной части используется точка. В значениях не могут содержаться запятые справа от десятичного разделителя.
• Точка. Числовая переменная, значения которой отображаются с точками, разделяющими каждые три разряда, а для отделения дробной части используется запятая. В значениях не могут содержаться точки справа от десятичного разделителя.
• Научная запись. Позволяет задать числовую переменную, значения которой выводятся с показателем степени, представленным буквой «E», за которой идет знак и величина степени десятки.
• Дата. Числовая переменная, значения которой отображаются в одном из нескольких форматов календарной даты или времени. Формат выбирается из списка. Разделителями могут быть слэши, дефисы, точки, запятые или пробелы.
Рис. 6. Пункт «Дата» диалогового окна «Тип переменной»
• Доллар. Числовая переменная отображается со значком доллара вначале ($), точками, отделяющими группы по три разряда, и точкой в качестве десятичного разделителя. Значения данных можно вводить как со знаком доллара вначале, так и без него.
• Выбираемая валюта. Числовая переменная, значения которой выводятся в одном из денежных форматов, заданного пользователем на вкладке «Валюта» диалогового окна «Параметры» в разделе меню «Правка». Заданные символы валюты нельзя использовать при вводе данных, однако они выводятся в Редакторе данных.
• Текстовая. Переменная, значения которой не являются числовыми, не может использоваться в вычислениях. Текстовая переменная может содержать любые символы, однако их число не должно превышать величину, заданную при выборе этой переменной. Как правило, текстовая переменная необходима для кодировки открытых и полузакрытых вопросов анкеты.
Опыт социологов-практиков показывает, что в реальной практике научных социологических исследований используются в основном числовые и текстовые переменные, несколько реже «Дата». (В том случае, если по замыслу разработчиков анкеты респонденты указывают, например, свой возраст не в виде количества полных лет, а в виде даты своего рождения). Можно предположить, что в маркетинговых исследованиях этот набор шире, однако в рамках данной работы особое внимание будем уделять только указанным типам переменных.
3. Ширина – параметр, позволяющий ограничить количество символов, вводимых в ячейку. Это необходимо для удобства работы с данными. Логично, что текстовые переменные будут иметь гораздо большую ширину, чем числовые.
4. Десятичные. Этот параметр ограничивает количество символов после запятой, если вводятся десятичные числа.
5. Метка переменной. По своей сути, это вопрос анкеты. Если вопрос в анкете сформулирован длинно и сложно, то целиком внести его в программу не удастся, поскольку SPSS позволяет создать метку переменной только длиной до 256 символов. Метки переменных могут содержать пробелы и любые другие символы, которые не допускается применять в именах переменных.
6. Значения по своей сути представляют собой подсказки к вопросу, которые может выбрать респондент, если вопрос не носит открытый характер. Каждому значению переменной можно присвоить содержательную метку, например, коды 1 и 2 для обозначения пола мужской и женский соответственно (рис. 7). Метки значений могут быть длиной до 120 символов.
Рис. 7. Метки значений
7. Пропуски. В диалоговом окне «Пропущенные значения» определенные значения задаются как пользовательские пропущенные. Например, необходимо отделить данные, пропущенные из-за отказа респондента отвечать, от данных, пропущенных из-за того, что вопрос не относится к респонденту. Значения данных, обозначенные как пользовательские пропущенные, помечаются для специальной обработки и исключаются из большинства вычислений.
В программе имеется возможность введения до трех отдельных пропущенных значений, диапазон пропущенных значений или диапазон плюс одно отдельное значение (рис. 8). Диапазоны пропущенных значений могут быть заданы только для числовых переменных, а все текстовые значения, включая пробелы и пропуски, считаются валидными.
Рис. 8. Пропущенные значения
8. Столбцы. При помощи этого параметра регулируется количество символов, задающих ширину столбца в Редакторе данных. Ширину столбца можно также изменить в Редакторе данных на вкладке «Данные», перетащив мышью правую границу столбца. Ширина столбца влияет лишь на представление значений в Редакторе данных. Изменение ширины столбца не изменяет заданной ширины переменной.
9. Выравнивание переменной позволяет изменить местоположение данных в окне Редактора данных. По умолчанию числовые переменные выровнены по правому краю, а текстовые переменные – по левому.
Выравнивание влияет только на представление (внешний вид) данных в Редакторе данных.
10. Шкала измерения переменной позволяет задать шкалу измерения переменной: количественную, порядковую, или номинальную (рис. 9).
Рис. 9. Шкалы измерения переменной
• Количественная шкала представляет собой числовые данные с интервальным (возраст респондентов в категориях: 18–25 лет, 26–30 лет, 31–35 лет и т. д.) или абсолютным уровнем измерения (возраст респондентов, измеряемый в количестве полных лет). Переменную можно рассматривать как количественную, когда ее значения представляют упорядоченные категории с осмысленной метрикой, так что уместно сравнивать расстояния между значениями.
Номинальные и порядковые данные могут быть текстовыми (алфавитно-цифровыми) или числовыми.
• Номинальные. Переменную можно рассматривать как номинальную, когда ее значения представляют категории без естественного упорядочения, например, подразделение компании, где работает наемный сотрудник. Примеры номинальных переменных включают регион, почтовый индекс или религиозную конфессию.
• Порядковые. Переменную можно рассматривать как порядковую, когда ее значения представляют категории с некоторым естественным для них упорядочением, например, уровни удовлетворенности обслуживанием – от крайней неудовлетворенности до крайней удовлетворенности. Примеры порядковых переменных включают баллы, представляющие степень удовлетворенности или уверенности, или баллы, оценивающие предпочтение.
Может резонно возникнуть вопрос: для чего нужно деление шкал на несколько видов? В социологическом исследовании эта тема является одной из основных, поэтому позволим себе сделать небольшой экскурс в проблему.
Дело в том, что ряд социальных свойств человека, такие, например, как возраст, уровень заработной платы, количественно определены, однако большинство социальных явлений и процессов такой количественной определенности не имеют. К ним относятся эмоциональные и поведенческие акты, а также суждения и мнения людей по различным вопросам. Для социолога важно определить не только их наличие или отсутствие, но также интенсивность их проявления. Чтобы решить эту задачу, при проведении эмпирического исследования социолог вынужден создавать специальную процедуру приписывания количественной определенности изучаемым качественным признакам. Такая процедура называется измерением.
Инструментом измерения выступает шкала. С помощью шкал могут быть изменены почти все, даже самые сложные, социальные явления.
Шкала представляет собой систему характеристик изучаемого свойства, выполняющую роль эталона. С целью разработки шкалы определяют крайние состояния изучаемого процесса или явления – начало и конец, максимум и минимум. При нахождении крайних точек устанавливается дробность шкалы с помощью делений.
Существование различных видов шкал обуславливается необходимостью приведения качественно разнородных данных к сопоставимым количественным показателям. В программе SPSS можно задать следующие шкалы:
• Номинальная. Переменную можно рассматривать как номинальную, когда ее значения представляют собой категории без естественного упорядочения, например, регион проживания респондента, почтовый индекс или религиозная конфессия.
• Порядковая. Переменную можно рассматривать как порядковую, когда ее значения представляют категории с некоторым естественным для них упорядочением, например, уровни удовлетворенности деятельностью органов власти: от крайней неудовлетворенности до крайней удовлетворенности.
• Количественная. Переменную можно рассматривать как количественную, когда ее значения представляют упорядоченные категории с осмысленной метрикой, так что уместно сравнивать расстояния между значениями. Примеры количественной переменной включают возраст в годах и доход в рублях.
Отметим, что номинальные и порядковые данные могут быть текстовыми (алфавитно-цифровыми) или числовыми.
Рассмотрим на конкретном примере, как кодируются различные вопросы анкеты в SPSS. С этой целью была создана небольшая «сборная» анкета, включающая в себя различные по характеру вопросы из различных исследований, в которых принимал участие автор.
Естественно, что приведенная анкета не может включить в себя все разнообразие типов вопросов, которые имеют место вследствие опыта различных исследователей и задачами, которые он преследует при составлении социологического инструментария. Однако, на наш взгляд, рассмотрение приведенных примеров позволит уловить общие принципы и алгоритм кодирования вопросов в SPSS, что может существенно облегчить задачу и проявить творчество при кодировании особо «необычных» вопросов.
АНКЕТА
1. Ваш пол
1. Мужской
2. Женский
2. Ваш возраст (укажите количество полных лет)_______
3. На кого, по-вашему, ориентируются современные студенты в выборе жизненных стратегий, стиля жизни, в повседневности? (отметьте три наиболее важных позиции):
1. Литературные герои
2. Политики, государственные деятели
3. Бизнесмены, успешные и богатые современники
4. Преподаватели вузов
5. Деятели культуры, искусства
6. Звезды шоу-бизнеса
7. Известные ученые
8. Светская «тусовка»
9. Звезды телевидения
10. Родители, родственники
11. Друзья, знакомые из молодежной среды
12. Другое (укажите свой вариант)___________________________
4. Оцените, как часто на лекционных и семинарских занятиях в вашем вузе поднимаются следующие темы.
Темы
Часто
Иногда
Поднимали 1-2 раза
Практически не поднимали
Не задумывались над этим
1. Профессиональная этика
1
2
3
4
5
2. Терпимость к людям другой веры, национальности
1
2
3
4
5
3. Деятельность институтов гражданского общества (общественных организаций, партий и т.д.)
1
2
3
4
5
4. Способы и возможности самоорганизации и самоуправления молодежи
1
2
3
4
5
5. Личная гражданская ответственность
1
2
3
4
5
6. Духовные, нравственные основы жизни человека
1
2
3
4
5
7. Проблемы молодежной девиации (наркомания, алкоголизм, преступность)
1
2
3
4
5
5. На какой ступеньке «сидят» сегодня большинство студентов и преподавателей в шкале «вечных» ценностей (обозначьте: С – студенты, П – преподаватели)?
1. Лестница честности
2. Лестница справедливости
3. Лестница патриотизма
4. Лестница толерантности
Начнем с первого вопроса – о поле респондента. Он носит закрытый характер и предполагает всего два варианта ответа «1. Мужской» и «2. Женский». Кодировка этого вопроса в SPSS осуществляется в окне Редактора переменных следующим образом:
1. Сначала присваиваем имя переменной, допустим, «gender»;
2. Выставляем тип переменной – «числовой»;
3. Ограничиваем количество символов после запятой в столбце «десятичные» до «0», т.к. при внесении данных из анкет в программу у нас будут использоваться только числа «1» и «2», соответствующие двум вариантам ответа – «мужской» и «женский», при этом никаких дробных значений использоваться не будет;
4. В столбце «ширина» указываем значение «1», т.к. числа 1 и 2 являются одноразрядными;
5. В качестве «метки» вносим суть задаваемого вопроса, то есть «Пол респондента»;
6. В «значениях» вносим варианты ответов, предложенные респондентам, то есть «мужской» и «женский», а также дополнительный вариант 99 – «Нет ответа» (Число взято условно, может использоваться любое другое, по желанию исследователя) (рис. 10);
Рис. 10. Кодирование вариантов ответов на вопрос о поле респондента
7. В «пропусках» вызываем диалоговое окно «Пропущенные значения», выбираем пункт «Отдельные пропущенные значения» и вносим в первую ячейку число «99» (рис. 11). В дальнейшем при «забивке» анкет, если респондент не указал свой пол (в случае, если анкета рассчитана на самозаполнение), будем вносить в ячейку именно число 99. Отметка пропущенных значений играет существенную роль при кодировании переменных. Она позволяет отделить данные, пропущенные из-за отказа респондента отвечать, от данных, пропущенных из-за того, что вопрос не относится к респонденту. Значения данных, обозначенные как пропущенные, помечаются программой для специальной обработки и исключаются из большинства вычислений. SPSS позволяет ввести до трех отдельных пропущенных значений, диапазон пропущенных значений или диапазон плюс одно отдельное значение. Диапазоны пропущенных значений могут быть заданы только для числовых переменных. Чтобы для текстовой переменной задать пустые значения или пробелы как пропущенные, необходимо ввести одиночный пробел в одно из полей для отдельных пропущенных значений;
Рис. 11. Диалоговое окно «Пропущенные значения»
8. В разделах «Столбцы» и «Выравнивание» выставляем удобные для нас параметры. В нашем примере это «8» (ширина столбца в окне Редактора данных, измеряемая в количестве символов) и «По правому краю» (место расположения данных в ячейке) соответственно;
9. В конце выставляем «Шкалу», которая в нашем случае является номинальной.
В итоге у нас получилась переменная, позволяющая занести в программу пол респондентов со всего массива анкет (рис. 12).
Рис. 12. Кодирование вопроса о поле респондента
Одновременно с созданием очередной переменной в окне редактора данных появляется новая колонка, в которую с каждой анкеты вносятся свои данные (рис. 13).
При забивке в программу данных анкет о поле респондентов в соответствующую ячейку будут вноситься только численные значения – «1» или «2».
Второй вопрос анкеты кодируется еще проще: все то же самое, только переменная носит другое имя, другая метка, отсутствуют значения, и выставляется количественная шкала (рис. 14).
Рис. 13. Новая переменная в окне редактора данных
Рис. 14. Кодирование вопроса о возрасте респондента
Третий вопрос анкеты принципиально отличается от двух предыдущих. Он представляет собой вопрос с множественными ответами, то есть, как видно из формулировки, респондент может выбрать три варианта из предложенных ему ответов на вопрос. Соответственно, и кодируется он иначе, чем остальные. Особенность кодировки этого вопроса в том, что каждый вариант ответа представляет собой отдельную переменную (рис. 15).
Важным моментом является то, что значения к меткам в каждой переменной представлены всего тремя вариантами: 0 – «Не выбрано», 1 – «Выбрано» и 99 – «Нет ответа» (рис. 16).
Таким образом, эти метки несут в себе особую смысловую нагрузку, которая заключается в том, что за каждой меткой не стоит определенное значение, как в случае вопроса о поле респондента – метка играет роль своеобразной «галочки», указывающей на то, выбрал респондент тот или иной вариант ответа или вообще проигнорировал данный вопрос.
Рис. 15. Кодирование вопроса с множественными ответами
Рис. 16. Кодирование вариантов ответов в вопросе
с множественными ответами
Пропущенные значения, обозначенные цифрой «99», будут выставляться в окне Редактора данных только в том случае, если респондент не выбрал ни одного из вариантов.
Обратим внимание на то, что переменная а3_12 – «Другое (укажите свой вариант)» является открытым вопросом и предполагает внесение информации в текстовой форме, таким образом, в колонке «Тип переменной» при кодировке выбирается вариант «Текстовая», а в колонке «Ширина» указывается значение «100», которое ограничивает число вводимых символов до ста.
Следующий вопрос «Оцените, как часто на лекционных и семинарских занятиях в вашем вузе поднимаются следующие темы» представляет собой нечто среднее между вопросом с множественными ответами и закрытым вопросом с определенными вариантами ответов. Кодируется он также, как и предыдущий рассматриваемый вопрос – каждый вариант как отдельная переменная, но в метках выставляются варианты ответов на этот вопрос.
Таких в нашем случае пять: 1 – «Часто», 2 – «Иногда», 3 – «Поднимали 2–3 раза», 4 – «Практически не поднимаются», 5 – «Не задумывался над этим» и шестая, вспомогательная, метка 99 – «Нет ответа». Одновременно выставляется тип шкалы «Порядковая» (рис. 17).
Рис. 17. Кодирование вопроса «Оцените, как часто на лекционных и семинарских занятиях в вашем вузе поднимаются следующие темы»
Для того, чтобы не вводить метки значений в каждую переменную, достаточно скопировать уже закодированные метки в соответствующей ячейке, выделить все ячейки, в которых будут использоваться те же метки, и вставить, используя правую кнопку мыши (рис. 18).
Копирование
Вставка
Рис. 18. Копирование и вставка меток значений переменной
Последний вопрос нашей анкеты особо «замудреный». Кодировка этого вопроса требует определенного творчества и может быть закодирована несколькими различными способами. Ниже рассмотрим один из них. Для наглядности напомним содержание вопроса: «На какой ступеньке “сидят” сегодня большинство студентов и преподавателей в шкале “вечных” ценностей (обозначьте: С – студенты, П – преподаватели)»? Ниже представлена схема, с помощью которой респонденту предлагается ответить на данный вопрос.
Таблица 1
Вопрос анкеты о шкале «вечных» ценностей
1. Лестница честности
2. Лестница справедливости
3. Лестница патриотизма
4. Лестница толерантности
Итак, мы видим, что респонденту предлагается четыре лестницы, на каждой из которых необходимо отметить два варианта – студентов и преподавателей. Таким образом, в матрице SPSS будет кодироваться восемь переменных. Значения меток в этом случае отсутствуют (за исключением 99 – «Нет ответа»), а в окно Редактора данных будут вноситься численные значения от 1 до 10, что соответствует количеству ступеней в каждой лестнице (рис. 19).
Тип шкалы для переменных в соответствующем столбце устанавливается «количественная».
Рис. 19. Кодирование вопроса о ценностях студентов и преподавателей
Несмотря на то, что все вопросы анкеты в нашем примере уже закодированы, существует необходимость создания еще одной переменной, которая позволяет работать с данными более «комфортно». Это переменная, кодирующая номера анкет. Для чего это нужно? Достаточно часто в процессе статистической обработки данных возникает необходимость к возвращению к первичным опросным документам, т.е. к бумажным анкетам. Это происходит из-за того, что некоторые анкеты внесены в программу некорректно – либо в силу невнимательности людей, «забивающих» анкеты в программу, либо из-за неразборчивости почерка респондента или интервьюера, или по каким-то другим причинам. Кроме того, часто в процессе анализа обнаруживаются внутренние противоречия в ответах респондентов. В таких случаях исследователю необходимо найти бумажный вариант и выявить причину, сопоставив данные анкеты и данные, внесенные в программу. Это практически невозможно осуществить, если перед началом обработки не пронумеровать весь массив (обычно это делается карандашом в углу титульной страницы анкеты) и не внести в SPSS каждую анкету под своим номером.
Обычно переменная, содержащая данные о номере анкеты, размещается первой. В нашем случае ее нужно вставить в уже существующую матрицу данных. Для этого правой кнопкой мыши нажимаем по переменной под номером 1 и в появившемся диалоговом окне выбираем пункт «Вставить переменную» (рис. 20).
Рис. 20. Вставка переменной
В итоге появляется новая переменная, которую и кодируем для дальнейшего внесения в нее номеров анкет. Дадим ей имя «n», тип «числовая», ширина – 8 символов, метка – «Номер анкеты», выравнивание (для удобства) «по центру», шкала – «количественная» (рис 21).
Рис. 21. Кодирование переменной «Номер анкеты».
Итак, матрица для нашей анкеты в SPSS создана и готова для внесения в нее результатов опроса с целью наглядного представления окна Редактора данных после внесения в него данных
Преобразование данных в SPSS
Преобразование данных является очень важной функцией в SPSS. В рамках данной функции доступно множество различных команд, основными из которых являются: вычисление переменных, подсчет значений в наблюдениях, перекодировка и категоризация переменных, ранжирование наблюдений, а также замена пропущенных значений (рис. 22). Рассмотрим некоторые из этих функции более подробно.
Рис. 22. Разделы меню «Преобразовать»
Вычисление переменных
Вычисление переменных позволяет существенно расширить возможности исследователя путем создания новых переменных или изменения значений существующих.
Ниже посмотрим, как осуществляются вычисления различных типов переменных и переменных с различными шкалами.
Вычисление количественных переменных. В лицензионных версиях программы SPSS имеется очень удобная встроенная система помощи пользователям, включающая в себя интерактивную справку и учебник.
Хотелось бы привести пример именно из указанного учебника, т.к. он, по нашему мнению, очень наглядно демонстрирует процедуру вычисления количественных переменных.
Вычислять новые переменные можно, используя широкий спектр математических функций (в том числе даже очень сложные формулы). Для примера мы произведем простое вычисление новой переменной, вычтя значения одной переменной из значений другой.
В файле данных demo.sav (идущим вместе с SPSS для обучающих целей) есть переменная «Возраст» (age) и переменная «Количество лет на текущем месте работы» (employ). А вот переменной, содержащей возраст во время поступления на последнее место работы, в этом файле нет. Мы можем создать новую переменную, в которой будет вычислена разность между возрастом в настоящее время и количеством лет на текущем месте работы, то есть примерный возраст в момент поступления на текущее место работы.
Для выполнения процедуры вычисления следуем алгоритму: Меню в окне Редактора данных → вкладка «Преобразовать» → пункт «Вычислить
переменную» (рис. 23).
Рис. 23. Выбор раздела «Вычислить переменную» в меню «Преобразовать»
В появившемся диалоговом окне вводим в поле «Вычисляемая переменная» имя вычисляемой новой переменной «jobstart» (рис. 24).
Рис. 24. Диалоговое окно «Вычислить переменную»
В списке исходных переменных выбираем «Возраст» (age) и копируем
в поле «Числовое выражение» путем нажатия кнопки со стрелкой вправо.
Далее нажимаем кнопку «минус» (–) на клавиатуре калькулятора в диало-
говом окне (или клавишу «минус» на клавиатуре компьютера). Выбираем
вторую переменную «Количество лет на текущем месте работы» (employ) и
нажимаем кнопку в виде стрелки вправо, чтобы скопировать переменную в
поле числового выражения.
Наконец, нажимаем «ОК», чтобы вычислить новую переменную.
В Редакторе данных появилась новая переменная. Поскольку новые пере-
менные добавляются в конец файла, она находится в крайнем правом столбце
в закладке «Данные» и в последней строке в закладке «Переменные» (рис. 25).
Рис. 25. Новая переменная в редакторе данных
Для числовых выражений можно также использовать встроенные
функции. Функции разбиты на группы по своему назначению. К примеру,
есть группа арифметических функций или группа статистических функций.
В SPSS доступно около 70 встроенных функций, включая:
• арифметические функции;
• статистические функции;
• функции распределений;
• логические функции;
• функции агрегации и извлечения данных и времени;
• функции для работы с пропущенными значениями;
• функции для работы с несколькими наблюдениями;
• функции для работы с текстовыми значениями.
Для удобства в группы функций также включено несколько часто ис-
пользуемых системных переменных, таких как $TIME (текущая дата и время).
Краткое описание выбранной функции (в нашем случае SUM – сум-
мирование) или системной переменной выводится в специальной области в
диалоговом окне «Вычислить переменную» (рис. 26).
Рис. 26. Краткое описание выбранной функции
Для того чтобы вставить функцию в выражение, необходимо устано-
вить курсор в поле «Числовое выражение», далее выбрать в списке «Группы
функций» подходящую группу. В группе «Все» представлены все доступные
функции и системные переменные. В списке «Функции и специальные значе-
ния» нужно дважды щелкнуть по функции (или выбрать функцию и щелкнуть
по стрелке рядом со списком «Группы функций»). Функция вставляется в вы-
ражение. Если выделит часть выражения, а затем вставить аргумент, выделен-
ная часть выражения станет первым аргументом функции. Если аргументами
являются имена переменных, их можно вставить из списка переменных.
Функция не является полной, пока не будут введены аргументы, пред-
ставленные во вставленной функции знаками вопросов. Количество знаков
вопроса указывает на минимальное количество аргументов, которые требу-
ются, чтобы сделать функцию полной.
54
Задача условий для применения преобразований к подмножеству
наблюдений. Для применения преобразований к подмножеству наблюдений
используются условные выражения (также называемые логическими выра-
жениями). Данная функция позволяет отбирать переменные, соответствую-
щие определенным условиям.
Допустим, необходимо провести анализ ответов респондентов, кото-
рые старше 21 года. Для этого в диалоговом окне «Вычислить переменную»
нажимаем на кнопку «Если», находящуюся в левом нижнем углу (рис. 27).
Рис. 27. Кнопка «Если» диалогового окна «Вычислить переменную»
В результате появляется диалоговое окно «Отбор наблюдений», схожее
по внешнему виду с окном «Вычислить переменную» (рис. 28). В верхней
части окна щелчком мыши активируем пункт «Включить наблюдения, удов-
летворяющие условию», и в левой части из общего списка выбираем перемен-
ную «Возраст» (age), которую переносим в окно числового выражения.
Рис. 28. Диалоговое окно «Вычислить переменную: Отбор наблюдений»
алее при помощью клавиатуры калькулятора диалогового окна ука-
зываем требуемые условия – в нашем случае это «>21» – и нажимаем на
кнопку «Продолжить».
Также можно связать несколько условных выражений, используя ло-
гические операторы, например, age>=21 | ed>=4 или income*3<100 & ed=5.
В первом случае отбираются наблюдения, удовлетворяющие либо условию
для переменной «Возраст» (age), либо условию для переменной «Уровень
образования» (ed). Во втором примере, чтобы наблюдение было отобрано,
должны выполняться оба условия: и для переменной «Доход домохозяйства
в тысячах» (income), и для переменной «Уровень образования» (ed).
Аналогичным способом можно ввести любые условия, пользуясь все-
ми функциями процедуры «Вычислить переменную». В результате проде-
ланных преобразований все последующие вычисления будут производиться
с учетом заданных условий. То есть, в нашем примере, количество лет на
текущем месте работы будет вычисляться только для тех респондентов, кто
старше 21 года.
Вычисление переменных с порядковыми и номинальными шка-
лами. Существуют ситуации, когда необходимо произвести вычисление пе-
ременных, которые не являются количественными или текстовыми. Такие
процедуры специфичны и требуют особых подходов. Рассмотрим на кон-
кретном примере процедуру вычисления путем суммирования переменных,
имеющих порядковую и номинальную шкалы.
Источником данных для примера выступила база данных социоло-
гического исследования, проведенного Всероссийским центром изучения
общественного мнения в 1993 г. «Факт», методом самозаполнения по месту
жительства по всероссийской многоступенчатой стратифицированной слу-
чайной выборке (объем выборочной совокупности – 1931) и было посвяще-
но социальным проблемам, социальным тревогам и страхам. Указанная база
находится в открытом доступе в едином архиве социологических данных
СОФИСТ8.
Переменными для процедуры суммирования выступили вопросы ан-
кеты, посвященные религиозности респондентов, а именно два вопроса:
«Считаете ли Вы себя религиозным человеком? Если да, то к какому веро-
исповеданию Вы себя относите?» и «Как часто Вы посещаете религиозные
службы?».
Цель суммирования – построение шкалы, которая позволила бы выде-
лить группы респондентов по степени религиозности. Для достижения по-
ставленной цели необходимо предварительно провести ряд преобразований.
Рассмотрим этот процесс более подробно.
Вопрос, направленный на определение религиозных убеждений ре-
спондента и включающий в себя несколько вариантов ответа (табл. 3.1),
был преобразован в дихотомическую переменную, которая показывает толь-
ко, верит респондент в Бога или не верит.
Таблица 2
Считаете ли вы себя религиозным человеком? Если да, то к какому вероисповеданию вы себя относите?
Частота
Процент
Не считаю себя религиозным человеком
773
40,1
Отношу себя к православной вере
866
44,8
Отношу себя к другой христианской вере
16
0,8
Отношу себя к иудаизму
4
0,2
Отношу себя к мусульманской вере
45
2,3
Отношу себя к другой вере
11
0,6
Не могу указать вероисповедание
33
1,7
Не хочу отвечать на этот вопрос
60
3,1
Затрудняюсь ответить
123
6,4
Всего
1931
100,0
Для этого варианты ответов, характеризующие принадлежность ре-
спондентов к той или иной религии и вариант «Не могу указать вероиспове-
дание» были объединены в одну переменную – «Верующий». Вариант «Не
считаю себя религиозным человеком» был перекодирован в «Не верующий»,
а варианты «Не хочу отвечать на этот вопрос» и «Затрудняюсь ответить»
были отнесены к пропущенным значениям и, таким образом, исключены из
анализа. В результате в матрице появилась новая переменная, линейное рас-
пределение которой, представлено в табл. 3.
Таблица 3
Отношение респондента к религии
Частота
Процент
Не верующий
773
40,1
Верующий
975
50,5
Всего
1748
90,5
Вторая переменная также подверглась процедуре перекодировки.
Расположив варианты ответов в обратном порядке, а также исключив из вы-
числений такие варианты ответов, как: «Не хочу отвечать на этот вопрос»
и «Затрудняюсь ответить» путем внесения их значений в «Пропуски», мы
получили пригодную для суммирования переменную (табл. 4).
Таблица 4
Перекодированная частота посещаемости религиозных служб
Частота
Процент
Никогда
892
46,2
Раз в году или реже
381
19,7
Несколько раз в году
312
16,2
Примерно раз в месяц
64
3,3
Два-три раза в месяц
26
1,3
Раз в неделю или чаще
14
0,7
Всего
1689
87,5
Более подробно процедура перекодировки переменных будет рассмотрена ниже. Перед тем как произвести суммирование, посмотрим, как выглядит таблица сопряженности двух перекодированных переменных (табл. 5).
Таблица 5
Таблица сопряженности переменных «Частота посещения религиозных
служб» и «Отношение респондента к религии»
Частота посещаемости религиозных служб
Отношение респондента к религии
Всего
Не верующий
Верующий
Никогда
человек
575
240
815
% по столбцу
82,5
27,7
52,1
Раз в году или реже
человек
91
269
360
% по столбцу
13,1
31,0
23,0
Несколько раз в году
человек
30
257
287
% по столбцу
4,3
29,6
18,4
Примерно раз в месяц
человек
1
63
64
% по столбцу
0,1
7,3
4,1
Два-три раза в месяц
человек
25
25
% по столбцу
2,9
1,6
Раз в неделю или чаще
человек
13
13
% по столбцу
1,5
0,8
Всего
человек
697
867
1564
% по столбцу
100,0
100,0
100,0
Тест на хи-квадрат Пирсона показал наличие взаимосвязи между дву-
мя переменными. Коэффициент сопряженности же равен 0,489, что говорит
о среднем уровне взаимосвязи между переменными.
Итак, перейдем к суммированию. Эта процедура позволит нам полу-
чить новую переменную, которая могла бы учитывать оба фактора: частоту
посещения религиозных служб и веру в Бога. Для того чтобы процедура сум-
58
мирования имела смысл, необходимо присвоить коэффициент значимости
для переменной «отношение респондента к религии». В нашем случае коэф-
фициент 5 – для тех, кто верит в Бога, и 0 – для тех, кто не верит. Поясним,
для чего это делается. Дело в том, что в процессе суммирования программа
производит простое арифметическое действие, при этом не учитывая коли-
чество вариантов ответов в переменных с порядковой шкалой. Между тем
это очень важный момент. В случае, если бы присвоение коэффициента «5»
не было бы осуществлено, а варианты ответа остались бы под прежними
номерами (0 – «Не верующий» и 1 – «Верующий»), то при сложении у нас
получилось бы, с учетом нулевой группы, всего семь групп респондентов
(табл. 6).
Таблица 6
Группировка верующих и неверующих респондентов в зависимости
от посещаемости религиозных служб (до присвоения коэффициента)
0. Не верующий
1 Верующий
0 Никогда
0 + 0 = 0 (0 группа)
1 + 0 = 1 (1 группа)
1 Раз в году или реже
0 + 1 = 1 (1 группа)
1 + 1 = 2 (2 группа)
2 Несколько раз в году
0 + 2 = 2 (2 группа)
1 + 2 = 3 (3 группа)
3 Примерно раз в месяц
0 + 3 = 3 (3 группа)
1 + 3 = 4 (4 группа)
4 Два-три раза в месяц
0 + 4 = 4 (4 группа)
1 + 4 = 5 (5 группа)
5 Раз в неделю или чаще
0 + 5 = 5 (5 группа)
1 + 5 = 6 (6 группа)
Процедура в таком случае потеряла бы всякий смысл, поскольку все
данные хаотично перемешались. Таким образом, можно сделать ключевой
вывод: при суммировании порядковых переменных необходимо учитывать
количество вариантов ответов в каждой из них, и, в соответствии с этим,
присваивать соответствующие коэффициенты. Присвоение коэффициен-
тов – достаточно простая процедура, которая заключается в создании новой
переменной, содержащей перекодированные варианты ответов.
Итак, присвоив коэффициент значимости 5 варианту «Верующий»,
при суммировании получается 11 групп респондентов (с учетом нулевой),
которые с некоторой степенью условности можно охарактеризовать как раз-
личные по степени религиозности (табл. 7).
Из таблицы видно, что в нулевую группу будут входить респонден-
ты, которые не верят в Бога и не посещают религиозных служб (наименее
религиозная из групп). В пятую категорию входят респонденты, которые не
верят в Бога, но при этом посещают религиозные службы; в эту же группу
входят те, кто верит в Бога, но религиозные службы не посещает, их услов-
но можно назвать «нейтральными». Наконец, в десятую группу входят те
респонденты, которые верят в Бога и очень часто посещают религиозные
службы – это наиболее религиозная группа.
Таблица 7
Группировка верующих и неверующих респондентов в зависимости от
посещаемости религиозных служб (после присвоения коэффициента)
0. Не верующий
1 Верующий
0 Никогда
0 + 0 = 0 (0 группа)
5 + 0 = 5 (5 группа)
1 Раз в году или реже
0 + 1 = 1 (1 группа)
5 +1 = 6 (6 группа)
2 Несколько раз в году
0 + 2 = 2 (2 группа)
5 +2 = 7 (7 группа)
3 Примерно раз в месяц
0 + 3 = 3 (3 группа)
5 +3 = 8 (8 группа)
4 Два-три раза в месяц
0 + 4 = 4 (4 группа)
5 +4 = 9 (9 группа)
5 Раз в неделю или чаще
0 + 5 = 5 (5 группа)
5 +5 = 10 (10 группа)
Линейное распределение новой переменной после осуществления процедуры суммирования в SPSS выглядит следующим образом (табл. 8):
Таблица 8
Сумма переменных, характеризующая индекс религиозности различных групп респондентов
Частота
Процент
575
29,8
1
91
4,7
2
30
1,6
3
1
0,1
4
5
240
12,4
6
269
13,9
7
257
13,3
8
63
3,3
9
25
1,3
10
13
0,7
Системные пропущенные
367
19,0
Всего
1931
100,0
На этом процедура вычисления двух переменных завершена, однако для логического завершения необходимо осуществить еще одно действие.
Проанализируем полученные данные. Как видно из таблицы, четвертая группа респондентов вообще выпадает из рассмотрения, т.к. среди опрошенных респондентов нет тех, кто не верит в Бога, но при этом два-три раза в месяц? посещает религиозные службы. Кроме того, в третью группу, характеризующуюся неверием в Бога, но ежемесячным посещением религиозных служб, входит всего один респондент. В принципе, полученное распределение вполне логично, однако это не совсем удобно для дальнейшего анализа. Исходя из этого, представляется целесообразным укрупнить полученные группы. Логика подсказывает, что вполне возможно создать пять основных групп респондентов по степени религиозности (табл. 9).
В результате укрупнения групп мы добились двух позитивных эффектов: во-первых, появилась возможность более удобного анализа, во-вторых,
за счет укрупнения произошло нивелирование групп по числу в них респондентов.
Таблица 9
Перегруппировка (укрупнение) исходных групп
Исходная группа
Характеристика респондентов исходной группы
Укрупненная группа
Характеристика укрупненной группы
Не верит и никогда не посещает служб
Не верит и никогда не посещает служб
1
Не верит, но посещает службы один раз в год или реже
1
Не верит, но время от времени посещает службы
2
Не верит, но посещает службы несколько раз в год
3
Не верит, но посещает службы примерно раз в месяц
5
Не верит, но посещает службы раз в неделю или чаще, и верит, но никогда не посещает службы
2
Не верит, но посещает службы раз в неделю или чаще; и верит, но посещает службы очень редко или не посещает совсем
6
Верит и посещает службы совсем раз в году или реже
7
Верит и посещает службы несколько раз в год
3
Верит и периодически посещает службы
8
Верит и посещает службы два-три раза в месяц
9
Верит и посещает службы примерно раз в месяц
4
Верит и посещает службы часто
10
Верит и посещает службы раз в неделю или чаще
появившейся в результате проделанной работы (табл. 10). Процедуру
укрупнения можно произвести при помощи функции перекодировки пере-
менных.
Отметим, что появившиеся в результате суммирования системные
пропущенные значения, отображенные в таблице, являются результатом ис-
ключения из вычислений тех респондентов, которые проигнорировали или
затруднились ответить на рассматриваемые вопросы.
Таблица 10
Категории респондентов по степени религиозности
Частота
Процент
Валидный процент
Кумулятивный процент
575
29,8
36,8
36,8
1
122
6,3
7,8
44,6
2
509
26,4
32,5
77,1
3
320
16,6
20,5
97,6
4
38
2,0
2,4
100,0
Всего
1564
81,0
100,0
Системные пропущенные
367
19,0
Всего
1931
100,0
Перекодировка переменных
Данная функция позволяет перекодировать значения переменных или их диапазоны в новые значения. В SPSS существует три способа перекодировки: в те же или в другие переменные, а также автоматическая перекодировка. Рассмотрим реализацию данной функции на конкретном примере.
Выше мы описывали пример вычисления переменных, содержащих порядковые шкалы. В частности, говорилось о перекодировке вопроса, направленного на определение религиозных убеждений респондента. Вопрос, включающий в себя несколько вариантов ответа, нужно было преобразовать в дихотомическую переменную, которая показывает только то, верит респондент в Бога или не верит. Подробно эту процедуру мы не рассмотрели, сославшись на то, что это будет сделано ниже. Теперь же пришло время сделать это.
Итак, для осуществления перекодировки вызываем диалоговое окно, выбрав раздел «Перекодировать в другие переменные» в меню «Преобразовать». В разделе окна, находящемся слева из списка переменных, выбираем ту, которую необходимо перекодировать. В нашем случае это вопрос «Считаете ли Вы себя религиозным человеком? Если да, то к какому вероисповеданию Вы себя относите?». При помощи стрелки переносим ее в центральную часть диалогового окна. Далее даем имя новой переменной (у нас – «religioznost»), задаем метку («Вера в Бога») и нажимаем кнопку «Изменить» (рис. 29).
Рис. 29. Диалоговое окно «Перекодировать в другие переменные»
Теперь нужно заменить старые значения на новые. Для этого нажима-
ем кнопку «Старые и новые значения» в центральной нижней части окна. В
результате появляется еще одно диалоговое окно, в котором и осуществляем
описанную процедуру. Для того чтобы процедура перекодировки была бо-
лее понятна, приведем старые метки значений переменной (рис. 30).
Рис. 30. Метки значений вопроса о религиозности респондентов
Варианты ответов, характеризующие принадлежность респондентов к
той или иной религии (метки 2–6) и вариант 7 – «Не могу указать вероиспо-
ведание» нужно объединить в одну переменную – «Верующий». Вариант
«Не считаю себя религиозным человеком» нужно перекодировать в «Не ве-
рующий», а варианты 0 – «Нет ответа», 97 – «Не хочу отвечать на этот во-
прос» и 98 – «Затрудняюсь ответить» отнести к пропущенным значениям, и
таким образом, исключить из анализа. Делается это очень просто – в левой
части окна выбирается один из вариантов задаваемых значений и указыва-
ется само значение, в правой части указывается новое значение и нажимает-
ся кнопка «Добавить». Когда все изменения сделаны, нажимаем на кнопку
«Продолжить» (рис. 31).
Рис. 31. Задача старых и новых значений в процессе перекодировки
Посмотрим, что же получилось. Появилась новая переменная «religioznost». В редакторе переменных зададим для нее следующие значения: 0 – «Не верю в Бога» и 1 – «Верю в Бога», и посмотрим частотное распределение (табл. 11).
Таблица 11
Вера в Бога
Частота
Процент
Не верю в Бога
773
40,
Верю в Бога
975
50,5
Всего
1748
90,5
Системные пропущенные
183
9,5
Всего
1931
100,0
В процессе перекодировки можно задавать определенные условия отбора наблюдений. Делается это уже рассмотренным нами способом, нажав кнопку «Если» в диалоговом окне «Перекодировать в другие переменные».
Перекодировку можно осуществлять сразу для нескольких переменных, однако должно соблюдаться важное условие – все они должны быть одного типа. Не допускается одновременное перекодирование числовых и текстовых переменных.
Как уже говорилось, в SPSS существует три способа перекодировки. Один из них – «перекодировка в другие переменные» – мы рассмотрели.
Не будем подробно останавливаться на двух остальных, рассмотрим лишь кратко их особенности.
Перекодировка в те же переменные. Особенность состоит в том, что при перекодировке не создается новая переменная, а изменяется старая.
Процедура осуществляется почти таким же способом, как и та, которую мы описали выше.
Автоматическая перекодировка используется для преобразования текстовых и числовых значений в последовательные целые числа. Когда
коды категорий переменной не являются последовательными, получивши-
еся пропущенные ячейки снижают производительность и увеличивают по-
требность в памяти при выполнении многих процедур SPSS. Кроме того,
некоторые процедуры не могут использовать текстовые переменные, а не-
которым процедурам непосредственно требуются последовательные целые
числовые значения.
Категоризация переменных
Визуальная категоризация. Категоризация в какой-то мере тоже
является перекодировкой, однако осуществляется по другому принципу.
Категоризация необходима для создания новых переменных на основе груп-
пирования значений существующих переменных в ограниченное количество
различающихся категорий. Эту процедуру можно использовать для созда-
ния новых переменных из непрерывных числовых переменных. Например,
на основе количественной переменной «Возраст респондента» можно соз-
дать новую переменную, которая будет содержать удобное для исследовате-
ля количество возрастных категорий. Кроме того, процедура позволяет пре-
образовывать большое число категорий порядковой переменной в меньшее
число категорий. Например, можно сократить оценку деятельности прези-
дента с десятибалльной шкалы до, например, трехбалльной: низкая, средняя
и высокая.
Для примера используем данные исследования «Курьер» проведенного исследовательской организацией «Левада-центр» в 2007 г. (11-я волна). В частности, рассмотрим категоризацию переменной «Возраст респондента».
С целью осуществления необходимой процедуры вызываем стартовое диалоговое окно «Визуальное разбиение», выбрав пункт «Визуальная категоризация» в меню «Преобразовать» (рис. 1). Из общего списка выбираем переменную, которую необходимо категоризовать, при помощи кнопки со стрелкой переносим ее в соседнее окно «Переменные для категоризации» (рис. 32).
Рис. 32. Стартовое диалоговое окно «Визуальное разбиение»
Дополнительно в этом же окне можно ограничить число сканируемых
наблюдений. В файлах данных с большим числом наблюдений ограничение
числа сканируемых наблюдений может существенно сэкономить время, од-
нако этого следует по возможности избегать, поскольку это влияет на рас-
пределение значений, используемых в последующих расчетах процедурой
«Визуальное разбиение».
Еще одной особенностью является то, что текстовые переменные и
номинальные числовые переменные не отображаются в списке исходных
переменных. Процедура «Визуальное разбиение» требует числовых пере-
менных, измеренных в количественной или порядковой шкале, поскольку
предполагается, что значения данных имеют некоторый логический поря-
док, который можно использовать для естественной группировки значений.
Если же все-таки возникает необходимость категоризации текстовых и но-
минальных переменных, то можно просто изменить тип шкалы нужной пе-
ременной в Редакторе переменных.
Итак, по завершении первого этапа нажимаем кнопку «Продолжить»,
после чего появляется основное диалоговое окно «Визуальное разбиение»
(рис. 33).
Рис. 33. Основное диалоговое окно «Визуальное разбиение»
В этом окне представлено очень много информации. Попробуем разо-
браться в ней. Рассмотрим каждый раздел окна подробно.
1. Список отсканированных переменных. В списке выводятся пере-
менные, которые мы выбрали в стартовом диалоговом окне. Их можно отсо-
ртировать по уровню измерений (количественный или порядковый), а также
по имени или метке переменной, щелкнув по заголовку столбца.
2. Количество просканированных наблюдений и пропущенных зна-
чений. В этой части окна выводится число просканированных наблюдений
и пропущенных значений. Все отсканированные наблюдения для выбранной
переменной используются для формирования интервалов. Пропущенные же
значения не включаются ни в одну из категорий интервалов.
2. Текущая и новая переменные. Здесь показывается имя и метка
текущей выбранной переменной, а также имеется возможность введения
имени и метки новой, разбиваемой переменной. По умолчанию для новой
переменной используется метка или имя исходной переменной с добавлен-
ным словом «Категоризовано».
3. Минимум и максимум. Сразу под именами и метками переменных
указываются минимальное и максимальное значения текущей выбранной
70
переменной по отсканированным наблюдениям, не включая пропущенные
значения.
4. Гистограмма «Непропущенные значения». Этот график находит-
ся в центре диалогового окна и отображает распределение непропущенных
значений текущей выбранной переменной на основе отсканированных на-
блюдений. После определения интервалов для новой переменной на гисто-
грамме появляются вертикальные линии, обозначающие границы интерва-
лов. В программе имеется возможность перетаскивать линии границ интер-
валов на гистограмме, изменяя ширину интервалов, а также удалять интер-
валы, перетаскивая линии границ за пределы гистограммы.
5. Сетка представлена таблицей, включающей три столбца. В первом
столбце указан номер границы, во втором отображаются значения, опреде-
ляющие верхние границы интервалов, в третьем – метки для каждого интер-
вала. Ввести значения в эту таблицу можно вручную, или же воспользовав-
шись кнопкой «Границы интервалов», находящейся справа
Рассмотрим более подробно каждый из этих способов введения зна-
чений.
Ручной ввод. По умолчанию, автоматически включается граница ин-
тервала со значением «Высокий». Этот интервал будет включать все зна-
чения, превышающие значения остальных границ интервалов. Интервал,
определяемый наименьшим значением границ интервалов, будет включать
все значения: меньшие либо равные этому значению; просто меньше этого
значения, – в зависимости от того, как определены верхние границы интер-
валов.
Вводим имя новой переменной «age». Установив курсор в первой
строке второй колонки сетки, вводим при помощи клавиатуры числовое зна-
чение – допустим, «25». Это значение будет являться верхней границей пер-
вой категории, таким образом, сама категория будет включать все значения
до 25. Учитывая, что в рассматриваемом исследовании опрос проводился
среди респондентов старше 18 лет, первая категория будет включать в себя
возрастную группу от 18 до 25 лет включительно. По мере того как мы вво-
дим новое значение, программа автоматически добавляет новую строку в
сетку. Во вторую строку вводим значение 37, в третью – 49, в четвертую –
58, и в пятую – 70. Одновременно мы наблюдаем появление на гистограмме
вертикальных линий, которые позволяют визуально отслеживать процесс
категоризации. Таким образом, у нас получилось шесть возрастных кате-
горий. Метки значений, которые располагаются в третьей колонке, можно
ввести вручную или воспользоваться кнопкой «Создать метки», чем мы и
воспользовались (рис. 34).
Рис. 34. Создание интервалов и меток «ручным» способом
Любой интервал или метка удаляется из сетки так же легко, как и соз-
дается. Для этого необходимо щелкнуть правой кнопкой мыши по ячейке
«Значение» или «Метка» интервала, который необходимо удалить и из кон-
текстного меню выбрать команду «Удалить строку». Отметим, что при уда-
лении интервала «Высокий», всем наблюдениям, имеющим значения выше
последнего значения границы интервала, в новой переменной будут назна-
чены системные пропущенные значения. Выбрав команду «Удалить все мет-
ки» или «Удалить все границы», можно удалить все метки или все заданные
интервалы.
В конечном итоге, при нажатии кнопки «ОК», программа создает новую
переменную, которая является категоризованным возрастом респондентов.
Задача границ интервалов при помощи кнопки «Границы интер-
валов». При нажатии кнопки «Границы интервалов» появляется одноимен-
ное диалоговое окно (рис. 35).
Учитывая, что основной принцип осуществления процедуры катего-
ризации нами усвоен на предыдущем примере, ниже просто опишем возмож-
ности автоматического формирования категорий интервалов при помощи
диалогового окна «Границы интервалов» на основе выбранного критерия.
Раздел «Равные интервалы» формирует категории интервалов с рав-
ной шириной на основе любых двух из следующих трех критериев: «Место-
положение первой границы» (значение, которое определяет верхнюю грани-
72
цу самого нижней категории интервала); «Количество границ»; «Ширина»
каждого интервала (например, значение 10 разбило бы возраст в годах на
интервалы по 10 лет).
Рис. 35. Автоматическое формирование категорий интервалов
Раздел равные процентили (для отсканированных наблюдений) фор-
мирует категории интервалов с равным числом наблюдений в каждом интер-
вале на основе одного двух критериев: «Количество границ» (Количество категорий интервалов равно количеству границ плюс единица. Например,
три границы определяют четыре интервала процентилей (квартили), каждый из которых
содержит по 25% наблюдений) и «Ширина» (Ширина каждого интервала, выражается в процентах от общего числа наблюдений. Например, значение 3,33 задавало бы три категории интервалов (две границы), каждый из которых содержал бы 33,3% наблюдений).
Если исходная переменная содержит относительно малое число различаю-
щихся значений или большое число одинаковых значений, может быть сфор-
мировано меньшее число интервалов, чем запрашивается. Если значению
границы интервала соответствуют несколько идентичных значений, они все
попадут в один и тот же интервал, поэтому фактический процент может не
быть в точности равным тому, который должен выделяться.
Раздел «Границы – в среднем значении и в стандартных отклонениях
от него (для отсканированных наблюдений)» формирует категории интер
валов на основе значений среднего и стандартного отклонения распределе-
ния значений переменной. Можно выбрать любую комбинацию интервалов
на основе одного, двух и/или трех стандартных отклонений. При этом если
не выбран ни один из предложенных интервалов стандартных отклонений,
формируются две категории интервалов с границей в среднем значении пе-
ременной.
Отметим, что расчеты процентилей и стандартных отклонений выпол-
няются на основе отсканированных наблюдений. Если на первом этапе (от-
бора переменных для категоризации) число сканируемых наблюдений было
ограниченно, то результирующие интервалы могут не содержать точную
долю наблюдений, которую хотелось бы видеть в интервалах, в особенности,
если файл данных был отсортирован по исходной переменной. Например,
если мы ограничили число сканируемых наблюдений первыми 100 наблю-
дениями в файле данных, содержащем 1000 наблюдений, который был от-
сортирован в порядке возрастания значений возраста респондента, то вме-
сто четырех интервалов, каждый из которых содержит по 25% наблюдений,
мы можем обнаружить, что первые три интервала содержат примерно по
3,3% наблюдений каждый, тогда как последний содержит 90% наблюдений.
Теперь вернемся к остальным возможностям, предлагаемым SPSS,
для удобства визуальной категоризации.
6. Перевернуть шкалу. По умолчанию, значения новой, категоризо-
ванной переменной являются последовательными целыми числами от 1 до
n. Переворот шкалы приводит к последовательности целых чисел от n до 1.
7. Копировать интервалы. Данная функция позволяет копировать
спецификации интервалов из другой переменной в текущую выбранную
переменную или из выбранной переменной в несколько других переменных.
Оптимальная категоризация представляет собой особую процеду-
ру категоризации одной или нескольких переменных путем распределения
значений переменных в блоки. Например, переменная «уровень образова-
ния» является оптимальной по отношению к категориям переменной «долж-
ность». Блоки могут быть использованы вместо первоначальных значений
данных для дальнейшего анализа в процедурах, которые требуют категори-
альных переменных. В рамках настоящей работы не будем подробно рассма-
тривать данную функцию.
В заключение лекции отметим, что, наряду с оптимальной категориза-
цией, еще несколько функций в настоящем издании остались без внимания.
Это связанно с тем, что, исходя из опыта авторов, в практике анализа данных
социологических исследований эти функции используются достаточно ред-
ко. Соответственно, и приоритетность их по сравнению с рассмотренными
74
функциями гораздо ниже. Стоит добавить, что вопросы, не рассмотренные в
этом разделе подробно, изучить самостоятельно не составит труда.
Частотный анализ
Собрав и введя в компьютер массив первичных социологических ма-
териалов, исследователь вплотную подходит к необходимости получения
обобщенной информации о собранных данных. Для того чтобы получить са-
мую общую картину по результатам проведенного исследования, социолог
прибегает к простому частотному анализу. Этот анализ – лишь первый шаг
на сложном пути изучения общества и социальных групп, их особенностей.
Тем не менее, это очень важный этап в обработке первичных социологиче-
ских данных, ведь именно благодаря анализу простых частотных распреде-
лений социолог может сориентироваться в собранном материале, наметить
дальнейшие пути его анализа.
Пакет программ SPSS открывает широкие возможности не только для из-
учения частотных распределений, но и для их представления в табличной и гра-
фической формах, а также для проведения статистических тестов, которые позво-
ляют получить дополнительные характеристики рассматриваемых переменных.
Рис. 36. Построение одномерных частотных таблиц с помощью меню «Анализ:
Описательные статистики: Частоты»
Для проведения частотного анализа в SPSS необходимо воспользовать-
ся командой «Частоты». В меню «Анализ» выберем пункт «Описательные
статистики», а в ней – «Частоты» (см. рис. 36). После этого на мониторе
вашего компьютера вы увидите следующее диалоговое окно (рис. 4.2), с ко-
торым нам и предстоит работать. В левой части окна расположен список до-
ступных для анализа переменных, правая его часть пока пуста. В него с по-
мощью стрелки мы перенесем ту переменную (или переменные), частотное
распределение которой (или которых) мы хотим увидеть. В нашем случае
это будет переменная q2 с результатами ответов на вопрос «Не могли бы Вы
сказать, Вы, Ваша семья уже приспособились к переменам, произошедшим
в стране в течение последних 10 лет; или думаете, что приспособитесь в
ближайшем будущем; или думаете, что так никогда и не сможете к ним при-
способиться?».
Рис. 37. Диалоговое окно «Частоты»
Таблица 11
Вера в Бога
Частота
Процент
Не верю в Бога
773
40,
Верю в Бога
975
50,5
Всего
1748
90,5
Системные пропущенные
183
9,5
Всего
1931
100,0