Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
1
Лекция Выборка в социологическом исследовании
Оглавление
Определение генеральной совокупности (объект исследования) ........................................................... 1
Выборка, ошибка выборки, репрезентативность выборки ...................................................................... 1
Статистический вывод и описательная статистика. ................................................................................. 3
Расчет необходимого количества респондентов ...................................................................................... 6
Расчет размера выборки .......................................................................................................................... 6
Рекомендованные размеры выборки ..................................................................................................... 7
Сколько людей следует попросить пройти опрос? .............................................................................. 7
Методы отбора и типы выборки в количественных исследованиях ....................................................... 8
Невероятностная Выборка ........................................................................................................................ 13
Выборка в качественных исследованиях ................................................................................................ 15
Определение генеральной совокупности (объект исследования)
Сразу после того, как сформулирована цель исследования, следует определить, какой круг лиц
должен быть исследован.
Сл Генеральная совокупность, т. е. множество интересующих социолога объектов исследования,
может быть задана и описана лишь на основе каких-то содержательных представлений. Если, например,
нас интересуют политические пристрастия избирателей, естественно включить в генеральную
совокупность лишь тех, кто уже достиг избирательного возраста, а также обладает этим правом.
Генеральная совокупность может оказаться более узко направленной, например, «студенты социологи
СПбГУ» или более широкой – население СПб или России от 18 лет.
Идеальная генеральная совокупность, задаваемая теоретическим описанием объекта
исследования, почти никогда не будет полностью совпадать с реальной совокупностью, ибо последняя
подвержена постоянным колебаниям: люди рождаются, умирают, уезжают и т.д. Поэтому столь важно
при описании генеральной совокупности указывать время и место проведения исследования.
Необходимо уяснить, какие из имеющихся сведений о характеристиках генеральной совокупности
существенны для целей исследования.
Чаще всего это такие параметры, как:
половозрастная структура (нужно ли исследовать мнения части населения, имеющей право
голоса или всех людей старше 16 лет, или, чтобы лучше учесть мнения молодых покупателей – с 14 лет.
Следует ли проводить верхнюю возрастную границу – например, читатели газет от 16 до 70 лет),
социальный состав (социально-профессиональные, социально-статусные характеристики –
владельцы автомобилей, люди одной профессии, работники одного предприятия),
пространственная локализация (население определенного города или области, жители какойто категории населенных пунктов).
Практическая
трудность определения генеральной совокупности в социологических
исследования связана не только с необходимостью содержательно определить объект исследования, но
ещё и с техническими моментами – трудности получения точных и полных данных о генеральной
совокупности. Например, если нужно построить выборку населения России, понадобятся точные и
полные данные о распределении жителей по населенным пунктам, как люди или семьи регистрируются и
учитываются официальной статистикой.
Выборка, ошибка выборки, репрезентативность выборки
Выборка – подмножество заданной совокупности, позволяющее делать
более или менее точные выводы относительно совокупности в целом.
Выборочный метод можно применять там, где имеется совокупность однородных, но
различимых единиц (людей, событий, случаев).
Репрезентативность выборки - это способность выборки воспроизводить
определенные характеристики генеральной совокупности в пределах допустимых
погрешностей.
Репрезентативная выборка – выборка, которая отражает генеральную совокупность и дает
возможность обобщить результаты, полученные на выборке на всю ген совокупность.
2
Правило получения корректной выборки в простейшей формулировке состоит в том, что
каждый элемент совокупности должен иметь равные шансы попасть в выборку.
Если мы достаем из мешка орехи и нам попадается 5 пустых 5 полных. Это ни о чем не
говорит. Более или менее отражает реальную картину, если содержимое мешка хорошо перемешано и
равномерно распределено.
Если мы взяли 100 орехов – из них нам попали 50 пустых, 50 полных, можно предположить с
вероятностью 95 %, что часть полных орехов составляет от 40 до 60 % и с вероятностью 99 % - что в
мешке не меньше 35% и не больше 65 % плохих орехов.
Репрезентативность – категория, прежде всего, статистическая и без количественной
оценки не имеет смысла. Действительно, под этим понятием подразумевают способность выборки
представлять свойства генеральной совокупности. Иначе говоря, репрезентативность – это
экстраполируемость на всю совокупность тех результатов измерения, которые проведены на некоторой
ее части.
Основная цель использования случайной выборки - попытка устранить любое
систематическое влияние “посторонних”, смещающих факторов на изучаемые переменные.
Единственным средством достижения этой цели является абсолютно случайный характер отбора
наблюдений.
Лишь равенство шансов попадания в выборку для каждого наблюдения, т. е. отбор “наугад”,
гарантирует от намеренных или ненамеренных искажений. Например, в ходе опроса мы изучаем влияние
пола и рода занятий респондента на его отношение к планированию семьи и ограничению рождаемости.
Если используемая нами выборочная процедура ведет к тому, что работающие женщины имеют
несколько меньшие шансы стать респондентами, чем домохозяйки и пенсионерки (последних, как
известно, проще застать дома), наши результаты наверняка окажутся смещенными. Поэтому наилучшей
моделью отбора считается вероятностная, или случайная, выборка, в которой строго соблюдается
принцип равенства шансов попадания в выборку и для всех единиц изучаемой совокупности, и для
любых последовательностей таких единиц.
Ошибки выборки
Если выборка представляет интересующую нас совокупность с приемлемой степенью
точности, то она является репрезентативной (представительной). Репрезентативность означает, что по
выделенным параметрам состав обследуемых приближается к соответствующим пропорциям в
генеральной совокупности.
Различия между результатами выборочного измерения и реальными параметрами
генеральной совокупности (теми, установить которые можно с помощью сплошного обследования)
называются погрешностью или ошибкой выборки.
Сл. Ошибка является атрибутом выборочного метода — она не может быть исключена.
Единственный способ получить результаты, которые свободны от погрешности, — провести сплошное
измерение всех единиц, включенных в генеральную совокупность (что, как показано выше, в
большинстве исследовательских ситуаций невозможно). Поэтому усилия исследователя должны быть
направлены не на исключение ошибок измерения, а на то, чтобы, во-первых, правильно оценить размеры
погрешностей конкретного исследования, и, во-вторых, минимизировать ошибки доступными
средствами до приемлемого уровня.
Выборочную ошибку определяют как расхождение между оценкой некоторого показателя,
получаемого на основании исследования выборки, и истинным значением этого показателя в
генеральной совокупности. (пример с орехами в выборке 50 хороших орехов, в ген совокупности их
может быть 55, но не может быть 70)
Выделяют два вида ошибок выборки — систематические и случайные.
Систематические ошибки возникают в результате нарушения случайного характера
выборочной процедуры. Результаты такого “не вполне случайного” отбора могут выглядеть более или
менее правдоподобно, однако сами по себе они никогда не позволят обнаружить смещение или оценить
его величину.
Самым знаменитым примером смещенной выборочной процедуры стал предвыборный
опрос, проведенный американским жypнaлом “The Literary Digest” в 1936 г.
Журнал Literary Digest проводил опросы общественного мнения перед выборами президента в
1920, 1924, 1928 и 1932, и каждый раз прогноз, составленный на основе опроса, оказывался верным.
Результаты опроса показывали, что Ф. Д. Рузвельт получит 40,9% голосов и уступит президентское
кресло А. Ф. Лэндону. В действительности Рузвельт получил 60,2% голосов избирателей. Расхождение
3
в значительной степени объяснялось характером построения выборочной процедуры. В опросе,
проведенном журналом, в качестве основы выборки использовались телефонные справочники и
регистрационные списки владельцев автомобилей. В 1936 году такие списки включали в себя почти
исключительно представителей экономически благополучных слоев. Беднейшие слои населения оказались
недостаточно представленными в выборке, что и послужило причиной столь значительной ошибки 1.
Случайные ошибки — ошибки, которые зависят от соотношения размеров генеральной и
выборочной совокупности и от неизбежной редукции объекта исследования к совокупности фактически
обследованных единиц, образующих выборку.
Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за
пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие
самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.
Случайная ошибка уменьшается при увеличении объема выборки. В отличие от случайных
ошибок систематические ошибки при возрастании объема выборки не уменьшаются.
Статистический вывод и описательная статистика.
Описательная статистика используется, если мы просто хотим описать данные, с которыми
работаем
Статистический вывод используется, если мы хотим распространить результаты на более
обширную группу, которую мы не можем изучить напрямую.
В случае статистического вывода обязательно использовать вероятностную (случайную)
выборку.
Случайными называются выборки, сформированные в результате случайного отбора (рандомизации)
элементов генеральной совокупности. Случайный отбор (рандомизация) - это процедура,
обеспечивающая выполнение двух основных требований:
1. все единицы, входящие в состав генеральной совокупности, должны иметь равные
шансы попасть в выборку;
2. все равные по размеру выборке комбинации таких единиц должны иметь равные
шансы образовать выборку.
Закон больших чисел и ЦПТ (Центральная предельная теорема) – совокупность теорем
теории вероятности, лежащих в основе статистического вывода.
Закон больших чисел - количественные закономерности массовых явлений отчетливо
проявляется только лишь в достаточно большом их числе.
Другими словами:- среднее значение выборочной величины при стремлении количества
выборок к бесконечности будет близко к «истинному среднему»
Закон больших чисел (ЗБЧ) в теории вероятностей — принцип, описывающий
результат выполнения одного и того же эксперимента много раз. Согласно закону, среднее
значение конечной выборки из фиксированного распределения близко к математическому
ожиданию этого распределения.
Математическое ожидание — среднее значение случайной величины при
стремлении количества выборок или количества её измерений (иногда говорят —
количества испытаний) к бесконечности. Среднее арифметическое одномерной случайной
величины конечного числа испытаний обычно называют оценкой математического
ожидания.
ЗБЧ
важен,
поскольку
он
гарантирует
устойчивость для
средних
значений
некоторых случайных событий при достаточно длинной серии экспериментов.
Важно помнить, что закон применим только тогда, когда рассматривается большое количество
испытаний.
Сл Центральная предельная теорема – лежит в основе идеи статистической проверки
гипотез - распределение значений выборочных средних близко к нормальному вне зависимости от
распределения значений генеральной совокупности при условии, что выборки достаточно велики.
1
Этот журнал ежегодно в течение многих лет проводил почтовые опросы более чем миллиона
человек. В избирательных бюллетенях просили указать, чья кандидатура на предстоящих выборах
для них предпочтительнее. Мангейм Дж., Рич Р. Политология. Методы исследования. – М.:1997
Издательство «Весь Мир», 1997
4
ЦПТ - сумма достаточно большого количества слабо зависимых случайных величин, имеющих
примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму
определяющего вклада), имеет распределение, близкое к нормальному.
сл Нормальное распределение (Колоколообразная кривая)
– унимодальное (единственное наиболее частое значение), симметричное, отклонения
значений от среднего равновероятны
ЦПТ позволяет делать статистические заключения, основанные на свойствах нормального
распределения, даже если выборка взята из совокупности, распределение значений в которой
отличается от нормального.
Сл распределение выборочных средних
Будем многократно извлекать выборки из генеральной совокупности по 50 значений в
выборке, распределение будет отличаться от выборки к выборке, значение среднего так же будет
варьироваться, где-то более точные оценки, где-то отклонения довольно большие. Что произойдет
если рассчитать среднее значение в каждой подвыборке и рассмотреть их распределение. Если в
каждой подвыборке среднее будет не очень точным, то среднее всех средних будет очень близко к
реальному среднему в генеральной совокупности. Все средние будут лежать близко к нулю.
Дополнительно: Объяснение ЦПТ видео Coursera:
https://www.coursera.org/lecture/mathematics-and-python/tsientral-naia-priediel-naia-tieoriema-3B3ic
ОПИСАТЕЛЬНАЯ СТАТИСТИКА
Меры изменчивости
- размах – разница наибольшего и наименьшего значения распределения
R= X max – Xmin
Разброс роста взрослых мужчин от 1.50 до 2.00 м
Средний 1.75
Разброс зар. плат от 10 тыс до 900 тыс
Средняя 200 тыс
10, 20, 20, 50, 900 (сумма 1000)
Недостаток – любые изменения крайних значений очень сильно отражаются на итоговом
результате. Размах изменится, но говорить, что изменилась вариативность признака – некорректно.
Поэтому изменчивость рассчитывается с учетом каждого значения признака и позволяет
посмотреть, насколько в среднем наши значения отклоняются от среднего значения по выборке.
Сл Дисперсия (variance) = средний квадрат отклонений индивидуальных значений признака
от их средней величины (сумма квадратов отклонений/кол-во наблюдений)
Усредняет все значения отклонений.
Почему квадрат? Чтобы избавиться от отрицательных отклонений, иначе сумма будет равна 0.
Где σ2 - дисперсия распределения значений переменной, для которой выполняется оценка ошибки,
– среднее значение переменной для всей выборки
xi - значение переменной для одной измеренной единицы
n – размер выборки.
Дисперсия для выборки = сумма квадратов отклонений/кол-во наблюдений – 1
Возведение в квадрат увеличило отклонение ср наблюдений от ср по выборке, чтобы от этого
избавиться надо извлечь кв корень.
Сл Стандартное (среднеквадратическое) отклонение (сигма σ) для генеральной
совокупности - насколько в среднем выборочное значение отклоняется от среднего в ген
совокупности = корень квадратный из дисперсии
5
Наиболее
распространённый
показатель
рассеивания
значений случайной
величины относительно её математического ожидания (стандартное отклонение) sd Standard
deviation среднее квадратическое отклонение для выборки
атематическое ожидание — среднее значение случайной величины при стремлении
количества выборок или количества её измерений (иногда говорят — количества испытаний) к
бесконечности
Точность измерения характеризуется средним квадратическим отклонением
(стандартной ошибкой). При выборке в 100 элементов она составляет 5%, при выборке в 1000 – 1,6%,
2000 – 1,1%. То есть при удвоении выборки не уменьшается вдвое. Чтобы уменьшить вдвое нужно
выборку увеличить в 4 раза.
Казалось бы, что для получения наиболее точной средней достаточно использовать
максимально большую выборку и тогда стандартная ошибка средней будет стремиться к нулю, а сама
средняя, соответственно, к математическому ожиданию. Однако квадратный корень объема выборки
в знаменателе говорит о том, что связь между точностью выборочной средней и размером выборки не
является линейной. Например, увеличение выборки с 20-ти до 50-ти наблюдений, то есть на 30
значений или в 2,5 раза, уменьшает стандартную ошибку средней только на 36%, а со 100-а до 130-ти
наблюдений (на те же 30 значений), снижает разброс данных лишь на 12%.
Сл Лучше всего изобразить эту мысль в виде графика зависимости стандартной ошибки
средней от размера выборки.
Видно, что примерно после 50-ти значений, уменьшение стандартной ошибки средней резко
замедляется, после 100-а – наклон постепенно становится почти нулевым.
Таким образом, при достижении некоторого размера выборки ее дальнейшее увеличение
уже почти не сказывается на точности средней. Этот факт имеет далеко идущие последствия.
Например, при проведении выборочного обследования населения (опроса) чрезмерное увеличение
выборки ведет к неоправданным затратам, т.к. точность почти не меняется. Именно поэтому
количество опрошенных редко превышает 1,5 тысячи человек. Точность при таком размере выборки
часто является достаточной, а дальнейшее увеличение выборки – нецелесообразным.
Подведем итог. Расчет дисперсии и стандартной ошибки средней имеет довольно простую
формулу и обладает полезным свойством, связанным с тем, что относительно хорошая точность
средней достигается уже при 100 наблюдениях (в этом случае стандартная ошибка средней
становится в 10 раз меньше, чем среднеквадратическое отклонение выборки). Больше, конечно,
лучше, но бесконечно увеличивать объем выборки не имеет практического смысла. Хотя, все,
конечно, зависит от поставленных задач и цены ошибки.
Каков должен быть объем выборки, зависит от требуемой точности выводов, то есть от того,
какая точность выводов необходима и достижима.
Чем больше наблюдений в выборке, тем ближе все выборочные средние к реальному среднему
в генеральной совокупности.
Чем больше наблюдений, чем ниже изменчивость исследуемого признака, тем меньше
стандартная ошибка среднего
Если число наблюдений больше 30 и все они отобраны случайно, то в качестве стандартного
отклонения генеральной совокупности можно использовать стандартное отклонение выборки для
оценки изучаемого параметра
Правило 3-х сигм для нормального распределения
68% наблюдений находятся в диапазоне +/- 1 стандартное отклонение (сигма)
95% наблюдений находятся в диапазоне +/- 2 стандартных отклонения
99% наблюдений находятся в диапазоне +/- 3 стандартных отклонения
Любая выборочная оценка обладает некоторым разбросом, т.к. является случайной
величиной, зависящей от значений в конкретной выборке. Стало быть, для более надежных
статистических выводов следует знать не только точечную оценку, но и интервал, который с высокой
вероятностью включает оцениваемый показатель.
Сл
Предел
погрешности
(предельная
ошибка
выборки)
(предельная
погрешность, предел ошибки, доверительная граница или доверительный предел) Насколько
уверенными Вы должны быть в том, что полученные ответы отображают значения в генеральной
совокупности?
6
Предел погрешности указывает, насколько результаты отклоняются от фактических
значений. Это процентное значение, означающее, с какой вероятностью значения выборки
отклоняются от значений в генеральной совокупности. Как правило, его значения измеряют в (1 %, 5
%, 10 %)
Чем меньше предел погрешности, тем точнее будет значение при определенном уровне
доверия.
В общем случае, чем больше размер выборки, тем меньше предел погрешности. Чем ближе
размер выборки к численности совокупности, тем более репрезентативными будут результаты. С
уменьшением рекомендованного размера выборки увеличивается допустимая погрешность.
Доверительный интервал задает размах части кривой распределения по обе стороны от
выбранной точки, куда могут попадать ответы = Предел погрешности х 2.
Допустим, мы опросили 400 человек о том, поддерживают ли они президента своей страны, и
55% ответило утвердительно. Если уровень доверия равен 95%, а пределы погрешности составляют
±5%, то при стократном повторении опроса в одних и тех же условиях 95 раз из 100 ответ
находился бы в пределах между 50% и 60%.
Допустим, 90% членов выборки любят жевательную резинку со вкусом винограда. Предел
погрешности в 5% добавляет по 5% с каждой стороны этого числа, что означает, что фактически
85-95% участников выборки любят жевательную резинку со вкусом винограда.
5% — наиболее часто используемый предел погрешности, но Вы можете устанавливать
его значение от 1% до 10% в зависимости от опроса. Не рекомендуется поднимать этот
показатель выше 10%.
Расчет необходимого количества респондентов
По материалам: https://help.surveymonkey.com/articles/ru/kb/How-many-respondents-do-I-need
Необходимое количество респондентов зависит от целей опроса и того, насколько важна
достоверность результатов. Чем выше достоверность Вы хотите получить, тем ниже должен быть
допустимый предел погрешности.
Чтобы рассчитать размер выборки, необходимо знать следующую информацию: Численность
совокупности, предел погрешности, уровень доверия
Расчет размера выборки
Чтобы рассчитать размер выборки вручную, можно использовать следующую формулу:
Параметр
Описание
N
Численность совокупности
e
Предел погрешности (в виде десятичной дроби)
z
Уровень доверия (в виде z-оценки)
p
Процентная доля ответивших Процентное значение (в виде
десятичной дроби)
7
Рекомендованные размеры выборки
Ниже приведена таблица, в которой указаны рекомендованные значения численности совокупности*
для предела погрешности при уровне доверия 95%.
Численность совокупности
Размер выборки для предела погрешности
±3%
±5%
±10%
500
345
220
80
1 000
525
285
90
3 000
810
350
100
5 000
910
370
100
10 000
1 000
385
100
100 000 и более
1 100
400
100
* рекомендованные размеры выборки рассчитаны по указанной выше формуле. В некоторых случаях
размеры выборки были округлены вверх до 5 или 10.
Статистическая погрешность (ошибка) чистой случайной повторной выборки оценивается по
формуле:
где Δ- размер максимальной (предельной) случайной ошибки,
t – числовой коэффициент, соответствующий уровню надежности оценки, Числовой коэффициент t
(«количество «сигм») выражает, таким образом, уровень надежности (доверительную вероятность) с
которым можно принять рассчитанный размер статистической погрешности (ошибки выборки).
σ2 - дисперсия распределения значений переменной, для которой выполняется оценка ошибки,
n – размер выборки.
Как следует из формулы, ошибка чистой случайной повторной выборки зависит от трех факторов.
Прежде всего, от размера выборки – чем выборка больше, тем меньше будет погрешность при прочих
равных условиях. Однако обратим внимание, что связь между размером выборки и ошибкой не
пропорциональная, а квадратная. Это значит, что для того, чтобы, например, уменьшить погрешность
вдвое, выборку придется увеличить в 22=4 раза.
Во-вторых, ошибка зависит от дисперсии распределения определенной переменной. Это значит что
утверждение «ошибка этой выборки равна X» весьма условно и статистически неверно. На самом деле
ошибка характеризует не выборочную совокупность в целом, а распределения отдельных переменных. У
разных распределений, полученных в процессе измерения одной и той же выборочной совокупности,
будут разные ошибки в зависимости от величины дисперсий этих распределений. В исследовательских
отчетах и публикациях часто указывают единственный показатель - максимальную погрешность,
рассчитанную для распределения с наибольшей дисперсией. Реже приводят таблицы погрешностей для
разных вариантов распределений. Этими данными можно пользоваться для быстрой оценки границ
доверительного интервала, а при необходимости рассчитать ошибку для определенной переменной
отдельно.
Сколько людей следует попросить пройти опрос?
Процентная доля ответивших может определять, какому количеству людей нужно
отправить опрос. Чем выше процентная доля ответивших, тем меньше людей необходимо попросить
пройти опрос.
Например, если Вам нужно 100 респондентов и Вы ожидаете, что 25% людей, приглашенных
принять участие в опросе, ответят на него, Вам необходимо пригласить 400 человек.
8
По следующей формуле можно рассчитать, какое количество людей необходимо пригласить
для участия в опросе, на основе ожидаемой процентной доли ответивших:
необходимое количество респондентов
x 100
ожидаемая процентная доля ответивших
Методы отбора и типы выборки в количественных исследованиях
Основные методы отбора при построении выборочной совокупности.
1. Вероятностные методы – случайная выборка
2. Невероятностные методы.
Основные типы вероятностной выборки
1. Простая случайная
2. Cистематическая
3. Стратифицированная
4. Кластерная (территориальная)
5. Многоступенчатая
Невероятностная (детерминированная) выборка целевая и целенаправленная
•
Квотная интервьюеру предписывается выделять определенной
опрашиваемых в разных группах.
•
Целевая
•
Метод «снежного кома»/ respondent-driven sampling
•
Метод стихийного отбора
•
Метод основного массива
количество
Простая случайная выборка
Сл
В социологических исследованиях применяются следующие техники рандомизации:
экспериментальные техники;
использование таблиц случайных чисел;
использование компьютерных генераторов случайных чисел.
Процедура построения простой случайной выборки включает в себя следующие шаги(
Во-первых, нужно получить полный список членов генеральной совокупности и
пронумеровать этот список. Такой список называется основой выборки.
Во-вторых, следует
определить предполагаемый объем выборки, т. е. ожидаемое число
опрашиваемых.
В-третьих, нужно извлечь из таблицы случайных чисел столько чисел, сколько требуется
выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных
чисел.
В-четвертых, нужно выбрать из списка-основы тех респондентов, номера которых
соответствуют выписанным случайным числам. Речь идет только о безвозвратной выборке.
Начало отсчета номеров в таблице задается произвольными номерами строки и столбца,
например, пересечение второй строки и третьего столбца. Далее можно двигаться по любому правилу:
подряд, через строку, через два столбца и т. п. Мы будем выписывать нужные нам номера подряд по
строке, двигаясь по горизонтали и переходя при необходимости на следующую строку. В результате мы
получим нужную последовательность. Затем остается выписать из списка-основы фамилии, стоящие под
этими номерами. Располагая персональным компьютером, вместо таблицы можно воспользоваться
“генератором случайных чисел”, имеющимся в большинстве статистических программ.
Самые очевидные ограничения для использования простой выборки возникают в случае
большого объема генеральной совокупности. Прежде всего, исследователь сталкивается с проблемами
поиска полной и несмещенной основы выборки.
При обследованиях небольших групп и первичных коллективов эти проблемы обычно легко
решаются: достаточно воспользоваться членскими списками, списками личного состава и т. п., внеся в
них необходимые уточнения. В широкомасштабных опросах общественного мнения и социологических
9
обследованиях чаще применяют другие основы: переписные листы, списки избирателей, домовые книги,
карточки паспортных столов милиции (а также картотеки РЭУ, ДЭЗ и т. п.), нехозяйственные книги
сельских советов. Все эти “готовые” основы выборки обладают определенными преимуществами и
недостатками. Решая практическую задачу планирования выборочного исследования, социолог обычно
оценивает возможные основы по нескольким параметрам.
1.
Списки, пригодные для составления основы выборки, могут храниться либо
централизованно, либо децентрализованно, “вразброс”, в различных территориальных органах власти,
статистических учреждениях и т. п. Естественно, что в первом случае затраты на получение доступа к
основе будут значительно ниже, чем во втором. При децентрализованном хранении исследователь
должен самостоятельно составить единый список-основу, собрав необходимые данные в результате
посещения всех соответствующих институций.
2. Используемые в качестве основы выборки списки могут обладать различной степенью
точности. Точность списка, в свою очередь, зависит от его полноты и частоты его обновления. Эти
качества (полнота списка и высокая частота его пересмотра) редко встречаются одновременно. Как
правило, самыми полными оказываются именно те основы, которые реже всего обновляются. Таковы,
конечно, данные переписей или эпизодически составляемые именные распределительные списки
(типа списков на получение приватизационных чеков). К сожалению, чем больше времени отделяет
планируемое вами исследование от последней переписи, тем больше вероятность возникновения
ошибок и смещений в основе выборки.
Очень существенными достоинствами обладают списки
паспортных столов милиции, жилищно-эксплуатационных контор и других местных административных органов.
Качество основы выборки оценивают уже на стадии планирования исследования. Особое
внимание уделяют таким потенциальным угрозам валидности, как
неполнота выборочной основы,
“склеивание” единиц отбора,
“пустые” элементы в списке.
О неполноте говорят в тех случаях, когда используемый список не содержит в себе
некоторые единицы, безусловно, относящиеся к целевой совокупности. Например, списки жильцов могут
не содержать сведений о тех жильцах, которые еще не зарегистрировались по новому месту жительства.
В некоторых случаях проблему неполной основы можно решить за счет использования дополнительных
основ. В нашем примере со списками жильцов такой дополнительной основой могут стать “листки
прибытия-убытия”, которые хранятся в паспортных столах отделений милиции.
Примером “склеивания” может служить ситуация, когда генеральная совокупность состоит
из индивидов, а реальной основой отбора служит список квартир или домовладений, содержащий лишь
сведения об ответственных квартиросъемщиках, собственниках недвижимости.
“Пустые” элементы в основе выборки встречаются в тех случаях, когда исходный список
содержит имена или адреса, за которыми не стоят реально существующие (или практически доступные)
выборочные единицы. Эта проблема часто возникает при использовании устаревших списков,
содержащих информацию об уже уехавших, умерших людях.
Описанные выше трудности составления валидной, то есть соответствующей объекту
исследования (целевой совокупности) основы выборки, носят и статистический и экономический
характер. Довольно часто исследователь сталкивается с ситуацией, когда реализация простой случайной
выборки связана с такими временными и финансовыми затратами, что ее применение становится
невозможным. Наиболее разумным выходом здесь является использование других, «компромиссных»,
процедур случайного отбора.
Систематическая выборка
Сл Систематическая выборка по качеству часто приближается к простой случайной. Систематическая
выборка, как и простая случайная, требует полного списка или заданного упорядочения
совокупности. Техника осуществления систематического отбора элементарна: сначала случайным
образом отбирается первая единица, затем отбору подлежит каждый n-й элемент. Число n в данном
случае называют шагом отбора. Можно, например, отбирать каждый 25-й или каждый 200-й элемент.
Чтобы определить шаг отбора, нужно поделить известный объем генеральной совокупности (N) на
предполагаемый объем выборки (n). (например, чтобы отобрать 200 человек из 4000 нужно отбирать
4000/200 = каждого 20-го.)
Иногда генеральная совокупность (и соответственно, основа выборки)
слишком велика либо исследователю известен не полный список, а лишь правило упорядочения
элементов в генеральной совокупности. Рассмотрим случай систематической выборки городских
квартир. Если в результате осуществляемого непосредственно “в поле” интервьюерами систематического отбора в выборке будут сверх представлены квартиры, расположенные на первых и последних
этажах, возникнет систематическая выборочная ошибка. На первых и последних этажах в российских
городах часто живут люди из групп, имеющих более низкий социально-экономический статус и соответственно ограниченные финансовые ресурсы.
10
Шаговый отбор. Классическим вариантом систематического (алгоритмического) отбора является
шаговый отбор. Суть его заключается в том, что полевой исследователь отбирает для контакта единицы
генеральной совокупности с определенной частотой, например – каждую пятую или каждую десятую.
При условии случайного выбора исходной точки, применение шага обеспечивает равную вероятность
попадания в выборку всех элементов генеральной совокупности в пределах охвата полевой процедурой.
В этом скрыто существенное ограничение шагового, да и любого другого алгоритмического отбора. Как
и случайная процедура, алгоритм должен быть применен ко всей генеральной совокупности – в
противном случае произойдет редукция последней к другой совокупности единиц. Это значит, что в
случае шагового отбора шаг должен быть рассчитан как отношение размера генеральной совокупности к
размеру выборки.
Например, численность взрослого населения Санкт-Петербурга мы оценили (с учетом описанных
выше условностей) в 4 млн. человек. Плановый размер выборки составляет 1000 респондентов.
Следовательно, для обеспечения всем горожанам действительно равных шансов попасть в выборку надо
использовать следующий шаг:
4000000/1000=4000
Т.е., например, в ходе уличного опроса интервьюеры должны обраться к каждому
четырехтысячному прохожему. Понятно, что даже в местах с очень высокой плотностью потока
прохожих (у станций метро, крупных магазинов) при таком шаге работа интервьюера будет очень
неэффективной. Поэтому де-факто шаговый отбор используется преимущественно в сочетании
описанным ниже кластерным отбором, и большинство шаговых выборок являются также кластерными.
Заметим, что в ситуациях, когда генеральная совокупность целиком доступна для исследовательских
процедур (в т.ч. и применения шага или иного алгоритма), предпочтительнее использовать случайную, а
не систематическую выборку. Преимущества последней в полной мере раскрываются, когда охват
генеральной совокупности целиком невозможен или существенно затруднен.
Классическим вариантом использования шагового отбора являются уличные опросы. Заметим, что
коммуникативная ситуация уличного вербального контакта неизбежно подталкивает интервьюера к тому,
чтобы выбирать в качестве респондента личность, вызывающую доверие и симпатию (этот выбор
запрограммирован повседневным опытом,
преодолеть который
сложно даже длительными
тренировками). Процедура шагового отбора прекрасно решает эту проблему – находясь на точке опроса
или передвигаясь по заданному маршруту, интервьюер ведет подсчет проходящих мимо него людей и
вступает в контакт только с теми, кто соответствует заданному шагу отбора (с каждым 5, или 10, или 15 и
т.д.) Данная процедура дает хорошие результаты, если инструкцией четко определены границы зоны, в
которой интервьюер ведет подсчет прохожих, направление их движения и т.п. параметры, а также шаг
отбора оптимизирован таким образом, чтобы интервьюер, начиная очередной цикл счета после
завершенного интервью или отказа, не видел своего очередного респондента. Кроме того, шаг
целесообразно определять таким образом, чтобы интервьюер за время подсчета успевал немного
передохнуть после очередного интервью, но не простаивал слишком долго. Практический вывод состоит
в том, что шаг отбора респондентов во время уличного опроса должен быть подобран соответственно
условиям точки проведения исследования. Шаг может различаться не только для разных точек опроса, но
для разных периодов времени – в зависимости от фактической интенсивности потока людей. Если
перечисленные условия соблюдены, работа интервьюера на улице хорошо поддается контролю, т.к.
внешнему наблюдателю сразу заметно – соблюдает ли интервьюер шаг отбора или нет.
Другой, также классический, вариант применения шагового отбора – маршрутные выборки,
которые используются при проведении опросов по месту жительства, опроса работников корпораций, а
также наблюдения. Как правило, маршрутное задание для интервьюера/наблюдателя заключается в том,
чтобы передвигаясь по заранее определенной траектории, отбирать для исследования объекты (дома,
парадные, офисы, квартиры, вывески и т.д.) с определенной частотой.
Например, маршрутное задание для проведения квартирного опроса может выглядеть следующим
образом.
Исходная точка маршрута – перекресток Большого проспекта Петроградской стороны и ул. Ленина.
Двигайтесь по правой стороне ул. Ленина в сторону Малого пр. до начала второго по счету дома (если
считать первым угловой дом). Номер дома значения не имеет. Если это жилой дом, зайдите в первую
парадную по ходу движения. Номер парадной и номера квартир в ней значения не имеют. Если парадные
этого дома расположены во дворе – зайдите во двор и найдите в первую парадную, расположенную по
правую руку от вас. Если входы в парадные есть и непосредственно с ул. Ленина, и со двора – вначале
обследуйте парадные, вход в которые устроен с улицы, потом – со двора. В этой парадной начните опрос
с квартиры с самым маленьким номером на втором этаже. Независимо от результативности контакта
(состоялось интервью, получен отказ или никто не ответил) перейдите во вторую по ходу движения
парадную (парадные во дворе обходите справа налево или против часовой стрелки – в зависимости от
устройства двора). Во второй парадной проведите опрос в квартире с самым маленьким номером на
третьем этаже. Далее перейдите в третью парадную и т.д., следуя описанному выше принципу. В каждой
следующей парадной поднимайтесь на один этаж выше. После того, как доберетесь до верхнего этажа, в
11
следующей парадной перейдите на первый этаж. После обследования всех парадных в этом доме
выйдите на ул. Ленина и продолжите движение по той же стороне в сторону Малого пр. Пропустив один
дом, зайдите в первую парадную следующего (четвертого от перекрестка) дома. В этой парадной начните
опрос с третьего этажа и следуйте описанному выше алгоритму. Далее двигайтесь в сторону Малого пр.,
выбирая для опроса дома через один. В каждом следующем доме начинайте опрос на один этаж выше, а
когда это станет невозможно – с первого и снова по возрастанию. Дойдя до перекрестка, поверните на
Малый пр. и продолжайте работу по заданной схеме (угловой дом считается один раз даже если он имеет
двойную нумерацию). Далее двигайтесь по Малому пр., ул. Бармалеева и Большому пр. пока не
достигните исходной точки опроса. Дома, парадные и квартиры, не являющиеся жилыми, пропускайте
без внесения изменений алгоритм дальнейшего движения.
Стратифицированная выборка
Стратифицированный случайный отбор, или отбор по свойствам генеральной совокупности. Он
предполагает предварительное определение тех качеств, которые могут влиять на изменчивость
изучаемого свойства (напр., пол, образование). Затем определяется процентное соотношение
численности различающихся по этим качествам групп (страт) в генеральной совокупности и
обеспечивается идентичное процентное соотношение соответствующих групп в выборке. Далее в
каждую подгруппу выборки респонденты подбираются по принципу простого случайного отбора 2.
Перед случайным извлечением, генеральная совокупность
разбивается на несколько
обособленных и различных по природе групп (страт). Например, если надо чтобы в исследовании
равновероятностно приняли участие как мужчины, так и женщины, генеральная совокупность делится
по признаку пола на 2 страты, а потом по методу случайной выборки из каждой страты выбирается
случайным образом набор элементов для исследования .
Стратифицированная выборка используется в тех случаях, когда из каких-то содержательных
соображений важно обеспечить представительность вероятностной выборки по каким-то конкретным
важным для исследовательских целей критериям (например, по профессиональному составу). В этом
случае составляют различные страты, обладающие большей гомогенностью, а затем проводят
дальнейший отбор внутри этих страт.
Стратифицированный отбор имеет практические преимущества до тех пор, пока сохраняется
его вероятностный, случайный характер. Стратификацией, строго говоря, называют процедуру, при
которой отбор осуществляют как бы из нескольких “параллельных” подсовокупностей, заданных на
одной и той же генеральной совокупности.
Стратифицированный отбор применяется, когда:
соотношение страт является существенным для исследования
незначительное искажение может существенно исказить результаты исследования
и
его
даже
Например, мы знаем, что в генеральной совокупности 60% рабочих и 40% служащих. Это
соотношение может оказаться весьма существенным с точки зрения наших исследовательских
гипотез, если оно задает одну из независимых переменных (социальный статус). Даже при отсутствии
значительной систематической погрешности небольшие смещения в реализации случайной выборочной
процедуры могут привести к ситуации, когда в нашей конкретной выборке соотношение рабочих и
служащих будет существенно
(на 5—7%) отклоняться от ожидаемой “правильной” пропорции.
Соответственно под угрозой окажется точность наших оценок взаимосвязи между главной
независимой переменной и другими. В описанной ситуации желательно заранее обеспечить
представленность обеих интересующих нас групп, т. е. страт, сохранив вероятностный характер
отбора. Этого можно добиться, если осуществить некую независимую процедуру случайного отбора
для каждой социальной группы в отдельности (в нашем примере для рабочих и служащих) и затем
объединить полученные случайные подвыборки в одну. Полученная в результате выборка будет и
стратифицированной (по профессиональному статусу), и вероятностной. Наличие в этих операциях
предварительной информации – необходимое условие стратифицированного отбора.
Иногда, однако, основной задачей исследования является сравнение различных, обычно
важных с точки зрения некоторой теории, групп внутри выборки с целью описания некоторого
соотношения, имеющего место в генеральной совокупности. Некоторые из таких “теоретически
релевантных” групп могут быть весьма малочисленными. Для того чтобы сделать такие малочисленные
группы - субпопуляции статистически сопоставимыми с другими группами и, следовательно, получить
2
Наследов, 2004, с. 21
12
статистически значимые выводы о существующих (несуществующих) межгрупповых различиях, можно
использовать два метода.
Первый метод заключается в увеличении объема выборки. В этом случае пропорционально
возрастает объем “редкой” страты, но столь же быстро (а иногда и быстрее) возрастает объем
генеральной совокупности. (Например, если пожилые люди старше 85 лет составляют 1/20 целевой
совокупности пенсионеров, то для исследования эффективности социальной работы с пожилыми людьми
нам понадобится выборка объемом 4000 пенсионеров, чтобы получить 200 наблюдений, относящихся к
подсовокупности тех, кому больше 85-и лет).
Второй, более дешевый, метод заключается в непропорциональной стратификации, т.е. в
непропорциональном отборе единиц из различных подсовокупностей. Нередко возникает необходимость
сделать “распространенные” и “редкие” страты равно представленными в выборке. (например, сравнение
кулинарных предпочтений русских и украинцев, проживающих в Петербурге. Некорректно
сравнивать800 русских и 100 украинцев, но если мы будем отбирать каждого 200-го русского и каждого
25-го украинца, то получим две сопоставимые, равные по объему подвыборки) Выбор между
пропорциональной и непропорциональной стратификацией исследователь осуществляет, исходя из
содержательных и экономических соображений.
Кластерная выборка
“Кластеры” (дословно с английского - гроздья) - это естественные группировки единиц
наблюдения.
Например, генеральная совокупность военнослужащих естественным образом группируется
по воинским частям и подразделениям, а совокупность студентов — по университетам, институтам и
колледжам. Социологи в данном случае принимают следующее положение: вместо того чтобы считать в
качестве членов выборки конкретных людей, будем рассматривать их как жителей того или иного
пункта.3 Именно поэтому кластерная выборка называется также многоступенчатой случайной
районированной. Применение этой выборки позволяет уменьшить расходы на получение единицы
информации. При фиксированном бюджете и объеме выборки социолог получает возможность снизить
общие расходы на проведение сбора материала преимущественно за счет уменьшения транспортных
расходов.
В общем случае кластерная выборка основана на первоначальном отборе группировок
(кластеров) и затем — на изучении всех единиц внутри кластера или случайном отборе единиц внутри
кластера. Возможными примерами кластеров, используемых в больших общенациональных опросах,
являются сельские районы, избирательные участки. При изучении специфических популяций
используются иные кластеры: больницы — при изучении пациентов, школы — при изучении
школьников и т. п.
Генеральная совокупность разбивается на подсовокупности (похожие между собой, но в
каждом кластере присутствуют разнородные элементы). Эта выборка используется часто для экономии
ресурсов и времени. Например делим СПб на несколько районов, население которых похоже, затем
выбираем несколько районов (кластеров) для исследования, и из каждого кластера методом случайной
выборки выбираем набор элементов для исследования.
Корректное применение кластерной процедуры основано на неукоснительном соблюдении
четырех необходимых условий.
1) Кластеры должны быть однозначно и явно заданы: каждый член генеральной совокупности
должен принадлежать к одному (и только одному) кластеру.
2) Число членов генеральной совокупности, входящих в каждый кластер, должно быть
известно или поддаваться оценке с приемлемой степенью точности.
3) Кластеры должны быть не слишком велики и географически компактны, иначе кластерная
выборка теряет всякий финансовый смысл.
4) Выбор кластеров должен быть осуществлен таким способом, который минимизирует рост
выборочной ошибки (последний процесс, в свою очередь, является неизбежным следствием
кластеризации).
Многоступенчатая выборка - несколько фаз случайного отбора
Многоступенчатая выборка также основана на первоначальном случайном отборе первичных
единиц отбора (районов, избирательных участков, предприятий). Внутри ячеек отбор происходит по
принципам простой случайной выборки (отбор отдельных респондентов, семей). Таким образом,
простейшая многоступенчатая (или многофазная) выборка состоит из 2-х фаз случайного отбора.
3
Мангейм Дж., Рич. Р. Политология. Методы исследования. - М. Изд. «Весь Мир», 1997
13
Так как первичные единицы отбора могут существенно отличаться по величине, то
результатом первой фазы может стать неравная вероятность попадания в выборку для членов
генеральной совокупности, относящихся к разным «первичным единицам отбора».
Решение об использовании многоступенчатой выборки обычно принимается после анализа
«затрат» и «прибылей» от ее использования. Снижение затрат на сбор данных сопровождается
усложнением выборочной процедуры, требующей привлечения профессионалов-статистиков. С ростом
числа фаз (в больших общенациональных обследованиях обычно используют 4-5 ступенек отбора)
точность получаемых оценок имеет тенденцию к снижению.
Невероятностная Выборка
Оценивая полезность и применимость “неслучайных” методов отбора в исследовательской
практике, следует, прежде всего, сказать, что в определенных обстоятельствах никакой другой
альтернативы просто не существует. В ситуации нехватки денег, персонала, времени либо первичной
информации о генеральной совокупности социологи использовали и будут использовать впредь выборки
доступных случаев, метод “снежного кома” и даже квотную выборку. При этом профессиональный долг
социолога заключается в том, чтобы оценить, пусть даже очень приблизительно, величину и источники
возникающей выборочной ошибки.
Безусловно, разумно использовать целевые выборки в пилотажных исследованиях, в
экспериментах и других уникальных случаях. Однако всегда следует помнить о том, что возможность
обобщения любых оценок, полученных на целевой выборке, для генеральной совокупности в целом
чаще всего оказывается сомнительной.
Квотная выборка
Идея квотной выборки проста: изучаемая совокупность разбивается на такие социальнодемографические группы, которые исследователь почему-либо считает важными. Обычно критериями
разбивки становятся пол, возраст, национальная принадлежность, место жительства и т. п.
Далее,
основываясь на уже известных (обычно из официальной статистики) пропорциях этих групп в
генеральной совокупности, социолог составляет полевые задания для интервьюеров, указывая, сколько
женщин, мужчин, лиц с высшим образованием и т. п. нужно опросить.. В результате должна получиться
выборка, представляющая все заданные пропорции групп в генеральной совокупности.
Квотная выборка предполагает, что известны некоторые важные пропорции генеральной
совокупности, например, распределение по возрастным, профессиональным группам, по величине
населенных пунктов. По этим данным вычисляют квоты, которые распространяют среди интервьюеров,
те, в свою очередь, осуществляют выбор респондентов в соответствии с заданными квотами. Для каждого
интервьюера разрабатывается квота – сколько мужчин, женщин, представителей различных возрастных
групп надо опросить.
Например: населенный пункт 2 – 20 000 жителей, возрастные группы: женщины: 16 – 17 (1
чел), 30 – 44(1 чел), 45 – 59(1 чел); мужчины: 18 – 29(1 чел), 30 – 44 (2 чел), 60 лет и старше (1 чел);
профессия: мужчины 1рабочий, 1 служащий, 1 независимый предприниматель; женщины: 1 рабочая, 1
служащая, 2 неработающих. (всего 7 интервью).
Когда квоты составлены, то эти пропорции создают в миниатюре модель генеральной
совокупности. Репрезентативность по остальным, не заданным квотой параметрам осуществляется
усилиями интервьюеров, которые для выполнения заданной квоты должны осуществить случайный
отбор опрашиваемых.
Основная проблема квотного отбора заключается в том, что он носит неслучайный характер и
осуществляется лично интервьюером. Это неизбежно ведет к систематическим смещениям в процессе
отбора, причем не существует никаких методов для оценки величины возникающей систематической
ошибки.
Представительность выборки не обеспечивается тем, что определены квотируемые признаки
– можно придумать многочисленные выборочные совокупности, которые по своему половому,
возрастному, профессиональному составу будут в точности соответствовать пропорциям генеральной
совокупности (посетители больниц, пассажиры железной дороги). Функция квот состоит в том, чтобы
содействовать проведению интервьюером случайного отбора, при котором каждый член исходной
14
совокупности имеет равную вероятность попасть в выборку. Действительная задача квот – содействовать
случайности отбора, например заданием нужной степени сложности квот – например, с помощью квот
можно заставить интервьюера выйти за рамки своего социального слоя и/или опрашивать также и тех,
кого трудно застать дома (например, работающих молодых людей).Интервьюеры перед лицом
трудностей при отыскании нужных лиц для своих квот вынуждены отказываться от личных
предпочтений и удобств, тем самым гарантируя для каждого человека равные возможности попасть в
выборку. (Однако слишком сложными предписаниями для квот можно направить интервьюера по пути
фальсификации данных).
Когда квотная выборка оптимальна4
Во-первых, это ситуации, в которых исследователь четко представляет себе основные
категории людей (или иных единиц для измерения), которые необходимо представить в выборке. Такая
ситуация часто возникает при проведении экспертных опросов. Если исследователь в процессе
теоретического моделирования выделили несколько категорий экспертов, наполнение выборки этими
категориями целесообразно квотировать. Причем пропорции квотирования могут различны. Самый
простой вариант – включение в выборку основных категорий экспертов в равных долях с целью
обеспечить равное представительство экспертного мнения каждой группы. Более сложные варианты
предполагают моделирование экспертного сообщества, например – выделение основных и
периферийных сегментов, которые могут быть представлены в разных пропорциях.
Во-вторых, квотный отбор может быть рекомендован для тех ситуаций, когда существуют
серьезные проблемы для достижения исследователем генеральной совокупности. Речь идет о ситуациях,
в которых исследователь вынужден фактически перейти от отбора к набору участников исследования.
Например, такая ситуация может возникнуть при проведении исследования на труднодоступных и
удаленных территориях.
В-третьих, квотирование можно рекомендовать в качестве способа повышения
достоверности данных при использовании более «слабых» методик формирования выборки –
целевого/типического набора и набора посредством социальных сетей
Целевой отбор
Иногда социологи вынуждены применять не основанные на вероятностях выборки.
Отбор в этом случае базируется не на принципе рандомизации, а на следовании тем или иным
субъективным критериям — доступности, типичности, равного представительства и т. п. Многие из
этих критериев при систематическом использовании позволяют добиться достаточно высокого качества
социологических данных. Часто такой отбор называют целевым, так как он в большой степени
определяется целями исследования. Кроме того, в конкретной исследовательской ситуации может
оказаться, что осуществление случайной выборки — это практически невыполнимое или экономически
неэффективное мероприятие (затраты на построение выборки превышают ценность получаемой в
результате исследования информации). Наконец, использование вероятностного отбора лишено всякого
смысла, если речь идет об исследовании уникальных событий, групп или ситуаций.
Основной недостаток неслучайных процедур отбора связан с тем, что не существует
строгих статистических методов, позволяющих обобщить результаты, полученные в ходе
исследования выборки. Оценка точности и валидности этих результатов (и основанных на них
выводов) остается делом субъективного суждения, опыта, теоретических предпочтений.
Самый распространенный тип не основанной на вероятности выборки — это выборка
доступных случаев. Такого рода выборка может считаться корректной лишь тогда, когда используется в
экспериментальном (или квазиэкспериментальном) исследовании. В социологии к выборке доступных
случаев приходится обращаться при изучении тех специальных популяций, которые практически не
поддаются локализации. Речь идет, прежде всего, об относительно малочисленных группах, находящихся
вне сферы институционального (например, административного) контроля. Для таких групп трудно найти
какую-то основу выборки — скажем, посетители стрелковых тиров едва ли состоят на каком-нибудь
государственном учете. “Просеивание” большой случайной выборки из генеральной совокупности с
целью рекрутирования сколько-нибудь значительного числа респондентов в специальную выборку
требует непомерных затрат. Поэтому социологам иногда приходится уподобляться орнитологам и
отбирать членов экзотических популяций в местах их “естественного обитания” или вероятного
скопления. Следует заметить, что некоторая статистическая “небезупречность” получаемых таким
образом результатов, при должной методической культуре исследователей, иногда окупается, и мы узнаем нечто принципиально новое об относительно “закрытых” областях человеческого поведения. Однако
4
Методология и методы социологических исследований. Под ред. В.И. Дудиной, Е. Э. Смирновой.
СПб., 2014. (Гл.5). С. 125.
15
если целью исследования является описание распределения признаков во вполне определенной
генеральной совокупности (покупателей зубной пасты, избирателей, читателей газет), то социолог,
использующий выборку доступных случаев, понапрасну тратит деньги заказчика (и пренебрегает
профессиональной этикой). Квалифицированному заказчику в этом случае также не стоит принимать
всерьез рассуждения о принципиально новых, нестатистических и даже “мягких” методах проведения
массовых опросов.
Значительно реже социологи используют две другие разновидности целевого отбора—отбор
“критических случаев” и отбор “типичных случаев”. В обоих случаях исследователь полагается
на какие-то теоретические представления или предыдущий опыт, чтобы отобрать ограниченное число
“симптоматических”, характерных наблюдений, позволяющих сделать более широкие обобщения и
предсказания. Иногда это удается, но следует помнить о том, что опыт и теоретические суждения обычно
бывают субъективны.
Метод “снежного кома”— это еще один (наряду с выборкой доступных случаев) интересный
подход к отбору из “редких” совокупностей. Его идея такова: первоначально идентифицированная
небольшая группа членов интересующей социолога совокупности служит источником сведений о других
членах этой совокупности, так что выборка постепенно разрастается вширь подобно снежному кому,
катящемуся с горы. Этот метод использовал, например, П. Лазарсфельд с коллегами в исследовании
“влиятельных людей” и неформальных связей. Данный метод применяют в изучении других групп, также
избегающих широкой известности,— например, наркоманов или коллекционеров антиквариата.
Выборка, направляемая респондентом (Respondent-driven sampling -RDS), объединяет
«выборку снежного кома» с математической моделью, которая взвешивает выборку, чтобы
компенсировать тот факт, что выборка была выбрана неслучайным образом.
респонденты подразделяются на:
•
Первичных респондентов – ограниченное число выбранных респондентов, рекрутинг
которых осуществляется представителями различных структур, по роду своей деятельности
имеющих доступ к целевой группе исследования.
•
Вторичных респондентов – рекрутинг которых осуществляется самими респондентами (уже
опрошенными). Кроме ограниченного числа «первичных», все остальные респонденты
являются «вторичными». Каждому респонденту, ответившему на вопросы анкеты,
предлагается дальше выступить в роли рекрутера и пригласить определенное количество
своих друзей.
Выборка в качественных исследованиях
Выборка в качественном исследовании – это отбор людей, обладающих информацией об
интересующих исследователя аспектах эмпирической действительности, которые, в свою очередь,
являются основой теоретически релевантных понятий. То есть, критерием отбора людей выступают
разрабатываемые теоретические положения, описывающие эмпирическую действительность.
В ходе качественного исследования [с целью обогащения теории] могут понадобиться
незапланированные изначально интервью как с уже имеющимися, так и с новыми участниками. Это
связано, прежде всего, с тем, что исследователь узнает о новых аспектах, которые необходимо
изучить более детально. Следовательно, выборку направляет разрабатываемая теория.
Качественная выборка связана с понятием теоретического насыщения, которое предполагает
проведение интервью до тех пор, пока не обнаружится, что сообщаемые новыми участниками
исследования данные не добавляют новых понятий в разрабатываемую теорию. Теоретическое
насыщение и теоретическая выборка используются вместе для определения размера последней
[Auerbach, Silverstein, 2003: p. 19-20].
ТЕОРЕТИЧЕСКАЯ ВЫБОРКА
Отличия традиционной выборки и ТВ
1.
ТВ – не репрезентация определенной группы людей, а репрезентация понятий. Поиск
событий и случаев, указывающих на феномены, а не любых случайных. (ср. понятие
Целевая выборка). Отбор направляется концептуальной рамкой, а не
заинтересованностью в репрезентативности.
2.
Основной интерес представляют условия, при которых конструкт или теория
действуют, а не обобщение (распространение выводов на другие контексты).
3.
ТВ не может быть запланирована до погружения в объект. Решения по выборке
развиваются во время самого исследовательского процесса.
4.
Выборка должна быть логически обоснована.
16
ТВ – отбор на основе понятий, доказавших теоретическую релевантность к
развивающейся теории. Выборка на основе развивающейся теоретической релевантности
понятий.
Цель ТВ - отобрать события, случаи, (отбор случаев, а не людей! указывающие на категории,
их свойства и измерения с тем, чтобы обнаружить их и концептуально связать.
Пример. Исследование процесса социализации детей через детские дошкольные учреждения.
Предположим, что нам доступны для изучения только 4 группы детского сада. Если мы
осуществляем ТВ, мы будем отбирать воспитателей в соответствии с их качествами,
релевантными для исследования: строгость, особенности воспитательной работы. ы можем
отбирать для наблюдения внутри каждого случая определенные процессы: например, применение
санкций. Затем, можно обнаружить, что определенные события, такие как чтение или
определенные игры особенно богаты социализирующими действиями.
Черты ТВ:
Кумулятивность
Постепенное углубление сфокусированности – на начальных этапах исследователь
заинтересован в появлении как можно большего числа категорий и собирает данные в
широком диапазоне областей. Затем происходит концентрация на развертывании,
плотности и насыщении категорий и сбор данных фокусируется на определенных областях.
(Funneling sampling sequence – «воронкообразная» выборка). Пример. В исследовании школ,
можно начать с изучения школьного сообщества (данных переписи, знакомства с
местностью) и затем прийти в школу и конкретный класс и наблюдать там определенное
время, чтобы понять смысл определенных событий). Затем фокус может сужаться:
определенные события, время и место. Вместе с тем, периодически надо прослеживать
«линии влияния» со стороны внешней среды, чтобы проверить типичность того, что было
обнаружено в отдельном классе и сфокусироваться на внешних влияниях и детерминациях.
3. Последовательность – сбор данных систематически по каждой категории.
1.
2.
Доказанная теоретическая релевантность – понятия считаются существенными, т. к. они
неоднократно присутствуют или заметно отсутствуют при сравнении одного случая с другим.
Типология стратегий выборки в качественных исследованиях.
Тип выборки
1.Максимальная
вариативность
Цель
Выявить вариации и идентифицировать
значимые общие модели.
Поиск
негативных случаев и вариаций. Процесс
может принять форму таких вопросов к
информантам, как : «Знаете ли вы когонибудь, кто считает иначе», «Где я могу
найти пациентов, не выполняющих
указания?»
2.Гомогенная
Сфокусировать, редуцировать, упростить
групповое интервьюирование
Логические обобщения и применение к
другим случаям
3.Критический случай
Особенности
Попытка
обеспечить
достаточное разнообразие при
небольших выборках. Чтобы
максимизировать
вариацию,
надо начать с выделения
критериев
конструирования
выборки.
Например,
исследование малых городов:
депрессивный город и город с
поиск крайних случаев, чтобы интенсивно
развивающимся
выявить, проявляются ли основные градообразующим
модели.
предприятием.
уникальные
свидетельства,
которые
проявляются
в
различных
условиях;
определение общих важных
паттернов, которые проходят
«красной
нитью»
через
вариации.
Описать определенную группу
с максимальной полнотой
«Если здесь так случилось, то
это произойдет везде», «Если
здесь этого не случилось, то
17
этого не случится нигде».
Отбор случая, который несет
максимальное
количество
информации, особенно при
нехватке
ресурсов
у
исследователя.
«Если
правительство вводит новые
правила,
то
достаточно
проверить, как эти правила
понимают
наиболее
образованные граждане»
4.Теоретически
Найти примеры теоретических понятий и, поиск
проявления
обоснованная (theory- тем самым, развить и проверить их.
теоретического
конструкта,
based)
интересующего исследователя,
для его проработки и проверки
вариаций.
5.Подтверждающих и Первичный анализ, поиск исключений и разработка
и
углубление
опровергающих случаев вариаций
первичного анализа; поиск
проверка
служит для повышения надежности исключений;
вариации.
выводов
6.Снежного кома
Идентификация необходимых случаев
через людей, знающих людей имеющих
информацию
об
информационнонасыщенных случаях
помогает на этапе индуктивного
построения теории.
7.Экстремального или Выявление
крайне
необычных Случаи могут быть трудны для
девиантного случая
проявлений феномена
изучения,
но
высоко
служит для повышения надежности информативны. Случаи могут в
концентрированном
виде
выводов
содержать
информацию,
которая заключена в других
случаях5.
например: выдающиеся успехи
/ примечательные неудачи;
верхушка класса / потерявшие
работу; экзотические случаи,
кризисы.
8.Типичного случая
Выявление нормального или среднего
Представить
качественный
профиль
одного
или
служит для повышения надежности нескольких типичных случаев.
Случаи могут отбираться в
выводов
ходе бесед с ключевыми
информантами,
которые
говорят, что с их точки зрения
является типичным. Можно
использовать статистику, чтобы
посмотреть,
какие
случаи
являются
типичными
в
статистическом
смысле.
Индуктивный
(выбор
типичного) и дедуктивный
(синтез
представлений
об
идеальном типе) подход к
выделению типичного
9.Углубленная
Информационно-насыщенные случаи, где
(intensity)
феномен проявляется интенсивно, но не
экстремально
5
Штейнберг, Шанин, Ковалев, Левинсон. Качественные методы 2009. С. 71.
18
помогает на этапе индуктивного
построения теории.
10.Политическиважных случаев
Акцентирует внимание на желательном и привлечение
внимания
к
отвлекает внимание от нежелательного.
исследованию или уклонение
от привлечения нежелательного
внимания
посредством
целевого
включения/исключения
в
выборку
политически
чувствительных случаев
«Выдающиеся»
информанты, которые могут
включаться (или исключаться)
из выборки, поскольку связаны
с
политическичувствительными
результатами, ожидаемыми в
итоге анализа.
11.Случайная целевая
Придает достоверность выборке, когда
потенциальная целевая выборка слишком
велика.
12.Стратифицированная Идентифицирует
подгруппы
целевая
иллюстрация
характеристик
определенных
подгрупп,
облегчает
сопоставления.
13.Критериальная
Изучение средних случаев, или
отклонений от средних случаев.
Главная цель – зафиксировать
основные различия, а не
идентифицировать основную
массу случаев. В отличии от
случайной
стратифицир
выборки, размер ее слишком
небольшой, чтобы говорить о
статистической
репрезентативности.
Все случаи, отвечающие определенному Изучение
пациентов,
критерию
покушавшихся
на
самоубийство;
дети,
подвергнувшиеся
жестокому
обращению и пребывающие в
специальных
учреждениях,
защищающих
их
права.
14.Оппортунистическая
Следующая
новым
аспектам,
подчеркивающая
преимущества
неожиданного
помогает на этапе индуктивного
построения теории.
15.Комбинированная
или смешанная
Триангуляция,
гибкость,
множественность целей, интересов и
потребностей.
Сберегает деньги, время и усилия, часто в
ущерб информации и надежности.
Исследование каждого случая, примера,
элемента в данной совокупности
Идентификация больших подгрупп и
исследование
произвольного
кол-ва
случаев из каждой
Отбор индивидов, мест и групп с теми же
характеристиками через определенное
время.
16. «Для удобства»
17. Всеобъемлющая
18. Квотная
19.Сравнимых случаев
19
Выбор тех или иных методов отбора для реализации теоретической выборки осуществляется исходя
из особенностей разрабатываемой теории, групп людей, обладающих необходимой информацией, а
также возможностей самого исследователя.