Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Факторный анализ.
Теоретические основы
Факторный анализ – это совокупность статистических методов, позволяющих выявлять
общие (латентные) факторы развития изучаемых явлений и процессов.
Основная цель факторного анализа состоит в том, чтобы описать множество параметров
(признаков) исследуемого объекта посредством меньшего числа общих факторов, которые не
поддаются непосредственному измерению и выявляются на основе изучения взаимосвязи
исходных признаков. Общие факторы представляют собой интегральную характеристику
начальных признаков, т.е. являются показателем более высокого порядка, содержащим
информацию о множестве начальных признаков.
Применение факторного анализа позволяет решать следующие исследовательские задачи:
* снижение размерности изучаемого признакового пространства, т.е. переход от множества
переменных к меньшему числу обобщенных факторов;
* изучение структуры исходных переменных, их классификация;
* распознавание образов.
Факторный анализ основан на допущении, что вариация начального признака объясняется не
только влиянием общих факторов, но и влиянием характерных факторов, присущих только
данному признаку, и случайных факторов (напр., ошибки измерения)
Факторы, связанные значимыми весовыми коэффициентами с двумя и более переменными,
называются общими факторами, со всеми переменными – генеральными, только с одной
переменной – характерными. Соответственно, доля общей дисперсии признаков,
объясненной общими факторами, называется общностью, а доля дисперсии, не объясненной
общими факторами – характерностью.
Принципиальная возможность решения задачи факторного анализа как разновидности общей
задачи снижения размерности, связана, в основном, с высокой коррелированностью
исходных признаков. Например, ответы на вопросы теста на уровень интеллекта, в конечном
счете, определяются способностями тестируемого. Сами способности при этом мы
наблюдать не можем, но видим их следствия. По этим следствиям требуется определить, что
это за способности. Таким образом, методами факторного анализа можно придавать
численные значения непосредственно не наблюдаемым и даже нечисловым признакам,
таким, как «настроение», «общее состояние экономики», «политическая макросреда рынка»,
«информационная макросреда», «климат», и т. д.
Математическая модель факторного анализа имеет вид линейной функции от общих
факторов и одного характерного фактора:
x ij=ai 1 f 1 j +ai 2 f 2 j+ …+a ℑ f mj + d j v ij
( i=1, n; j=1, m; r =1,m
)
где n – число объектов наблюдения;
m – число параметров, характеризующих объект;
r – число значимых общих факторов;
x ij – центрированное значение j-го показателя (переменной) у i-го объекта исследования;
f r - r-й общий фактор;
v j - j-й характерный (индивидуальный) фактор, присущий только данной j-й переменной;
a jr - весовой коэффициент j-й переменной на r-м общем факторе;
dj
- весовой коэффициент j-й переменной на j-м характерном факторе.
Общий алгоритм факторного анализа:
1. Представление исходных данных в виде матрицы Х, размерностью n times m, где n - число
объектов наблюдения, m - число признаков наблюдения.
2. Стандартизация матрицы исходных данных и получение матрицы стандартизированных
значений признаков (Z).
3. Расчет матрицы парных коэффициентов корреляции по формуле
1
ковариаций по формуле S= Z ' Z
n
измерения.
1
R= Z ' Z
n
или матрицы
при условии, что признаки имеют одни и те же единицы
4. Построение редуцированной матрицы ковариаций ( S h ) или корреляций ( Rh ), на
главной диагонали которой расположены общности.
5. Поиск матрицы факторного отображения А, элементами которой являются весовые
коэффициенты a jr .
6. Вращение пространства общих факторов с целью интерпретации результатов анализа.
7. Определение матрицы общих факторов F, элементами которой являются факторные
значения для каждого объекта наблюдения f ir .
Существуют несколько способов определения общностей: метод наибольшей корреляции,
метод Барта, метод триад, метод малого центроида.
Методы факторного анализа различаются по способу определения матрицы факторного
отображения. Условно они подразделяются на упрощенные, позволяющие выделить
ограниченное количество факторов, и аппроксимирующие методы, которые итеративным
путем определяют наилучшее факторное решение.
Описание методов факторного анализа, их основные недостатки и преимущества
представлены в таблице 1.
В силу математической основы, решение задачи факторного анализа является однозначным.
Тем не менее, матрицу решения возможно умножать на некоторую ортогональную матрицу,
что соответствует вращению полученного решения. Таким образом, решение факторного
анализа принципиально может быть определено лишь с точностью до поворотов.
Полезная составляющая этого факта состоит в следующем. При решении практических задач
часто возникают проблемы интерпретации найденных латентных факторов, приданию им
"качественного" смысла. Такая интерпретация предполагает изначальное приведение
наблюдаемых признаков Х к одному масштабу единиц (иначе трудно понять смысл линейной
комбинации, например, рублей и гектаров). Поэтому, после того, как решение найдено, путем
вращений возможно изменить содержание факторов без снижения качества решения, и тем
самым облегчить их качественную интерпретацию.
Таким образом, вращение пространства общих факторов позволяет определить наилучшее
решение с точки зрения содержательной интерпретации главных факторов.
Вращение факторов может быть ортогональным, если исключается корреляция между
факторами, и косоугольным, когда допускается корреляция между факторами. К методам
ортогонального вращения относятся квартимакс, варимакс, эквимакс, биквартимакс; к
методам косоугольного вращения - квартимин, коваримин, облимин, биквартимин,
бинорамин, облимакс, ортоблик и максплейн. Целью указанных методов является
оптимизация некоторого критерия, в случае ортогонального вращения - максимизация
дисперсии элементов матрицы факторных нагрузок.
Методы факторного анализа
Аппроксимирующие
Простые
Однофакторная модель
Бифакторная модель
Центроидный метод
Групповой метод
Метод главных факторов
Минимальных остатков
Канонический
α-факторный
Распознавание образова
Метод максимального
правдоподобия
Таблица 1.
Методы факторного анализа
Метод
Содержание
Однофакторная
модель
Метод основан на предположении, что
Не требует сложных расчетов
все основные признаки можно выразить
через один генеральный и один
характерный факторы
Бифакторная модель
Все исходные переменные выражаются
через два общих и один характерный
факторы
Не требует сложных расчетов Практическое
применение метода
ограничено частными
случаями
Центроидный метод
Корреляции между переменными
рассматриваются как пучок векторов, а
латентный фактор представляется как
вектор, проходящий через центр пучка
Не требует сложных
расчетов, возможность
соотношения факторного
решения с исходными
переменными
Множественность
решения, зависимость
полученных нагрузок от
шкалы изменений,
сложность интерпретации
результатов
Метод главных
факторов
Алгоритм идентичен методу главных
компонент, отличием является
использование редуцированной
корреляционной матрицы
Наиболее прост для
понимания по сравнению с
другими
аппроксимирующими
методами
Уступает другим методам
в точности
воспроизведения
матрицы корреляций и
интерпретируемости
результатов
Групповой
Требуется предварительная группировка Не требует вращегия
переменных
факторного решения, дает
окончательное решение
Минимальных
остатков
Осуществляется минимизация
внедиагональных элементов остаточной
корреляционной матрицы, требуется
предварительный выбор числа факторов
Канонический
Направлен на последовательное
Результаты не чувствительны
выделение факторов, обладающих
к изменению масштаба
максимальной корреляционной связью с переменных
переменными
α-факторный
Наблюдаемые переменные считаются
Неприменимость обычных
выборкой из генеральной совокупности. критериев значимости
Идея метода состоит в выделении
факторов, обнаруживающих
максимальную корреляцию с
соответствующими факторами
генеральной совокупности
Практическое
применение метода
ограничено частными
случаями
Распознавания
образов
Под общностью переменной понимается Метод дает единственное
та ее часть, которая выражается через
решение
линейную комбинацию других
переменных
Значительное число
выделяемых факторов
Метод максимального Анализу подвергаются разности между
правдоподобия
выборочными коэффициентами
корреляции и гипотетическими
коэффициентами корреляции
генеральной совокупности
Преимущества
Недостатки
Практическое
применение метода
ограничено частными
случаями
Реализована идея описания
внедиагональных элементов
корреляционной матрицы, не
требует знания общностей они вычисляются в процессе
реализации метода
Факторное решение является
эффективным, устойчиво к
изменению масштаба
переменных, при большом
объеме выборки применим
критерий значимости
Задача.
Для выявления основных факторов, влияющих на выбор автомобиля, опрошено 30
покупателей автомобиля. Респондентам предложено оценить значимость следующих
критериев при выборе автомобиля по 10-балльной шкале (1 - абсолютно не имеет значения,
10 - значимо):
x1 - стоимость автомобиля;
x2 - объем потребления топлива на 100 км пути;
x3 - техническое состояние автомобиля;
x4 - срок эксплуатации автомобиля с момента выпуска.
Решение.
1. Ввод данных в программу STATISTICA.
2. Открыть диалоговое окно факторного анализа: Меню Statistics - Multivariate exploratory
techniques - Factor analysis
3. Выбрать переменные для анализа: X1 - X4.
4. В диалоговом окне факторного анализа нажать ОК.
5. В открывшемся окне в поле "Максимальное число факторов" установить число 2. Можно
задавать любое число выделяемых факторов, не превышающее число начальных
переменных.
6. Во вкладке "Advanced" необходимо выбрать метод факторного анализа. В качестве метода
факторного анализа в данном примере выберем Метод максимального правдоподобия.
7. Во вкладке "Descriptives" возможен переход в окно просмотра корреляций, средних
значений, стандартных отклонений, где также можно построить блочные диаграммы,
гистограммы, диаграммы рассеяния и т.д.
8. Также во вкладке Descriptives возможно провести регрессионный анализ начальных
переменных.
9. В окне выбора параметров факторного анализа нажать ОК для вывода результатов
факторного анализа.
10. В открывшемся окне в поле "Факторное вращение" можно выбрать один из методов.
11. Нажать на кнопку "Eigenvalues" (Собственные значения). Откроется матрица значений
собственных чисел для исходной матрицы. В первом столбце представлены собственные
значения факторов, во втором столбце - доля объясненной дисперсии исходных переменных
каждым фактором, в третьем и четвертом столбцах - накопленные значения собственных
чисел и объясненной дисперсии соответственно.
12. В окне результатов факторного анализа нажать на кнопку Итог: Факторные нагрузки
(Summary: Factor loadings). Откроется матрица факторных нагрузок, элементы которой
представляют собой коэффициенты парной корреляции между начальными переменными и
факторами.
13. Для графического представления рассеяния исходных переменных в пространстве общих
факторов нажать на кнопку "График факторных нагрузок" (Plot of factor loadings, 2D).
14. В окне результатов факторного анализа на вкладке Объясненная вариация (Explained
variance) нажать на кнопку Критерий каменной осыпи (Scree plot). Это хороший графический
способ определения числа факторов. В соответствии с ним выделение факторов
заканчивается в точке, после которой график собственных чисел приближается к виду
горизонтальной прямой. В данном случае число выделяемых факторов равно 2.
15. Выбрать опцию Воспроизведенные и остаточные корреляции (Reproduced/Residual corrs.).
Откроется матрица остаточных корреляций, элементы которой представляют собой разность
между коэффициентами парной корреляции вычисленных по исходным значениям
переменных и значениям, вычисленным на основе общих факторов.
16. Нажать на кнопку Общности (Communalities). Откроется таблица, в которой отображен
накопленный вклад факторов в вариацию исходных переменных, т.е. общности переменных.
17. В окне результатов факторного анализ нажать на кнопку Критерий согласия (Goodness of
fit test). Откроется значение Хи-квадрат критерия. В данном случае критерий используется
для проверки гипотезы равенства нулю недиагональных элементов матрицы остаточных
корреляций.
18. В окне результатов факторного анализа перейти на вкладку Факторные нагрузки
(Loadings), выбрать опцию Иерархический анализ косоугольных факторов (Hierarchical
analysis of oblique factors). Откроется матрица парных коэффициентов корреляции
косоугольных факторов.
19. Перейти на вкладку Оценки (Score) и нажать на кнопку Коэффициенты факторных
значений (Factor score coefficients). В открывшемся окне представлена матрица, элементы
которой являются коэффициентами линейных уравнений зависимости факторов от исходных
переменных.
20. Нажать на кнопку Факторные значения (Factor scores). Откроется матрица факторных
значений для каждого респондента.
Выводы:
В результате проведения факторного анализа методом максимального правдоподобия
выявлено два фактора, влияющих на выбор покупателей автомобиля. Первый фактор связан с
показателями "Стоимость автомобиля" и "Расход топлива на 100 км пути". Второй фактор
связан с показателями технического состояния автомобиля и сроком его использования.
На основе факторных нагрузок интерпретация факторов следующая: первый фактор - это
экономичность приобретаемого автомобиля, второй фактор - надежность (такое название
фактору можно присвоить при условии изменения знака его факторных нагрузок на
обратный). Таким образом, на выбор покупателя автомобиля влияют два фактора:
экономичность и надежность автомобиля.