Сущность кластерного анализа
Кластерный анализ – это способ группировать многомерные объекты, базирующийся на представлении результатов отдельных наблюдений через точки геометрического пространства с последующим выделением групп этих точек как сгустков, то есть кластеров.
Кластер с английского переводится как сгусток или гроздь винограда. Этот исследовательский метод получил развитие в последние годы, так как появилась возможность обрабатывать большие базы данных благодаря компьютерной технике.
Основные задачи кластерного анализа:
- разработать типологию и классификацию исследуемых объектов;
- исследовать и определить приемлемые концептуальные схемы группировки объектов;
- выдвинуть гипотезы, основанные на результатах исследования данных;
- проверить гипотезы или группы, выделенные определенным образом, имеющие место в накопленных данных.
Кластерный анализ в педагогическом исследовании
В процессе подтверждения или опровержения выдвигаемой гипотезы в любой работе педагога или студента, должно быть проведено педагогическое исследование, направленное на выявление положительного или отрицательного воздействия реализуемых мероприятий на образовательный процесс.
В ходе запланированного исследования могут участвовать две группы учащихся: исследуемая и контрольная группы. Тогда исследование будет базироваться на методе кластерного анализа.
Кластерным анализом предполагается выделение компактных, удаленных друг от друга групп объектов, отыскивание естественного разбиения их совокупности на области скопления объектов. Данный метод используется, когда исходные данные представляют как матрицы близости между объектами или как точки многомерного пространства. Наиболее распространенными являются данные второго вида, кластерный анализ которых ориентируется на выделение отдельных геометрически удаленных групп, внутри которых объекты находятся достаточно близко.
Выбор расстояния между соседними объектами – узловой момент исследования, он во многом оказывает воздействие на окончательный вариант разбиения объектов на классы при выбранном алгоритме разбиения.
Известно множество алгоритмов кластерного анализа, они могут быть разделены в соответствии со способом построения кластеров на 2 типа: эталонные и не эталонные.
В процедурах эталонного типа на множество объектов задают несколько исходных зон, с которых алгоритм начинает свою работу.
Эталоны могут быть представлены первоначальным разбиением на классы, центром тяжести класса и пр. После задания эталонов алгоритмом производится классификация, иногда определенным способом меняющая эталоны. Алгоритмами кластеризации, работающими по другим принципам, являются иерархические алгоритмы кластерного анализа, процедура разрезания и пр.
Решение задачи кластерного анализа представлено разбиением, удовлетворяющим определенному условию оптимальности. Данный критерий может представлять из себя определенный функционал, который выражает уровни желательности различных группировок и разбиений. Данный функционал часто называют целевая функция.
Задача кластерного анализа – задача оптимизации, то есть найти минимум целевой функции при определенном заданном наборе ограничений.
Пример целевой функции может быть представлен суммой квадратов внутригрупповых отклонений по всем кластерам.
Качественными шкалами являются:
- номинальная шкала, или шкала наименований. К примерам измерения относят пол (женщина или мужчина), национальность (русский, американец, испанец), профессия (инженер, программист, воспитатель) и пр.;
- порядковая шкала измерения, состоящая из экспертных ранжировок, оценок предпочтений, шкалы твердости минералов и пр.
На сегодняшний день процедуры эталонного типа применяют, чтобы решать многие задачи классификации, алгоритмы быстрые и удобные в вычислительном отношении, их результаты наглядно можно наглядно представить таблицами, графиками и диаграммами. Чтобы провести эталонную классификацию необходимо выбрать метод первичного задания эталонных множеств, а также способ корректировки классов и стабилизации в целом, задать значения параметров для дендограммы – графика, который отражает последовательное объединение двух кластеров в один, указывая расстояния между ними.
Иерархические алгоритмы кластерного анализа могут быть представлены двумя видами: агломеративными и дивизионными.
В агломеративных процедурах начальным выступает разбиение, состоящее из n одноэлементных классов, а конечным – состоящее из одного класса; в дивизимных наоборот
Принцип работы иерархических агломеративных и дивизионных алгоритмов предполагает последовательное объединение или разделение групп элементов, то есть создание иерархической структуры классов.
Данный метод кластерного анализа не является эталонным, в связи с чем он подходит для проведения исследования на двух группах.
Обычно образовательные кластеры состоят из следующих компонентов:
- субъектов образовательной деятельности;
- науки, то есть академических институтов, создателей новых технологий и пр.;
- производственных фирм, сгруппированных вокруг одного крупного профильного вуза.