Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Дискриминантный анализ
Дискриминантный анализ – это метод статистического анализа данных для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») некоторые наборы данных (кластеры).
Исходными данными для дискриминантного анализа является множество объектов, разделенных на группы так, что каждый объект может быть отнесен только к одной группе. Для каждого из объектов имеются данные по ряду количественных переменных. Такие переменные называются дискриминантными переменными или предикторами.
Задачами дискриминантного анализа является определение:
• решающих правил, позволяющих по значениям дискриминантных переменных (предикторов) отнести каждый объект к одной из известных групп;
• «веса» каждой дискриминантной переменной для разделения объектов на группы.
Дискриминантный анализ применяется, например, в следующих областях деятельности:
• Распознавание образов. В компьютеризированной образов каждый образ представлен большим числом значений пикселов. Линейный дискриминантный анализ применяется здесь главным образом для сокращения числа признаков к более управляемому числу перед попыткой классификации. Каждая из новых размерностей является линейной комбинацией значений пикселов, образуя шаблон.
• Маркетинг (управление продуктом). В маркетинге дискриминантный анализ часто используется для определения факторов, которые отличают различные типы пользователей и/или продуктов на основе опросов или других форм сбора данных.
• Позиционирование относится к инструменту для продвижения бренда. Оно устанавливает позицию, которую бренд занимает в сознании покупателей, и признаки, которые отличают бренд от продуктов конкурентов (конкурентное преимущество). Чтобы позиционировать товары или бренды, компании могут подчеркнуть отличительные черты своего или попытаться создать подходящий имидж через комплекс маркетинга.
• Медицинские исследования. Основным приложением дискриминантного анализа в медицине является оценка тяжести состояния пациента и прогноз течения болезни. Например, в течение ретроспективного анализа пациенты делятся на группы согласно тяжести болезни - лёгкая, средняя и тяжёлая формы. Затем изучаются результаты клинического и лабораторного анализов, чтобы обнаружить переменные, которые достаточно отличаются в изучаемых группах. На основе этих переменных строятся дискриминантные функции, которые помогают объективно классифицировать течение болезни у пациентов в будущем, будет ли она протекать в лёгкой, средней или тяжёлой форме.
• Геодезия. Этот метод можно использовать для разделения зон гидротермальных изменений. Например, когда доступны различные данные из различных зон, дискриминантный анализ может найти структуры в данных и эффективно их классифицировать.
ПРИМЕР:
На основании данных по трем показателям качества выборка была разделена на два кластера (X, Y). Требуется определить, можно ли исследуемое изделие z отнести с кластеру Х?
x1
x2
x3
X
224,228
17,115
27,981
151,827
14,904
21,481
147,313
13,627
28,669
152,253
10,545
10,199
Y
46,757
4,428
11,124
29,033
5,51
6,091
52,134
4,214
11,842
37,05
5,527
11,873
63,979
4,211
12,86
z
55,451
9,592
12,84
Решение:
1) Находим выборочные средние по столбцам:
Формируем из них векторы средних значений:
2) Составляем вспомогательные матрицы:
Вычисляем ковариационные матрицы (ковариация – это мера зависимости двух случайных величин, при нормировании которой получается коэффициент корреляции Пирсона). Буква «Т» в формуле обозначает транспонированную матрицу (в Excel используется функция ТРАНСП и комбинация клавиш Ctrl+Shift+Enter для заполнения всей матрицы):
=
=
Аналогично вычисляем ковариационную матрицу :
3) Вычисляем несмещённую оценку суммарной ковариационной матрицы:
Вычисляем обратную матрицу к ней (с помощью функции МОБР и сочетания клавиш Ctrl+Shift+Enter):
4) Вычисляем вектор разности средних значений:
Находим вектор оценок коэффициентов дискриминантной функции:
Вычисляем оценки дискриминантной функции исходных матриц:
Находим средние значения оценок:
5) Определяем константу дискриминации:
Определяем показатель дискриминации для исследуемого изделия z:
Сравниваем эти критерии:
Вывод: Исследуемое изделие z нельзя отнести к кластеру Х (значит, оно автоматически отнесется к кластеру Y).
ЗАДАНИЕ:
На основании данных по трем показателям качества выборка была разделена на два кластера (X, Y). Требуется определить, можно ли исследуемое изделие z отнести с кластеру Х?
x1
x2
x3
X
25
4
25
28
4
26
31
5
21
27
3
25
29
4
22
28
5
26
30
4
23
Y
17
4
19
18
5
20
19
6
23
16
4
20
18
6
18
19
5
21
z
24
5
20