Метод главных переменных

Источник статьи

Автор24 — учеба по твоим правилам

Определение 1

Метод главных переменных — это метод, который является одним из главных методик уменьшения размерности данных при наименьших потерях количества информации.

Введение

У информационных данных имеется две основные проблемы, а именно, или данных очень мало, или же их чересчур много. Существует такая область исследований как определение авторства текстов. Предположим, имеется массив текстов, автор которых является неизвестным. Возможно данные тексты написаны одним тем же человеком, а возможно у них разные авторы. В случае, когда эти тексты были бы выполнены ручкой на бумаге, то можно было бы определить их автора путем сравнения почерка. Но, как правило, это просто «голый» текст, который не содержит таких естественных индивидуальных признаков, каким является почерк.

Однако логично предполагать, что какие-либо признаки все-таки имеются. Одни люди предпочитают использовать длинные предложения, другие короткие. Одни предпочитают использовать много различных слов, другие могут ограничиться незначительным словарным запасом. Одни любят использовать много разных глаголов, другие ограничивают их количество. У всех авторов имеется собственный стиль, который возможно извлечь из текста.

Для любого текста может быть определено большое число параметров, таких как, средняя длина предложения, величина разброса длин предложений, распределение слов, процент существительных, прилагательных, глаголов и еще много всего. То есть, любой текст может быть превращен в длинный вектор. Если взять много текстов, то можно занести их параметры в большую таблицу.

Но далее появляется проблема: что делать с таким массивом данных? Как его можно обработать? Как определить связи между различными параметрами? Как можно выполнить их визуализацию?

Известны разные подходы, к примеру, можно рассматривать всевозможные пары параметров и для каждой пары сформировать свою диаграмму рассеяния. Однако так можно визуализировать лишь попарные связи между параметрами, а этого, как правило, бывает мало. А также данный метод ведет к возникновению значительного числа картинок, когда количество параметров очень большое.

«Метод главных переменных» 👇

Помощь эксперта по теме работы

Найти эксперта

Решение задач от ИИ за 2 минуты

Решить задачу

Найди решение своей задачи среди 1 000 000 ответов

Найти

Другой подход базируется на предположении, что вся совокупность параметров является избыточной и, для того чтобы описать наиболее важные свойства текстов хватит всего несколько чисел. Это может показаться разумным, когда среди многочисленных параметров имеются такие, которые обладают сильными взаимными связями, а это является вполне естественным предположением, то часть из них можно не учитывать. К примеру, когда один из параметров можно выразить через другие, то его можно просто отбросить без потери информации.

Но как можно определить, какая именно совокупность параметров способна хорошо описать имеющийся набор данных, но при этом имеет небольшую избыточность? Способы, позволяющие решить эту задачу, именуются методами уменьшения размерности (dimensionality reduction). А метод главных компонент PCA (principal components analysis) является одним из них. Этот метод является достаточно простым, но вместе с тем и достаточно популярным.

Метод главных переменных

Помимо всего прочего, методе главных компонент является основным подходом, используемым в хемометрике для решения различных задач. Метод главных компонент можно применять к данным, которые представлены в форме матрицы X, то есть, прямоугольной таблицы чисел, имеющих размерность I строк и J столбцов, как показано на рисунке ниже.

Рисунок 1. Матрица. Автор24 — интернет-биржа студенческих работ

Строки такой матрицы принято называть образцами. Они должны нумероваться индексом i, который может изменяться от единицы до I. Столбцы именуются переменными, и их нумеруют индексом j= 1, …, J.

Целью метода главных компонент является извлечение из этих данных требуемой информации. Что именно выступает в качестве информации, определяется сутью решаемой задачи. Данные способны содержать требуемую пользователю информацию, они даже могут являться избыточными. Тем не менее, в отдельных случаях, информации в данных может вообще не содержаться.

Размерностью данных является количество образцов и переменных, и эта размерность обладает большим значением для успешного извлечения информации. Лишних данных не бывает, то есть, лучше, когда данных в избытке, чем когда их мало. На практике это может означать, что когда имеется спектр какого–либо образца, то не следует отбрасывать все точки, кроме ряда характерных длин волн, а применять их все, или хотя бы значительную часть.

Данные всегда (или почти всегда) могут содержать в себе нежелательные составляющие, именуемые шумами. Природа этих шумов может быть разной, но очень часто шумом является та часть данных, в которой не содержится искомая информация. Что следует считать шумом, а что считать информацией, всегда должно решаться с учетом поставленных целей и методов, которые используются для их достижения.

Шум и избыточность в данных должны обязательно проявить себя через корреляционные связи среди переменных. Погрешности в данных способны вызвать появление не систематических, а случайных связей между переменными. Понятие эффективного ранга и скрытых, латентных переменных, количество которых равняется данному рангу, считается самым важным понятием в методе главных компонент.

Для того чтобы передать существо метода главных компонент воспользуемся интуитивно–понятной геометрической интерпретацией. Рассмотрим самый простой случая, когда присутствуют лишь две переменные x1 и x2. Подобные данные могут быть легко изображены на плоскости, как показано на рисунке ниже.

Рисунок 2. Изображение на плоскости. Автор24 — интернет-биржа студенческих работ

Каждой строке исходной таблицы, то есть, образцу, поставлена в соответствие точка на плоскости с определенными координатами. На рисунке выше их обозначили в виде пустых кружков. Следует провести через них прямую, таким образом, чтобы вдоль нее располагалось самое большое изменение данных, это и есть первый главный компонент. Затем следует спроецировать все исходные точки на данную ось. Тогда все отклонения от этой оси могут считаться шумом, то есть, ненужной информацией.