Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Аналитические показатели бизнес-информации: периодичность, тренд, локальные особенности
Одним из важнейших аналитических показателей бизнес-процесса является его периодичность, т.е. повторяемость через определенные промежутки времени. Пример – сезонные колебания загородных перевозок (очевидно, что летом люди ездят за город чаще, чем зимой) или недельные колебания розничных продаж (в выходные люди уделяют больше времени покупкам, чем в будние дни). Наличие информации о периодических составляющих бизнес-процесса и глубине их колебаний позволяет грамотно планировать деятельность предприятия на основании данных предыдущих периодов, а также эффективно распределять резервы в течение периода, в зависимости от его фазы (спад, подъем, текущий пик или упадок). Однако, комбинация нескольких различных колебаний может иметь настолько сложную форму, что выявить их наличие "на взгляд" не представляется возможным.
Рис.1. Несколько колебаний и их сумма.
Другим важным показателем является тренд, т.е. выраженная тенденция движения бизнеса (постоянный спад или подъем). Тренд показывает динамику развития бизнеса вне зависимости от периодических колебаний. Очевидно, что возрастающий тренд позитивных факторов (прибыли), либо убывающий тренд негативных (расходов), является показателем успешной деятельности предприятия. Как и в предыдущем случае, наличие тренда может быть неочевидным при простом рассмотрении бизнес-данных – например, если незначительный тренд "замаскирован" сильными колебаниями.
Рис.2. Тренд, замаскированный колебанием.
Еще одним важным фактором, который необходимо учитывать при анализе бизнес-информации, являются локальные особенности, т.е. резкие, скачкообразные изменения характеристик бизнес-процесса.
Локальные особенности могут иметь как случайный (например, падение производства в результате форс-мажорных обстоятельств у поставщиков), так и систематический характер (резкий рост продаж в предпразничные дни с таким же скачкообразным возвратом к предыдущему уровню после праздников). Другим примером может служить скачкообразный рост продаж после удачной рекламной кампании. Конечно, от случайностей не застрахован никто, но знание закономерности систематических особенностей позволит не только избежать связанных с ними проблем, но даже извлечь из них выгоду. Например, валютные спекулянты получают наибольшую прибыль именно в момент скачкообразных изменений рынка (разумеется, в том случае, если они знают или догадываются о предстоящем скачке и грамотно играют на этой информации). С другой стороны, локальные особенности искажают реальную картину бизнеса и могут "маскировать" другие важные факторы – такие, как периодические зависимости или краткосрочный тренд. Грамотный анализ локальных особенностей позволяет, во-первых, восстановить информацию о течении бизнес-процесса в "спокойных", стабильных условиях и получить более достоверную аналитическую информацию, и, во-вторых, быть готовым к подобным ситуациям в дальнейшем и пройти через них с наименьшими потерями.
Рис.3. Локальная особенность.
Описание аналитических алгоритмов
Работа по созданию законченного решения на базе Deductor не сводится только к консолидации и визуализации данных. Необходимо выполнение и других действий, в частности таких как:
1. Очистка данных. На этом этапе проводится редактирование аномалий, заполнение пропусков, сглаживание, очистка от шумов, обнаружение дубликатов и противоречий.
2. Трансформация данных. Производится замена пустых значений, квантование, табличная замена значений, преобразование к скользящему окну, изменение формата набора данных.
3. Data Mining. Строятся модели с использованием нейронных сетей, деревьев решений, самоорганизующихся карт, ассоциативных правил и других методов.
На рисунке представлены алгоритмы, которые используются в программе, сгруппированные по назначению.
Очистка данных
При создании хранилищ данных очень мало внимания уделяется очистке поступающей в него информации. Видимо считается, что чем больше размер хранилища, тем лучше. Это порочная практика и лучший способ превратить хранилище данных в свалку мусора. Данные очищать необходимо. Ведь информация разнородна и собирается из различных источников. Именно наличие множеств точек сбора информации делает процесс очистки особенно актуальным.
Если анализируемые данные не соответствуют определенным критериям качества, то их предварительная обработка становится необходимым шагом для обеспечения удовлетворительного результата анализа. Необходимость в предварительной обработке возникает независимо от того, какие алгоритмы и технологии используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственное отношение к анализу данных. Очевидно, что исходные («сырые») данные чаще всего нуждаются в очистке.
1. Противоречивость информации;
2. Пропуски в данных;
3. Аномальные значения;
4. Шум;
5. Ошибки ввода данных.
Для решения каждой из этих проблем есть отработанные методы. Конечно, ошибки можно править и вручную, но при больших объемах данных это становится довольно проблематично. Поэтому рассмотрим варианты решения этих задач в автоматическом режиме при минимальном участии человека.
Парциальная обработка (partial – частичный, неполный)
В процессе парциальной обработки восстанавливаются пропущенные данные, редактируются аномальные значения, проводится спектральная обработка. В Deductor Studio при этом используются алгоритмы, в которых каждое поле анализируемого набора обрабатывается независимо от остальных полей, то есть данные обрабатываются по частям. По этой причине такая предобработка получила название парциальной. В числе процедур предобработки данных, реализованных в Deductor Studio, входят сглаживание, удаление шумов, редактирование аномальных значений, заполнение пропусков в рядах данных.
Пропуски в данных
Очень серьезная проблема. Это вообще бич для большинства хранилищ данных. Большинство методов прогнозирования исходят из предположения, что данные поступают равномерным постоянным потоком. На практике такое встречается крайне редко. Поэтому одна из самых востребованных областей применения хранилищ данных – прогнозирование – оказывается реализованной некачественно или со значительными ограничениями.
Часто бывает так, что в столбце некоторые данные отсутствуют в силу каких-либо причин (данные неизвестны, либо их забыли внести и т.п.). Раньше из-за этого пришлось бы убрать из обработки все строки, которые содержат пропущенные данные.
Для борьбы с этим явлением можно воспользоваться следующими методами:
1. Аппроксимация - пропущенные данные восстанавливаются методом аппроксимации. Т.е. если нет данных в какой-либо точке, мы берем ее окрестность и вычисляем по известным формулам значение в этой точке, добавляя соответствующую запись в хранилище. Метод аппроксимации используется только для упорядоченных данных, чаще всего это временные ряды. Например, сведения об ежедневных продажах продуктов. Этот метод использует последовательный рекуррентный фильтр второго порядка (фильтр Калмана.1). Входные данные последовательно подаются на вход фильтра, и если очередное значение ряда отсутствует, оно заменяется значением, которое экстраполируется фильтром.
2. Максимальное правдоподобие – алгоритм подставляет наиболее вероятные значения вместо пропущенных данных. Определение наиболее правдоподобного значения. Для этого берется не окрестность точки, а все данные. Этот метод применяется для неупорядоченной информации, т.е. случаем, когда мы не в состоянии определить, что же является окрестностью исследуемой точки. При использовании этого метода строится плотность распределения вероятностей, и отсутствующие данные заменяются значением, соответствующим ее максимуму.
Аномальные значения
Довольно часто происходят события, которые сильно выбиваются из общей картины. И лучше всего такие значения откорректировать. Это связано с тем, что средства прогнозирования ничего не знают о природе процессов. Поэтому любая аномалия будет восприниматься как совершенно нормальное значение. Из-за этого будет сильно искажаться картина будущего. Какой-то случайный провал или успех будет считаться закономерностью.
Аномалии – это отклонения от нормального (ожидаемого) поведения чего-либо. Это может быть, например, резкое отклонение величины от ее ожидаемого значения.
Есть метод борьбы и с этой напастью – это робастные оценки. Это методы устойчивые к сильным возмущениям. Мы оцениваем имеющиеся данные ко всему, что выходит за допустимые границы, и применяем одно из следующих действий:
1. Значение удаляется;
2. Заменяется на ближайшее граничное значение.
Настройки.
Для применения алгоритма удаления аномалий необходимо указать поле таблицы, к которому его нужно применить (которое содержит аномалии), и указать степень подавления аномальных данных – малую, среднюю или большую.
Сглаживание
Любая закономерность, описывающая некоторый бизнес-процесс, ограничена как во времени (любой бизнес-процесс имеет начало и конец), так и по величине. Из курса математического анализа известно, что такая закономерность может быть представлена в виде суммы гармонических колебаний различной частоты и интенсивности (амплитуды).
Рис.4. Гармонические составляющие восходящего тренда.
При этом колебания, имеющие низкую частоту, отвечают за медленные, плавные, крупномасштабные изменения описываемой величины, а высокочастотные – за короткие, мелкомасштабные изменения. Чем сильнее изменяется описываемая данной закономерностью величина на данном масштабе, тем большую амплитуду имеют составляющие на соответствующей частоте. Таким образом, любой бизнес-процесс можно рассматривать как во временной области (т.е. развитие процесса во времени), так и в частотной области (т.е. в плане масштаба изменений исследуемой величины). Говорят также о поведении процесса в частотно-временной области – т.е. о закономерности, описывающей процесс в зависимости как от времени, так и от частоты (масштаба изменений).
Для сглаживания рядов данных в программе используются два алгоритма.
Первый способ сглаживания – это низкочастотная фильтрация с использованием быстрого преобразования Фурье. При этом задается верхнее значение полосы пропускаемых частот, отсекается все, что выше данного порога. Высокочастотная составляющая временного ряда соответствует резко изменяющимся данным, а низкочастотная – плавно изменяющимся.
При подавлении шумов на основе анализа распределения составляющих Фурье спектра на выход фильтра пропускаются спектральные составляющие, превышающие некоторый порог, рассчитанный по эмпирическим формулам в соответствии с заданным критерием степени вычитания шума. Чем больше требуется сгладить данные, тем меньше должно быть значение полосы. Однако слишком узкая полоса может привести к потере полезной информации. Следует заметить, что этот алгоритм наиболее эффективен, если анализируемые данные являются суммой полезного сигнала и белого шума.
Второй способ сглаживания – это вейвлет-преобразование. Если выбран данный метод, то необходимо задать глубину разложения и порядок вейвлета.
Вейвлетом называется некоторая функция (закономерность), хорошо локализованная (т.е. сосредоточенная в небольшой окрестности некоторой точки и резко убывающая до нуля по мере удаления от нее) как во временной, так и в частотной области. Отметим, что вейвлет – это не какая-то конкретная математическая зависимость или "формула", а любой объект или процесс, обладающий указанными особенностями (и еще некоторыми математическими свойствами, рассмотрение которых выходит за рамки этой статьи). Существуют вейвлеты, имеющие самые различные свойства и подходящие для решения самых разных задач.
Глубина разложения определяет «масштаб» отсеиваемых деталей: чем больше эта величина, тем более «крупные» детали в исходных данных будут отброшены. При достаточно больших значениях параметра (порядка 7-9) выполняется не только очистка данных от шума, но и их сглаживание («обрезаются» резкие выбросы). Использование слишком больших значений глубины разложения может привести к потере полезной информации из-за слишком большой степени «огрубления» данных.
Порядок вейвлета определяет гладкость восстановленного ряда данных: чем меньше значение параметра, тем ярче будут выражены «выбросы», и, наоборот, при больших значения параметра «выбросы» будут сглажены.
Параметры алгоритма сглаживания задаются в «Парциальной обработке» на странице «Спектральная обработка».
Очистка от шумов
Почти всегда при анализе мы сталкиваемся с шумами. Шум не несет никакой полезной информации, а лишь мешает четко разглядеть картину. Шумы в данных не только скрывают общую тенденцию, но и проявляют себя при построении модели прогноза. Из-за них модель может получиться с плохими обобщающими качествами.
Методов борьбы с этим явлением несколько.
1. Спектральный анализ. При помощи него мы можем отсечь высокочастотные составляющие данных. Проще говоря, это частые и незначительные колебания около основного сигнала. Причем, изменяя ширину спектра, можно выбирать какого рода шум мы хотим убрать.
2. Авторегрессионые методы. Этот довольно распространенный метод активно применяется при анализе временных рядов и сводится к нахождению функции, которая описывает процесс плюс шум. Собственно шум после этого можно удалить и оставить основной сигнал.
При выборе режима очистки от шумов необходимо задать степень вычитания шума: малую, среднюю или большую. При использовании вычитания шума следует соблюдать осторожность, т.к. реализованный здесь алгоритм гарантирует удовлетворительный результат лишь при выполнении двух условий:
• Дисперсия шума значительно меньше энергии полезного сигнала;
• Шум имеет нормальное распределение.
Параметры алгоритма очистки от шумов задаются в «Парциальной обработке» на странице «Спектральная обработка».
Ошибки ввода данных
Вообще это тема для отдельного разговора, т.к. количество типов такого рода ошибок слишком велико, например, опечатки, сознательное искажение данных, несоответствие форматов, и это еще не считая типовых ошибок, связанных с особенностями работы приложения по вводу данных. Для борьбы с большинством из них есть отработанные методы. Некоторые вещи очевидны, например, перед внесением данных в хранилище можно провести проверку форматов. Некоторые более изощренные. Например, можно исправлять опечатки на основе различного рода тезаурусов. Но, в любом случае, очищать нужно и от такого рода ошибок.
Факторный анализ
От других средств подобного “сжатия информации” (например, распространенных методов статистической группировки объектов) факторный анализ отличается тем, что не опирается на заранее заданный, априорный перечень факторов, влияющих на исследуемые процессы или объекты, а наоборот, при соблюдении определенных правил и предосторожностей помогает обнаружить наиболее важные из этих факторов, причем скрытые (латентные).
Например, аналитик непосредственно наблюдает множество различных показателей деятельности предприятий, чтобы выявить закономерности, влияющие на рост производительности труда (уровень квалификации персонала, коэффициент сменности оборудования, электровооруженность труда, “возраст” оборудования, количество мест в столовых и т. д.). Так или иначе, все факторы, отражаемые этими показателями, воздействуют на изучаемый показатель — производительность труда. При этом многие из них связаны между собой, отражая с разных сторон по существу одни те же явления. С помощью приемов функционального анализа этих связей (корреляций) удается обнаружить, что на самом деле решающее влияние на рост производительности труда оказывает лишь несколько обобщенных факторов (напр., размер предприятия, уровень организации труда, характер продукции), непосредственно не наблюдавшихся при исследовании. Собственно, это их действие и проявляется в учитываемых показателях. Задача состоит, следовательно, в том, чтобы выявить скрытые обобщенные факторы, которые в достаточной для данного исследования степени объясняют изменения изучаемого показателя.
Выявленные факторы позволяют строить аналитические модели с относительно небольшим числом переменных, что упрощает модели и их интерпретацию пользователем, снижает вычислительные затраты и время, требуемое на получение решений, а следовательно повышает оперативность принятие решений на основе результатов анализа.
При исследовании сложных объектов и систем часто нельзя непосредственно измерить величины, определяющие свойства этих объектов (так называемые факторы), а иногда неизвестно даже число и содержательный смысл факторов. Для измерений могут быть доступны иные величины, h способом зависящие от этих факторов. При этом, когда влияние неизвестного фактора проявляется в нескольких измеряемых признаках, эти признаки могут обнаруживать тесную связь между собой (например, коррелированность). Поэтому общее число факторов может быть гораздо меньше числа измеряемых переменных, которое обычно выбирается исследователем в некоторой степени произвольно. Для обнаружения влияющих на измеряемые переменные факторов используются методы факторного анализа, реализованные в обработчике «Факторный анализ».
В обработчике используется метод главных компонент. Этот метод сводится к выбору новой ортогональной системы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив данных имеет наибольший разброс. Выбор каждой главной последующей компоненты происходит так, чтобы разброс данных вдоль нее был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным прежде. В результате получаем несколько главных компонент, каждая
следующая из которых несет все меньше информации из исходного набора. Следующим шагом является выбор наиболее информативных главных компонент, которые будут использоваться в дальнейшем анализе.
Посмотрим на следующий рисунок. На нем изображено двумерное пространство наблюдений в осях Х и Y, соответствующих двум измеряемым параметрам.
Как видно, разброс данных велик по обоим направлениям. Теперь повернем систему координат так, чтобы оси Y соответствовало направление наибольшего разброса массива данных, т.е. перейдем в систему координат X’-Y’. Теперь по оси X‘ дисперсия данных невелика, и появляется возможность отбросить это направление, перейдя к одномерному пространству.
В этом случае потери некоторой части информации могут компенсироваться удобством работы с данными меньшей размерности. Аналогичные действия выполняются в многомерном случае: система координат последовательно вращается таким образом, чтобы каждый следующий поворот минимизировал остаточный разброс массива данных.
Выбор главных компонент в процессе факторного анализа может осуществляться полуавтоматически: пользователь задает уровень значимости (вклад в результат), который в сумме должны давать главные компоненты. В результирующем наборе остаются главные компоненты, расположенные в порядке убывания значимости, суммарный вклад которых не менее заданного пользователем уровня.
Факторный анализ широко используется в следующей ситуации. В очень большом исходном наборе данных есть много полей, некоторые из которых взаимозависимы. На этом наборе данных требуется, к примеру, обучить нейронную сеть. Для того чтобы снизить время, требуемое на обучение сети, и требования к объему обучающей выборки, с помощью факторного анализа осуществляют переход в новое пространство факторов меньшей размерности. Так как большая часть информативности исходных данных сохраняется в выбранных главных компонентах, то качество модели ухудшается незначительно, зато на много сокращается время обучения сети.
Корреляционный анализ
Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированны (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если модуль корреляции (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.
В процессе обработки значащие факторы могут выбираться вручную или автоматически. При ручном выборе около имени каждого входного поля устанавливается флажок, если это поле нужно включить в выходную выборку, и снимается в противном случае. В автоматическом режиме исключаются все факторы, корреляция которых с выходными полями меньше порога задаваемого уровня значимости.
Замечание: на практике считается, что корреляция большая 0.6 означает очень высокую связь между рядами, меньшая 0.3 – отсутствие зависимости, а промежуточные значения констатируют наличие определенной связи. В другом подходе полагается, что зависимость существует, если корреляцию больше 2 поделить на корень из объема выборки.
Пример.
В качестве примера рассмотрим, как определить товары-заменители и сопутствующие товары, имея временные ряды объемов продаж. У товаров-заменителей должна быть большая отрицательная корреляция, т.к. увеличение продаж одного товара ведет к спаду продаж второго. А у сопутствующих товаров – большая положительная корреляция.
Пусть есть такие временные ряды продаж товаров:
Определим корреляцию Товара 1 с остальными товарами. Одним из доступных способов визуализации результатов является визуализатор «Матрица корреляции». В данном примере эта матрица имеет следующий вид:
Как видно из рисунка, ряд продаж Товара 2 имеет очень большую положительную, а Товара 3 – отрицательную корреляцию. Из этого можно сделать вывод, что Товар 2, возможно, является сопутствующим товаром, а Товар 3 – заместителем Товара 1. Корреляция с продажами Товара 4 с Товаром 1 является отрицательной, но при этом абсолютное значение корреляции невелико, и, следовательно, можно говорить об отсутствии взаимосвязи между продажами Товара 1 и продажами Товара 4.
Обнаружение дубликатов и противоречий
При построении модели регрессии или классификации в анализируемых таблицах нужно определить входные и выходные поля, зависимости между которыми и исследуются. Предполагается, что значения входных полей полностью определяют значения выходных.
При подобной постановке задачи возможно возникновение противоречий, то есть присутствие групп записей, значения в ключевых (входных) полях которых полностью совпадают, а в целевых (выходных) – различаются. Например, если значения в ключевых полях – это коды товаров, а в целевых – цены этих товаров, то присутствие двух записей с одинаковым кодом, но с разной ценой как раз и создает противоречие. Обычно бывает так, что только одна запись из группы противоречивых является правильной, а остальные – ошибочными. Очевидно, что присутствие ошибочных данных искажает результаты анализа, поэтому противоречивые данные чаще всего лучше вообще исключить из исходной выборки. Однако следует заметить, что искусственное введение противоречий в исходные данные может быть полезным, например, если нужно ввести некоторую неопределенность в данные, кроме того противоречия могут отражать особенности поведения анализируемого объекта.
Также в данных могут встречаться записи с одинаковыми входными факторами и одинаковыми выходными, т.е. дубликаты. Эти данные чаще всего избыточны, хотя присутствие дубликатов в анализируемых данных можно рассматривать как способ повышения «значимости» дублирующейся информации. В некоторых случаях такой прием может быть полезен, например, если при обучении нейросети нужно особо выделить и усилить влияние некоторых наборов значений. Однако в других случаях дублирование может указывать на ошибки при подготовке исходных данных. Дубликаты могут искажать результаты некоторых методов анализа, например, статистического.
Так или иначе, в процессе анализа иногда возникает проблема выявления дубликатов и противоречий в данных. В Deductor Studio для автоматизации этого процесса есть соответствующий инструмент – обработчик «Дубликаты и противоречия».
Дубликаты – записи в таблице, все входные и выходные поля которых одинаковые.
Противоречия – записи в таблице, у которых все входные поля одинаковые, но отличаются хотя бы по одному выходному полю.
Суть обработки состоит в том, что определяются входные и выходные поля. Алгоритм ищет во всем наборе записи, для которых одинаковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных логических поля – «Дубликат» и «Противоречие», принимающие значения «истина» или «ложь», и дополнительные числовые поля «Группа дубликатов» и «Группа противоречий», в которые записываются номер группы дубликатов и группы противоречий, содержащих данную запись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми.
Настройка выявления дубликатов и противоречий заключается в выборе назначений полей исходной выборки данных, то есть в выборе, какие поля входные, а какие – выходные.
Обработка дубликатов или противоречий не проводится в тех случаях, когда дубликаты или противоречия были преднамеренно введены в исходные данные. Как правило, этот метод применяется только к одной из описываемых аномалий, то есть либо только дубликаты, либо только противоречия остаются без обработки. Кроме того, дубликаты или противоречия могут быть вполне естественными для анализируемого процесса, но чаще всего специальная обработка подобных данных требуется.
1. Наличие дубликатов и противоречий может приводить к полному обесцениванию строк, содержащих подобные отклонения. Считается, что присутствие подобных ошибок делает информацию недостоверной. Такая ситуация возникает, например, при обработке социологических данных, когда наличие дубликатов или противоречий свидетельствует о недобросовестности респондента и вызывает недоверие ко всей предоставленной им информации. В этом случае все записи, формирующие группу дубликатов или противоречий, должны быть удалены. Это первый способ обработки.
2. Существует еще один, наиболее естественный, способ обработки дубликатов. Поскольку все дубликаты представляют собой копии одних и тех же данных, они могут быть сведены к одной записи набора данных, содержащей уникальную копию таких значений.
К противоречиям также применим подобный метод обработки, но с некоторыми ограничениями. Напомним, что противоречивые записи содержат одинаковые входные значения, но различные выходные. Приведение таких записей к одной, уникальной, возможно на основе статистической агрегации, то есть вычисления максимума, минимума или среднего из выходных значений и подстановки этой величины в соответствующее поле формируемой уникальной записи. Следует заметить, что такую операцию следует выполнять с осторожностью; семантика, то есть смысл данных, должна допускать возможность вычисления таких статистических значений. Например, статистическая агрегация допустима для цены товара или величины пропускной способности, но бессмысленна для номеров квартир или кодов налогоплательщиков.
Фильтрация
С помощью операции фильтрации можно оставить в таблице только те записи, которые удовлетворяют заданным условиям, а остальные исключить из набора данных.
Параметры фильтрации задаются в виде списка условий, который содержит следующие столбцы:
1. Операция – позволяет установить функцию отношения «И» или «ИЛИ» между полями, для каждого из которых выполняется фильтрация. Возможна фильтрация по нескольким условиям для нескольких полей одновременно. Практически в результате фильтрации по каждому из полей или условий будет получено отдельное множество значений. Тогда функция в поле «Операция» устанавливает отношение между этими множествами. Если используется отношение «И», то в результирующий набор будут включены записи, удовлетворяющие условиям фильтрации по обоим полям, если используется отношение «ИЛИ», то в выходной набор будут включены данные, удовлетворяющие хотя бы одному из условий. Установка отношений возможна, только если настроены два или более условия фильтрации. Для выбора операции следует дважды щелкнуть левой кнопкой мыши в столбце «Операция» для соответствующего условия и из списка, открываемого кнопкой, выбрать нужную функцию отношения. По умолчанию устанавливается отношение «И».
2. Имя поля – позволяет выбрать поле, по значениям которого должна быть выполнена фильтрация. Для этого дважды щелкнуть в столбце «Имя поля» и с помощью кнопки открыть список полей текущей выборки, где щелкнуть по нужному полю. Одно и то же поле может быть использовано в нескольких условиях.
3. Условие – указывается условие, по которому нужно выполнить фильтрацию для данного поля. Для выбора условия достаточно дважды щелкнуть мышью в соответствующей ячейке и в списке условий, открываемом кнопкой, выделить нужное условие.
4. Значение – указывается значение(я), по которому будет производиться фильтрация записей в соответствии с заданным условием. Способ ввода значения будет различным в зависимости от типа данных и выбранного условия.
Фильтрация может быть полезна для применения различных алгоритмов к группам данных, так как позволяет выделить из выборки только нужную часть. Тем не менее, если требуется провести анализ только известной части данных, желательно загружать в программу уже отфильтрованный набор. Такая возможность имеется, например, при загрузке данных из хранилища. В этом случае
значительно экономится память, занимаемая данными, и увеличивается скорость обработки.