Информационная технология обработки данных
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Министерство образования и науки РФ
Федеральное государственное бюджетное
образовательное учреждение высшего образования
«Сибирский государственный индустриальный университет»
Кафедра автоматизации и информационных систем
КОНСПЕКТ ЛЕКЦИЙ
УЧЕБНОЙ ДИСЦИПЛИНЫ
Технологии обработки данных в системах управления
Направление
09.03.02 - Информационные системы и технологии
Квалификация выпускника
Бакалавр
Новокузнецк
Информационная технология обработки данных предназначена для
решения хорошо структурированных задач, по которым имеются необходимые
входные данные и известны алгоритмы и другие стандартные процедуры их
обработки.
Эта технология применяется на уровне исполнительской деятельности
персонала невысокой квалификации в целях автоматизации некоторых
рутинных постоянно повторяющихся
операций
управленческого
труда.
Поэтому внедрение информационных технологий и систем на этом уровне
существенно повысит производительность труда персонала, освободит его от
рутинных операций, возможно, даже приведет к необходимости сокращения
численности работников.
На уровне операционной деятельности решаются следующие задачи:
обработка данных об операциях, производимых фирмой;
создание периодических контрольных отчетов о состоянии дел в фирме;
получение ответов на всевозможные текущие запросы и оформление их в
виде бумажных документов или отчетов.
Примеры рутинных операций: операция проверки на соответствие
нормативу уровня запасов указанных товаров на складе. При уменьшении
уровня запаса выдается заказ поставщику с указанием необходимого
количества товара и сроков, другой пример, операция продажи товаров
фирмой, в результате которой формируется выходной документ для покупателя
в виде чека или квитанции.
Пример контрольного отчета: ежедневный отчет о поступлениях и выдачах
наличных средств банком, формируемый в целях контроля баланса наличных
средств.
Пример запроса: запрос к базе данных по кадрам, который позволит
получить данные о требованиях, предъявляемых к кандидатам на занятие
определенной должности.
Представим
основные
компоненты
информационной
обработки данных (рисунок) и приведем их характеристики.
технологии
Рисунок – Основные компоненты технологии обработки данных
Основные виды и процедуры обработки данных
Сбор данных. По мере того как фирма производит продукцию или услуги,
каждое ее действие сопровождается соответствующими записями данных.
Обычно действия фирмы, затрагивающие внешнее окружение, выделяются
особо как операции, производимые фирмой.
Обработка данных. Для создания из поступающих данных информации,
отражающей деятельность фирмы, используют следующие типовые операции:
классификация или группировка. Первичные данные обычно имеют вид
кодов, состоящих из одного или нескольких символов. Эти коды, выражающие
определенные признаки объектов, используются для идентификации и
группировки записей.
Пример. При расчете заработной платы каждая запись включает в себя код
(табельный номер) работника, код подразделения, в котором он работает,
занимаемую должность и т. п. В соответствии с этими кодами можно
произвести разные группировки;
сортировка, с помощью которой упорядочивается последовательность
записей;
вычисления, включающие арифметические и логические операции, эти
операции, выполняемые над данными, дают возможность получать новые
данные;
укрупнение или агрегирование, служащее для уменьшения количества
данных и реализуемое в форме расчетов итоговых или средних значений.
Хранение данных. Многие данные на уровне операционной деятельности
необходимо сохранять для последующего использования либо здесь же, либо
на другом уровне. Для их хранения создаются базы данных.
Создание отчетов (документов). В информационной технологии обработки
данных необходимо создавать документы для руководства и работников
фирмы, а также для внешних партнеров. При этом документы могут
создаваться как по запросу или в связи с проведенной фирмой операцией, так и
периодически в конце каждого месяца, квартала или года.
Примеры информационных систем оперативного уровня: бухгалтерская;
банковских депозитов; обработки заказов; регистрации авиабилетов; выплаты
зарплаты и т.д.
Наибольшее
число
пакетов
прикладных
программ
создано
для
бухгалтерского учета. Среди них можно отметить "Турбо-Бухгалтер", "ИнфоБухгалтер", "Парус", "ABACUS", и др.
Типичной информационной системой оперативного уровня является
популярная программа "1C: Бухгалтерия" фирмы "1C" для Windows. Эта
программа
предоставляет
широкие
возможности
манипулирования
бухгалтерскими данными.
Программа "1С:Бухгалтерия" входит в комплекс программ "1 С:
Предприятие", который включает также разделы "1С:Торговля+Склад" и
"1С:Зарплата+Кадры".
Справочное и информационное обеспечение экономической деятельности
представлено следующими пакетами программ: "ГАРАНТ" (налоги, бухучет,
аудит, предпринимательство, банковское дело, валютное регулирование,
таможенный
контроль),
"КОНСУЛЬТАНТ+"
(налоги,
бухучет,
аудит,
предпринимательство, банковское дело, валютное регулирование, таможенный
контроль).
Статистический анализ данных
Постановка задачи
Дано:
1) Натурные исходные данные.
Таблица – Реализации случайного процесса
реализации
Х1
Х2
Х3
Х4
Х5
---
Х24
сечения
день
t1
5
44.84
50.30
57.47 54.85 64.18
---
88.77
t2
6
41.58
50.30
57.74 56.71 64.18
---
88.50
t3
9
44.12
51.68
56.98 56.71 66.57
---
88.59
t4
10
44.12
53.45
56.98 55.86 67.67
---
90.36
t5
11
45.1
53.86
56.98 55.64 66.20
---
93.06
t6
12
42.81
52.09
57.62 55.64 66.78
---
97.12
t7
13
44.66
52.09
58.25 54.85 66.78
---
95.19
t8
16
52.77
54.93
62.03 54.85 66.08
---
94.60
t9
17
52.77
55.27
63.39 51.35 66.75
---
96.18
t10
18
56.11
58.05
63.78 51.24 67.26
---
97.19
t11
19
54.77
58.27
63.78 50.21 64.72
---
95.21
t12
20
54.33
58.27
64.60 49.94 64.72
---
95.47
t13
24
53.9
56.91
60.42 51.64 55.35
---
95.49
t14
25
51.64
56.54
60.42 53.47 56.74
---
95.08
t15
26
47.96
57.02
60.42 50.77 54.03
---
95.95
t16
27
48.99
57.77
59.84 54.54 54.03
---
96.61
2) Методика определения статистических характеристик по книге
Е.С. Вентцель «Теория вероятностей».
Требуется:
1) определить математическое ожидание случайного процесса, его
дисперсию и нормированную автокорреляционную функцию;
2) определить является ли данный случайный процесс стационарным;
3) построить гистограмму ряда данных X = {X1, X2, …, X24}.
Решение задачи
1) Математическим ожиданием случайного процесса X(t) называется
неслучайная функция mx(t), при каждом значении аргумента t равна
математическому ожиданию соответствующего сечения случайного процесса.
Математическое ожидание сечения случайного процесса можно оценить по
следующей формуле:
n
m̂ x ( t k ) =
∑ X i (t k )
i =1
n
где X i ( t k ) - значение i -той реализации в момент t k .
Рисунок 1 – Оценка математического ожидания случайного процесса
Рисунок 2 – Оценка математического ожидания случайного процесса в
увеличенном масштабе
Дисперсией случайного процесса X(t) называется неслучайная функция
Dx(t),
значение
которой
соответствующего
для
сечения
каждого
аргумента
t
равно
случайного
процесса.
Дисперсию
дисперсии
случайного процесса можно оценить по следующей формуле:
n
D̂ x ( t k ) =
∑ (X i ( t k ) − m̂ x ( t k )) 2
i =1
n
где X i ( t k ) - значение i –той реализации в момент t k
Рисунок 3 – Оценка дисперсии случайного процесса
сечения
Рисунок 4 – Оценка дисперсии случайного процесса в увеличенном
масштабе
Корреляционная
функция
(иначе
автокорреляционная
функция)
случайного процесса X(t) называется неслучайной функцией двух аргументов
Кх(t, t’), которая при каждой паре значений t, t’ равна корреляционному
моменту соответствующих сечений случайного процесса.
Нормированная автокорреляционная функция имеет вид:
rx (t , t ' ) =
K x ( t, t ' )
,
σ( t ) σ( t ' )
где σ( t ), σ( t ' ) - среднеквадратические отклонения, соответствующих сечений.
Корреляционные моменты для случайного процесса можно оценить по
следующей формуле:
n
r̂x (t k , t m ) =
∑ (X i ( t k ) − m̂ x ( t k ))(X i ( t m ) − m̂ x ( t m ))
i =1
n σ ( t k ) σ( t m )
.
Рисунок 5 – Оценка нормированной автокорреляционной функции, при
tk = 5
2) Если судить непосредственно по данным, полученным в результате
обработки, то можно прийти к выводу, что случайный процесс стационарным
не является: его математическое ожидание не вполне постоянно (особенно при
увеличении масштаба); дисперсия также меняется со временем; значения
нормированной автокорреляционной функции вдоль параллелей главной
диагонали также не вполне постоянны.
Однако,
обрабатываемых
принимая
во
реализаций
внимание
данный
весьма
ограниченное
нестационарный
процесс
число
можно
рассматривать и как почти стационарный.
В этом случае определим его математическое ожидание путем
осреднения по времени оценок математического ожидания:
m̂ x =
m̂ x ( t 1 ) + m̂ x ( t 2 ) + ... + m̂ x ( t 16 )
= 66.14 .
16
Аналогичным образом усредни оценки для дисперсии:
D̂ x =
D̂ x ( t 1 ) + D̂ x ( t 2 ) + ... + D̂ x ( t 16 )
= 146.26 .
16
Извлекая корень, найдем осредненную оценку среднеквадратического
отклонения:
σˆ x = D̂ x = 12.09 .
Перейдем
к
построению
автокорреляционной
функции
такого
стационарного процесса, которым можно заменить нестационарный процесс
X(t). Для стационарного процесса корреляционная функция зависит только от
τ = t '−t , следовательно, при постоянном τ корреляционная функция должна
быть постоянной. Постоянному τ соответствуют: главная диагональ ( τ =0) и
параллели этой диагонали. Усредняя оценки нормированной корреляционной
функции вдоль этих параллелей главной диагонали, получим значения функции
r̂x (τ) .
Рисунок 6 – Автокорреляционная функция «стационарного» случайного
процесса (при условии, что τ = t2-t1 = t3-t2 = … = t16-t15 := 1 и т.д.)
Можно сделать вывод, о том, что вероятностная связь между сечениями
случайного процесса уменьшается с увеличением сдвига τ между ними,
корреляционная функция имеет убывающий характер.
3) Построение гистограммы X(i).
Рисунок 7 – Гистограмма: p – частота попадания X(i) в заданный
интервал
Из рисунка 7 видно, что закон распределения не имеет нормальной
формы, но стремится к ней.
Коэффициент корреляции между X(i) и ФN(i) можно оценить по
следующей формуле:
n
r̂ (X, Ф N ) =
∑ (X(i) − m̂ X )(Ф N (i) − m̂ ФN )
i =1
n σ X σ ФN
где m̂ X , σ X - математическое ожидание и среднеквадратическое отклонение
m̂ ФN , σ ФN
для временного ряда X(i);
- математическое ожидание и
среднеквадратическое отклонение для временного ряда ФN(i).
Математическое ожидание и среднеквадратическое отклонение для
временных рядов X(i) и ФN(i), оценивается по следующим формулам:
n
m̂ Х =
∑ X(i)
i =1
n
n
, m̂ ФN =
n
σˆ X =
∑ (X(i) − m̂ x ) 2
i =1
n
∑ Ф N (i)
i =1
n
,
n
, σˆ ФN =
∑ (Ф N (i) − m̂ ФN ) 2
i =1
n
.
Множество корреляционных полей. Распределения значений (x,y) с
соответствующими коэффициентами
корреляций для
каждого из
них.
Коэффициент корреляции отражает «зашумлённость» линейной зависимости
(верхняя строка), но не описывает наклон линейной зависимости (средняя
строка), и совсем не подходит для описания сложных, нелинейных
зависимостей (нижняя строка). Для распределения, показанного в центре
рисунка, коэффициент корреляции не определен, так как дисперсия y равна
нулю.
Схемы многоструктурного анализа данных
Для
эффективного
управления,
в
любой
сфере,
необходимо
высококачественное прогнозирование. Результативность решения зависит от
явлений, имеющих место после принятия этого решения (например, резкое
увеличение курса доллара). Возможность спрогнозировать эти явления
позволяет реализовать решение, которое быстрее приблизит нас к поставленной
цели, чем решение, принятое без прогнозирования.
Рассмотрим примеры, где целесообразно использовать прогнозирование:
1) Анализ товарных и финансовых рынков (финансовые рынки: рынок
купонных и бескупонных облигаций, рынок акций (фондовый рынок) и
валютный рынок). На сегодняшний день это наиболее развитые в нашей стране
рынки, на которых работают банки. Любой человек, хоть в слабой мере
соприкасающийся с финансовыми рынками, пытается спрогнозировать их
поведение хотя бы на самое ближайшее время.
2) Финансовое планирование. Финансового менеджера интересует как
будет изменяться денежный оборот компании с течением времени. Менеджер,
может пожелать узнать, в какой период времени в будущем оборот компании
начнет падать, с тем, чтобы принять соответствующее решение уже сейчас.
3)
Управление
материально-производственными
запасами.
В
управлении запасами запасных частей на предприятии по ремонту самолетов
совершенно необходимо оценить степень используемости каждой детали. На
основе этой информации определяется необходимое количество запасных
частей. Кроме того, необходимо оценить ошибку прогнозирования. Эта ошибка
может быть оценена, например, на основе данных о времени, которое
понадобилось для доставки деталей, которых не было на складе.
4)
Планирование
производства.
Для
того,
чтобы
планировать
производство семейства продуктов, возможно, необходимо спрогнозировать
продажу для каждого наименования продукта, с учетом времени доставки, на
несколько месяцев вперед. Эти прогнозы для конечных продуктов могут быть
потом
преобразованы
в
требования
к
полуфабрикатам,
компонентам,
материалам, рабочим и т.д. Таким образом, на основании прогноза может быть
построен график работы целой группы предприятий.
5) Разработка расписания персонала. Менеджер почтовой компании
должен знать прогноз количества обрабатываемых писем, с тем чтобы
обработка производилась в соответствии с расписанием
персонала и
производительностью оборудования.
6) Планирование нового продукта. Решение о разработке нового
продукта обычно требует долговременного прогноза того, каким спросом он
будет пользоваться. Этот прогноз не менее важен, чем определение инвестиций
необходимых для его производства.
7) Управление технологическим процессом. Прогнозирование также
может быть важной частью систем управления технологическими процессами.
Наблюдая ключевые переменные процесса и используя их для предсказания
будущего поведения процесса, можно определить оптимальное время и
длительность управляющего воздействия. Например, некоторое воздействие в
течение часа может повышать эффективность химического процесса, а потом
оно
может
снижать
эффективность
процесса.
Прогнозирование
производительности процесса может быть полезно при планировании времени
окончания процесса и общего расписания производства.
Прогноз
должен
основываться
на
выявлении
некоторых
закономерностей в прошлом и применении их к анализу настоящей ситуации.
Поэтому необходимо перед началом проведения прогноза выявить какие
факторы (это могут быть макро- и микроэкономические данные, торговые
данные, оценки общественно-политических событий) оказывали влияние на
прогнозируемую величину. Хотя существуют методы, позволяющие установить
насколько данные факторы влияют на прогнозируемую величину (например,
вычислить корреляцию), все-таки качество выбора влияющих факторов на
прогноз в основном зависит от опыта аналитика.
Целью прогнозирования является уменьшение риска при формировании
решений. Качество прогноза зависит от структуры прогнозирующей системы.
Использование разнообразных алгоритмов, может увеличить точность прогноза
и уменьшить убытки, связанные с принятием решений.
Задание интервала прогнозирования зависит от условий принятия
решений. При этом интервал прогнозирования - отрезок будущего времени, с
которым соотносится прогноз, может быть различным и определяется
требованиями системы, использующей прогнозные оценки. Прогноз будет
иметь значение, если интервал прогнозирования не меньше времени,
необходимого для реализации решения учитывающего этот прогноз. Часто
для улучшения качества прогнозирования, рекомендуется уменьшить время
необходимое для принятия решения, так как уменьшается интервал
прогнозирования.
Данные из предыстории, обычно, необходимы для формирования
прогноза, а будущие наблюдения для его проверки. Количество, точность и
достоверность этой информации важны при прогнозировании. Так же является
целесообразным исследовать представительность этих данных.
Рассмотрим основные методы прогнозирования:
1) Метод двойного прогнозирования расчетных показателей (расчетный
показатель
(РП)
определяется
посредством
каких-либо
преобразований
первичных (исходных) величин), пояснением которому служит рисунок 7,
вытекает из возможности решения соответствующей задачи
по двум
методическим ветвям, а именно: 1) прогнозирование динамики первичных
(условно) величин с вычислением требуемых оценок РП по прогнозированным
данным; 2) вычисление РП по фактическим данным о первичных величинах с
прогнозированием динамики РП.
Полезным бывает комбинирование основных вариантных прогнозов с
помощью, например, их «взвешенного» суммирования, медианирования (при
четном
числе),
сглаживания
совмещенных
последовательностей.
Комбинированные (объединенные) прогнозные оценки также трактуются как
варианты прогноза РП.
Метод двойного прогнозирования расчетных показателей предполагает
получение нескольких вариантов прогнозных оценок. Для чего они нужны?
Ответ на этот вопрос дают труды Чайковского Ю.В., Алимова Ю.И.,
Редкозубова С.А.:
«Лишь … разумное сочетание разнообразных методов позволяет с
наибольшей
эффективностью
решать
поставленные
задачи»;«Реальные
ситуации почти всегда далеки от тех, в которых выбранные алгоритмические
структуры оптимальны». Для них нужны многовариантные структуры.
Важен вопрос о критериях качества прогнозирования РП. Традиционная
ориентация только на точностные критерии, а вернее на усреднённые
показатели
близости
прогнозных
оценок
к
фактическим
значениям,
«появляющимся» спустя некоторое время, представляется необходимой, но
совершенно недостаточной. В обязательном порядке требуется сочетание, как
минимум,
с
показателями
гладкости
(плавности)
динамических
последовательностей результатов прогнозирования. В моменты же излома
тенденции, качественного изменения обстановки, гладкостная компонента
комплексного (в частности, двухкомпонентного) критерия качества должна
конкретизироваться по правилам ситуационной адаптации.
АII
Прогнозирование
фактических
первичных
величин
Оценивание
расчетного
показателя по
спрогнозированн
ым данным
^
Х
Оперативный
выбор
рационального
варианта
прогноза
^
RI
Х
^RII
Оценивание РП
по фактическим
первичным
данным
^ III … ^ NR
R
Вариантное
объединение
прогнозных
оценок
Прогнозирование ^
RII
R
^
{R}
оценки РП
АI
Рисунок 7 – Принципиальная схема многоструктурного многовариантного
алгоритмического
блока
прогнозирования
РП
по
методу
двойного
прогнозирования: X – одномерный или многомерный ряд фактических данных;
R – ряд оценок расчетного показателя (РП); АI и АII – первая и вторая
алгоритмические структуры для прогнозирования РП; R̂ I и R̂ II - первый и
второй варианты прогнозных оценок РП; , R̂ III , … , R̂ N - комбинированные
прогнозные оценки; { R̂ } – рациональные варианты прогноза
Один из комплексных критериев качества вариантных прогнозов
характеризуется следующими формулами:
[
]
Q N (l ) = β ⋅ Q N (l − 1) + α ⋅ q 1N (l ) + γ ⋅ q 2N (l ) ,
(
)
(68)
q 1N (l ) = R (l ) − R̂ N l l − l Π , q 2N (l ) = R̂ N (l ) − 2R̂ N (l − 1) + R̂ N (l − 2) , (69)
в
соответствии
с
чем
определяется
экспоненциально-сглаженная
(с
настройками 0<α<1 и β=1- α) среднемодульная мера динамической точности
(через q1N ) и гладкости (через q 2N с весовым коэффициентом γ) конкретного Nго варианта прогнозирования РП, которому сопоставлены переменные R( l ) «по
факту» на текущем l -ом шаге, l = 1,2, 3,..., и
(
R̂ N l l − l Π
)
«по прогнозу с
l п- сдвигом назад», а R̂ N (l ), R̂ N (l − 1), R̂ N (l − 2 ) по прогнозу на смежных
шагах. (Для обозначения вариантов прогнозирования наряду с символом N
используется также символ L).
Из набора вариантов,
N = I, II,..., N , прогнозных оценок РП для
дальнейшего использования выделяются так называемые рациональные
варианты. К последним относятся, например, динамически определяемые
«лучшие» по двухкомпонентному критерию типа (68), а также своего рода
«предельные» варианты, характеризующие возможные срывы в критические
состояния.
Содержательный
анализ
метода
двойного
прогнозирования
и
необходимых для его реализации алгоритмических звеньев показал, что в
нестационарных ситуациях чаще (но не всегда) более эффективна первая
структура АI, а в стационарных - чаще вторая структура АII. Нередко бывает
трудно или даже невозможно своевременно распознать тип ситуации, она
уверенно выявляется только «задним числом», и уже, поэтому необходимо
реализовать, как правило, многовариантное прогнозирование. И вообще надо
следовать концепции: «Прогноз
в принципе не может быть однозначным,
полезен тот прогноз, который разворачивает перед нами весь спектр
возможностей, спектр вариантов».
2) Метод прогнозирования с «попеременной взаимоадаптацией».
Этот метод проистекает из теории и практики многоканальных активных
систем. Из рисунка 8 видно, что этот метод отличается текущим изменением
функций двух (по аналогии и более) параллельно работающих прогнозаторов.
Для каждого из них оценивается в динамике критерий качества, выбирается
лучший (условно образцовый) на данный интервал времени прогнозатор и к
нему подстраивается другой прогнозатор. Этот метод реализует идею
активного структурно нестационарного взаимодействия вариантных подсистем,
в роли которых могут выступать не только алгоритмические, но и человекомашинные, либо даже чисто человеческие процедуры. Режим попеременной
взаимоадаптации, когда динамичный «образец-учитель» и подстраивающийся к
нему «ученик» меняются местами, является особенно полезным в делах
активного обучения.
В
алгоритмическом
прогнозирования»
звене
используется
«Оценка
критериев
качества
критерий
качества
комплексный
прогнозирования, частный случай которого пояснен формулами (68), (69).
Выделенная по нему алгоритмическая структура считается на текущем
интервале времени образцовой. Настроечные элементы и коэффициенты другой
структуры для прогнозирования РП подстраиваются так, чтобы прогнозные
оценки этой алгоритмической структуры приближались к прогнозным оценкам
образцовой
структуры.
Взаимодействующие
прогнозаторы
с
хорошим
обеспечением того и другого попеременно меняются ролями в зависимости от
конкретных ситуаций.
^
ХI
Прогнозатор
АI
Блок
оценки
критериев
качества
прогнозирования
Х
Блок попе
ременной
взаимоадаптации
прогнозаторов
QI
QN
Оперативный выбор
рационального
варианта
прогноза
^
Х
^
ХN
Прогнозатор
АN
Рисунок 8 – Принципиальная схема многоструктурного многовариантного
алгоритмического
блока
прогнозирования
по
методу
попеременной
взаимоадаптации: X – одномерный или многомерный ряд первичный и
расчетных данных; QI, …, QN – показатели качества прогнозирования;
X̂ I и X̂ N - первый и n-ный варианты прогнозных оценок; X̂ рациональный
вариант прогноза
3) Метод комбинированного прогнозирования.
Определение нескольких вариантов прогнозных оценок порождает
необходимость выбора наилучшего варианта прогноза либо объединения
нескольких прогнозных оценок. Объединяя полученные независимо прогнозы,
мы тем самым вовлекаем все виды дополнительной информации. Способ
индивидуальных
прогнозов,
состоящий
в
том,
чтобы
представить
объединенную прогнозную оценку R̂ в виде взвешенной суммы вариантов
прогнозных оценок:
R̂ (l ) = ∑ b j ⋅ R̂ j (l)
(70)
j
где b j - весовые коэффициенты;
R̂ j (l) - j-ая прогнозная оценка.
Сумма всех весов равна единице, и сами веса находятся в интервале [0,1].
Второй метод объединения прогнозных оценок представляет собой процедуру
переключения на тот вариант прогноза, у которого критерий точности меньше.
Таким образом, выбирается одна лучшая прогнозная оценка.
Случай объединения двух вариантов прогнозных оценок:
R̂ (l) = b1 ⋅ R̂ 1 (l) + b 2 ⋅ R̂ 2 (l)
(71)
Коэффициент b выбирается таким образом, чтобы ошибка объединенного
прогноза была минимальной. Если временной ряд данных стационарный, то
весовые коэффициенты определяются однажды и остаются неизменными. На
практике чаще всего мы сталкивается с нестационарными временными рядами
данных, что порождает необходимость непрерывной корректировки весовых
коэффициентов.
Рассмотрим известные алгоритмы определения корректировки весовых
коэффициентов временных рядов данных:
1) При расчете весового коэффициента учитывается N последних
ошибок прогноза.
2) Второй вариант алгоритма отличается тем, что используется
отношение дисперсии ошибок прогноза с учетом весового коэффициента.
3) Третий вариант алгоритма по сравнению с предыдущими вариантами
дополнительно учитывает корреляцию между ошибками вариантов прогноза.
4) Четвертый алгоритма при определении весовых коэффициентов
использует отношение не дисперсии, а отношение абсолютных величин
последних ошибок индивидуальных прогнозов.
Для
конкретизации
прогнозирования,
были
формирующие
выбраны
первичные
следующие
прогнозные
алгоритмы
оценки:
многовариантного экспоненциального сглаживания и экстраполяции; «простой
сдвижки»; Холта; Холта-Муира; нейросетевой алгоритм на базе многослойного
персептрона; нейросетевой алгоритм прогнозирования на базе радиальных
нейронных сетей; нейросетевой алгоритм прогнозирования на базе сети
Кохонена.
Рассмотрим формульные представления данных алгоритмов:
1) Алгоритм многовариантного экспоненциального сглаживания и
экстраполяции.
Вариантные
экстраполированные
оценки
в
данном
алгоритме
определяются по следующим формулам:
XI ( i i +
XII ( i i +
tп
)= S(1) X(i);
∆t
tп
)= (S(1) + γ(II) S(1) – γ(II) S(1) S(1)) X(i);
∆t
(72)
где Х – исходный однопараметрический ряд данных с целочисленным
аргументом;
S(1) – элементарный оператор экспоненциального сглаживания первого
порядка;
X̂ I , X̂ II – вариантные экстраполированные оценки трендовой составляющей
X(i) с различной степенью аппроксимирующего полинома;
t п - интервал прогноза; Δt – шаг дискретизации;
tп
- дискретное время экстраполяции;
∆t
γ(II)– настроечный коэффициент.
Элементарный
оператор
экспоненциального
сглаживания
характеризуется рекуррентно-разностным уравнением (при Δt = 1):
~ (i ) = X
~ (i − 1) +α (X(i) - X
~ (i − 1) );
XI(i i + t ):= X
п
S(1),
(73)
α=
2
;
M +1
где α – определяющий коэффициент экспоненциального сглаживания,
М – интервал сглаживания.
Оценка начального значения может определяться усреднением первых
М данных по формуле:
1 M
~
X (0) = ∑ X (i )
M i=1
(74)
Настроечный коэффициент γ(II) вычисляются по следующей формуле:
γ ( II)
tп
α⋅
∆t
;
=1+
1− α
(75)
где Δt – шаг дискретизации;
tп
- дискретное время экстраполяции.
∆t
В случаях осуществления только сглаживания динамического ряда
данных X, то есть текущего выделения тренда на фоне относительно
быстроменяющейся
помехи,
достаточно
установить
все
коэффициенты
передачи (в данном случае γ(II)), равными единице.
2) Алгоритм «простой сдвижки».
Алгоритм на основе экстраполяции путем «простой сдвижки» один из
самых старых и широко известных. Он основан на переходе от начальных
значений к прогнозным, с помощью сдвижки на интервале времени, длина
которого выбрана заранее. При этом сам выбранный интервал времени
скользит вдоль ряда. Формульное представление алгоритма можно выразить в
следующем виде:
X̂ III (i i +
tп
) := X III (i)
∆t
(76)
Аргумент третьего варианта прогнозной оценки означает, что она будет
получена сегодня, а записана, путем «сдвижки», на завтра, для сравнения с
фактом.
3) Алгоритм Холта.
Алгоритм, предложенный Холтом, основан на оценке параметра –
степени линейного роста (или падения), показателя во времени. Фактор роста λ
оценивается по коэффициенту b(i), который в свою очередь вычисляется как
экспоненциально
взвешенное
среднее
разностей
между
текущими
~ (i ) и их
экспоненциально взвешенными средними значениями процесса X
~ (i − 1) .
предыдущими значениями X
Характерной особенностью данного алгоритма является: вычисление
~ (i ) включая в
текущего значения экспоненциально взвешенного среднего X
себя вычисление прошлого показателя роста b(i-1), адаптируясь таким образом
к предыдущему значению линейного тренда.
Формульное представление алгоритма имеет вид:
tп
~ (i) + b(i ) tп
) := X
∆t
∆t
~
~
X (i ) = A X (i ) + (1 − A) (X(i − 1) + b(i − 1)),
~ (i ) − X
~ (i − 1)) + (1 − B) b(i − 1)
b (i) = B (X
X̂ IV (i i +
(77)
где А, В – настроечные коэффициенты, изменяющиеся от 0 до 1;
X̂ IV (i i +
tп
) - прогнозная оценка;
∆t
X(i) – прогнозируемая величина;
~ (i ) - текущее значение экспоненциально взвешенного среднего;
X
b(i) – показатель роста;
t п - интервал прогноза;
∆ t – шаг дискретизации;
Значения А и В рекомендуется брать равными 0,1 и 0,01 соответственно.
4) Алгоритм Холта-Муира.
Муир доказал, что значение показателя роста b(i), вычисляемое по
уравнению (32), совпадает с оценкой коэффициента линейного тренда по
методу наименьших квадратов, то есть b(i) минимизирует сумму квадратов
отклонений фактического значения X(i) от его тренда.
Исходя из этого Муир предложил модифицированный алгоритм Холта:
tп
~ (i) + b(i) ( 1 + tп − 1)
) := X
∆t
A ∆t
~ (i ) = A X (i) + (1 − A ) X
~ (i − 1),
X
~
~
b (i) = B (X (i) − X (i − 1)) + (1 − B) b(i − 1)
X̂ V (i i +
(78)
где А, В – настроечные коэффициенты, изменяющиеся от 0 до 1;
X̂ V (i i +
tп
) - прогнозная оценка;
∆t
X(i) – прогнозируемая величина;
~ (i) - текущее значение экспоненциально взвешенного среднего;
X
b(i) – показатель роста;
t п - интервал прогноза;
∆ t – шаг дискретизации.
Постановка задачи оценивания содержания кремния в чугуне.
Важнейший
выплавляемый
в
продукт
черной
доменных
печах,
металлургии
используемый
–
доменный
для
чугун,
передела
при
производстве стали (передельный чугун) и как компонент шихты при
вторичной плавке в чугунолитейном производстве (литейный чугун). В
передельном чугуне марки П1 и П2 массовая доля
кремния должна быть
от 0,5% до 0,9% (ГОСТ 805-95).
Содержание кремния в чугуне на выпуске из печи является индикатором
теплового состояния горна доменной печи и стабильности процесса доменной
плавки (с увеличением нагрева печи наблюдается возрастание содержания
кремния в чугуне), поэтому задача оценивания содержания кремния в чугуне
является актуальной.
Исходные данные и условия задачи.
1. Описание
действующей
информационно-управляющей
системы
доменной печи № 2 АО «ЕВРАЗ ЗСМК», экспертной системы диагностики хода
доменной печи.
2. Метод настройки фильтров по условно-образцовой кривой, метод
экспертных оценок – метод ранжирования.
3. Натурные данные содержания кремния в чугуне, полученные в
АО «ЕВРАЗ ЗСМК» (рисунок 1).
4. Экспоненциальный фильтр, выходное значение которого определяется
по формуле:
~
~
~
X(i) = X(i − 1) + α (X(i) − X(i − 1)) ,
где α ∈ (0, 1) – настроечный коэффициент; X (i) – значение исходного ряда
~
данных (содержание кремния в чугуне) в i-ый момент времени; X(i) –
сглаженное значение; i = 0, 1, ..., N – дискретные моменты времени.
5. Критерий эффективности настройки экспоненциального фильтра:
Q=
1 N
~
X (i) − X (i) ,
∑
N i =0
где X (i ) – значение условно-образцовой кривой в i-ый момент времени.
Требуется настроить экспоненциальный фильтр для оценки содержания
кремния в чугуне.
Для формирования множества вариантов условно-образцовой кривой,
отражающей действительное значения кремния в чугуне на «обучающей
выборке», привлекаются опытные технологи, сотрудники лаборатории, которые
выделяют тренд (низкочастотную составляющую) из исходного временного
рядя данных X (i) .
Выбор рационального варианта условно-образцовой кривой предлагается
осуществить на основе метода экспертных оценок – метода ранжирования. Для
определения
согласованности мнений экспертов при
выборе
условно-
образцовой кривой в ранжировках рассчитывается коэффициент конкордации
Кендалла – общий коэффициент ранговой корреляции для группы независимых
экспертов по следующей формуле:
2
m
m (n + 1)
12 ∑ ∑ x ij −
2
p =1 j=1
,
I=
2
3
m (n − n )
n
где n – количество условно-образцовых кривых; m – количество экспертов; xpj –
ранг, приписываемый p-ой условно-образцовой кривой j-ым экспертом;
0 ≤ I ≤ 1, если I = 1, то наблюдается полное единодушие экспертов, а если I = 0 ,
то имеется полная несогласованность экспертов. Если мнения экспертов
согласованы, то выбирается та условно-образцовая кривая, у которой сумма
рангов минимальна.
Рациональный вариант условно-образцовой кривой представлен на
рисунке 1.
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
X(i), %
X(i), %
i
10
20
30
40
50
60
70
80
90
100
Рисунок 1 – Измеренные значения содержания кремния в чугуне и условнообразцовая кривая («обучающая выборка»)
Для настройки экспоненциального фильтра, то есть для определения
оптимального значения α , будем использовать критерий Q (рисунок 2)
Q, %
0.06
0.04
0.02
α
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Рисунок 2 – Значения критерий Q
Из рисунка 2 видно, что минимальное значение критерия Q соответствует
α = 0.3 . Далее определим сглаженные значения (рисунок 3)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
X(i), %
~
X(i), %
i
10
20
30
40
50
60
70
80
90
100
а) «обучающая выборка»
0.8
X(i), %
~
X(i), %
0.7
0.6
0.5
0.4
0.3
i
0.2
10
20
30
40
50
60
70
80
90
100
б) «контрольная выборка»
Рисунок 3 – Исходные и сглаженные значения при α = 0.3
Постановка задачи оценивания качества доменного газа, подаваемого в
воздухонагреватель Калугина.
Доменный газ – газ, образующийся во время выплавки чугуна в
доменных печах, является в основном продуктом неполного сгорания угля.
Используется на металлургических заводах как топливо в воздухонагревателях,
коксовых печах, газовых двигателях, в паровых котлах.
Исходные данные и условия задачи.
1. Описание
действующей
информационно-управляющей
системы
воздухонагревателя Калугина и доменной печи № 2 АО «ЕВРАЗ ЗСМК», а
также других систем-аналогов.
2. Метод контрольных карт Шухарта .
3. Химический состав доменного газа (натурные данные, полученные в
доменном цехе АО «ЕВРАЗ ЗСМК»).
Таблица 1 – Химический состав доменного газа
Проба
1
2
3
…
CO
22.74
23.48
24.11
…
CO2
22.62
22.97
23.31
…
H2
6.16
6.13
6.03
…
CH4
0.015
0.014
0.015
…
4. ГОСТ Р 50779.42-99 «Статистические методы. Контрольные карты
Шухарта», ГОСТ Р 50779.40-96 «Статистические методы. Контрольные карты.
Общее руководство и введение».
Требуется построить контрольные карты для оценивания качества
доменного газа по его химическому составу.
В качестве средней линии контрольной карты используем среднее
значение выборочных средних арифметических по формуле: X =
1 n
∑ Xi .
n i =1
Для нахождения контрольной верхней ( UCL ) и нижней ( LCL ) границ
используем
соответственно
следующие
формулы:
UCL = X + A 3 s ,
LCL = X − A 3 s , где А3 – коэффициент, зависящий от объема выборки [7];
s=
1 n
∑ si – среднее стандартное отклонение.
n i =1
Контрольные карты по СО2 доменного газа представлены на рисунке 1.
Х(i), %
24
Х, %
ULC, %
LCL, %
"Январь"
23
22
21
i, сутки
20
1
4
7
10
Х(i), %
23.5
13
16
Х, %
19
22
ULC, %
25
28
31
LCL, %
"Февраль"
22.5
21.5
i, сутки
20.5
1
4
7
10
Х(i), %
13
16
Х, %
19
22
ULC, %
25
28
LCL, %
23.5
22.5
21.5
"Март"
20.5
i, сутки
19.5
1
4
7
10
13
16
19
22
25
28
31
Рисунок 1 – Контрольные карты по СО2 доменного газа
Контрольные карты можно использовать:
– как сигнал о том, что в процессе произошло некоторое изменение, так и
в качестве оценки величины изменения, для которого требуется коррекция;
– исключительно как сигнал о том, что в процессе произошло некоторое
изменение, чтобы оператор-технолог (доменщик, газовщик) осознал, что
процесс требует его внимания;
– для получения оценок числа случаев в прошлом, когда в процессе
возникали изменения, и установления на их основе причин, вызывающих эти
изменения;
– как меру качества продукции для классификации по периодам.
Распознавание образов
Рассмотрим особенности трактовки понятия «распознавание» по
работам. В книге «Методы компьютерной обработки изображений» академика
В.А. Сойфера задача распознавания образов заключается в классификации
изображений (« … образом является изображение») на основе определенных
требований, причем изображения, относящиеся к одному классу образов,
обладают
относительно
высокой
степенью
близости.
Распознавание
представляет собой классификацию на множестве признаков, оцениваемых по
наблюдаемому изображению. Процесс отбора информативных признаков до
сих пор остался процедурой эвристической, зависящей как от предметной
области, так и от предпочтений разработчика. Можно также сказать, что
классификация образов заключается в отображении пространства признаков в
пространства решений. При таком подходе распознавание образов включает
две задачи:
1) отбор и упорядочивание информативных признаков (геометрических,
топологических, вероятностных, спектральных);
2) собственно классификация (принятие решения о принадлежности
изображения к тому или иному классу на основе анализа значений признаков).
Академик Я.З. Цыпкин утверждает, что основная задача опознавания
(узнавания, распознавания) состоит в отнесении предъявляемого объекта к
одному из классов. Классы характеризуются тем, что принадлежащие им
объекты обладают некой общностью, сходством. То общее, что объединяет
объекты в класс, и называют образом. Для решения задачи опознавания
необходимо первоначально заняться обучением посредством показа образов,
принадлежность которых к тому или иному классу известна.
В
учебном
пособии
А.Л. Горелика
и
В.А. Скрипкина
«Методы
распознавания» распознавание представляет собой задачу преобразования
входной информации, в качестве которой уместно рассматривать некоторые
параметры, информативные признаки распознаваемых образов (объектов,
сигналов, ситуаций, явлений или процессов), в выходную, представляющую
собой заключение о том, к какому классу относится распознаваемый образ.
В работе Дж.Ф. Люгера «Искусственный интеллект» классификация –
это определение категории или группы, к которой принадлежат входные
значения, а распознавание образов – идентификация структуры или шаблона
данных.
К. Фу в книге «Последовательные методы в распознавании образов и
обучении машин»
утверждает,
что
для
распознавания
образов более
совершенным подходом, чем подход, основанный на сравнении входного
образа с эталонами, является классификация, базирующаяся на некотором
множестве «отобранных замеров», производимых на входных образах. Эти
«отобранные
замеры»,
называемые
признаками,
предполагаются
инвариантными по отношению к обычно встречающимся искажениям и
обладающими
малой
избыточностью.
Классификация
при
этом
рассматривается как принятие решения о принадлежности входного образа
тому или иному классу.
Р. Дуда
и
П. Харт
в
труде,
связанном
с
исследованиями
по
искусственному интеллекту «Распознавание образов и анализ сцен», структуру
распознавателя образов рассматривают как модель интеллекта, состоящую из
трех частей: датчика, выделителя признаков и классификатора. Датчик
воспринимает воздействие объекта и преобразует его в сигналы (первичные
данные),
удобные
для
машинной
обработки.
Выделитель
признаков
(называемый также рецептором, фильтром свойств, детектором признаков или
препроцессором), ориентированный на уменьшение объема обрабатываемых
данных, выделяет из первичных данных полезные сведения. Классификатор на
основе этих сведений относит объект к одной из нескольких категорий.