Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«Кубанский государственный технологический университет»
Кафедра информатики и вычислительной техники
«ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ»
Конспект лекций по дисциплине
для направления подготовки бакалавров
46.03.02 (034700.62) «Документоведение и архивоведение»
Краснодар, 2014 г.
Лекция №1 ОСНОВЫ ОРГАНИЗАЦИИ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
Вопросы:
1. Понятие информационной технологии. Основные характеристики компьютерной информационной
технологии.
2. Этапы развития информационных технологий.
3. Особенности компьютерной обработки информации в сфере документационно – информационного
обеспечения управления.
1.
Понятие информационной технологии. Основные характеристики компьютерной информационной
технологии.
Технология при переводе с греческого (techne) означает искусство, мастерство, умение, а это не что иное,
как процессы. Под процессом следует понимать определенную совокупность действий, направленных на
достижение поставленной цели. Процесс должен определяться выбранной человеком стратегией и реализоваться с
помощью совокупности различных средств и методов.
Информация является одним из ценнейших ресурсов общества наряду с такими традиционными
материальными видами ресурсов, как нефть, газ, полезные ископаемые и др., а значит, процесс ее переработки по
аналогии с процессами переработки материальных ресурсов можно воспринимать как технологию.
Информационная технология - процесс, использующий совокупность средств и методов сбора,
обработки и передачи данных (первичной информации) для получения информации нового качества о состоянии
объекта, процесса или явления (информационного продукта).
Цель информационной технологии - производство информации для ее анализа человеком и принятия на
его основе решения по выполнению какого-либо действия.
Основными компонентами информационных технологий являются:
1. Сбор данных или первичной информации
2. Обработка данных и получение результатов информации
3. Передача результатов информации пользователю для принятия на ее основе решений
Информационная технология является наиболее важной составляющей процесса использования
информационных ресурсов общества. К настоящему времени она прошла несколько эволюционных этапов, смена
которых определялась главным образом развитием научно-технического прогресса, появлением новых
технических средств переработки информации. В современном обществе основным техническим средством
технологии переработки информации служит персональный компьютер. Внедрение персонального компьютера в
информационную сферу и применение телекоммуникационных средств связи определили новый этап развития
информационной технологии.
Новая информационная технология - информационная технология с "дружественным" интерфейсом
работы пользователя, использующая персональные компьютеры и телекоммуникационные средства.
Три основных принципа новой (компьютерной) информационной технологии:
интерактивный (диалоговый) режим работы с компьютером;
интегрированность (стыковка, взаимосвязь) с другими программными продуктами;
гибкость процесса изменения как данных, так и постановок задач.
Техническими средствами производства информации является аппаратное, программное и математическое
обеспечение этого процесса. С их помощью производится переработка первичной информации в информацию
нового качества.
Инструментарий информационной технологии - один или несколько взаимосвязанных программных
продуктов для определенного типа компьютера, технология работы в котором позволяет достичь поставленную
пользователем цель.
Информационная технология тесно связана с информационными системами, которые являются для нее
основной средой.
Информационная технология является процессом, состоящим из четко регламентированных правил
выполнения операций, действий, этапов разной степени сложности над данными, хранящимися в компьютерах.
Основная цель информационной технологии - в результате целенаправленных действий по переработке первичной
информации получить необходимую для пользователя информацию.
Информационная система является средой, составляющими элементами которой являются компьютеры,
компьютерные сети, программные продукты, базы данных, люди, различного рода технические и программные
средства связи и т.д. Основная цель информационной системы - организация хранения и передачи информации.
Информационная система представляет собой человеко-компьютерную систему обработки информации.
Реализация функций информационной системы невозможна без знания ориентированной на нее
информационной технологии. Информационная технология может существовать и вне сферы информационной
системы.
2. Этапы развития информационных технологий
Существует несколько точек зрения на развитие информационных технологий с использованием
компьютеров, которые определяются различными признаками деления.
Общим для всех изложенных ниже подходов является то, что с появлением персонального компьютера
начался новый этап развития информационной технологии. Основной целью становится удовлетворение
персональных информационных потребностей человека как для профессиональной сферы, так и для бытовой.
Признак деления - виды инструментария технологии
1-й этап (до второй половины XIX в.)- "ручная" информационная технология, инструментарий которой
составляли: перо, чернильница, книга. Коммуникации осуществлялись ручным способом путем переправки через
почту писем, пакетов, депеш. Основная цель технологии - представление информации в нужной форме.
2-й этап (с конца XIX в.) - "механическая" технология, инструментарий которой составляли: пишущая машинка,
телефон, диктофон, оснащенная более совершенными средствами доставки почта. Основная цель технологии представление информации в нужной форме более удобными средствами.
3-й этап (40 - 60-е гг. XX в.) - "электрическая" технология, инструментарий которой составляли: большие ЭВМ и
соответствующее программное обеспечение, электрические пишущие машинки, ксероксы, портативные
диктофоны.
Изменяется цель технологии. Акцент в информационной технологии начинает перемещаться с формы
представления информации на формирование ее содержания.
4-й этап (с начала 70-х гг.) - "электронная" технология, основным инструментарием которой становятся большие
ЭВМ и создаваемые на их базе автоматизированные системы управления (АСУ) и информационно-поисковые
системы (ИПС), оснащенные широким спектром базовых и специализированных программных комплексов. Центр
тяжести технологии еще более смещается на формирование содержательной стороны информации для
управленческой среды различных сфер общественной жизни, особенно на организацию аналитической работы.
5-й этап (с середины 80-х гг.) - "компьютерная" ("новая") технология, основным инструментарием которой
является персональный компьютер с широким спектром стандартных программных продуктов разного назначения.
На этом этапе происходит процесс персонализации АСУ, который проявляется в создании систем поддержки
принятия решений определенными специалистами. Подобные системы имеют встроенные элементы анализа и
интеллекта для разных уровней управления, реализуются на персональном компьютере и используют
телекоммуникации. В связи с переходом на микропроцессорную базу существенным изменениям подвергаются и
технические средства бытового, культурного и прочего назначений. Начинают широко использоваться в
различных областях глобальные и локальные компьютерные сети.
3. Особенности компьютерной обработки информации в сфере документационно – информационного
обеспечения управления.
3.1 Методология использования информационной технологии
Централизованная обработка информации на ЭВМ вычислительных центров была первой исторически
сложившейся технологией. Создавались крупные вычислительные центры (ВЦ) коллективного пользования,
оснащенные большими ЭВМ. Применение таких ЭВМ позволяло обрабатывать большие массивы входной
информации и получать на этой основе различные виды информационной продукции, которая затем передавалась
пользователям. Такой технологический процесс был обусловлен недостаточным оснащением вычислительной
техникой предприятий и организаций в 60 - 70-е гг.
Достоинства методологии централизованной технологии:
возможность обращения пользователя к большим массивам информации в виде баз данных и к
информационной продукции широкой номенклатуры;
сравнительная легкость внедрения методологических решений по развитию и совершенствованию
информационной технологии благодаря централизованному их принятию.
Недостатки такой методологии очевидны:
ограниченная ответственность низшего персонала, который не способствует оперативному получению
информации пользователем, тем самым препятствуя правильности выработки управленческих решений;
ограничение возможностей пользователя в процессе получения и использования информации.
Децентрализованная обработка информации связана с появлением в 80-х гг. персональных
компьютеров и развитием средств телекоммуникаций. Она весьма существенно потеснила предыдущую
технологию, поскольку дает пользователю широкие возможности в работе с информацией и не ограничивает его
инициатив.
Достоинствами такой методологии являются:
гибкость структуры, обеспечивающая простор инициативам пользователя;
усиление ответственности низшего звена сотрудников;
уменьшение потребности в пользовании центральным компьютером и соответственно контроле со
стороны вычислительного центра;
более полная реализация творческого потенциала пользователя благодаря использованию средств
компьютерной связи.
Однако эта методология имеет свои недостатки:
сложность стандартизации из-за большого числа уникальных разработок;
психологическое неприятие пользователями рекомендуемых вычислительным центром стандартов и
готовых программных продуктов;
неравномерность развития уровня информационной технологии на локальных местах, что в первую
очередь определяется уровнем квалификации конкретного работника.
Описанные достоинства и недостатки централизованной и децентрализованной информационной технологии
привели к необходимости придерживаться линии разумного применения и того, и другого подхода. Такой подход
назовем рациональной методологией и покажем, как в этом случае будут распределяться обязанности:
вычислительный центр должен отвечать за выработку общей стратегии использования информационной
технологии, помогать пользователям как в работе, так и в обучении, устанавливать стандарты и определять
политику применения программных и технических средств;
персонал, использующий информационную технологию, должен придерживаться указаний
вычислительного центра, осуществлять разработку своих локальных систем и технологий в соответствии с
общим планом организации.
Рациональная методология использования информационной технологии позволит достичь большей
гибкости, поддерживать общие стандарты, осуществить совместимость информационных локальных продуктов,
снизить дублирование деятельности и др.
3.2. Выбор вариантов внедрения информационной технологии в фирме
При внедрении информационной технологии в фирме необходимо выбрать одну из двух основных
концепций, отражающих сложившиеся точки зрения на существующую структуру организации и роль в ней
компьютерной обработки информации.
Первая концепция ориентируется на существующую структуру фирмы.
Информационная технология приспосабливается к организационной структуре, и происходит лишь модернизация
методов работы. Коммуникации развиты слабо, рационализируются только рабочие места. Происходит
распределение функций между техническими работниками и специалистами. Степень риска от внедрения новой
информационной технологии минимальна, так как затраты незначительны и организационная структура фирмы не
меняется.
Основной недостаток такой стратегии - необходимость непрерывных изменений формы представления
информации, приспособленной к конкретным технологическим методам и техническим средствам. Любое
оперативное решение "вязнет" на различных этапах информационной технологии.
К достоинствам стратегии можно отнести: минимальные степень риска и затраты.
Вторая концепция ориентируется на будущую структуру фирмы. Существующая структура будет
модернизироваться,
Данная стратегия предполагает максимальное развитие коммуникаций и разработку новых
организационных взаимосвязей. Продуктивность организационной структуры фирмы возрастает, так как
рационально распределяются архивы данных, снижается объем циркулирующей по системным каналам
информации и достигается сбалансированность между решаемыми задачами.
К основным ее недостаткам следует отнести:
существенные затраты на первом этапе, связанном с разработкой общей концепции и обследованием
всех подразделений фирмы;
наличие психологической напряженности, вызванной предполагаемыми изменениями структуры фирмы
и, как следствие, изменениями штатного расписания и должностных обязанностей.
Достоинствами данной стратегии являются:
рационализация организационной структуры фирмы;
максимальная занятость всех работников;
высокий профессиональный уровень;
интеграция профессиональных функций за счет использования компьютерных сетей.
Новая информационная технология в фирме должна быть такой, чтобы уровни информации и подсистемы,
ее обрабатывающие, связывались между собой единым массивом информации. При этом предъявляются два
требования.
Во-первых, структура системы переработки информации должна соответствовать распределению
полномочий в фирме.
Во-вторых, информация внутри системы должна функционировать так, чтобы достаточно полно отражать
уровни управления.
Лекция №2 КЛАССИФИКАЦИЯ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
Вопросы:
1.
Информационная технология обработки данных
2.
Информационная технология управления
3.
Автоматизация офиса
ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ ОБРАБОТКИ ДАННЫХ
1.1. Характеристика и назначение
Информационная технология обработки данных предназначена для решения хорошо
структурированных задач, по которым имеются необходимые входные данные и известны алгоритмы и другие
стандартные процедуры их обработки. Эта технология применяется на уровне операционной (исполнительской)
деятельности персонала невысокой квалификации в целях автоматизации некоторых рутинных постоянно
повторяющихся операций управленческого труда. Поэтому внедрение информационных технологий и систем на
этом уровне существенно повысит производительность труда персонала, освободит его от рутинных операций,
возможно, даже приведет к необходимости сокращения численности работников.
На уровне операционной деятельности решаются следующие задачи:
обработка данных об операциях, производимых фирмой;
создание периодических контрольных отчетов о состоянии дел в фирме;
получение ответов на всевозможные текущие запросы и оформление их в виде бумажных
документов или отчетов.
Пример 1.1. Примеры рутинных операций:
операция проверки на соответствие нормативу уровня запасов указанных товаров на складе. При
уменьшении уровня запаса выдастся заказ поставщику с указанием потребного количества товара и сроков
поставки;
операция продажи товаров фирмой, в результате которой формируется выходной документ для
покупателя в виде чека или квитанции.
Пример контрольного отчета: ежедневный отчет о поступлениях и выдачах наличных средств банком,
формируемый в целях контроля баланса наличных средств.
Пример запроса: запрос к базе данных по кадрам, который позволит получить данные о требованиях,
предъявляемых к кандидатам на занятие определенной должности.
Существует несколько особенностей, связанных с обработкой данных, отличающих данную технологию
от всех прочих:
выполнение необходимых фирме задач по обработке данных. Каждой фирме предписано законом
иметь и хранить данные о своей деятельности, которые можно использовать как средство обеспечения и
поддержания контроля на фирме. Поэтому в любой фирме обязательно должна быть информационная система
обработки данных и разработана соответствующая информационная технология;
решение только хорошо структурированных задач, для которых можно разработать алгоритм;
выполнение стандартных процедур обработки. Существующие стандарты определяют типовые
процедуры обработки данных и предписывают их соблюдение организациями всех видов;
выполнение основного объема работ в автоматическом режиме с минимальным участием
человека;
использование детализированных данных. Записи о деятельности фирмы имеют детальный
(подробный) характер, допускающий проведение ревизий. В процессе ревизии деятельность фирмы проверяется
хронологически от начала периода к его концу и от конца к началу;
акцент на хронологию событий;
требование минимальной помощи в решении проблем со стороны специалистов других уровней.
1.2. Основные компоненты
Представим основные компоненты информационной технологии обработки данных (рис. 1) и приведем их
характеристики.
Сбор данных. По мере того как фирма производит продукцию или услуги, каждое ее действие
сопровождается соответствующими записями данных. Обычно действия фирмы, затрагивающие внешнее
окружение, выделяются особо как операции, производимые фирмой.
1.
Рис. 1. Основные компоненты информационной технологии обработки данных
Обработка данных. Для создания из поступающих данных информации, отражающей деятельность
фирмы, используются следующие типовые операции:
классификация или группировка. Первичные данные обычно имеют вид кодов, состоящих из
одного или нескольких символов. Эти коды, выражающие определенные признаки объектов, используются для
идентификации и группировки записей.
Пример 1.2. При расчете заработной платы каждая запись включает в себя под (табельный номер)
работника, код подразделения, в котором он работает, занимаемую должность и т. п. В соответствии с этими
кодами можно произвести разные группировки.
сортировка, с помощью которой упорядочивается последовательность записей;
вычисления, включающие арифметические и логические операции. Эти операции, выполняемые
над данными, дают возможность получать новые данные;
укрупнение или агрегирование, служащее для уменьшения количества данных и реализуемое в
форме расчетов итоговых или средних значений.
Хранение данных. Многие данные на уровне операционной деятельности необходимо сохранять для
последующего использования либо здесь же, либо на другом уровне. Для их хранения создаются базы данных.
Создание отчетов (документов). В информационной технологии обработки данных необходимо
создавать документы для руководства и работников фирмы, а также для внешних партнеров. При этом документы
или в связи с проведенной фирмой операцией так и периодически в конце каждого месяца, квартала или года.
2. ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ УПРАВЛЕНИЯ
2.1. Характеристика и назначение
Целью информационной технологии управления является удовлетворение информационных
потребностей всех без исключения сотрудников фирмы, имеющих дело с принятием решений. Она может быть
полезна на любом уровне управления.
Эта технология ориентирована на работу в среде информационной системы управления и используется
при худшей структурированности решаемых задач, если их сравнивать с задачами, решаемыми с помощью
информационной технологии обработки данных.
ИС управления идеально подходят для удовлетворения сходных информационных потребностей
работников различных функциональных подсистем (подразделений) или уровней управления фирмой.
Поставляемая ими информация содержит сведения о прошлом, настоящем и вероятном будущем фирмы. Эта
информация имеет вид регулярных или специальных управленческих отчетов.
Для принятия решений на уровне управленческого контроля информация должна быть представлена в
агрегированном виде так, чтобы просматривались тенденции изменения данных, причины возникших отклонений
и возможные решения. На этом этапе решаются следующие задачи обработки данных:
оценка планируемого состояния объекта управления;
оценка отклонений от планируемого состояния;
выявление причин отклонений;
анализ возможных решений и действий.
Информационная технология управления направлена на создание различных видов отчетов.
Регулярные отчеты создаются в соответствии с установленным графиком, определяющим время их
создания, например месячный анализ продаж компании.
Специальные отчеты создаются по запросам управленцев или когда в компании произошло что-то
незапланированное.
И те, и другие виды отчетов могут иметь форму суммирующих, сравнительных и чрезвычайных отчетов.
В суммирующих отчетах данные объединены в отдельные группы, отсортированы и представлены в виде
промежуточных и окончательных итогов по отдельным полям.
Сравнительные отчеты содержат данные, полученные из различных источников или
классифицированные по различным признакам и используемые для целей сравнения.
Чрезвычайные отчеты содержат данные исключительного (чрезвычайного) характера.
Использование отчетов для поддержки управления оказывается особенно эффективным при реализации
так называемого управления по отклонениям.
Управление по отклонениям предполагает, что главным содержанием получаемых менеджером данных
должны являться отклонения состояния хозяйственной деятельности фирмы от некоторых установленных
стандартов (например, от ее запланированного состояния). При использовании на фирме принципов управления по
отклонениям к создаваемым отчетам предъявляются следующие требования:
отчет должен создаваться только тогда, когда отклонение произошло;
сведения в отчете должны быть отсортированы по значению критического для данного
отклонения показателя;
все отклонения желательно показать вместе, чтобы менеджер мог уловить существующую между
ними связь;
в отчете необходимо показать количественное отклонение от нормы.
2.2. Основные компоненты
Основные компоненты информационной технологии управления показаны на рис. 2
Входная информация поступает из систем операционного уровня. Выходная информация формируется в
виде управленческих отчетов в удобном для принятия решения виде.
Рис. 2 Основные компоненты информационной технологии управления
Содержимое базы данных при помощи соответствующего программного обеспечения преобразуется в
периодические и специальные отчеты, поступающие к специалистам, участвующим в принятии решений в
организации. База данных, используемая для получения указанной информации, должна состоять из двух
элементов:
1) данных, накапливаемых на основе оценки операций, проводимых фирмой;
2) планов, стандартов, бюджетов и других нормативных документов, определяющих планируемое
состояние объекта управления (подразделения фирмы).
3. АВТОМАТИЗАЦИЯ ОФИСА
3.1. Характеристика и назначение
Исторически автоматизация началась на производстве и затем распространилась на офис, имея вначале
целью лишь автоматизацию рутинной секретарской работы. По мере развития средств коммуникаций
автоматизация офисных технологий заинтересовала специалистов и управленцев, которые увидели в ней
возможность повысить производительность своего труда.
Автоматизация офиса (рис. 3) призвана не заменить существующую традиционную систему
коммуникации персонала (с ее совещаниями, телефонными звонками и приказами), а лишь дополнить ее.
Используясь совместно, обе эти системы обеспечат рациональную автоматизацию управленческого труда и
наилучшее обеспечение управленцев информацией.
Рис. 3 Основные компоненты автоматизации офиса
Автоматизированный офис привлекателен для менеджеров всех уровней управления в фирме не только
потому, что поддерживает внутрифирменную связь персонала, но также потому, что предоставляет им новые
средства коммуникации с внешним окружением.
Информационная технология автоматизированного офиса - организация и поддержка
коммуникационных процессов как внутри организации, так и с внешней средой на базе компьютерных сетей и
других современных средств передачи и работы с информацией.
Офисные автоматизированные технологии используются управленцами, специалистами, секретарями и
конторскими служащими, особенно они привлекательны для группового решения проблем. Они позволяют
повысить производительность труда секретарей и конторских работников и дают им возможность справляться с
возрастающим объемом работ. Однако это преимущество является второстепенным по сравнению с возможностью
использования автоматизации офиса в качестве инструмента для решения проблем. Улучшение принимаемых
менеджерами решений в результате их более совершенной коммуникации способно обеспечить экономический
рост фирмы.
В настоящее время известно несколько десятков программных продуктов для компьютеров и
некомпьютерных технических средств, обеспечивающих технологию автоматизации офиса; текстовый процессор,
табличный процессор, электронная почта, электронный календарь, аудиопочта, компьютерные и телеконференции,
видеотекст, хранение изображений, а также специализированные программы управленческой деятельности:
ведения документов, контроля за исполнением приказов и т.д.
Также широко используются некомпьютерные средства: аудио- и видеоконференции, факсимильная связь,
ксерокс и другие средства оргтехники.
3.2. Основные компоненты
База данных. Обязательным компонентом любой технологии является база данных. В
автоматизированном офисе база данных концентрирует в себе данные о производственной системе фирмы так же,
как в технологии обработки данных на операционном уровне. Информация в базу данных может также поступать
из внешнего окружения фирмы. Специалисты должны владеть основными технологическими операциями по
работе в среде баз данных.
Пример 1.3. В базе данных собираются сведения о ежедневных продажах, передаваемые торговыми
агентами фирмы на главный компьютер, или сведения о еженедельных поставках сырья.
Могут ежедневно по электронной почте поступать с биржи сведения о курсе валют или котировках
ценных бумаг, в том числе и акций этой фирмы, которые ежедневно корректируются в соответствующем массиве
базы данных.
Информация из базы данных поступает на вход компьютерных приложений (программ), таких, как
текстовый процессор, табличный процессор, электронная почта, компьютерные конференции и др. Любое
компьютерное приложение автоматизированного офиса обеспечивает работникам связь друг с другом и с другими
фирмами.
Полученная из баз данных информация может быть использована и в некомпьютерных технических
средствах для передачи, тиражирования, хранения.
Текстовый процессор. Это вид прикладного программного обеспечения, предназначенный для создания и
обработки текстовых документов. Он позволяет добавлять или удалять слова, перемещать предложения и абзацы,
устанавливать формат, манипулировать элементами текста и режимами и т.д. Когда документ готов, работник
переписывает его во внешнюю память, а затем распечатывает и при необходимости передает по компьютерной
сети. Таким образом, в распоряжении менеджера имеется эффективный вид письменной коммуникации.
Регулярное получение подготовленных с помощью текстового процессора писем и докладов дает возможность
менеджеру постоянно оценивать ситуацию на фирме.
Электронная почта. Электронная почта (E-mail), основываясь на сетевом использовании компьютеров,
дает возможность пользователю получать, хранить и отправлять сообщения своим партнерам по сети. Здесь имеет
место только однонаправленная связь. Это ограничение, по мнению многих исследователей, не является слишком
важным, поскольку в пятидесяти случаях из ста служебные переговоры по телефону имеют целью лишь получение
информации. Для обеспечения двухсторонней связи придется многократно посылать и принимать сообщения по
электронной почте или воспользоваться другим способом коммуникации.
Электронная почта может предоставлять пользователю различные возможности в зависимости от
используемого программного обеспечения. Чтобы посылаемое сообщение стало доступно всем пользователям
электронной почты, его следует поместить на компьютерную доску объявлений, при желании можно указать, что
это частная корреспонденция. Вы также можете послать отправление с уведомлением о его получении адресатом.
Когда фирма решает внедрить у себя электронную почту, у нее имеются две возможности. Первая - купить
собственное техническое и программное обеспечение и создать собственную локальную сеть компьютеров,
реализующую функцию электронной почты. Вторая возможность связана с покупкой услуги использования
электронной почты, которая предоставляется специализированными организациями связи за периодически
вносимую плату.
Аудиопочта. Это почта для передачи сообщений голосом. Она напоминает электронную почту, за
исключением того, что вместо набора сообщения на клавиатуре компьютера вы передаете его через телефон.
Также по телефону вы получаете присланные сообщения. Система включает в себя специальное устройство для
преобразования аудиосигналов в цифровой код и обратно, а также компьютер для хранения аудиосообщений в
цифровой форме. Аудиопочта также реализуется в сети.
Почта для передачи аудиосообщений может успешно использоваться для группового решения проблем.
Для этого посылающий сообщение должен дополнительно указать список лиц, которым данное сообщение
предназначено. Система будет периодически обзванивать всех указанных сотрудников для передачи им
сообщения.
Главным преимуществом аудиопочты по сравнению с электронной является то, что она проще - при ее
использовании не нужно вводить данные с клавиатуры.
Табличный процессор. Он так же, как и текстовый процессор, является базовой составляющей
информационной культуры любого сотрудника и автоматизированной офисной технологии. Без знания основ
технологии работы в нем невозможно полноценно использовать персональный компьютер в своей деятельности.
Функции современных программных сред табличных процессоров позволяют выполнять многочисленные
операции над данными, представленными в табличной форме. Объединяя эти операции по общим признакам,
можно выделить наиболее многочисленные и применяемые группы технологических операций:
ввод данных как с клавиатуры, так и из баз данных;
обработка данных (сортировка, автоматическое формирование итогов, копирование и перенос
данных, различные группы операций по вычислениям, агрегирование данных и т.д.);
вывод информации в печатном виде, в виде импортируемых файлов в другие системы,
непосредственно в базу данных;
качественное оформление табличных форм представления данных;
многоплановое и качественное оформление данных в виде диаграмм и графиков;
проведение инженерных, финансовых, статистических расчетов;
проведение математического моделирования и ряд других вспомогательных операций.
Любая современная среда табличного процессора имеет средства пересылки данных по сети.
Электронный календарь. Он предоставляет еще одну возможность использовать сетевой вариант
компьютера для хранения и манипулирования рабочим расписанием управленцев и других работников
организации. Менеджер (или его секретарь) устанавливает дату и время встречи или другого мероприятия,
просматривает получившееся расписание, вносит изменения при помощи клавиатуры. Техническое и программное
обеспечение электронного календаря полностью соответствует аналогичным компонентам электронной почты.
Более того, программное обеспечение календаря часто является составной частью программного обеспечения
электронной почты.
Система дополнительно дает возможность получить доступ также и к календарям других менеджеров. Она
может автоматически согласовать время встречи с их собственными расписаниями.
Использование электронного календаря оказывается особенно эффективным для менеджеров высших
уровней управления, рабочие дни которых расписаны надолго вперед.
Компьютерные конференции и телеконференции. Компьютерные конференции используют
компьютерные сети для обмена информацией между участниками группы, решающей определенную проблему.
Естественно, круг лиц, имеющих доступ к этой технологии, ограничен. Количество участников компьютерной
конференции может быть во много раз больше, чем аудио- и видеоконференций.
В литературе часто можно встретить термин телеконференция. Телеконференция включает в себя три
типа конференций: аудио, видео и компьютерную.
Видеотекст. Он основан на использовании компьютера для получения отображения текстовых и
графических данных на экране монитора. Для лиц, принимающих решение, имеются три возможности получения
информации в форме видеотекста:
создать файлы видеотекста на своих собственных компьютерах;
заключить договор со специализированной компанией на получение доступа к разработанным ею
файлам видеотекста. Такие файлы, специально предназначенные для продажи, могут храниться на серверах
компании, осуществляющей подобные услуги, или поставляться клиенту на магнитных или оптических дисках;
заключить договоры с другими компаниями на получение доступа к их файлам видео текста.
Обмен каталогами и ценниками (прайс-листами) своей продукции между компаниями в форме
видеотекста приобретает сейчас все большую популярность. Что же касается компаний, специализирующихся на
продаже видеотекста, то их услуги начинают конкурировать с такой печатной продукцией, как газеты и журналы.
Так, во многих странах сейчас можно заказать газету или журнал в форме видеотекста, не говоря уже о текущих
сводках биржевой информации.
Хранение изображений. В любой фирме необходимо длительное время хранить большое количество
документов. Их число может быть так велико, что хранение даже в форме файлов вызывает серьезные проблемы.
Поэтому возникла идея хранить не сам документ, а его образ (изображение), причем хранить в цифровой форме.
Хранение изображений (imaging) является перспективной офисной технологией и основывается на
использовании специального устройства - оптического распознавателя образов, позволяющего преобразовывать
изображение документа или фильма в цифровой вид для дальнейшего хранения во внешней памяти компьютера.
Сохраненное в цифровом формате изображении может быть в любой момент выведено в его реальном виде на
экран или принтер. Для хранения изображений используются оптические диски, обладающие огромными
емкостями. Так, на пятидюймовый оптический диск можно записать около 200 тыс. страниц.
Следует напомнить, что идея хранения изображений не нова и реализовывалась раньше на основе
микрофильмов и микрофиш. Созданию данной технологии способствовало появление нового технического
решения - оптического диска в комбинации с цифровой записью изображения.
Аудиоконференции. Они используют аудиосвязь для поддержания коммуникаций между территориально
удаленными работниками или подразделениями фирмы. Наиболее простым техническим средством реализации
аудиоконференций является телефонная связь, оснащенная дополнительными устройствами, дающими
возможность участия в разговоре более чем двум участникам. Создание аудиоконференций не требует наличия
компьютера, а лишь предполагает использование двухсторонней аудиосвязи между ее участниками.
Использование аудиоконференций облегчает принятие решений, оно дешево и удобно. Эффективность
аудиоконференций повышается при выполнении следующих условий:
работник, организующий аудиоконференцию, должен предварительно обеспечить возможность
участия в ней всех заинтересованных лиц;
количество участников конференции не должно быть слишком большим (обычно не более шести),
чтобы удержать дискуссию в рамках обсуждаемой проблемы;
программа конференции должна быть сообщена ее участникам заблаговременно, например, с
использованием факсимильной связи;
перед тем как начать говорить, каждый участник должен представляться;
должны быть организованы запись конференции и ее хранение;
запись конференции должна быть распечатана и отправлена всем ее участникам.
Видеоконференции. Они предназначены для тех же целей, что и аудиоконференции, с применением
видеоаппаратуры. Их проведение также не требует компьютера. В процессе видеоконференции ее участники,
удаленные друг от друга на значительное расстояние, могут видеть на телевизионном экране себя и других
участников. Одновременно с телевизионным изображением передается звуковое сопровождение. Хотя
видеоконференции позволяют сократить транспортные и командировочные расходы, большинство фирм
применяет их не только по этой причине. Эти фирмы видят в них возможность привлечь к решению проблем
максимальное количество менеджеров и других работников, территориально удаленных от главного офиса.
Наиболее популярны три конфигурации построения видеоконференций:
односторонняя видео- и аудиосвязь. Здесь видео - и аудиосигналы идут только в одном
направлении, например от руководителя проекта к исполнителям;
односторонняя видео- и двухсторонняя аудиосвязь. Двухсторонняя аудиосвязь дает возможность
участникам конференции, принимающим видеоизображение, обмениваться аудиоинформацией с передающим
видеосигнал участником;
двухсторонняя видео- и аудиосвязь. В этой наиболее дорогой конфигурации используются
двухсторонняя видео- и аудиосвязь между всеми участниками конференции, обычно имеющими один и тот же
статус.
Факсимильная связь. Эта связь основана на использовании факс-аппарата, способного читать документ
на одном конце коммуникационного канала и воспроизводить его изображение на другом.
Факсимильная связь вносит свой вклад в принятие решений за счет быстрой и легкой рассылки
документов участникам группы, решающей определенную проблему, независимо от их географического
положения.
Лекция №3 ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ИНТЕЛЛЕКТУЛЬНОЙ ПОДДЕРЖКИ
УПРАВЛЕНИЯ
Вопросы:
4.
Информационная технология поддержки принятия решений
5.
Информационная технология экспертных систем
ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ
4.1. Характеристика и назначение
Системы поддержки принятия решений и соответствующая им информационная технология появились
усилиями в основном американских ученых в конце 70-х - начале 80-х гг., чему способствовали широкое
распространение персональных компьютеров, стандартных пакетов прикладных программ, а также успехи в
создании систем искусственного интеллекта.
Главной особенностью информационной технологии поддержки принятия решений является
качественно новый метод организации взаимодействия человека и компьютера. Выработка решения, что является
основной целью этой технологии, происходит в результате итерационного процесса (рис. 4), в котором участвуют:
система поддержки принятия решений в роли вычислительного звена и объекта управления;
человек как управляющее звено, задающее входные данные и оценивающее полученный результат
вычислений на компьютере.
4.
Рис. 4. Информационная технология поддержки принятия решений как итерационный процесс
Окончание итерационного процесса происходит по воле человека. В этом случае можно говорить о
способности информационной системы совместно с пользователем создавать новую информацию для принятия
решений.
Дополнительно к этой особенности информационной технологии поддержки принятия решений можно
указать еще ряд ее отличительных характеристик:
ориентация на решение плохо структурированных (формализованных) задач;
сочетание традиционных методов доступа и обработки компьютерных данных с возможностями
математических моделей и методами решения задач на их основе;
направленность на непрофессионального пользователя компьютера;
высокая адаптивность, обеспечивающая возможность приспосабливаться к особенностям
имеющегося технического и программного обеспечения, а также требованиям пользователя.
Информационная технология поддержки принятия решений может использоваться на любом уровне
управления. Кроме того, решения, принимаемые на различных уровнях управления, часто должны
координироваться. Поэтому важной функцией и систем, и технологий является координация лиц, принимающих
решения как на разных уровнях управления, так и на одном уровне.
4.2. Основные компоненты
Рассмотрим структуру системы поддержки принятия решений (рис. 5), а также функции составляющих ее
блоков, которые определяют основные технологические операции.
Рис. 5. Основные компоненты информационной технологии поддержки принятия решений
В состав системы поддержки принятия решений входят три главных компонента: база данных, база
моделей и программная подсистема, которая состоит из системы управления базой данных (СУБД), системы
управления базой моделей (СУБМ) и системы управления интерфейсом между пользователем и компьютером.
База данных. Она играет в информационной технологии поддержки принятия решений важную роль.
Данные могут использоваться непосредственно пользователем для расчетов при помощи математических моделей.
Рассмотрим источники данных и их особенности.
1. Часть данных поступает от информационной системы операционного уровня. Чтобы использовать их
эффективно, эти данные должны быть предварительно обработаны. Для этого имеются две возможности:
использовать для обработки данных об операциях фирмы систему управления базой данных,
входящую в состав системы поддержки принятия решений;
сделать обработку за пределами системы поддержки принятия решений, создав для этого
специальную базу данных. Этот вариант более предпочтителен для фирм, производящих большое количество
коммерческих операций. Обработанные данные об операциях фирмы образуют файлы, которые для повышения
надежности и быстроты доступа хранятся за пределами системы поддержки принятия решений.
2. Помимо данных об операциях фирмы для функционирования системы поддержки принятия решений
требуются и другие внутренние данные, например данные о движении персонала, инженерные данные и т.п.,
которые должны быть своевременно собраны, введены и поддержаны.
3. Важное значение, особенно для поддержки принятия решений на верхних уровнях управления, имеют
данные из внешних источников. В числе необходимых внешних данных следует указать данные о конкурентах,
национальной и мировой экономике. В отличие от внутренних данных внешние данные обычно приобретаются у
специализирующихся на их сборе организации.
4. В настоящее время широко исследуется вопрос о включении в базу данных еще одного источника
данных - документов, включающих в себя записи, письма, контракты, приказы и т.п. Если содержание этих
документов будет записано в памяти и затем обработано по некоторым ключевым характеристикам (поставщикам,
потребителям, датам, видам услуг и др.), то система получит новый мощный источник информации.
Система управления данными должна обладать следующими возможностями:
составление комбинаций данных, получаемых из различных источников, посредством
использования процедур агрегирования и фильтрации;
быстрое прибавление или исключение того или иного источника данных;
построение логической структуры данных в терминах пользователя;
использование и манипулирование неофициальными данными для экспериментальной проверки
рабочих альтернатив пользователя;
обеспечение полной логической независимости этой базы данных от других операционных баз
данных, функционирующих в рамках фирмы.
База моделей. Целью создания моделей являются описание и оптимизация некоторого объекта или
процесса. Использование моделей обеспечивает проведение анализа в системах поддержки принятия решений.
Модели, базируясь на математической интерпретации проблемы, при помощи определенных алгоритмов
способствуют нахождению информации, полезной для принятия правильных решений.
Пример 1.4. Модель линейного программирования дает возможность определить наиболее выгодную
производственную программу выпуска нескольких видов продукции при заданных ограничениях на ресурсы.
Использование моделей в составе информационных систем началось с применения статистических
методов и методов финансового анализа, которые реализовывались командами обычных алгоритмических языков.
Позже были созданы специальные языки, позволяющие моделировать ситуации типа "что будет, если ?" или "как
сделать, чтобы?". Такие языки, созданные специально для построения моделей, дают возможность построения
моделей определенного типа, обеспечивающих нахождение решения при гибком изменении переменных.
Существует множество типов моделей и способов их классификации, например по цели использования,
области возможных приложений, способу оценки переменных и т. п.
По цели использования модели подразделяются на оптимизационные, связанные с нахождением точек
минимума или максимума некоторых показателей (например, управляющие часто хотят знать, какие их действия
ведут к максимизации прибыли или минимизации затрат), и описательные, описывающие поведение некоторой
системы и не предназначенные для целей управления (оптимизации).
По способу оценки модели классифицируются на детерминистские, использующие оценку переменных
одним числом при конкретных значениях исходных данных, и стохастические, оценивающие переменные
несколькими параметрами, так как исходные данные заданы вероятностными характеристиками.
Детерминистские модели более популярны, чем стохастические, потому что они менее дорогие, их легче
строить и использовать. К тому же часто с их помощью получается вполне достаточная информация для принятия
решения.
По области возможных приложений модели разбираются на специализированные, предназначенные для
использования только одной системой, и универсальные- для использования несколькими системами.
Специализированные модели более дорогие, они обычно применяются для описания уникальных систем и
обладают большей точностью.
В системах поддержки принятия решения база моделей состоит из стратегических, тактических и
оперативных моделей, а также математических моделей в виде совокупности модельных блоков, модулей и
процедур, используемых как элементы для их построения (см. рис. 5).
Стратегические модели используются на высших уровнях управления для установления целей
организации, объемов ресурсов, необходимых для их достижения, а также политики приобретения и
использования этих ресурсов. Они могут быть также полезны при выборе вариантов размещения предприятий,
прогнозировании политики конкурентов и т.п. Для стратегических моделей характерны значительная широта
охвата, множество переменных, представление данных в сжатой агрегированной форме. Часто зги данные
базируются на внешних источниках и могут иметь субъективный характер. Горизонт планирования в
стратегических моделях, как правило, измеряется в годах. Эти модели обычно детерминистские, описательные,
специализированные для использования на одной определенной фирме.
Тактические модели применяются управляющими среднего уровня для распределения и контроля
использования имеющихся ресурсов. Среди возможных сфер их использования следует указать: финансовое
планирование, планирование требований к работникам, планирование увеличения продаж, построение схем
компоновки предприятий. Эти модели применимы обычно лишь к отдельным частям фирмы (например, к системе
производства и сбыта) и могут также включать в себя агрегированные показатели. Временной горизонт,
охватываемый тактическими моделями, ≈ от одного месяца до двух лет. Здесь также могут потребоваться данные
из внешних источников, но основное внимание при реализации данных моделей должно быть уделено внутренним
данным фирмы. Обычно тактические модели реализуются как детерминистские, оптимизационные и
универсальные.
Оперативные модели используются на низших уровнях управления для поддержки принятия
оперативных решений с горизонтом, измеряемым днями и неделями. Возможные применения этих моделей
включают в себя ведение дебиторских счетов и кредитных расчетов, календарное производственное планирование,
управление запасами и т.д. Оперативные модели обычно используют для расчетов внутрифирменные данные. Они,
как правило, детерминистские, оптимизационные и универсальные (т.е. могут быть использованы в различных
организациях).
Математические модели состоят из совокупности модельных блоков, модулей и процедур, реализующих
математические методы. Сюда могут входить процедуры линейного программирования, статистического анализа
временных рядов, регрессионного анализа и т.п. от простейших процедур до сложных ППП. Модельные блоки,
модули и процедуры могут использоваться как поодиночке, так и комплексно для построения и поддержания
моделей.
Система управления базой моделей должна обладать следующими возможностями: создавать новые
модели или изменять существующие, поддерживать и обновлять параметры моделей, манипулировать моделями.
Система управления интерфейсом. Эффективность и гибкость информационной технологии во многом
зависят от характеристик интерфейса системы поддержки принятия решений. Интерфейс определяет: язык
пользователя; язык сообщений компьютера, организующий диалог на экране дисплея; знания пользователя.
Язык пользователя - это те действия, которые пользователь производит в отношении системы путем
использования возможностей клавиатуры; электронных карандашей, пишущих на экране; джойстика; "мыши";
команд, подаваемых голосом, и т.п. Наиболее простой формой языка пользователя является создание форм
входных и выходных документов. Получив входную форму (документ), пользователь заполняет его необходимыми
данными и вводит в компьютер. Система поддержки принятия решений производит необходимый анализ и выдает
результаты в виде выходного документа установленной формы.
Значительно возросла за последнее время популярность визуального интерфейса. С помощью
манипулятора "мышь" пользователь выбирает представленные ему на экране в форме картинок объекты и
команды, реализуя таким образом свои действия.
Управление компьютером при помощи человеческого голоса - самая простая и поэтому самая желанная
форма языка пользователя. Она еще недостаточно разработана и поэтому малопопулярна. Существующие
разработки требуют от пользователя серьезных ограничений: определенного набора слов и выражений;
специальной надстройки, учитывающей особенности голоса пользователя; управления в виде дискретных команд,
а не в виде обычной гладкой речи. Технология этого подхода интенсивно совершенствуется, и в ближайшем
будущем можно ожидать появления систем поддержки принятия решений, использующих речевой ввод
информации.
Язык сообщений - это то, что пользователь видит на экране дисплея (символы, графика, цвет), данные,
полученные на принтере, звуковые выходные сигналы и т.п. Важным измерителем эффективности используемого
интерфейса является выбранная форма диалога между пользователем и системой. В настоящее время наиболее
распространены следующие формы диалога: запросно-ответный режим, командный режим, режим меню, режим
заполнения пропусков в выражениях, предлагаемых компьютером.
Каждая форма в зависимости от типа задачи, особенностей пользователя и принимаемого решения может
иметь свои достоинства и недостатки.
Долгое время единственной реализацией языка сообщений был отпечатанный или выведенный на экран
дисплея отчет или сообщение. Теперь появилась новая возможность представления выходных данных - машинная
графика. Она дает возможность создавать на экране и бумаге цветные графические изображения в трехмерном
виде. Использование машинной графики, значительно повышающее наглядность и интерпретируемость выходных
данных, становится все более популярным в информационной технологии поддержки принятия решений.
За последние несколько лет наметилось новое направление, развивающее машинную графику, мультипликация. Мультипликация оказывается особенно эффективной для интерпретации выходных данных
систем поддержки принятия решений, связанных с моделированием физических систем и объектов.
Пример 1.5. Система поддержки принятия решений, предназначенная для обслуживания клиентов в
банке, с помощью мультипликационных моделей может реально просмотреть различные варианты организации
обслуживания в зависимости от потока посетителей, допустимой длины очереди, количества пунктов
обслуживания и т.п.
В ближайшие годы следует ожидать использования в качестве языка сообщений человеческого голоса.
Сейчас эта форма применяется в системе поддержки принятия решений сферы финансов, где в процессе генерации
чрезвычайных отчетов голосом поясняются причины исключительности той или иной позиции.
Знания пользователя - это то, что пользователь должен знать, работая с системой. К ним относятся не
только план действий, находящийся в голове у пользователя, но и учебники, инструкции, справочные данные,
выдаваемые компьютером.
Совершенствование интерфейса системы поддержки принятия решений определяется успехами в развитии
каждого из трех указанных компонентов. Интерфейс должен обладать следующими возможностями:
манипулировать различными формами диалога, изменяя их в процессе принятия решения по
выбору пользователя;
передавать данные системе различными способами;
получать данные от различных устройств системы в различном формате;
гибко поддерживать (оказывать помощь по запросу, подсказывать) знания пользователя.
5. ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ ЭКСПЕРТНЫХ СИСТЕМ
5.1.
Характеристика и назначение
Наибольший прогресс среди компьютерных информационных систем отмечен в области разработки
экспертных систем, основанных на использовании искусственного интеллекта. Экспертные системы дают
возможность менеджеру или специалисту получать консультации экспертов по любым проблемам, о которых
этими системами накоплены знания.
Под искусственным интеллектом обычно понимают способности компьютерных систем к таким
действиям, которые назывались бы интеллектуальными, если бы исходили от человека. Чаще всего здесь имеются
в виду способности, связанные с человеческим мышлением. Работы в области искусственного интеллекта не
ограничиваются экспертными системами. Они также включают в себя создание роботов, систем, моделирующих
нервную систему человека, его слух, зрение, обоняние, способность к обучению.
Решение специальных задач требует специальных знаний. Однако не каждая компания может себе
позволить держать в своем штате экспертов по всем связанным с ее работой проблемам или даже приглашать их
каждый раз, когда проблема возникла. Главная идея использования технологии экспертных систем заключается в
том, чтобы получить от эксперта его знания и, загрузив их в память компьютера, использовать всякий раз, когда в
этом возникнет необходимость. Являясь одним из основных приложений искусственного интеллекта, экспертные
системы представляют собой компьютерные программы, трансформирующие опыт экспертов в какой-либо
области знаний в форму эвристических правил (эвристик). Эвристики не гарантируют получения оптимального
результата с такой же уверенностью, как обычные алгоритмы, используемые для решения задач в рамках
технологии поддержки принятия решений. Однако часто они дают в достаточной степени приемлемые решения
для их практического использования. Все это делает возможным использовать технологию экспертных систем в
качестве советующих систем.
Сходство информационных технологий, используемых в экспертных системах и системах поддержки
принятия решений, состоит в том, что обе они обеспечивают высокий уровень поддержки принятия решений.
Однако имеются три существенных различия. Первое связано с тем, что решение проблемы в рамках систем
поддержки принятия решений отражает уровень ее понимания пользователем и его возможности получить и
осмыслить решение. Технология экспертных систем, наоборот, предлагает пользователю принять решение,
превосходящее его возможности. Второе отличие указанных технологий выражается в способности экспертных
систем пояснять свои рассуждения в процессе получения решения. Очень часто эти пояснения оказываются более
важными для пользователя, чем само решение. Третье отличие связано с использованием нового компонента
информационной технологии - знаний.
5.2. Основные компоненты
Основными компонентами информационной технологии, используемой в экспертной системе, являются
(рис. 6): интерфейс пользователя, база знаний, интерпретатор, модуль создания системы.
Рис. 6. Основные компоненты информационной технологии экспертных систем
Интерфейс пользователя. Менеджер (специалист) использует интерфейс для ввода информации и команд
в экспертную систему и получения выходной информации из нее. Команды включают в себя параметры,
направляющие процесс обработки знаний. Информация обычно выдается в форме значений, присваиваемых
определенным переменным.
Менеджер может использовать четыре метода ввода информации: меню, команды, естественный язык и
собственный интерфейс.
Технология экспертных систем предусматривает возможность получать в качестве выходной информации
не только решение, но и необходимые объяснения. Различают два вида объяснений:
объяснения, выдаваемые по запросам. Пользователь в любой момент может потребовать от
экспертной системы объяснения своих действий;
объяснения полученного решения проблемы. После получения решения пользователь может
потребовать объяснений того, как оно было получено. Система должна пояснить каждый шаг своих рассуждении,
ведущих к решению задачи.
Хотя технология работы с экспертной системой не является простой, пользовательский интерфейс этих
систем является дружественным и обычно не вызывает трудностей при ведении диалога.
База знаний. Она содержит факты, описывающие проблемную область, а также логическую взаимосвязь
этих фактов. Центральное место в базе знаний принадлежит правилам. Правило определяет, что следует делать в
данной конкретной ситуации, и состоит из двух частей: условия, которое может выполняться или нет, и действия,
которое следует произвести, если условие выполняется.
Все используемые в экспертной системе правила образуют систему правил, которая даже для
сравнительно простой системы может содержать несколько тысяч правил.
Все виды знаний в зависимости от специфики предметной области и квалификации проектировщика
(инженера по знаниям) с той или иной степенью адекватности могут быть представлены с помощью одной либо
нескольких семантических моделей. К наиболее распространенным моделям относятся логические,
продукционные, фреймовые и семантические сети.
Интерпретатор. Это часть экспертной системы, производящая в определенном порядке обработку знаний
(мышление), находящихся в базе знаний. Технология работы интерпретатора сводится к последовательному
рассмотрению совокупности правил (правило за правилом). Если условие, содержащееся в правиле, соблюдается,
выполняется определенное действие, и пользователю предоставляется вариант решения его проблемы.
Кроме того, во многих экспертных системах вводятся дополнительные блоки: база данных, блок расчета,
блок ввода и корректировки данных. Блок расчета необходим в ситуациях, связанных с принятием управленческих
решений. При этом важную роль играет база данных, где содержатся плановые, физические, расчетные, отчетные и
другие постоянные или оперативные показатели. Блок ввода и корректировки данных используется для
оперативного и своевременного отражения текущих изменений в базе данных.
Модуль создания системы. Он служит для создания набора (иерархии) правил. Существуют два подхода,
которые могут быть положены в основу модуля создания системы: использование алгоритмических языков
программирования и использование оболочек экспертных систем.
Для представления базы знаний специально разработаны языки Лисп и Пролог, хотя можно использовать
и любой известный алгоритмический язык.
Оболочка экспертных систем представляет собой готовую программную среду, которая может быть
приспособлена к решению определенной проблемы путем создания соответствующей базы знаний. В большинстве
случаев использование оболочек позволяет создавать экспертные системы быстрее и легче в сравнении с
программированием
Лекция № 4 ТЕХНОЛОГИЯ СОЗДАНИЯ ИНТЕГРИРОВАННЫХ ДОКУМЕНТОВ МЕТОДОМ
СВЯЗЫВАНИЯ И ВНЕДРЕНИЯ ОБЪЕКТОВ (OLE).
Вопросы:
1.
Обмен данными. Понятие составного документа.
2.
Обмен данными перетаскиванием объекта мышью. Обмен данными через буфер.
3.
Технология внедрения и связывания объектов OLE.
Литература:
Информатика. Учебник для вузов под ред. Проф. Н.В.Макаровой
1.
ОБМЕН ДАННЫМИ
Обмен данными в широком смысле - это передача информации от одного объекта другому. В
компьютерном мире до недавнего времени под обменом данными часто понимали процесс ввода и вывода данных
между оперативной памятью и периферийными устройствами. С появлением концепции Windows под обменом
данными стали понимать передачу данных от одного объекта к другому. В результате этого процесса объекты
могут изменяться, а также могут создаваться новые объекты, образующиеся из одного или нескольких
существующих объектов.
Такими объектами могут быть приложения, папки, документы, а передаваемыми данными - фрагменты
документов, документы, файлы, папки, т.е. также объекты среды Windows. Так, в результате копирования файла
или папки появляются их копии, а вследствие обмена данными между приложениями создаются составные
документы , собранные из фрагментов, сформированных в разных приложениях.
Обмен данными в среде Windows осуществляется либо через буфер обмена, либо без него
перетаскиванием выделенного объекта мышью. Обмен данными через буфер выполняется с помощью стандартных
команд Вырезать (Cut), Копировать (Copy) и Вставить (Paste). Команда Специальная вставка (PasteSpecial)
позволяет выбрать формат, в котором передаются данные. Большинство приложений Windows содержат
перечисленные команды в структуре своих меню, а также включают их в контекстные меню.
Помимо перечисленных команд в приложении могут быть задействованы специальные команды, которые
дают возможность использовать данные из ранее созданных и хранящихся в файлах объектов.
2.
ПОНЯТИЕ СОСТАВНОГО ДОКУМЕНТА
При создании документа часто возникает необходимость вставить в него фрагмент из документов,
созданных в других программных средах. Такой фрагмент по отношению к документу, в который он вставляется,
может иметь иной тип данных. Например, в текст, созданный в текстовом редакторе WordPad, включается
растровый рисунок из графического редактора Paint, а также таблица из табличного процессора Excel. В результате
появляется документ, включающий данные разного типа, созданные в разных приложениях.
Такая же ситуация может возникнуть и при использовании одного приложения. Например, текст и
векторные рисунки можно сделать в среде текстового процессора Word, объединив их затем в одном документе.
Налицо фрагменты разного типа данных - текст и рисунки, и хотя они созданы в одном приложении, для их
создания использовались разные инструменты. Поэтому их объединение легче строить, считая, что они созданы в
разных средах.
Операционная система Windows поддерживает такие механизмы обмена данными, с помощью которых
любое приложение может включать в свои документы практически любые данные, даже если с этими данными оно
и не может работать. Эту универсальность обеспечивает технология OLE, о которой подробнее речь пойдет далее.
Документ, содержащий разнотипные данные, ничем не отличается от обычных документов. Его можно печатать,
хранить и производить с ним любые другие действия. Подобный документ получил название составного или
интегрированного документа .
Составной (интегрированный) документ - документ, в котором объединены данные разного типа,
созданные в разных приложениях.
В большинстве случаев в составном документе можно выделить главную часть, которая создавалась в
одном приложении и куда вставлялись объекты из других приложений. Составной документ вызывается из
приложения, где создавалась его главная часть. Видимо, настолько прочно вошла в практическую деятельность
пользователя работа с составным документом, что все чаще стали заменять понятие составного документа просто
документом. Следует заметить, что возможно создание составного документа, у которого нет главной части и
который весь состоит из объектов, созданных в других приложениях. Например, документ Word может состоять из
единственного рисунка, созданного в графическом редакторе Paint.
Часто при создании составного документа используют такую терминологию:
источник или сервер - приложение, откуда производится вставка фрагмента в составной документ;
приемник или клиент (адресат) - приложение, где находится главная часть составного документа и куда
вставляются объекты из других приложений (источников).
Замечание. Учитывая, что понятия "сервер" и "клиент" также широко используются в контексте сетей, в
дальнейшем для приложения будем использовать понятия "источник" и "приемник".
3.
ОБМЕН ДАННЫМИ ПЕРЕТАСКИВАНИЕМ ОБЪЕКТА МЫШЬЮ
Во многих приложениях обмен данными может быть выполнен путем перетаскивания с помощью мыши.
Так можно реализовать и операцию копирования, и операцию перемещения. Операцию перетаскивания мышью
рекомендуется использовать, когда источник на экране монитора находится недалеко от приемника. Для этого
окна приложений целесообразно расположить рядом.
Перемещение объекта с помощью мыши осуществляется следующим образом:
выбирается перемещаемый объект, для чего на этом объекте нужно установить указатель мыши.
Можно выбрать группу объектов (например, фрагмент текста), протащив мышь при нажатой левой кнопке;
при нажатой левой кнопке мыши выделенный объект перетаскивается до места назначения.
Копирование осуществляется аналогично перемещению при одновременно нажатой клавише . При
этом перемещаемый объект будет обозначен дополнительно знаком "плюс".
Замечание. В среде Windows нажатие управляющей клавиши учитывается, как правило, в момент
отпускания кнопки мыши. Поэтому можно сначала перетащить объект, затем, не отпуская кнопки мыши, оценить
ситуацию и при необходимости нажать , или какую-либо другую комбинацию управляющих клавиш.
4.
ОБМЕН ДАННЫМИ ЧЕРЕЗ БУФЕР
Роль буфера обмена
Буфер обмена (clipboard) играет важнейшую роль при организации обмена данными. Это часть
виртуальной памяти, которая служит неким перевалочным пунктом при обмене данными. При небольших объемах
передаваемых данных для буфера обмена выделяется часть оперативной памяти.
Для наглядности можно провести некоторую аналогию между буфером обмена и ячейкой склада, куда
отправляется на временное хранение некий объект. В этой ячейке можно хранить лишь один объект. Чтобы
поместить в ячейку новый объект, необходимо убрать из нее старый объект, ранее помещенный туда. В буфере
обмена объект хранится до тех пор, пока в него не будет помещен новый объект, который автоматически сотрет
прежний. Находящийся в буфере обмена объект можно копировать неограниченное количество раз.
Основные приемы работы с буфером обмена поддерживаются большинством программных продуктов. Его
широко используют
при создании и редактировании простого документа, когда с помощью буфера обмена
осуществляются копирование, перемещение и удаление его фрагментов;
при создании и редактировании составного документа, когда необходимо использовать объекты из
разных приложений;
при перемещении или копировании объектов файловой системы (файлов и папок);
для сохранения в файле выделенного фрагмента документа.
Буфер обмена - специальная область памяти, которая предназначена для временного хранения
переносимого, копируемого или удаляемого объекта,
Буфер обмена обслуживается операционной системой и характеризуется следующими свойствами:
в буфере обмена хранится объект, помещенный в него одним из известных пользователю
способов;
в буфере обмена объект хранится до тех пор, пока не будет помещен в него новый объект;
буфер обмена доступен из любого приложения;
содержимое буфера обмена можно просмотреть или сохранить в файле с помощью приложения
Просмотр буфера обмена;
буфер обмена очищается при перезагрузке операционной системы либо специальной командой;
объект в буфере обмена хранится в формате, определяемом приложением-источником, но при его
вставке в составной документ, как правило, предоставляется возможность преобразования в другой формат.
При обмене данными между приложениями через буфер обмена можно установить связь между
источником и приемником. Эта связь позволяет редактировать объект непосредственно в составном документе
средствами приложения-приемника (связь между составным документом и приложением-источником) либо
обновлять объект, если он был записан в файл и впоследствии изменен приложением-источником (связь между
составным документом и файлом). Такая связь в одних случаях необходима, а в других нет. Так, при копировании
или перемещении объектов файловой системы между папкой-источником и папкой-приемником не
устанавливается никакой связи. Но при удалении файла он фактически перемещается в специальную папку
Корзина, причем устанавливается связь Корзины с папкой, в которой этот файл находился. Эта связь позволяет при
необходимости вернуть файл на прежнее место.
Для вставки объекта из буфера обмена можно воспользоваться командой Вставить, вызвав ее любым
способом, например из контекстного меню. После выполнения этой команды объект становится частью документа,
создаваемого в приложении-приемнике. При этом объект вставляется в составной документ, как правило, как OLEобъект, сохраняющий связь с приложением-источником, Его можно редактировать непосредственно в составном
документе, вызвав приложение-источник. Отметим, что по технологии OLE 2.0 вызывается не само приложениеисточник, а лишь необходимые инструменты редактирования: при двойном щелчке на OLE-объекте пользователь
остается в среде приложения-приемника, но меню и панели инструментов этого приложения меняются.
Пользователь может в определенных пределах изменять способ вставки объекта из буфера обмена. Для
этого нужно использовать команду Специальная вставка, которая во многих приложениях располагается в меню
Правка (Edit).
4.2. Технология обмена данными через буфер
Обмен данными через буфер выполняется в следующей последовательности (рис. 1):
выделяется объект, подлежащий копированию или перемещению;
выделенный объект переносится в буфер обмена с помощью команды Копировать или Вырезать
(например, через контекстное меню); указатель мыши устанавливается в место вставки объекта;
объект вставляется в указанное место командой Вставить или командой Специальная вставка
(через контекстное меню или меню Правка)
Рис.1. Схематичное представление обмена данными через буфер
5.
ТЕХНОЛОГИЯ ВНЕДРЕНИЯ И СВЯЗЫВАНИЯ ОБЪЕКТОВ OLE
5.1. Представление о технологии OLE
Появление технологии OLE обусловлено необходимостью формирования документов из данных разного
типа. Основное достоинство технологии OLE, которая была разработана фирмой Microsoft, состоит в том, что она
не имеет ограничений и позволяет организовать передачу данных практически между любыми приложениями.
Технология OLE определяется правилами (протоколом) взаимодействия Windows-приложений. Базовый вариант
технологии OLE был впоследствии расширен до версии OLE 2.0, которая в настоящее время является наиболее
употребительной.
Аббревиатура OLE означает Object Linkingand Embedding, что переводится как связывание и внедрение
объекта.
Технологию OLE полностью поддерживают не все Windows-приложения, а только те, которые
предназначены для разработки составных документов. Одни приложения можно использовать только в качестве
приемника, другие - только в качестве источника, но есть приложения, которые могут выступать и в той, и в
другой роли.
Например, текстовый редактор WordPad полностью обеспечивает работу по технологии OLE, так как он
предназначен для создания текстовых документов, в которых могут быть рисунки, звуки, таблицы, видеоклипы и
др. Графический редактор Paint предназначен для подготовки несложных рисунков, он не может работать по
технологии OLE только как приложение-источник. Текстовый процессор Word представляет собой сложный
комплекс и фактически включает в себя несколько приложений: редактор рисунков, редактор формул, текстовый
редактор и др. Эти приложения по-разному используют технологию OLE. Редактор формул действует только как
приложение-источник (OLE-сервер), а текстовый редактор может выступать как в роли источника, так и в роли
приемника (OLE-клиента). Просмотреть список действующих в системе OLE-серверов можно, выполнив команду
Вставить объект (в среде Word эта команда включена в меню Вставка).
Технология OLE обеспечивает пользователю возможность редактировать вставленный в составной
документ объект средствами, которые предоставляет приложение-источник. OLE-объект всегда сохраняет связь с
приложением-источником (эта связь активизируется двойным щелчком), но может и не быть связанным с
документом-источником.
Технология OLE предусматривает два варианта обмена данными:
внедрение объекта, при котором в документ-приемник вставляется сам объект.
Для отображения на экране или распечатки документа OLE-объект не использует средств приложенияисточника. Например, при переносе составного документа на другой компьютер OLE-объект будет отображаться
нормально, даже если на этом компьютере нет соответствующего приложения-источника. Однако OLE-объект
сохраняет связь с приложением-источником, которая позволяет обеспечить редактирование OLE-объекта внутри
составного документа;
связывание объекта, при котором в документ-приемник помещается не сам объект, а лишь ссылка на
документ-источник.
В этом случае OLE-объект будет связан не с приложением-источником, а с документом-источником, в
котором находится этот объект. Эта связь позволяет изменить представление объекта в документе-приемнике, как
только этот объект будет изменен в документе-источнике.
5.2. Внедрение объекта
При внедрении объекта в документ-приемник вставляется сам объект. Если этот объект получен
копированием данных из некоторого документа-источника, то данные сохраняются на прежнем месте, а в
документ-приемник вставляется их копия, причем связь между объектом и его копией не устанавливается. При
этом наряду с командой Вставить можно использовать команду Специальная вставка.
Внедрить объект в документ можно несколькими способами:
из открытого документа (с помощью команд Вставить и Специальная вставка);
из файла (специальной командой вставки файла или импорта файла);
непосредственным вызовом OLE-сервера (командой Вставить объект).
Внедрение объекта из открытого документа выполняется следующим образом:
в приложении-источнике выделяется объект, который будет внедряться;
выделенный объект копируется в буфер обмена с помощью команды Копировать или Вырезать;
осуществляется переход в приложение-приемник, где формируется составной документ, и указатель мыши
устанавливается в место вставки объекта;
вставляется объект с помощью команды Вставить или Специальная вставка;
при использовании команды Специальная вставка на экране появляется диалоговое окно "Специальная
вставка" (рис. 2), в котором необходимо выбрать способ вставки данных как объекта, отметить кнопку выбора
<Вставить> и нажать кнопку <ОК>. Данные можно вставлять в составной документ также в виде значка, для чего в
диалоговом окне "Специальная вставка" следует отметить соответствующий переключатель.
Технология внедрения содержимого файла, которая рассматривается на примере приложения Word,
состоит в следующем:
в составном документе указывается место внедрения;
вводится команда Файл из управляющего меню Вставка;
в диалоговом окне "Вставка файла" (рис. 3.) устанавливаются необходимые параметры и
выбирается имя файла. При этом не следует устанавливать переключатель <Связь с файлом>, чтобы содержимое
файла оказалось внедренным;
нажать кнопку <ОК>.
Рис.2. Окно "Специальная вставка" в текстовом процессоре Word
Рис.3 Окно "Вставка файла" в текстовом процессоре Word
Для других приложений технология аналогична, отличие состоит в конкретных названиях команд.
В составной документ новый объект внедряется следующим образом:
в составном документе указывается место внедрения;
вводится команда Вставить объект (в среде Word - пункт Объект управляющего меню Вставка);
в диалоговом окне "Вставка объекта" (рис. 4) выбирается тип внедряемого объекта, т.е.
приложение-источник. Флажок <Связь с файлом> устанавливать не следует, для того чтобы объект оказался
внедренным;
нажимается кнопка <ОК>;
в приложении-источнике создается новый объект, который после выхода из приложенияисточника будет вставлен в документ-приемник.
Рис.4. Окно "Вставка объекта" в текстовом процессоре Word
Объект, внедрённый по технологии OLE, можно редактировать средствами приложения-источника
следующими способами:
выбрать соответствующую команду в управляющем или контекстном меню;
дважды щелкнуть левой кнопкой мыши на внедренном объекте.
Отметим, что если один и тот же объект внедряется в несколько документов, то в каждом документе будет
храниться своя копия объекта. В этом случае хранение объекта и всех его копий требует дополнительного расхода
внешней памяти. Кроме того, не сохраняется ни какой связи между копиями объекта, изменение одной из копий
никак не влияет на остальные копии объекта.
Связывание объекта
При просмотре или распечатке составного документа связанный объект ничем не отличается от
внедрённого. Различие проявляется лишь при редактировании объекта. Связанный объект всегда находится в
документе-источнике, а в составном документе-приемнике храниться ссылка (указание местонахождения) на файл
с этим документом.
Таким образом, при связывании объекта в документах-приёмниках указываются ссылки на объект, а сам объект
хранится в единственном экземпляре в документе-источнике. Любые изменения объекта, проводимые в
документе-источнике, обязательно отражаются на представлении объекта в составных документах. При открытии
составного документа необходимо позаботиться о том, чтобы присутствовали все файлы, в которых хранятся
связанные с ним объекты, причем в точности в тех папках, в которых они находились при связывании.
Технологией связывания объекта целесообразно пользоваться в следующих случаях:
объект вставляется в несколько разных документов, и необходимо, чтобы любые изменения этого
объекта отражались в этих документах;
объект занимает слишком много места и затрудняет работу с составным документом;
при недостатке внешней памяти.
Создание связанных объектов в составном документе возможно двумя способами:
из открытого документа. При этом в составной документ можно включить лишь некоторый фрагмент из
документа-источника;
из файла. При этом документ-источник полностью включается в составной документ;
Обратите внимание! Для связывания объекта необходимо, чтобы объект был сохранен в файле как
документ или его часть.
Связывание объекта из открытого документа выполняется следующим образом:
в приложении-источнике выделяется объект, который будет связываться;
выделенный объект переносится в буфер обмена с помощью команды Копировать;
осуществляется переход в приложение-приемник, в котором формируется составной документ, и указатель
мыши устанавливается в место вставки объекта;
вводится команда Специальная вставка;
в диалоговом окне "Специальная вставка" отмечается кнопка выбора <Связать>, указывается способ
вставки объекта (в обычном виде или в виде значка) и нажимается кнопка <ОК>.
Связывание с файлом (на примере текстового процессора Word) состоит в следующем:
в составном документе указывается место вставки;
вводится команда Файл из меню Вставка;
в диалоговом окне "Вставка) у файла" (см. рис. 2 )
станавливаются флажок <Связь с файлом> и другие необходимые параметры, затем выбирается документ, в
котором хранится объект;
нажимается кнопка <ОК>.
Изменить связанный объект можно, отредактировав документ-источник, в котором он размещен. Это
можно осуществить одним из двух способов. Первый способ - открыть документ-источник непосредственно в
среде приложения-источника, второй способ - открыть документ-источник из составного документа, где находится
связанный объект. Открытие можно осуществить либо с помощью контекстного меню, либо двойным щелчком
кнопки мыши на этом объекте.
Поскольку связанные объекты хранятся отдельно от составного документа в своих документахисточниках, важно иметь сведения о связях составного документа. Просмотреть, обновить и изменить связи
составного документа можно в диалоговом окне "Связи" ("Links"), которое, например, в приложении Word
вызывается командой Связи из меню Правка (рис. 5.). Это диалоговое окно содержит информацию о связях
данного объекта:
спецификацию (путь) файла;
тип или формат объекта;
режим обновления объекта в составном документе - автоматическое или ручное (по запросу).
Рис.5. Диалоговое окно "Связи" в текстовом процессоре Word
При автоматическом обновлении связанный объект в составном документе изменяется сразу, как только
он изменился в документе-источнике. При ручном обновлении необходимо явное указание со стороны
пользователя.
ЛЕКЦИЯ № 5 ИСПОЛЬЗОВАНИЕ ТАБЛИЧНЫХ ПРОЦЕССОРОВ ДЛЯ СОЗДАНИЯ СПИСКОВ
(БАЗЫ ДАННЫХ).
Вопросы:
1.
Сортировка базы данных
2.
Фильтрация базы данных
3.
Анализ данных
Литература:
Информатика. Учебник для вузов под ред. С.В. Симоновича
Обычно базы данных представляют собой набор взаимосвязанных таблиц. Простейшие базы данных состоят из
одной таблицы. В качестве такой базы данных вполне можно использовать электронную таблицу Excel. Программа Excel
включает набор функций, позволяющих выполнять все основные операции, присущие базам данных.
Информация в базе данных состоит из набора записей, каждая из которых содержит один и тот же набор полей.
Записи характеризуются порядковыми номерами, а каждое поле имеет заголовок, описывающий его назначение.
Чтобы содержимое рабочего листа рассматривалось как база данных Excel, необходимо придерживаться
строгих правил. Каждому полю записи соответствует один столбец рабочего листа. Столбцы базы данных должны идти
подряд, без промежутков между ними. В первой строке каждого столбца (точнее, в той строке, с которой начинается база данных)
должен быть указан заголовок соответствующего поля. Заголовок поля должен занимать не более одной ячейки. Содержимое
ячейки заголовка должно быть уникально в пределах рабочего листа.
Записи базы данных должны идти непосредственно ниже строки заголовков. Пустые строки не допускаются. Вообще,
пустая строка рассматривается как признак окончания базы данных, то есть, записи должны идти подряд, без промежутков между
ними.
В базе данных, оформленной таким образом, возможно выполнение большинства операций, характерных для баз
данных. Все операции с базами данных выполняются примерно одинаково. Сначала необходимо выбрать любую ячейку в базе
данных, а затем начать нужную операцию. При этом весь диапазон записей базы данных выбирается автоматически.
1. Сортировка базы данных
Для сортировки базы данных используется команда Данные - Сортировка. Диалоговое окно Сортировка диапазона служит
для выбора поля, по которому производится сортировка. Если заданы заголовки полей, то в качестве обозначений
используются именно они, если заголовки отсутствуют, в качестве заголовков используются обозначения столбцов.
Первое из выбранных полей определяет режим первичной сортировки. Если при совпадении значений в этом поле существуют дополнительные критерии, определяющие порядок записей, то можно также задать поля для вторичной к третичной
сортировки. По любому из полей сортировка может выполняться в порядке возрастания или убывания.
2. Фильтрация базы данных
Так как база данных может включать огромное число записей (в программе Excel естественным пределом
служит максимальное число строк рабочего листа — 65536), не всегда требуется отображать все эти записи. Выделение
подмножества общего набора записей называется фильтрацией. Наиболее простым способом фильтрации в программе
Excel является использование автофильтра.
2.1. Применение автофильтра.
Включение режима фильтрации осуществляется командой Данные - Фильтр - Автофильтр. При этом для каждого
ноля базы данных автоматически создается набор стандартных фильтров, доступных через раскрывающиеся списки.
Раскрывающие кнопки этих списков отображаются возле поля заголовка каждого столбца.
По умолчанию используется вариант Все, указывающий, что записи базы данных должны отображаться без
фильтрации. Вариант Первые 10 позволяет отобрать определенное число (или процент) записей по какому-либо
критерию. Вариант Условие позволяет задать специальное условие фильтрации. Кроме того, имеется возможность
отбора записей, имеющих в нужном поле конкретное значение.
При применении фильтра записи, не попадающие в отобранное подмножество, скрываются и не
отображаются. Общее число записей базы данных и число отобранных записей отображается в строке состояния
программы. Исходные номера отобранных записей сохраняются, но отображаются голубым цветом. Точно таким же
цветом изображается заголовок поля (или нескольких полей), по которому была выполнена фильтрация.
Отфильтрованная база данных может использоваться при печати (печатаются только записи, относящиеся к
выбранному подмножеству) и при построении диаграмм (график строится на базе выбранных записей). В последнем
случае смена критериев фильтрации автоматически изменяет вид диаграммы.
2.2. Расширенная фильтрация.
Если требуется, чтобы диаграмма не зависела от смены критериев фильтрации, необходимо создать копию
соответствующих записей. Создать такую копию можно только с помощью расширенного фильтра. Расширенный
фильтр оперирует с двумя базами данных одинаковой структуры, то есть с одинаковым набором полей. Обычно, для
записи условий фильтрации создают отдельный рабочий лист.
Запись в базе данных условий может содержать пустые поля. Каждое непустое поле задает определенное
условие фильтрации, Для текстовых полей требуется совпадение поля в базе данных с заданным здесь значением. Для
числовых полей можно также указывать знаки сравнения. Условия, заданные в пределах одной записи, должны выполняться
одновременно. Для условий, заданных в рамках разных записей, достаточно выполнения хотя бы одного.
При выборе расширенной фильтрации командой Данные» Фильтр t Расширенный фильтр можно выполнить
фильтрацию на месте или извлечь отфильтрованные записи и поместить их отдельно, на любой рабочий лист любой
открытой рабочей книги.
3. Анализ данных
Подробный анализ данных из таблицы базы данных требует возможности получения сводной информации по
записям базы данных. Фактически, речь идет о совмещении средств фильтрации и итоговых вычислений. Результаты
такого анализа могут быть представлены в виде сводной таблицы или сводной диаграммы. При создании сводной
диаграммы автоматически создается и сводная таблица, содержащая данные, на основе которых строится диаграмма.
3.1. Построение сводной таблицы
Первоначальное построение сводной таблицы производится с помощью Мастера сводной таблицы. Для этого
служит команда Данные - Сводная таблица. Первоначально, как обычно, требуется выделить ячейку, относящуюся к базе
данных.
На первом этапе работы мастера выбирается тип данных (для использования базы данных Excel — это пункт В
списке или базе данных Microsoft Excel) и тип оформления сводных данных — Сводная таблица. Затем, после щелчка на
кнопке Далее, надо уточнить, правильно ли был выбран диапазон, охватывающий базу данных. Если придерживаться
правил ограничения базы данных пустыми ячейками, то автоматический выбор осуществляется безошибочно. После
очередного щелчка на кнопке Далее выбирается местоположение сводной таблицы. В большинстве случаев следует
размещать ее на новом рабочем листе (переключатель Новый лист).
3.2. Содержание сводной таблицы.
Но одновременно с этим надо сформировать содержание и оформление сводной таблицы. Для выбора
содержания надо щелкнуть на кнопке Макет. Сводная таблица состоит из четырех областей: Страница, Строка,
Столбец и Данные.
Каждой области сводной таблицы должны соответствовать одно или несколько полей базы данных.
Исключение делается только для поля Страница, которое можно оставить пустым. При заполнении сводной таблицы
данные из соответствующих полей берутся автоматически. Для заполнения этих полей служат кнопки, названия
которых совпадают с названиями полей базы данных. Поместить кнопку в нужное поле можно методом
перетаскивания. В сводной таблице можно использовать только те поля, которые необходимы. Незадействованные
поля в отборе и вычислениях не участвуют.
Область Страница играет роль внешнего фильтра. Данные в остальной части таблицы относятся к значению,
выбранному в этом поле. Область Строка содержит значения, определяющие содержимое строки таблицы, и задает
второй уровень сортировки. Аналогичным образом, область Столбец определяет содержимое столбцов. В отличие от
области Страница, в сводную таблицу помещаются данные для всех возможных значений полей, указанных в этих
областях.
Область Данные определяет собственно содержимое таблицы, В отличие от всех остальных областей, к данным,
попадающим в ячейку таблицы, применяется функция для итоговых вычислений (по умолчанию — суммирование).
Если необходимо изменить эту функцию, надо дважды щелкнуть на соответствующей кнопке и выбрать нужную операцию
из раскрывающегося списка.
Кроме стандартного набора итоговых функций, можно использовать и дополнительные вычисления. Для этого надо
щелкнуть на кнопке Дополнительно, выбрать нужное значение из раскрывающегося списка Дополнительные вычисления и, если
требуется, указать необходимые параметры. После выбора и настройки данных следует щелкнуть на кнопке ОК.
Оформление сводной таблицы. Для настройки внешнего вида сводной таблицы надо щелкнуть на кнопке
Параметры. Здесь можно задать имя листа сводной таблицы, включить режим суммирования данных по строкам и столбцам,
разрешить доступ к информации, использованной при вычислении, выполнить другие настройки. По их завершении требуется
щелкнуть на кнопке ОК, а затем на кнопке Готово, и сводная таблица строится автоматически.
3.3. Работа со сводной таблицей
При создании сводной таблицы автоматически открывается и панель инструментов Сводные таблицы. В дальнейшем
открывать и закрывать эту панель можно, щелкая правой кнопкой мыши на любой из открытых панелей инструментов и
выбирая пункт Сводные таблицы из контекстного меню.
Если требуется изменить вид сводной таблицы, это можно сделать с помощью кнопок, помещенных в таблице в
соответствующих областях. При щелчке на соответствующей раскрывающей кнопке появляется небольшое окно, в котором
можно отключить некоторые из отображаемых показателей. Для области Страница справа отображается раскрывающийся
список, позволяющий выбрать разные условия фильтрации. Кроме того, щелкнув в пределах сводной таблицы правой
кнопкой мыши и выбрав в контекстном меню пункт Отобразить страницы, можно разделить единую сводную таблицу на набор
таблиц, соответствующих разным значениям, которые можно выбрать в области Страница.
Сводная таблица остается динамически связанной с данными, на основании которых она была построена. Это, в
частности, означает, что для любого значения, приведенного в сводной таблице, можно выяснить, как оно было получено, Для
этого надо дважды щелкнуть на соответствующей ячейке таблицы. При этом автоматически создается новый рабочий лист,
содержащий выборку записей, использованных при вычислении данного значения.
Динамическая связь с исходными данными проявляется и в том, что при изменении данных не требуется заново
формировать сводную таблицу. Достаточно щелкнуть в пределах таблицы правой кнопкой мыши и выбрать в контекстном
меню пункт Обновить данные.
Впрочем, это не относится к часто встречающейся ситуации, когда записи базы данных добавляются или
удаляются. В этом случае необходимо снова запустить
мастер сводных таблиц (проще всего для этого воспользоваться кнопкой Мастер сводных таблиц на панели инструментов
Сводные таблицы), щелкнуть на кнопке Назад и уточнить диапазон ячеек, включающих записи базы данных. После щелчка на кнопке
Готово данные сводной таблицы будут обновлены с учетом изменения числа записей.
3.4. Построение сводных диаграмм
Сводная диаграмма представляет собой диаграмму, построенную на основе сводной таблицы. При создании сводной
диаграммы соответствующая ей сводная таблица создается автоматически, даже если явного запроса на ее создание не было. Для
создания сводной диаграммы по уже существующей сводной таблице проще всего щелкнуть на кнопке Мастер диаграмм на панели
инструментов Сводные таблицы. Чтобы создать сводную диаграмму непосредственно на основе базы данных, надо запустить Мастер
сводных таблиц командой Данные - Сводная таблица и на первом этапе работы мастера установить переключатель Сводная диаграмма.
Далее проще всего сразу щелкнуть на кнопке Готово.
Программа Excel автоматически создаст новые рабочие листы, соответствующие создаваемой сводной таблице и сводной
диаграмме, и откроет лист с диаграммой. Реальной информации этот лист пока что не содержит. Формирование содержимого
диаграммы осуществляется точно так же, как формирование сводной таблицы:
перетаскиванием кнопок, соответствующих полям базы данных, в нужные облает! диаграммы. Таких областей три.
• Область страницы располагается в верхней части диаграммы.
• Область данных совпадает с областью построения.
• Область категорий (включающая строки и столбцы промежуточной сводной таблицы) располагается в
нижней части диаграммы или слева от нее.
Кнопки полей, которые можно перетаскивать, в данном случае располагаются непосредственно на панели
инструментов Сводные таблицы. Чтобы отменить использование поля, его надо переместить из области диаграммы
обратно на панель.
Информация о полях базы данных отображается на диаграмме точно так же, как и в сводной таблице, — с
раскрывающими кнопками. Используя их, можно изменить правила фильтрации или отключить отображение
некоторых значений.
Дальнейшее форматирование и настройка диаграммы осуществляется через контекстные меню. Так, чтобы
изменить вид диаграммы, надо щелкнуть правой кнопкой мыши на области построения и выбрать в контекстном меню
пункт Тип диаграммы. Для изменения формата щелкните на соответствующем элементе диаграммы правой кнопкой мыши
и выберите в контекстном меню соответствующий пункт Формат... В целом, возможности управления
отображением сводных диаграмм несколько ниже, чем для обычных диаграмм, что связано с более сложным внутренним механизмом их построения.
4.
Печать документов Excel
Экранное представление электронной таблицы в Excel значительно отличается от того, что получается при выводе
данных на печать. Это связано с тем, что единый рабочий лист приходится разбивать на фрагменты, размеры
которых зависят от формата печатной страницы. Кроме того, элементы оформления рабочего окна программы: номера
строк и столбцов, условные границы ячеек — обычно не отображаются при печати.
4.1. Предварительный просмотр
Перед печатью рабочего листа следует перейти в режим предварительного просмотра (кнопка Предварительный
просмотр на стандартной панели инструментов). Режим предварительного просмотра не допускает редактирования
документа, но позволяет увидеть его на экране точно в таком виде, в каком он будет напечатан. Кроме того,
режим предварительного просмотра позволяет изменить свойства печатной страницы и параметры печати.
Управление в режиме предварительного просмотра осуществляется при помощи кнопок, расположенных вдоль
верхнего края окна. Кнопка Страница открывает диалоговое окно Параметры страницы, которое служит для
задания параметров печатной страницы: ориентации листа, масштаба (изменение масштаба позволяет управлять
числом печатных страниц, необходимых для документа), размеров полей документа. Здесь же можно задать верхние
и нижние колонтитулы для страницы . На вкладке Лист включается или отключается печать сетки и номеров строк и
столбцов, а также выбирается последовательность разбиения рабочего листа на страницы, когда рабочий лист
превосходит размер печатного листа как по длине, так и по ширине. Изменить величину полей страницы, а также
ширину ячеек при печати можно также непосредственно в режиме предварительного просмотра при помощи кнопки
Поля. При щелчке на этой кнопке на странице появляются маркеры, указывающие границы полей страницы и ячеек.
Изменить положение этих границ можно методом перетаскивания. Завершить работу в режиме предварительного
просмотра можно тремя способами, в зависимости от того, что планируется делать дальше. Щелчок на кнопке
Закрыть позволяет вернуться к редактированию документа. Щелчок на кнопке Разметка страницы служит для
возврата к редактированию документа, но в режиме разметки страницы. В этом режиме документ отображается таким
образом, чтобы наиболее удобно показать не содержимое ячеек таблицы, а область печати и границы страниц
документа. Переключение между режимом разметки и обычным режимом можно также осуществлять через меню Вид
(команды Вид - Обычный и Вид - Разметка страницы). Третий способ — начать печать документа.
4.2. Печать документа
Щелчок на кнопке Печать открывает диалоговое окно Печать, используемое для распечатки документа (его можно
открыть и без предварительного просмотра — с помощью команды Файл - Печать). Это окно содержит стандартные
средства управления, применяемые для печати документов в любых приложениях.
4.3. Выбор области печати
Область печати — эта часть рабочего листа, которая должна быть выведена на печать. По умолчанию область печати
совпадает с заполненной частью рабочего листа и представляет собой прямоугольник, примыкающий к верхнему
левому углу рабочего листа и захватывающий все заполненные ячейки. Если часть данных не должна выводиться на
бумагу, область печати можно задать вручную. Для этого надо выделить ячейки, которые должны быть включены в
область печати, и дать команду Файл - Область печати - Задать. Если текущей является одна-единственная ячейка, то
программа предполагает, что область печати просто не выделена, и выдает предупреждающее сообщение.
Если область печати задана, то программа отображает в режиме предварительного просмотра и распечатывает только
ее. Границы области печати выделяются на рабочем листе крупным пунктиром (сплошной линией в режиме разметки).
Для изменения области печати можно задать новую область или командой Файл - Область печати - Убрать вернуться к
параметрам, используемым по умолчанию.
Границы отдельных печатных страниц отображаются на рабочем листе мелким пунктиром. В некоторых случаях требуется,
чтобы определенные ячейки располагались вместе на одной и той же печатной странице или, наоборот, разделение печатных страниц
происходило в определенном месте рабочего листа. Такая возможность реализуется путем задания границ печатных
страниц вручную. Чтобы вставить разрыв страницы, надо сделать текущей ячейку, которая будет располагаться в левом верхнем
углу печатной страницы, и дать команду Вставка - Разрыв страницы. Программа Excel вставит принудительные разрывы страницы
перед строкой и столбцом, в которых располагается данная ячейка. Если выбранная ячейка находится в первой строке или
столбце А, то разрыв страницы задается только по одному направлению.
ЛЕКЦИЯ № 6. АНАЛИТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ СРЕДСТВАМИ ТАБЛИЧНОГО
ПРОЦЕССОРА MS EXCEL
Вопросы:
1. Технологии обработки экономической информации.
2. Использование процессора Excel для решения задач оптимизации.
3. Прогнозирование в Excel. Финансовый анализ в Excel и построение отчетных таблиц.
1. Технологии обработки экономической информации
Назначение моделей и их классификация по различным признакам.
Целью создания моделей являются описание и оптимизация некоторого объекта или процесса.
Использование моделей обеспечивает проведение анализа в системах поддержки принятия решений. Модели,
базируясь на математической интерпретации проблемы, при помощи определенных алгоритмов способствуют
нахождению информации, полезной для принятия правильных решений.
Модель линейного программирования дает возможность определить наиболее выгодную
производственную программу выпуска нескольких видов продукции при заданных ограничениях на ресурсы.
Использование моделей в составе информационных систем началось с применения статистических
методов и методов финансового анализа, которые реализовывались командами обычных алгоритмических языков.
Позже были созданы специальные языки, позволяющие моделировать ситуации типа "что будет, если?" или "как
сделать, чтобы?". Такие языки, созданные специально для построения моделей, дают возможность построения
моделей определенного типа, обеспечивающих нахождение решения при гибком изменении переменных.
Существует множество типов моделей и способов их классификации, например, по цели использования,
области возможных приложений, способу оценки переменных и т. п.
По цели использования модели подразделяются на:
оптимизационные, связанные с нахождением точек минимума или максимума некоторых показателей
(например, управляющие часто хотят знать, какие их действия ведут к максимизации прибыли или
минимизации затрат),
описательные, описывающие поведение некоторой системы и не предназначенные для целей управления
(оптимизации).
По способу оценки модели классифицируются на:
детерминированные, использующие оценку переменных одним числом при конкретных значениях исходных
данных,
стохастические, оценивающие переменные несколькими параметрами, так как исходные данные заданы
вероятностными характеристиками.
Детерминированные модели более популярны, чем стохастические, потому что они менее дорогие, их
легче строить и использовать. К тому же часто с их помощью получается вполне достаточная информация для
принятия решения.
По области возможных приложений модели разбираются на специализированные, предназначенные для
использования только одной системой, и универсальные – для использования несколькими системами.
Специализированные модели более дорогие, они обычно применяются для описания уникальных систем и
обладают большей точностью.
В системах поддержки принятия решения база моделей состоит из стратегических, тактических и
оперативных моделей, а также математических моделей в виде совокупности модельных блоков, модулей и
процедур, используемых как элементы для их построения (см. рис. 5).
Стратегические модели используются на высших уровнях управления для установления целей
организации, объемов ресурсов, необходимых для их достижения, а также политики приобретения и
использования этих ресурсов. Они могут быть также полезны при выборе вариантов размещения предприятий,
прогнозировании политики конкурентов и т.п.
Для стратегических моделей характерны следующие свойства:
значительная широта охвата,
множество переменных,
представление данных в сжатой агрегированной форме.
Часто эти данные базируются на внешних источниках и могут иметь субъективный характер. Горизонт
планирования в стратегических моделях, как правило, измеряется в годах. Эти модели обычно детерминистские,
описательные, специализированные для использования на одной определенной фирме.
Тактические модели применяются управляющими среднего уровня для распределения и контроля
использования имеющихся ресурсов. Среди возможных сфер их использования следует указать: финансовое
планирование, планирование требований к работникам, планирование увеличения продаж, построение схем
компоновки предприятий. Эти модели применимы обычно лишь к отдельным частям фирмы (например, к системе
производства и сбыта) и могут также включать в себя агрегированные показатели. Временной горизонт,
охватываемый тактическими моделями, ≈ от одного месяца до двух лет. Здесь также могут потребоваться данные
из внешних источников, но основное внимание при реализации данных моделей должно быть уделено внутренним
данным фирмы. Обычно тактические модели реализуются как детерминистские, оптимизационные и
универсальные.
Оперативные модели используются на низших уровнях управления для поддержки принятия
оперативных решений с горизонтом, измеряемым днями и неделями. Возможные применения этих моделей
включают в себя ведение дебиторских счетов и кредитных расчетов, календарное производственное планирование,
управление запасами и т.д. Оперативные модели обычно используют для расчетов внутрифирменные данные. Они,
как правило, детерминистские, оптимизационные и универсальные (т.е. могут быть использованы в различных
организациях).
Математические модели состоят из совокупности модельных блоков, модулей и процедур, реализующих
математические методы. Сюда могут входить процедуры линейного программирования, статистического анализа
временных рядов, регрессионного анализа и т.п. от простейших процедур до сложных ППП. Модельные блоки,
модули и процедуры могут использоваться как поодиночке, так и комплексно для построения и поддержания
моделей.
2. Использование процессора Excel для решения задач оптимизации.
К классу задач линейного программирования (ЛП) относятся такие задачи однокритериальной
оптимизации, в которых переменные являются непрерывными и неотрицательными, целевая функция является
линейной функцией своих аргументов, а ограничения могут быть представлены в форме линейных неравенств и
равенств.
Задача линейного программирования в общем случае формулируется следующим образом:
Определить максимум (минимум) целевой функции F max(min) при заданной системе ограничений (2) и
граничных условий (3):
Fmax(min) =A1*X1+A2*X2+...+An*Xn
(1)
{B11*X1+B12*X2+...+B1n*Xn<=C1
{B21*X1+B22*X2+...+B2n*Xn<=C2
(2)
{Bn1*X1+Bn2*X2+...+Bnn*Xn<=Cn
Xi>=0, i=1, ..., n
(3)
Надстройка Поиск решения является инструментом оптимизации. С помощью этой надстройки можно
найти оптимальное или заданное значение некоторой ячейки путем подбора значений нескольких ячеек,
удовлетворив нескольким граничным условиям.
Целевая ячейка – это ячейка, для которой нужно найти максимальное, минимальное или заданное
значения.
Изменяемые ячейки – это ячейки, от которых зависит значение целевой ячейки. Целевая ячейка должна
содержать формулу, прямо или косвенно зависящую от изменяемых ячеек. Поиск решения подбирает значения
изменяемых ячеек до тех пор, пока не будет найдено решение.
Ограничение – это условие, накладываемое на некоторую ячейку. Ограничения могут быть наложены на
любые ячейки таблицы, включая целевую ячейку и изменяемые ячейки.
Решение задачи средствами Excel состоит из 4 этапов:
1. Создание математической модели задачи ЛП.
2.
Создание формы для ввода условий задачи, ввод в неё исходных данных и зависимостей из математической
модели.
3.
4.
Ввод данных из формы в окно Excel Поиск решения из меню Данные.
Задание параметров поиска и решение задачи.
После завершения процедуры решения в диалоговом окне Результаты поиска решения можно
выполнить один из следующих вариантов:
сохранить найденное решение или восстановить исходные значения на рабочем листе;
сохранить параметры поиска решения в виде модели;
сохранить решение в виде сценария;
просмотреть любой из встроенных отчетов.
Текущие установочные параметры для поиска решения можно сохранить в виде модели. При сохранении
модели запоминаются целевая ячейка, изменяемые ячейки, ограничения и параметры поиска решения.
Найденные решения (значения изменяемых ячеек) можно сохранить в качестве сценария.
С помощью программы Поиск решения можно создать три типа отчетов по результатам, полученным при
успешном завершении процедуры решения. Каждый отчет создается на отдельном листе текущей рабочей книги.
Типы отчетов:
Результаты – отчет содержит целевую ячейку, список изменяемых ячеек, их исходные и конечные значения,
ограничения и сведения о них.
Устойчивость – отчет содержит сведения о степени зависимости модели от изменений величин, входящих в
формулы, применяемые в задаче (формулы модели и формулы ограничений).
Пределы – выводится целевая ячейка и ее значение, а также список изменяемых ячеек, их значений, нижних и
верхних пределов и целевых результатов.
Средства анализа данных.
Анализ «Что-если» позволяет прогнозировать значение какой-либо функции (математической,
финансовой, статистической и др.) при изменении её аргументов.
Существует четыре способа прогнозирования значений с помощью:
таблиц подстановки данных,
сценариев
подбора параметров
поиска решения.
1 способ. Таблица подстановки данных
Таблица подстановки данных представляет собой блок ячеек, в котором выводятся результаты
подстановки различных значений переменных в одну или несколько формул.
Анализ может проводиться для функций с одной переменной или для функций с двумя переменными.
Причем в случае одной переменной можно табулировать сразу несколько функций, зависящих от этой переменной.
2 способ. Диспетчер сценариев
Средства Microsoft Excel позволяют создавать и сохранять в виде сценариев наборы входных значений,
приводящих к различным результатам.
Сценарий – это множество входных значений, называемых изменяемыми ячейками, которое можно
сохранить под указанным именем, а затем применить к модели рабочего листа, чтобы проследить, как значения
изменяемых ячеек влияют на другие значения модели. Для каждого сценария можно определить до 32 изменяемых
ячеек.
3 способ. Подбор параметра
Пусть имеется формула, которая прямо или косвенно зависит от некоторого параметра. Задача состоит в
определении такого значения этого параметра, которое позволяет получить нужный результат формулы. При
подборе параметра значение влияющей ячейки (параметра) изменяется до тех пор пока формула, зависящая от этой
ячейки не возвратит заданное значение.
Математическая суть задачи состоит в решении уравнения X = а, где функция х описывается заданной
формулой, х – искомый параметр, а – требуемый результат формулы.
Подбор параметра можно выполнять графически, перетаскивая точки данных на диаграмме.
При подборе параметра одна из ячеек обязательно должна содержать формулу.
3. Прогнозирование в Excel. Финансовый анализ в Excel и построение отчетных таблиц.
Анализ временных рядов – совокупность математико-статистических методов анализа, предназначенных
для выявления структуры временных рядов и для их прогнозирования. Сюда относятся, в частности, методы
регрессионного анализа. Выявление структуры временного ряда необходимо для того, чтобы построить
математическую модель того явления, которое является источником анализируемого временного ряда.
Прогноз будущих значений временного ряда используется для эффективного принятия решений. Прогноз
(от греч. πρόγνωσις – предвидение, предсказание) – предсказание будущего с помощью научных методов, а также
сам результат предсказания. Прогноз – это научная модель будущего события, явлений и т.п.
Прогнозирование, разработка прогноза, в узком значении – специальное научное исследование
конкретных перспектив развития какого-либо процесса.
Прогнозы делятся:
- по срокам: краткосрочные, среднесрочные, долгосрочные;
- по масштабу: личные, на уровне предприятия (организации), местные, региональные, отраслевые,
мировые (глобальные).
К основным методам прогнозирования относятся:
- статистические методы;
- экспертные оценки (метод Дельфи);
- моделирование.
Прогнозирование – процесс разработки прогноза.
Этап прогнозирования – часть процесса разработки прогнозов, характеризующаяся своими задачами,
методами и результатами. Деление на этапы связано со спецификой построения систематизированного описания
объекта прогнозирования, сбора данных, с построением модели, верификацией прогноза.
Прием прогнозирования – одна или несколько математических или логических операций, направленных
на получение конкретного результата в процессе разработки прогноза. В качестве приема могут выступать
сглаживание динамического ряда, определение компетентности эксперта, вычисление средневзвешенного
значения оценок экспертов и т. д.
Модель прогнозирования – модель объекта прогнозирования, исследование которой позволяет получить
информацию о возможных состояниях объекта прогнозирования в будущем и (или) путях и сроках их
осуществления.
Метод прогнозирования – способ исследования объекта прогнозирования, направленный на разработку
прогноза. Методы прогнозирования являются основанием для методик прогнозирования.
Методика прогнозирования – совокупность специальных правил и приемов (одного или нескольких
методов) разработки прогнозов.
Прогнозирующая система – система методов и средств их реализации, функционирующая в соответствии с
основными принципами прогнозирования. Средствами реализации являются экспертная группа, совокупность
программ и т. д. Прогнозирующие системы могут быть автоматизированными и неавтоматизированными.
Прогнозный вариант – один из прогнозов, составляющих группу возможных прогнозов.
Объект прогнозирования – процесс, система, или явление, о состоянии которого даётся прогноз.
Характеристика объекта прогнозирования – качественное или количественное отражение какого-либо
свойства объекта прогнозирования.
Переменная объекта прогнозирования – количественная характеристика объекта прогнозирования,
которая является или принимается за изменяемую в течение периода основания и (или) периода упреждения
прогноза.
Период основания прогноза – промежуток времени, за который используют информацию для разработки
прогноза. Этот промежуток времени называют также периодом предыстории.
Период упреждения прогноза – промежуток времени, на который разрабатывается прогноз.
Прогнозный горизонт – максимально возможный период упреждения прогноза заданной точности.
Точность прогноза – оценка доверительного интервала прогноза для заданной вероятности его
осуществления.
Достоверность прогноза – оценка вероятности осуществления прогноза для заданного доверительного
интервала.
Ошибка прогноза – апостериорная величина отклонения прогноза от действительного состояния объекта.
Источник ошибки прогноза – фактор, способный привести к появлению ошибки прогноза. Различают
источники регулярных и нерегулярных ошибок.
Верификация прогноза – оценка достоверности и точности или обоснованности прогноза.
Статистические методы прогнозирования – научная и учебная дисциплина, к основным задачам которой
относятся разработка, изучение и применение современных математико-статистических методов прогнозирования
на основе объективных данных; развитие теории и практики вероятностно-статистического моделирования
экспертных методов прогнозирования; методов прогнозирования в условиях риска и комбинированных методов
прогнозирования с использованием совместно экономико-математических и эконометрических (как математикостатистических, так и экспертных) моделей. Научной базой статистических методов прогнозирования является
прикладная статистика и теория принятия решений.
Простейшие методы восстановления используемые для прогнозирования зависимостей исходят из
заданного временного ряда, т. е. функции, определённой в конечном числе точек на оси времени. Временной ряд
при этом часто рассматривается в рамках той или иной вероятностной модели, вводятся другие факторы
(независимые переменные), помимо времени, например, объем денежной массы. Временной ряд может быть
многомерным. Основные решаемые задачи – интерполяция и экстраполяция. Метод наименьших квадратов в
простейшем случае (линейная функция от одного фактора) был разработан К. Гауссом в 1794–1795 гг. Могут
оказаться полезными предварительные преобразования переменных, например, логарифмирование. Наиболее
часто используется метод наименьших квадратов при нескольких факторах.
Оценивание точности прогноза (в частности, с помощью доверительных интервалов) – необходимая часть
процедуры прогнозирования. Обычно используют вероятностно-статистические модели восстановления
зависимости, например, строят наилучший прогноз по методу максимального правдоподобия. Разработаны
параметрические (обычно на основе модели нормальных ошибок) и непараметрические оценки точности прогноза
и доверительные границы для него (на основе Центральной Предельной Теоремы теории вероятностей).
Применяются также эвристические приемы, не основанные на вероятностно-статистической теории: метод
скользящих средних, метод экспоненциального сглаживания.
Многомерная регрессия, в том числе с использованием непараметрических оценок плотности
распределения – основной на настоящий момент статистический аппарат прогнозирования. Нереалистическое
предположение о нормальности погрешностей измерений и отклонений от линии (поверхности) регрессии
использовать не обязательно; однако для отказа от предположения нормальности необходимо опереться на иной
математический аппарат, основанный на многомерной Центральной Предельной Теореме теории вероятностей,
технологии линеаризации и наследования сходимости. Он позволяет проводить точечное и интервальное
оценивание параметров, проверять значимость их отличия от 0 в непараметрической постановке, строить
доверительные границы для прогноза.
Рассматривая временной ряд как множество результатов наблюдений изучаемого процесса, проводимых
последовательно во времени, в качестве основных целей исследования временных рядов можно выделить:
выявление и анализ характерного изменения параметра у, оценка возможного изменения параметра в будущем
(прогноз).
Значения временного ряда можно представить в виде:
,
где f(t) – неслучайная функция, описывающая связь оценки математического ожидания со временем,
t – случайная величина, характеризующая отклонение уровня от f(t).
Неслучайная функция f(t) называется трендом. Тренд отражает характерное изменение (тенденцию) yt за
некоторый промежуток времени. На практике в качестве тренда выбирают несколько возможных теоретических
или эмпирических моделей. Могут быть выбраны, например, линейная, параболическая, логарифмическая,
показательная функции. Для выявления типа модели на координатную плоскость наносят точки с координатами
(t, yt) и по характеру расположения точек делают вывод о виде уравнения тренда. Для получения уравнения
тренда применяют различные методы: сглаживание с помощью скользящей средней, метод наименьших квадратов
и другие.
Метод регрессионного анализа
Одним из методов, используемых для прогнозирования, является регрессионный анализ.
Регрессия – это статистический метод, который позволяет найти уравнение, наилучшим образом
описывающее совокупность данных, заданных таблицей.
X
X1
X2
…
Xi
…
Xn
Y
Y1
Y2
…
Yi
…
Yn
а) Линейная регрессия
б) Нелинейная регрессия
Рисунок 7.1
На графике данные отображаются точками. Регрессия позволяет подобрать к этим точкам кривую у=f(x),
которая вычисляется по методу наименьших квадратов и даёт максимальное приближение к табличным данным.
По полученному уравнению можно вычислить (сделать прогноз) значение функции у для любого значения
х , как внутри интервала изменения х из таблицы(интерполяция), так и вне его (экстраполяция).
Линейная регрессия
Линейная регрессия дает возможность наилучшим образом провести прямую линию через точки
одномерного массива данных (рис.7.1 а).
Уравнение с одной независимой переменной, описывающее прямую линию, имеет вид:
y=mx+b,
(1)
где:
x – независимая переменная;
у – зависимая переменная;
m – характеристика наклона прямой;
b – точка пересечения прямой с осью у.
Например, имея данные о реализации товаров за год с помощью линейной регрессии можно получить
коэффициенты прямой (1) и, предполагая дальнейший линейный рост, получить прогноз реализации на
следующий год.
Нелинейная регрессия
Нелинейная регрессия позволяет подбирать к табличным данным нелинейное уравнение (рис. 7.1, б.) –
параболу, гиперболу и др. Excel реализует нелинейность в виде экспоненты, т.е. подбирает кривую вида:
y b mx ,
(2)
которая позволяет наилучшим образом провести экспоненциальную кривую по точкам данных, которые
изменяются нелинейно.
Так, например, данные о росте населения почти всегда лучше описываются не прямой линией, а
экспоненциальной кривой. При этом нужно помнить, что достоверное прогнозирование возможно только на
участках подъёма или спуска кривой (при отрицательных значениях х), т.к. сама кривая (2) изменяется монотонно,
без точек перегиба. Например, делать экспоненциальный прогноз для функции, изменяющейся синусоидально,
можно только на участках подъёма или спуска функции, для чего её разбивают на соответствующие интервалы.
Множественная регрессия
Множественная регрессия представляет собой анализ более одного набора данных аргумента х и даёт
более реалистичные результаты.
Множественный регрессионный анализ также может быть как линейным, так и экспоненциальным.
Уравнение регрессии (1) и (2) примут соответственно вид (3) и (4):
y=m1x1+m2x2+…+mnxn + b
(3)
y=b*m1x1*m2x2*…*mnxn
(4)
где:
х1,х2, …, хn – независимые переменные.
С помощью множественной регрессии, например, можно оценить стоимость дома в некотором районе,
основываясь на данных его площади, размерах участка земли, этажности, вида из окон и т.д.
Использование функций регрессии
В Excel имеется 5 функций для линейной регрессии ЛИНЕЙН(…)(LINEST), ТЕНДЕНЦИЯ(…),
ПРЕДСКАЗ(…), НАКЛОН(…), СТОШУХ(…)) и 2 функции для экспоненциальной регрессии – ЛГРФПРИБЛ(…)
и РОСТ(…).
Рассмотрим некоторые из них.
Функция ЛИНЕЙН((LINEST) вычисляет коэффициент m и постоянную b для уравнения прямой (1).
Синтаксис функции:
=ЛИНЕЙН(изв._знач._у;изв._знач._х;конст;стат)
(5)
Известные_значения_у и известные_значения_х – это множество значений у и необязательное
множество значений х (их вводить необязательно), которые уже известны для соотношения (1).
Константа – это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.
Если константа имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.
Статистика – это логическое значение, которое указывает требуется ли вывести дополнительную
статистику по регрессии.
Если статистика имеет значение ЛОЖЬ (или 0), то функция ЛИНЕЙН возвращает только значения
коэффициентов m и b, в противном случае выводится дополнительная регрессионная статистика в виде табл. 7.1:
Таблица 7.1 Общий вид выводимого массива статистических показателей при использовании функции
ЛИНЕЙН((LINEST)
mn
sen
r2
F
ssreg
mn-1
sen-1
sey
df
ssresid
…
…
…
…
…
m2
se2
#Н/Д
#Н/Д
#Н/Д
m1
se1
#Н/Д
#Н/Д
#Н/Д
b
seb
#Н/Д
#Н/Д
#Н/Д
где:
se1, se2,…,sen – стандартные значения ошибок для коэффициентов
m1, m2,…, mn;
seb – стандартное значение ошибки для постоянной b (seb равно #Н/Д, т.е. «нет допустимого значения», если
конст. имеет значение ЛОЖЬ);
r2 – коэффициент детерминированности. Сравниваются фактические значения у и значения, получаемые из
уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности,
нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия
между фактическим и оценочным значениями у. В противоположном случае, если коэффициент
детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений у;
sey – стандартная ошибка для оценки у (предельное отклонение для у);
F – F-cтатистика, или F-наблюдаемое значение. Она используется для определения того, является ли
наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет;
df – степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической
таблице. Для определения уровня надёжности модели нужно сравнить значения в таблице с F-статистикой,
возвращаемой функцией ЛИНЕЙН;
ssreg – регрессионная сумма квадратов;
ssresid – остаточная сумма квадратов;
#Н/Д – ошибка, означающая «нет доступного значения».
Любую прямую можно задать её наклоном m и у-пересечением:
Наклон (m). Для того, чтобы определить наклон прямой, обычно обозначаемый через m, нужно взять 2
точки прямой (х1,у1) и (х2,у2); тогда наклон равен m=(y2-y1)/(x2-x1).
у-пересечение (b) прямой, обычно обозначаемое через b, является значение у для точки, в которой прямая
пересекает ось у.
Уравнение прямой имеет вид: у=mx+b.
Если известны значения m и b, то можно вычислить любую точку на прямой, подставляя значения у или х в
уравнение. Можно также использовать функцию ТЕНДЕНЦИЯ (TREND) (см. ниже).
Если для функции у имеется только одна независимая переменная х, можно получить наклон и упересечение непосредственно, используя следующие формулы:
Наклон m:
ИНДЕКС(ЛИНЕЙН(изв_знач_у;изв_знач_х); 1);
у-пересечение b:
ИНДЕКС(ЛИНЕЙН(изв_знач_у;изв_знач_х); 2).
Точность аппроксимации с помощью прямой, вычисленной функцией ЛИНЕЙН, зависит от степени
разброса данных. Чем ближе данные к прямой, тем более точными являются модель, используемая функцией
ЛИНЕЙН, и значения, получаемые из уравнения прямой.
В случае экспоненциальной регрессии аналогом функции (5) является функция ЛГРФПРИБЛ(LOGEST):
=ЛГРФПРИБЛ(изв_знач_у;изв_знач_х;конст;стат),
(6)
которая отличается лишь тем, что вычисляет коэффициенты m и b для экспоненциальной кривой (2).
Функция ТЕНДЕНЦИЯ(TREND) имеет вид:
=ТЕНДЕНЦИЯ(изв_знач_у;изв_знач_х;нов_знач_х;конст)
(7)
возвращает числовые значения, лежащие на прямой линии, наилучшим образом аппроксимирующие известные
табличные данные.
Новые_значения_х – это те, для которых необходимо вычислить соответствующие значения у.
Если параметр новые_значения_х пропущен, то считается, что он совпадает с известными х. Назначение
остальных параметров функции ТЕНДЕНЦИЯ совпадает с описанными выше.
В случае экспоненциальной регрессии аналогом функции (7) является функция РОСТ(GROWTH):
=РОСТ(изв_знач_у;изв_знач_х;конст).
(8)
Функция СТОШУХ
=СТОШУХ(изв_знач_у;изв_знач_х)
(9)
возвращает стандартную погрешность регрессии – меру погрешности предсказываемого значения у для заданного
значения х.
Лекция № 7 БАЗЫ ДАННЫХ КАК СРЕДСТВО ХРАНЕНИЯ И ОБРАБОТКИ ИНФОРМАЦИИ.
Вопросы:
1. Назначение и функции систем управления базами данных (СУБД).
2. Виды СУБД. Общая характеристика возможностей использования
документационном обеспечении управления.
3. Обобщенная технология работы с СУБД.
технологий
баз
данных в
1. Назначение и функции систем управления базами данных (СУБД).
В широком смысле слова база данных - это совокупность сведений о конкретных объектах реального
мира в какой-либо предметной области. Под предметной областью принято понимать часть реального мира,
подлежащего изучению для организации управления и автоматизации, например, предприятие, вуз и т.д.
База данных (БД) - это поименованная совокупность структурированных данных, относящихся к
определенной предметной области.
В современной технологии создание базы данных, ее поддержка и обеспечение доступа пользователей к
ней осуществляются централизованно с помощью специального программного инструментария - системы
управления базами данных.
Система управления базами данных (СУБД) - это комплекс программных и языковых средств,
необходимых для создания баз данных, поддержания их в актуальном состоянии и организации поиска в них
необходимой информации.
Создавая базу данных, пользователь стремится упорядочить информацию по различным признакам и
быстро извлекать выборку с произвольным сочетанием признаков. Сделать это возможно, только если данные
структурированы.
Структурирование – это введение соглашений о способах представления данных.
Неструктурированными называют данные, записанные, например, в текстовом файле.
Сложно организовать поиск необходимых данных, хранящихся в неструктурированном виде, а
упорядочить подобную информацию практически не представляется реальным.
Чтобы автоматизировать поиск и систематизировать эти данные, необходимо выработать определенные
соглашения о способах представления данных, т.е. дату рождения нужно записывать одинаково для каждого
студента, она должна иметь одинаковую длину и определенное место среди остальной информации. Эти же
замечания справедливы и для остальных данных (номер личного дела, фамилия, имя. отчество).
1. Классификация баз данных
По технологии обработки данных базы данных подразделяются на:
централизованные и
распределенные.
Централизованная база данных хранится в памяти одной вычислительной системы. Если эта вычислительная
система является компонентом сети ЭВМ, возможен распределенный доступ к такой базе. Такой способ
использования баз данных часто применяют в локальных сетях ПК.
Распределенная база данных состоит из нескольких, возможно пересекающихся или даже дублирующих друг
друга частей, хранимых в различных ЭВМ вычислительной сети. Работа с такой базой осуществляется с помощью
системы управления распределенной базой данных (СУРБД).
По способу доступа к данным различают базы данных с локальным доступом и базы данных с удаленным
(сетевым доступом).
Системы централизованных баз данных с сетевым доступом предполагают различные архитектуры подобных
систем:
файл-сервер;
клиент-сервер.
Файл-сервер. Для такой архитектуры БД характерно выделение одной из машин сети в качестве центральной
(сервер файлов), где хранится совместно используемая централизованная БД. Все другие машины сети выполняют
функции рабочих станций, с помощью которых поддерживается доступ к централизованной базе данных.
Файлы базы данных в соответствии с пользовательскими запросами передаются на рабочие станции, где
производится обработка. Пользователи могут создавать также на рабочих станциях локальные БД, которые
используются ими монопольно.
Рис.1. Схема обработки информации в БД по принципу файл-сервер
Клиент-сервер. В этой концепции центральная машина (сервер базы данных) кроме хранения централизованной
базы данных, должна обеспечивать выполнение основного объема обработки данных.
Запрос на данные, выдаваемый клиентом (рабочей станцией), порождает поиск и извлечение данных на сервере.
Извлеченные данные (но не файлы) транспортируются по сети от сервера к клиенту. Спецификой архитектуры
клиент-сервер является использование языка запросов SQL.
Рис.2. Схема обработки информации в БД по принципу клиент-сервер
2. Структурные элементы базы данных
Основными структурными элементами базы данных являются: поле, запись, файл (таблица) (рис. 5).
п о л е, - элементарная единица логической организации данных, которая соответствует неделимой единице
информации - реквизиту.
Запись - совокупность логически связанных полей.
Экземпляр записи - отдельная реализация записи, содержащая конкретные значения ее полей.
Файл (таблица) - совокупность экземпляров записей одной структуры.
Рис. 3.Основные структурные элементы БД
Для описания поля используются следующие характеристики:
и м я, например. Фамилия, Имя, Отчество, Дата рождения;
т и п, например, символьный, числовой, календарный;
д л и н а, например, 15 байт, причем будет определяться максимально возможным количеством символов
т о ч н о с т ь, для числовых данных, например два десятичных знака для отображения дробной части числа.
В структуре записи файла указываются поля, значения которых являются ключами:
первичными (ПК), которые идентифицируют экземпляр записи, и
вторичными (ВК), которые выполняют роль поисковых или группировочных признаков (по значению
вторичного ключа можно найти несколько записей).
3. Виды моделей данных
Ядром любой базы данных является модель данных.
С помощью модели данных могут быть представлены объекты предметной области и взаимосвязи между ними.
Модель данных - совокупность структур данных и операций их обработки.
СУБД основывается на использовании трех основных типов моделей данных:
иерархической,
сетевой и
реляционной.
3.1. Иерархическая модель данных
Иерархическая структура представляет совокупность элементов, связанных между собой по определенным
правилам.
Объекты, связанные иерархическими отношениями, образуют ориентированный граф (перевернутое дерево), рис.
8.
К основным понятиям иерархической структуры относятся:
уровень,
элемент (узел),
связь.
Узел - это совокупность атрибутов данных, описывающих некоторый объект.
На схеме иерархического дерева узлы представляются вершинами графа. Каждый узел на более низком уровне
связан только с одним узлом, находящимся на более высоком уровне.
Иерархическое дерево имеет только одну вершину (корень дерева), не подчиненную никакой другой вершине и
находящуюся на самом верхнем (первом) уровне. Зависимые (подчиненные) узлы находятся на втором, третьем и
т.д. уровнях. Количество деревьев в базе данных определяется числом корневых записей.
К каждой записи базы данных существует только один (иерархический) путь от корневой записи.
Например, как видно из рис. 4, для записи С4 путь проходит через записи А и ВЗ.
Рис. 4. Графическое изображение иерархической структуры БД
Пример 4. ( рис. 5.) иллюстрирует использование иерархической модели базы данных.
Рис. 5. Пример иерархической структуры БД
Для рассматриваемого примера иерархическая структура правомерна, так как каждый студент учится в
определенной (только одной) группе, которая относится к определенному (только одному) институту.
3.2. Сетевая модель данных
В сетевой структуре при тех же основных понятиях (уровень, узел, связь) каждый элемент может быть связан с
любым другим элементом (рис. 6).
Рис. 6. Графическое изображение сетевой структуры
Пример 5. Примером сложной сетевой структуры может служить структура базы данных, содержащей сведения о
студентах, участвующих в научно-исследовательских работах (НИРС). Возможно участие одного студента в
нескольких НИРС, а также участие нескольких студентов в разработке одной НИРС.
Графическое изображение описанной в примере сетевой структуры, состоящей только из двух типов записей,
показано на рис. 7. Единственное отношение представляет собой сложную связь между записями в обоих
направлениях.
Рис. 7. Пример сетевой структуры БД
3.3. Реляционная модель данных
Понятие реляционный (англ.relation - отношение). Эти модели характеризуются простотой структуры данных,
удобным для пользователя табличным представлением и возможностью использования формального аппарата
алгебры отношений и реляционного исчисления для обработки данных.
Реляционная модель ориентирована на организацию данных в виде двумерных таблиц.
Каждая реляционная таблица представляет собой двумерный массив и обладает следующими свойствами:
каждый элемент таблицы - один элемент данных;
все элементы в столбце имеют одинаковый тип (числовой, символьный и т.д.) и длину;
каждый столбец имеет уникальное имя;
одинаковые строки в таблице отсутствуют;
порядок следования строк и столбцов может быть произвольным.
Пример 6. Реляционной таблицей можно представить информацию о студентах, обучающихся в вузе (рис. 8).
N личного дела
Фамилия
Имя
Отчество
Дата рождения
Группа
16493
Сергеев
Петр
Михайлович
01.01.76
111
16593
Петрова
Анна
Владимировна
15.03.75
112
16693
Анохин
Андрей
Борисович
14.04.76
111
Рис. 8. Пример реляционной таблицы
Отношения представлены в виде таблиц, строки которых соответствуют записям (кортежам), а столбцы – полям
(атрибутам отношений).
Поле, каждое значение которого однозначно определяет соответствующую запись, называется простым ключом
(ключевым полем).
Если записи однозначно определяются значениями нескольких полей, то такая таблица базы данных имеет
составной ключ.
В примере, на рис. 8, ключевым полем таблицы является "N личного дела".
Чтобы связать две реляционные таблицы, необходимо:
ключ первой таблицы ввести в состав ключа второй таблицы (возможно совпадение ключей);
в противном случае нужно ввести в структуру первой таблицы внешний ключ - ключ второй таблицы.
Пример 7. На рис. 13 показан пример реляционной модели, построенной на основе отношений: СТУДЕНТ,
СЕССИЯ, СТИПЕНДИЯ.
Рис.9. Пример реляционной модели
СТУДЕНТ (Номер, Фамилия, Имя, Отчество, Пол, Дата рождения. Группа);
СЕССИЯ (Номер. Оценка 1, Оценка 2, Оценка 3, Оценка 4, Результат):
СТИПЕНДИЯ (Результат, Процент),
Таблицы СТУДЕНТ И СЕССИЯ имеют совпадающие ключи (Номер), что дает возможность легко организовать
связь между ними.
Таблица СЕССИЯ имеет первичный ключ Номер и содержит внешний ключ Результат, который обеспечивает ее
связь с таблицей СТИПЕНДИЯ.
5.
РЕЛЯЦИОННЫЙ ПОДХОД К ПОСТРОЕНИЮ ИНФОЛОГИЧЕСКОЙ МОДЕЛИ
5.1. ПОНЯТИЕ ИНФОРМАЦИОННОГО ОБЪЕКТА
Информационный объект - это описание некоторой сущности (реального объекта, явления, процесса, события) в
виде совокупности логически связанных реквизитов (информационных элементов).
Такими сущностями для информационных объектов могут служить: цех, склад, материал, вуз, студент, сдача
экзаменов и т.д.
Информационный объект определенного состава и структуры образует класс (тип), которому присваивается
уникальное имя, например Студент, Сессия, Стипендия.
Информационный объект имеет множество реализации - экземпляров, каждый из которых представлен
совокупностью конкретных значений реквизитов и идентифицируется значением ключа (простого - один реквизит
или составного - несколько реквизитов). Остальные реквизиты информационного объекта являются
описательными. При этом одни и те же реквизиты в одних информационных объектах могут быть ключевыми, а в
других - описательными. Информационный объект может иметь несколько ключей.
5.2. НОРМАЛИЗАЦИЯ ОТНОШЕНИЙ
5.2.1. Понятие нормализации отношений
Одни и те же данные могут группироваться в таблицы (отношения) различными способами, т.е. возможна
организация различных наборов отношений взаимосвязанных информационных объектов. Группировка атрибутов
в отношениях должна быть рациональной, т.е. минимизирующей дублирование данных и упрощающей процедуры
их обработки и обновления.
Определенный набор отношений обладает лучшими свойствами при включении, модификации, удалении
данных, чем все остальные возможные наборы отношений, если он отвечает требованиям нормализации
отношений [1].
Нормализация отношений - формальный аппарат ограничений на формирование отношений (таблиц),
который позволяет устранить дублирование, обеспечивает непротиворечивость хранимых в базе данных,
уменьшает трудозатраты на ведение (ввод, корректировку) базы данных.
В. Коддом выделены три нормальные формы отношений и предложен механизм, позволяющий любое
отношение преобразовать к третьей (самой совершенной)∙нормальной форме [2].
Первая нормальная форма
Отношение называется нормализованным или приведенным к первой нормальной форме, если все его
атрибуты простые (далее неделимы). Преобразование отношения к первой нормальной форме может привести к
увеличению количества реквизитов (полей) отношения и изменению ключа.
Например, отношение Студент = (Номер, Фамилия, Имя, Отчество, Дата, Группа) находится в первой
нормальной форме.
Вторая нормальная форма
Чтобы рассмотреть вопрос приведения отношений ко второй нормальной форме, необходимо дать
пояснения к таким понятиям, как функциональная зависимость и полная функциональная зависимость.
Описательные реквизиты информационного объекта логически связаны с общим для них ключом, эта
связь носит характер функциональной зависимости реквизитов.
Функциональная зависимость реквизитов - зависимость, при которой в экземпляре информационного
объекта определенному значению ключевого реквизита соответствует только одно значение описательного
реквизита.
Такое определение функциональной зависимости позволяет при анализе всех взаимосвязей реквизитов
предметной области выделить самостоятельные информационные объекты.
Пример 15.11. Пример графического изображения функциональных зависимостей реквизитов Студент
показан на рис. 15.17, на котором ключевой реквизит указан ".
Рис.15.17. Графическое изображение функциональной зависимости реквизитов
В случае составного ключа вводится понятие функционально полной зависимости.
Функционально полная зависимость не ключевых атрибутов заключается в том, что каждый не
ключевой атрибут функционально зависит от ключа, но не находится в функциональной зависимости ни от какой
части составного ключа.
Отношение будет находиться во второй нормальной форме, если оно находится в первой нормальной
форме, и каждый не ключевой атрибут функционально полно зависит от составного ключа.
Пример 15.12. Отношение Студент = (Номер, Фамилия, Имя, Отчество, Дата, Группа) находится в первой
и во второй нормальной форме одновременно, так как описательные реквизиты однозначно определены и
функционально зависят от ключа Номер. Отношение Успеваемость = (Номер, Фамилия, Имя, Отчество,
Дисциплина, оценка) находится в первой нормальной форме и имеет составной ключ Номер + Дисциплина. Это
отношение не находится во второй нормальной форме, так как атрибуты Фамилия, Имя, Отчество не находятся в
полной функциональной зависимости с составным ключом отношения.
Третья нормальная форма
Понятие третьей нормальной формы основывается на понятии не транзитивной зависимости.
Транзитивная зависимость наблюдается в том случае, если один из двух описательных реквизитов
зависит от ключа, а другой описательный реквизит зависит от первого описательного реквизита.
Отношение будет находиться в третьей нормальной форме, если оно находится во второй нормальной
форме, и каждый не ключевой атрибут не транзитивно зависит от первичного ключа.
Пример 15.13. Если в состав описательных реквизитов информационного объекта Студент включить
фамилию старосты группы (Староста), которая определяется только номером группы, то одна и та же фамилия
старосты будет многократна повторяться в разных экземплярах данного информационного объекта. В этом случае
наблюдаются затруднения в корректировке фамилии старосты в случае назначения нового старосты, а также
неоправданный расход памяти для хранения дублированной информации.
Для устранения транзитивной зависимости описательных реквизитов необходимо провести "расщепление"
исходного информационного объекта. В результате расщепления часть реквизитов удаляется из исходного
информационного объекта и включается в состав других (возможно, вновь созданных) информационных объектов.
Пример 15.14. "Расщепление" информационного объекта, содержащего транзитивную зависимость
описательных реквизитов, показано на рис. 15.18. Как видно из рис. 15.17, исходный информационный объект
Студент группы представляется в виде совокупности правильно структурированных информационных объектов
(Студент и Группа), реквизитный состав которых тождественен исходному объекту. Отношение Студент = (Номер,
Фамилия, Имя, Отчество, Дата, Группа) находится одновременно в первой, второй и третьей нормальной форме.
Рис. 15.18. Пример "расщепления" структуры информационного объекта
6. ТИПЫ СВЯЗЕЙ
Все информационные объекты предметной области связаны между собой. Различаются связи нескольких типов,
для которых введены следующие обозначения:
один к одному (1:1);
один ко многим (1:М);
многие ко многим (М:М).
Рассмотрим эти типы связей на примере.
Дана совокупность информационных объектов, отражающих учебный процесс в вузе:
СТУДЕНТ (Номер, Фамилия, Имя, Отчество, Пол, Дата рождения. Группа)
СЕССИЯ (Номер, Оценка1, Оценка2, ОценкаЗ, Оценка4, Результат) СТИПЕНДИЯ (Результат, Процент)
ПРЕПОДАВАТЕЛЬ (Код преподавателя, Фамилия, Имя, Отчество)
Связь о один к одному (1:1) предполагает, что в каждый момент времени одному экземпляру информационного
объекта А соответствует не более одного экземпляра информационного объекта В и наоборот.
Рис. 10. Графическое изображение реального отношения 1:1
Примером связи 1:1 может служить связь между информационными объектами СТУДЕНТ и СЕССИЯ:
СТУДЕНТ <->СЕССИЯ
Каждый студент имеет определенный набор экзаменационных оценок в сессию.
При связи один ко многим (1:М) одному экземпляру информационного объекта А соответствует 0, 1 или более
экземпляров объекта В, но каждый экземпляр объекта В связан не более чем с 1 экземпляром объекта А.
Рис. 11. Графическое изображение реального отношения 1:М
Примером связи 1:М служит связь между информационными объектами СТИПЕНДИЯ И СЕССИЯ:
СТИПЕНДИЯ <->>СЕССИЯ
Установленный размер стипендий по результатам сдачи сессии может повторяться многократно для различных
студентов.
Связь многие ко многим (М:М) предполагает, что в каждый момент времени одному экземпляру
информационного объекта А соответствует 0, 1 или более экземпляров объекта В и наоборот.
Рис. 12 Графическое изображение реального отношения М:М
Примером данного отношения служит связь между информационными объектами
ПРЕПОДАВАТЕЛЬ:
СТУДЕНТ <<->> ПРЕПОДАВАТЕЛЬ
Один студент обучается у многих преподавателей, один преподаватель обучает многих студентов.
7.
СТУДЕНТ
и
ПОСТРОЕНИЕ ИНФОЛОГИЧЕСКОЙ МОДЕЛИ
7.1. Архитектура СУБД
Базы данных и программные средства их создания и ведения (СУБД) имеют многоуровневую архитектуру, рис. 13.
Рис. 13. Многоуровневое представление данных БД под управлением СУБД
Различают следующие уровни представления данных баз данных, которым соответствуют модели аналогичного
назначения:
концептуальный,
внутренний и
внешний.
Концептуальный уровень соответствует логическому аспекту представления данных предметной области в
интегрированном виде.
Концептуальная модель состоит из множества экземпляров различных типов данных, структурированных в
соответствии с требованиями СУБД к логической структуре базы данных.
Внутренний уровень отображает требуемую организацию данных в среде хранения и соответствует физическому
аспекту представления данных. Внутренняя модель состоит из отдельных экземпляров записей, физически
хранимых во внешних носителях.
Внешний уровень поддерживает частные представления данных, требуемые конкретным пользователям.
Внешняя модель является подмножеством концептуальной модели, Возможно пересечение внешних моделей по
данным. Частная логическая структура данных для отдельного приложения (задачи) или пользователя
соответствует внешней модели или подсхеме БД. С помощью внешних моделей поддерживается
санкционированный доступ к данным БД.
Таким образом БД реализует принцип относительной независимости логической и физической организации
данных.
7.2. Понятие информационно-логической модели
Проектирование базы данных состоит в построении комплекса взаимосвязанных моделей данных.
Рассмотрим
основные
этапы
процесса
проектирования
базы
(рис. 14).
данных
Рис. 14. Этапы процесса проектирования базы данных
Важнейшим этапом проектирования базы данных является разработка информационно-логической модели
предметной области, не ориентированной на СУБД.
Информационно-логическая (инфологическая) модель предметной области отражает предметную область в
виде совокупности информационных объектов и их структурных связей.
Инфологическая модель предметной области строится первой. Предварительная инфологическая модель строится
еще на предпроектной стадии и затем уточняется на более поздних стадиях проектирования баз данных. Затем на
ее основе строятся концептуальная (логическая), внутренняя (физическая) и внешняя модели.
Пример 13. Графическая форма информационно-логической модели, связывающей информационные объекты:
Студент, Сессия, Стипендия, Преподаватель.
Рис. 15. Пример графического представления инфологической модели.
ОБОБЩЕННАЯ ТЕХНОЛОГИЯ РАБОТЫ
Общее представление об этапах технологии
Каждая конкретная СУБД имеет свои особенности, которые необходимо учитывать.
Однако имея представление о функциональных возможностях любой СУБД, можно представить
обобщенную технологию работы пользователя в этой среде.
В качестве основных этапов обобщенной технологии работы с СУБД которая схематично представлена на
рис. 15.27, можно выделить следующие:
создание структуры таблиц базы данных;
ввод и редактирование данных в таблицах;
обработка данных, содержащихся в таблицах;
вывод информации из базы;
Рассмотрим выделенные этапы более подробно.
Рис. 15.27. Схема обобщенной технологии работы в СУВД
Создание структуры таблиц базы данных
При формировании новой таблицы базы данных работа с СУБД начинается с создания структуры таблицы.
Этот процесс включает определение перечня полей, из которых состоит каждая запись таблицы, а также типов и
размеров полей.
Практически все используемые СУБД хранят данные следующих типов: текста (символьный), числовой,
календарный, логический, примечание. Некоторые СУБД формируют поля специального типа, содержащие
уникальные номера записей и используемые определения ключа,
СУБД, предназначенные для работы в Windows, могут формировать поля типа объекта OLE, которые
используются для хранения рисунков, графиков, таблиц.
Если обрабатываемая база данных включает несколько взаимосвязанных таблиц необходимо определение
ключевого поля в каждой таблице, а также полей, с помощью которых будет организована связь между таблицами.
Создание структуры таблицы не связано с заполнением таблиц данными, поэтому две операции можно
разнести во времени.
Ввод и редактирование данных
Заполнение таблиц данными возможно как непосредственным вводом данных, так и в результате
выполнения программ и запросов.
Практически все СУБД позволяют вводить и корректировать данные в таблицах двумя способами;
с помощью предоставляемой по умолчанию стандартной формы в виде таблицы;
с помощью экранных форм, специально созданных для этого пользователем.
СУБД, работающие с Windows, позволяют вводить в созданные экранные формы рисунки, узоры, кнопки.
Возможно построение наиболее удобных для работы пользователя, включающих записи различных связанных
таблиц базы данных. Пример экрана с формой ввода представлен на рис. 15.28.
Рис.15.28. Вид экрана СУБД с формой ввода для связанных таблиц базы данных
Обработка данных, содержащихся в таблицах
Обрабатывать информацию, содержащуюся в таблицах базы данных, можно путем использования
запросов или в процессе выполнения специально paзработанной программы.
Конечный пользователь получает при работе с СУБД такое удобное средство обработки информации, как
запросы. Запрос представляет собой инструкцию на отбор записей.
Большинство СУБД разрешают использовать запросы следующих типов:
запрос-выборка, предназначенный для отбора данных, хранящихся в таблицах, и не изменяющий эти
данные;
запрос-изменение, предназначенный для изменения или перемещения данных; к этому типу запросов
относятся: запрос на добавление записей, запрос на удаление записей, запрос на создание таблицы, запрос на
обновление;
запрос с параметром, позволяющий определить одно или несколько условий отбора во время
выполнения запроса.
Самым распространенным типом запроса является запрос на выборку.
Результатом выполнения запроса является таблица с временным набором данных (динамический набор).
Записи динамического набора могут включать поля из одной или нескольких таблиц базы данных. На основе
запроса можно построить отчет или форму.
Вывод информации из базы данных
Практически любая СУБД позволяет вывести на экран и принтер информацию, содержащуюся в базе
данных, из режимов таблицы или формы. Такой порядок вывода данных может использоваться только как
черновой вариант, так как позволяет выводить данные только точно в таком же виде, в каком они содержатся в
таблице или форме.
Каждый пользователь, работающий с СУБД, имеет возможность использования специальных средств
построения отчетов для вывода данных. Используя специальные средства создания отчетов, пользователь
получает следующие дополнительные возможности вывода данных:
включать в отчет выборочную информацию из таблиц базы данных;
добавлять информацию, не содержащуюся в базе данных;
при необходимости выводить итоговые данные на основе информации базы данных;
располагать выводимую в отчете информацию в любом, удобном для пользователя виде (вертикальное
или горизонтальное расположение полей);
включать в отчет информацию из разных связанных таблиц базы данных.
Лекция № 8 СЕТЕВЫЕ ТЕХНОЛОГИИ ДЛЯ ПЕРЕДАЧИ И ОБМЕНА ДАННЫМИ
Вопросы:
1. Локальные вычислительные сети. Архитектура сети.
2. Аппаратные средства ЛВС
3. Структурная и функциональная организация ЛВС
4. Топология ЛВС
5. Принципы управления
6. Методы доступа и протоколы передачи данных
7. Программные средства ЛВС
1. Локальные вычислительные сети
1.1. Архитектура сети
Сеть представляет собой совокупность компьютеров, объединенных средствами передачи данных.
Средства передачи данных в общем случае могут состоять из следующих элементов: связных компьютеров,
каналов связи (спутниковых, телефонных, цифровых, волоконно-оптических, радио- и других), коммутирующей
аппаратуры, ретрансляторов, различного рода преобразователей сигналов и других элементов и устройств.
Архитектура сети ЭВМ определяет принципы построения и функционирования аппаратного и
программного обеспечения элементов сети.
Современные сети можно классифицировать по различным признакам:
• по удаленности компьютеров,
• топологии,
• назначению,
• перечню предоставляемых услуг,
• принципам управления (централизованные и децентрализованные),
• методам коммутации (без коммутации, телефонная коммутация, коммутация цепей, сообщений,
пакетов и дейтаграмм и т. д.),
• видам среды передачи и т. д.
В зависимости от удаленности компьютеров сети условно разделяют на локальные и глобальные.
Произвольная глобальная сеть может включать другие глобальные сети, локальные сети, а также
отдельно подключаемые к ней компьютеры (удаленные компьютеры) или отдельно подключаемые устройства
ввода-вывода. Глобальные сети бывают четырех основных видов: городские, региональные, национальные и
транснациональные. В качестве устройств ввода-вывода могут использоваться, например, печатающие и
копирующие устройства, кассовые и банковские аппараты, дисплеи (терминалы) и факсы. Перечисленные элементы
сети могут быть удалены друг от друга на значительное расстояние.
В локальных вычислительных сетях (ЛВС) компьютеры расположены на расстоянии до нескольких
километров и обычно соединены при помощи скоростных линий связи со скоростью обмена от 1 до 10 и более
Мбит/с (не исключается случай соединения компьютеров и с помощью низкоскоростных телефонных линий).
ЛВС обычно развертываются в рамках некоторой организации (корпорации, учреждения). Поэтому их иногда
называют корпоративными системами или сетями. Компьютеры при этом, как правило, находятся в пределах
одного помещения, здания или соседних зданий.
Независимо от того, в какой сети работает некоторый компьютер, функции установленного на нем
программного обеспечения условно можно разделить на две группы:
•
управление ресурсами самого компьютера (в том числе и в интересах решения задач для других
компьютеров) и
•
управление обменом с другими компьютерами (сетевые функции).
Собственными ресурсами компьютера традиционно управляет ОС. Функции сетевого управления
реализует сетевое ПО, которое может быть выполнено как в виде отдельных пакетов сетевых программ, так и в
виде сетевой ОС.
При разработке сетевого ПО используется иерархический подход, предполагающий определение
совокупности сравнительно независимых уровней и интерфейсов между ними. Это позволяет легко
модифицировать алгоритмы программ произвольного уровня без существенно изменения других уровней. В
общем случае допускается упрощение функций некоторого уровня или даже его полная ликвидация.
Для упорядочения разработки сетевого ПО и обеспечения возможности взаимодействия любых
вычислительных систем Международная Организация по Стандартизации (International Standart Organization —
ISO) разработала Эталонную модель взаимодействия открытых систем (Open System Interconnection — OSI).
Эталонная модель OSI определяет следующие семь функциональных уровней:
физический (physical layer);
управления линией передачи или канальный (data link);
сетевой (network layer);
транспортный (transport layer);
сеансовый (session layer);
представительный (presentation layer);
прикладной, или уровень приложений (application layer).
Физический уровень обеспечивает интерфейс между ЭВМ сети и средой передачи дискретных
сигналов. На физическом уровне через абонентские каналы передаются последовательности битов. Управление
физическим каналом сводится к выделению начала и конца кадра, несущего в себе передаваемые данные, а также к
формированию и приему сигналов определенной физической природы.
Стандарты физического уровня включают рекомендации X.21 либо X.21 , определяющие механические,
электрические, функциональные и процедурные характеристики, необходимые для установления (активизации),
поддержания и расторжения (деактивизации) физических соединений.
Функции канального уровня состоят в управлении вводом-выводом информации в канале связи. Для
повышения достоверности передачи процедуры канального уровня могут предусматривать введение
избыточных кодов, повторную передачу данных и другие методы. Формируемые этим уровнем данные
группируются в так называемые кадры. Обмен данными между двумя объектами канального уровня может
вестись одним из трех способов: дуплексным (одновременно в обоих направлениях), полудуплексным (попеременно
в обоих направлениях) или симплексным (в одном направлении).
Сетевой уровень обеспечивает передачу сетевых блоков (пакетов) между узлами сети. Здесь решаются
задачи выбора маршрута из числа возможных (при изменении нагрузки или конфигурации сети), управления
входящим потоком, буферизации пакетов и т. д. Основная функция сетевого протокола — прокладка в каждом
физическом канале совокупности логических каналов , что существенно повышает эффективность использования
ресурсов физического канала.
Основной функцией транспортного уровня является доставка сообщений, которые состоят из сетевых
пакетов. С этой целью транспортные объекты сетевого ПО организуют разборку сообщений на передающем конце и
сборку сообщений из принимаемых пакетов на приемной стороне. Кроме того, транспортный уровень занимается
согласованием различных сетевых уровней с помощью соответствующих шлюзов (согласование сетевых объектов
принципиально различных сетей) и мостов (согласование сетевых объектов однотипных сетей).
Для контроля того, что все отправленные пакеты приняты и в них нет ошибок, применяется метод посылки
квитанций — квитирование. Квитанции, подтверждающие прием, могут посылаться получателем после приема
одного или нескольких пакетов (обычно до 8). В последнем случае говорят о так называемом механизме «окна».
Применение этого механизма при неплохом качестве средств связи позволяет уменьшить загрузку
коммуникационной сети передаваемой по ней служебной информацией.
В настоящее время существует пять классов сервиса, предоставляемого транспортным протоколом
(0,1...4). Выделенные классы различаются возможностями приоритетной передачи сообщений, защиты от ошибок,
а также засекречивания данных с помощью шифрования.
Сеансовый уровень предназначен для организации сеансов связи (взаимодействия) между объектами
более высоких уровней. При установлении сеансов связи контролируется полномочие объекта по доступу к
другому объекту. Данный уровень, как и транспортный, предусматривает несколько классов услуг (А, В, С и D).
Представительный уровень описывает методы преобразования информации (шифрование, сжатие,
перекодировка), передаваемой объектам прикладного уровня: пользователям и программам.
Прикладной уровень отвечает за поддержку прикладного ПО пользователя. На этом уровне реализуются
три основные службы: передача и управление файлами, передача и обработка заданий, а также служба
виртуального терминала.
Предложенная семиуровневая модель описывает общие принципы объединения разделенных средой
передачи данных компьютеров. Для описания взаимодействия программных и аппаратных элементов уровней
используются протоколы и интерфейсы.
Протоколом называется свод правил взаимодействия объектов одноименного уровня, а также
форматы передаваемых между объектами блоков данных (сообще ний). Примерами протоколов звена данных
являются протокол HDLC (Higher-level Data Link Control), принятый ISO, и протокол SDLC (Synchronous Data Link
Control) фирмы IBM.
Интерфейсы описывают процедуры взаимодействия объектов смежных уровней и форматы
информации, передаваемой между этими объектами. Примером одного из интерфейсов является интерфейс Х.25
подключения пользователей к сетям передачи дачных общего пользования. Этот интерфейс описан в
соответствующих рекомендациях (Х.25), где определяется порядок и правила взаимодействия оконечного
оборудования обработки данных DTE (Data Terminal Equipment) и оконечного оборудования цепей передачи
данных DCE (Data Circuit-terminating Equipment). Роль DTE выполняет модем или цифровое устройство
сопряжения для подключения к сети передачи данных. В качестве DCE может выступать хост-машина (Host),
контроллер или концентратор, обслуживающий удаленные терминалы, интерфейсный компьютер для
подключения к другой сети и т. д.
Разработка силами ISO множества рекомендаций по организации сетевого обмена между компьютерами
внесла существенный вклад в теорию создания как глобальных, так и локальных сетей. Однако следует заметить,
что принятие международных стандартов не устранило полностью разнообразия архитектур реальных
существующих сетей.
Отличия сетей друг от друга вызваны особенностями используемого аппаратного и программного
обеспечения, различной интерпретацией рекомендаций фирмами-разработчиками, различием требований к
системе со стороны решаемых задач (требования защищенности информации, скорости обмена, безошибочности
передачи данных и т. д.) и другими причинами. В сетевом ПО локальных сетей часто наблюдается сокращение
числа реализуемых уровней.
Более интенсивный обмен информацией происходит в локальных сетях, нежели в глобальных. В ЛВС, по
существу, организовано управление аппаратно-программными ресурсами всех входящих в сеть компьютеров.
Реализует эти функции сетевое ПО. В глобальной сети основным видом взаимодействия между независимыми
компьютерами является обмен сообщениями.
1.2. Аппаратные средства ЛВС
Основными аппаратными компонентами ЛВС являются:
рабочие станции;
серверы;
интерфейсные платы;
кабели.
Рабочие станции (PC) — это, как правило, персональные ЭВМ, которые являются рабочими местами
пользователей сети.
Требования, предъявляемые к составу PC, определяются характеристиками решаемых в сети задач,
принципами организации вычислительного процесса, используемой ОС и некоторыми другими факторами.
Серверы в ЛВС выполняют функции распределения сетевых ресурсов. Обычно его функции возлагают
на достаточно мощный ПК, мини-ЭВМ, большую ЭВМ или специальную ЭВМ-сервер. В одной сети может быть
один или несколько серверов. Каждый из серверов может быть отдельным или совмещенным с PC. В последнем
случае не все, а только часть ресурсов сервера оказывается общедоступной.
При наличии в ЛВС нескольких серверов каждый из них управляет работой подключенных к нему PC.
Совокупность компьютеров сервера и относящихся к нему PC часто называют доменом. Иногда в одном домене
находится несколько серверов. Обычно один из них является главным, а другие — выполняют роль резерва (на
случай отказа главного сервера) или логического расширения основного сервера.
Важнейшими параметрами, которые должны учитываться при выборе компьютера-сервера, являются тип
процессора, объем оперативной памяти, тип и объем жесткого диска и тип дискового контроллера. Значения
указанных характеристик, так же как и в случае PC, существенно зависят от решаемых задач, организации
вычислений в сети, загрузки сети, используемой ОС и других факторов.
Оперативная память в сервере используется не только для собственно выполнения программ, а и для
размещения в ней буферов дискового ввода вывода. Определив оптимально количество и размер буферов, можно
существенно ускорить выполнение операций ввода-вывода.
Объем выбираемого накопителя должен быть достаточным для размещения на нем необходимого
программного обеспечения, а также совместно используемых файлов и баз данных.
PC и серверы в районе размещения сети соединяются друг с другом посредством линий передачи данных, в
роли которых чаще всего выступают кабели. Подключение компьютеров к кабелю осуществляется с помощью
интерфейсных плат — сетевых адапmepов. В последнее время стали появляться беспроводные сети, средой
передачи данных в которых является радиоканал. В подобных сетях компьютеры устанавливаются на небольших
расстояниях друг от друга: в пределах одного или нескольких соседних помещений.
Используемые сетевые адаптеры имеют три основные характеристики:
•
тип шины компьютера, к которому они подключаются (ISA, EISA, Micro Channel и др.),
•
разрядность (8, 16, 32, 64) ,
•
топология образуемой сети (Ethernet, Arcnet, Token-Ring).
К дополнительному оборудованию ЛВС относят источники бесперебойного питания, модемы, трансиверы,
репитеры, а также различные разъемы (конвекторы, терминаторы).
Источники бесперебойного питания (ИБП) служат для повышения устойчивости работы сети и
обеспечения сохранности данных па сервере. При сбоях по питанию ИБП, подключаемый к серверу через
специальный адаптер, выдает сигнал серверу, обеспечивая в течение некоторого времени стабильное напряжение.
По этому сигналу сервер выполняет процедуру завершения своей работы, которая исключает потерю данных.
Основным критерием выбора ИБП является мощность, которая должна быть не меньше мощности, потребляемой
подключаемым к ИБП сервером.
Трансивер — это устройство подключения PC к толстому коаксиальному кабелю.
Репитер предназначен для соединения сегментов сетей.
Конвекторы (соединители) необходимы для соединения сетевых адаптеров компьютеров с тонким
кабелем, а также для соединения кабелей друг с другом.
Терминаторы служат для подключения к открытым кабелям сети, а также для заземления (так
называемые терминаторы с заземлением).
Модем используется в качестве устройства подключения ЛВС или отдельного компьютера к глобальной
сети через телефонную связь.
1.3. Структурная и функциональная организация ЛВС
1.3.1. Топология ЛВС
Конфигурация соединения элементов в сеть (топология) во многом определяет такие важнейшие
характеристики сети, как ее надежность, производительность, стоимость, защищенность и т. д.
Одним из подходов к классификации топологий ЛВС является выделение двух ос новных классов
топологий: широковещательных и последовательных.
В широковещательных конфигурациях каждый персональный компьютер передает сигналы, которые
могут быть восприняты остальными компьютерами. К таким конфигурациям относятся топологии «общая шина»,
«дерево», «звезда с пассивным центром».
В последовательных конфигурациях каждый физический подуровень передает информацию только одному
персональному компьютеру. Примерами последовательных конфигураций являются: произвольная (произвольное
соединение компьютеров), иерархическая, «кольцо», «цепочка», «звезда с интеллектуальным центром»,
«снежинка» и другие.
Рассмотрим три наиболее широко распространенные (базовые) топологии ЛВС: «звезда», «общая шина»
и «кольцо».
В случае топологии «звезда»> каждый компьютер через специальный сетевой адаптер подключается
отдельным кабелем к центральному узлу (рис.-1). Центральным узлом служит пассивный соединитель или
активный повторитель.
Рис. 1. Топология «звезда»
Недостатком такой топологии является низкая надежность, так как выход из строя центрального узла
приводит к остановке всей сети, а также обычно большая протяженность кабелей (это зависит от реального
размещения компьютеров). Иногда для повышения надежности в центральном узле ставят специальное реле,
позволяющее отключать вышедшие из строя кабельные лучи.
Топология «общая шина» - предполагает использование одного кабеля, к которому подключаются все
компьютеры. Информация по нему передается компьютерами поочередно (рис. 2).
Рис. 2. Топология «общая шина»
Достоинством такой топологии является, как правило, меньшая протяженность кабеля, а также более
высокая надежность чем, у «звезды», так как выход из строя отдельной станции не нарушает работоспособности
сети в целом. Недостатки состоят в том, что обрыв основного кабеля приводит к неработоспособности всей сети,
а также слабая защищенность информации в системе на физическом уровне, так как сообщения, посылаемые
одним компьютером другому, в принципе, могут быть приняты и на любом другом компьютере.
При кольцевой топологии данные передаются от одного компьютера другому по эстафете (рис.3). Если
некоторый компьютер получает данные, предназначенные не ему, он передает их дальше по кольцу. Адресат
предназначенные ему данные никуда не передает.
Достоинством кольцевой топологии является более высокая надежность системы при разрывах кабелей, чем
в случае топологии с общей шиной, так как к каждому компьютеру есть два пути доступа. К недостаткам топологии
следует отнести большую протяженность кабеля, невысокое быстродействие по сравнению со «звездой» (но
соизмеримое с «общей шиной»), а также слабая защищенность информации, как и при топологии с общей шиной.
Рис. 3. Топология «кольцо»
Топология реальной ЛВС может в точности повторять одну из приведенных выше или включать их
комбинацию. Структура сети в общем случае определяется следующими факторами: количеством объединяемых
компьютеров, требованиями по надежности и оперативности передачи информации, экономическими
соображениями и т. д.
1.3.2. Принципы управления в ЛВС
Существует два основных принципа управления в локальных сетях: централизация и децентрализация.
В сетях с централизованным управлением функции управления обменом данными возложены на
файл-серверы. Файлы, хранящиеся на сервере, доступны PC сети. Одна PC к файлам другой PC доступа не имеет.
Правда, обмен файлами между PC может происходить и в обход основных путей, например, с помощью
программы NetLink. После запуска этой программы на двух компьютерах можно передавать файлы между ними
так же, как выполняется копирование с помощью программы Norton Commander.
Существует множество сетевых ОС, реализующих централизованное управление. Среди них Microsoft
Windows NT Server, Novell NetWare (версии З.Х и 4.Х), Microsoft Lan Manager, OS/2 Warp Server Advanced, VINES
6.0 и другие.
Преимуществом централизованных сетей является высокая защищенность сетевых ресурсов от
несанкционированного доступа, удобство администрирования сети, возможность создания сетей с большим
числом узлов. Основной недостаток состоит в уязвимости системы при нарушении работоспособности файлсервера (это преодолевается при наличии нескольких серверов или принятия некоторых других мер), а также в
предъявлении довольно высоких требований к ресурсам серверов.
Децентрализованные (одноранговые) сети не содержат в своем составе выделенных серверов. Функции
управления сетью в них поочередно передаются от одной PC к другой. Ресурсы одной PC (диски, принтеры и
другие устройства) оказываются доступными другим PC.
Наиболее распространенными программными продуктами, позволяющими строить одноранговые сети,
являются следующие программы и пакеты: Novell NetWare Lite, Artisoft LANtastic, LANsmart, и другие.
Для одноранговой сети могут быть использована также ОС Windows NT.
Развертывание одноранговой сети для небольшого числа PC часто позволяет построить более
эффективную и живучую распределенную вычислительную среду. Сетевое программное обеспечение в них
является более простым по сравнению с централизованными сетями. Здесь не требуется установка файл-сервера
(как компьютера, так и соответствующих программ), что существенно удешевляет систему. Однако такие сети
слабее с точки зрения защиты информации и администрирования.
1.4. Методы доступа и протоколы передачи данных
Для организации обмена между компьютерами ЛВС чаще всего используются стандартные протоколы,
разработанные Международным институтом инженеров по электротехнике и радиоэлектронике IEEE (Institute of
Electrical and Electronical Engineers).
Вкратце рассмотрим протоколы обмена, изложенные в стандартах IEEE802.3, IEEE802.4 и IEEE802.5 на
локальные сети, которые описывают соответственно методы доступа к сетевым каналам данных: Ethernet, Arcnet и
Token Ring. Эти методы доступа реализуют функции канального уровня модели OSI. Название используемого в
ЛВС метода часто отождествляют с типом топологии сети.
Метод доступа Ethernet. Разработан фирмой Xerox. Обеспечивает высокую скорость передачи и
надежность. Поддерживает топологию с общей шиной. Принадлежность передаваемого по обшей шине сообщения
определяется включенными в заголовок адресами источника и назначения.
Этот метод является методом множественного доступа с прослушиванием несущей и разрешением конфликтов
(CSMA/CD — Carier Sense Multiple Access with Collision Detection).
Суть метода состоит в том, что PC начинает передачу в том случае, если канал свободен, в противном
случае передача сообщений задерживается на некоторое время (для каждой станции свое). Возможные случаи
одновременной передачи данных распознаются автоматически аппаратным способом.
Быстродействие сети заметно снижается при одновременной работе 80-100 PC. Это происходит из-за
задержек, связанных с конфликтами в канале.
Метод доступа Arcnet. Разработан фирмой Datapoint Corp. Используется в топологии «звезда».
Сообщения от одной PC к другой по этому методу доступа передаются с помощью маркера, который
создается на одной из PC. Если PC хочет передать сообщение, то она дожидается прихода маркера и присоединяет
к нему свое сообщение, снабженное адресами отправителя и получателя. Если PC ожидает приема, то она ждет
прихода маркера, а по его приходе — анализирует заголовок прикрепленного к нему сообщения. Если сообщение
предназначено данной PC, то она открепляет его от маркера, а также прикрепляет новое, при наличии такового.
Оборудование для сетей типа Arcnet дешевле Ethernet и Token Ring, но уступает им по характеристикам
надежности и производительности.
Метод доступа Token Ring. Разработан фирмой IBM для кольцевой топологии. Кроме фирмы IBM,
поставщиками оборудования сетей с таким методом доступа являются фирмы Proteon, 3Com и Undermann-Bass, а
поставщиками сетевого ПО — выступают фирмы 3Com, Novell и Unlvation. Этот метод имеет сходство с методом
Arcnet. Основное его отличие состоит в том, что имеется механизм приоритета, благодаря которому отдельные PC
могут получать маркер быстрее других и удерживать его дольше.
Для использования типовых программ в ЛВС важно знать, какой протокол обмена сообщениями
(пакетами) поддерживается в сети. Существует несколько таких протоколов. Среди них широко используются
следующие: IPX, SPX и NETBIOS.
Протокол IPX (Internetwork Packet Exchenge) является протоколом транспортного уровня модели OSI. Он
имеет интерфейс с нижележащим сетевым уровнем. Протокол SPX (Sequenced Packet Exchenge)— протокол более
высокого сеансового уровня. Он основан на использовании протокола IPX. NETBIOS (Network Basic Input/Output
System) — сетевая базовая система ввода-вывода, разработанная фирмой IBM. Реализует функции сетевого,
транспортного и сеансового уровней модели OSI.
1.5. Технология «клиент-сервер»
Технология «клиент-сервер» пришла на смену централизованной схеме управления вычислительным
процессом на базе средней или большой ЭВМ (мэйнфрейма).
В централизованной схеме управления все вычислительные ресурсы, данные и программы их обработки
были сконцентрированы в одной ЭВМ. Пользователи имели доступ к ресурсам машины с помощью терминалов
(дисплеев). Терминалы подключались к ЭВМ через интерфейсные соединения или удаленные телефонные линии
связи (так называемые удаленные терминалы). Основной функцией терминала было отображение информации,
представляемой пользователю. К достоинствам этой схемы можно отнести удобство администрирования,
модификации программного обеспечения и защиты информации. Недостатком схемы является ее низкая
надежность (выход из строя ЭВМ влечет за собой разрушение вычислительного процесса), сложность
масштабирования (наращивания мощности) модификации аппаратного и программного обеспечения, как правило,
резкое снижение оперативности при увеличении числа пользователей системы и другие.
В архитектуре «клиент-сервер»- место терминала заняла ПЭВМ (клиентская), а мэйнфрейма — один или
несколько мощных компьютеров, специально выделенных для решения общих задач обработки информации
(компьютеры-серверы). Достоинством этой модели является высокая живучесть и надежность вычислительной
системы, легкость масштабирования, возможность одновременной работы пользователя с несколькими
приложениями, высокая оперативность обработки информации, обеспечение пользователя высококачественным
интерфейсом и т. д.
Заметим, что эта весьма перспективная и далеко не исчерпавшая себя технология получила свое
дальнейшее развитие.
Технология Intranet, которая появилась в результате перенесения идей сети Internet в среду корпоративных
систем. В отличие от технологии «клиент-сервер», эта технология ориентирована не на данные, а на информацию
в ее окончательно готовом к потреблению виде. Технология Intranet объединяет в себе преимущества двух
предыдущих схем. Вычислительные системы, построенные на ее основе, имеют в своем составе центральные
серверы информации и распределенные компоненты представления информации конечному пользователю
(программы-навигаторы, или браузеры).
Остановимся на понятиях, связанных с технологией «клиент-сервер», поскольку она все еще доминирует
в локальных вычислительных сетях.
При взаимодействии любых двух объектов в сети всегда можно выделить сторону, предоставляющую
некоторый ресурс (сервис, услугу), и сторону, потребляющую этот ресурс. Потребителя ресурса традиционно
называют клиентом, а поставщика — сервером.
В качестве ресурса можно рассматривать аппаратный компонент (диск, принтер, модем, сканер и т. д.),
программу, файл, сообщение, информацию или даже ЭВМ в целом. Отсюда происхождение множества терминов:
файл-сервер или диск-сервер, принт-сервер или сервер печати, сервер сообщений, SQL-сервер (программа
обработки запросов к базе данных, сформулированных на языке SQL), компьютер-сервер и т. д. Очевидно, не все
эти серверы имеют соответствующих клиентов.
С точки зрения программного обеспечения, технология «клиент-сервер» подразумевает наличие программклиентов и программ-серверов. Клиентскими программами обычно являются такие программы, как текстовые и
табличные процессоры. В роли серверных программ чаще всего выступают системы управления базами данных.
Примером типичной пары программ вида «клиент-сервер» можно считать программу текстового процессора,
обрабатывающую документ, в котором содержится таблица с информацией из базы данных.
Некоторая программа, выполняемая в сети, по отношению к одним программам может выступать в роли
клиента и в то же время являться сервером для других программ. Более того, за некоторый интервал времени роли
клиента и сервера между одними и теми же программами могут меняться.
Разновидностью более сложных клиент-серверных моделей является трехзвенная модель «сервера
приложений» - AS-модель (Application Server). Эта модель описывает процесс функционирование сетей,
использующих базы данных. Согласно AS-модели, каждая их трех основных функций (управление данными,
прикладная обработка и представление информации конечному пользователю) реализуется на отдельном
компьютере.
2. Программные средства ЛВС
2.1. Понятие сетевой операционной системы
Программное обеспечение ЛВС как совокупности компьютеров можно условно разделить на системное и
прикладное.
Системное ПО, используемое в ЛВС, реализует две основные функции: управление ресурсами каждого
отдельного компьютера (памятью, устройствами ввода-вывода, принтером, дисками и т. д.) и управление совместно
используемыми в сети ресурсами (сетевым принтером, сетевым сканером, разделяемыми дисками, сообщениями и
т. д.).
Прикладное ПО сети включает пакеты прикладных программ конечного пользователя.
Системные программные средства, управляющие процессами в ЛВС, объединенные общей архитектурой,
коммуникационными протоколами и механизмами взаимодействия вычислительных процессов, называются
сетевыми ОС.
Сетевая ОС может быть организована двумя способами: как совокупность обычной и сетевой ОС (типа
MS DOS, Unix, OS/2) и некоторого вспомогательного сетевого пакета либо как самостоятельная собственно
сетевая ОС. Сетевые пакеты, а также самостоятельные сетевые ОС в дальнейшем будем называть сетевыми ОС
или (СОС).
Структура и состав СОС, устанавливаемых на компьютеры ЛВС, зависят от типа управления в сети.
Так, в одноранговых сетях на рабочих станциях находятся функционально равноправные компоненты,
такие, как например, Windows for Workgroups. Основной частью этих компонентов являются программы
обеспечения связи, которые реализуют связные протоколы.
В сетях с централизованным управлением программы СОС, устанавливаемые на серверы и рабочие
станции, существенно различаются. Для таких сетей часто говорят, что СОС состоит из двух ос новных
компонентов: СОС сервера и СОС рабочей станции (клиента). Функции обеспечения связи между этими
компонентами также как и в одноранговых сетях выполняют соответствующие программы обеспечения
связи.
Основной задачей СОС сервера является управление общими сетевыми ресурсами ЛВС. Программы
СОС рабочей станции, в основном, обеспечивают нормальное функционирование клиентских программ.
Взаимодействие между программами, предоставляющими ресурсы сервера (серверные программы), и
программами, выполняющимися на PC (клиентские программы), в современных ЛВС обычно строится по
технологии «клиент-сервер». В ЛВС в роли сетевых ОС сервера и PC могут выступать программы, разработанные
разными фирмами. Популярные системы, как правило, поддерживают режим совместного функционирования с
другими известными продуктами.
2.2. Характеристика сетевых ОС
Существует множество СОС, различающихся своими возможностями и условиями эксплуатации.
Основными параметрами, которые учитываются при сравнении систем, являются следующие:
зависимость производительности от количества PC;
надежность работы сети;
уровень сервиса (объем и качество предоставляемых услуг, возможности разработки
прикладных программ в сети, управление функционированием, удобство проведения инсталляции, настройки,
профилактики и других операций);
защита информации от несанкционированного доступа;
потребление ресурсов сетевыми средствами (объем оперативной и дисковой памяти,
требуемая доля производительности вычислительной системы);
возможность использования в сети нескольких серверов;
типы поддерживаемых топологий сети, а также возможность изменения состава сети;
перечень поддерживаемых сетевых устройств (сетевых плат, принтеров, сканеров, модемов
и т. д.);
наличие интерфейсов с другими ЛВС и выхода в Internet и т. д.
Однозначно склониться в пользу той или иной СОС при ее выборе непросто. Это объясняется несколькими
причинами;
различием важности тех или иных показателей качества СОС;
особенностями решаемых задач;
структурой аппаратных средств;
стоимостью;
постоянным появлением все новых версий СОС, в которых улучшены некоторые параметры по
сравнению с конкурирующими системами и т. д.
В случае сети территориально разбросанной, неоднородной по составу аппаратных и программных
средств, а также со сложными прикладными программами может оказаться необходимой среда на базе нескольких
СОС.
Рассмотрим достоинства и недостатки наиболее широко используемых следующих серверных СОС:
Microsoft Windows NT Server 3.51 (фирма Microsoft), NetWare 4.1 (фирма Novell).
Microsoft Windows NT Server. Обладая большими возможностями масштабирования, эта система
представляет собой завершенную СОС, которая в равной степени пригодна для небольших или средних по
размеру, одно- и многосерверных корпоративных сетей.
В составе комплекта прикладных программ MS BackOffice операционная система Microsoft Windows NT
Server наиболее близка к представлению об идеальной современной сетевой среде.
К основным достоинствам названной системы можно отнести следующее:
наличие унифицированного графического интерфейса;
простота и удобство использования и администрирования;
надежность служб файлов и печати;
развитый интерфейс API (Application Program Interface) прикладного программирования,
облегчающий процесс разработки прикладных программ;
возможность реализации одно- и многопроцессорной (до 32 процессоров) обработки в одном
пакете;
поддержка различных архитектур процессоров (CISC и RISC) и разных аппаратных платформ
(Intel, Alpha, MIPS и др.).
Среди недостатков обычно отмечаются следующие:
слабая гибкость службы каталогов (доменная модель) по сравнению с аналогичными службами
СОС NetWare 4.1 и Banyan VINES 6.0;
сложность системы защиты при управлении доступом внутри доменов и между ними.
NetWare 4.1. Достоинствами системы являются;
хорошо продуманные и мощные службы файлов и печати;
наличие средств оперативного сжатия информации на дисках;
мощные средства администрирования больших многопользовательских, многосерверных сетей
Novell;
возможность создания сетей с повышенной отказоустойчивостью
большое количество прикладных программ, разработанных независимыми поставщиками;
удобная иерархическая структура распределенного каталога.
К недостаткам системы относятся:
ориентация системы только на процессоры Intel;
необходимость приобретения отдельного пакета NetWare SMP для организации
многопроцессорной обработки;
отсутствие простых инструментальных средств разработки приложений;
слабая защита памяти при работе приложений сервера, что затрудняет отладку программ и может
привести к краху системы во время ее функционирования.
2.3. Программное обеспечение технологии «клиент-сервер»
Для успешного применения технологии «клиент-сервер» должно использоваться соответствующее
программное обеспечение, включающее клиентскую и серверную части. В частности, широко используемый пакет
Microsoft Office представляет собой комплекс программ для клиентского компьютера. В его состав входят:
текстовый процессор Word, табличный процессор Excel, система подготовки презентаций PowerPoint, система
управления базами данных Access и программа управления информацией Outlook.
В связи с успехом распространения этого пакета корпорация Microsoft решила собрать воедино комплекс
программ для сервера — так появился пакет MS BackOffice.
В состав названного пакета входят следующие компоненты:
Windows NT Server — сетевая операционная система;
System Management Server — система администрирования сети;
SQL Server — сервер управления базами данных;
SNA Server — сервер для соединения с хост-компьютерамии;
Exchange Server — сервер системы электронной почты;
Internet Information Server — сервер для работы с Internet.
Windows NT Server способна обеспечить совместное использование файлов, печатающих устройств,
предоставить услуги по соединению с рабочими станциями (клиентскими компьютерами) и другой сервис.
Существуют следующие две разновидности Windows NT:
Windows NT Workstation предназначена для использования на автономном компьютере;
Windows NT Server предназначена для использования в качестве сетевой операционной системы и
может использоваться на рабочей станции для реализации дополнительных возможностей.
Windows NT Server целесообразно использовать в случаях, когда предполагается наличие нескольких
процессоров (обычно до четырех). Кроме того, Windows NT Server обеспечивает совместное использование
ресурсов многими пользователями, возможность соединения с удаленными сетями через сервис удаленного доступа
— RAS (Re mote'Access Service), а также через средства связи с сетями других фирм (Novell, Digital Pathworks и
Apple).
System Management Server (SMS) позволяет сетевому администратору централизованно управлять всей
сетью. При этом обеспечивается возможность администрирования каждого компьютера, подключенного к сети,
включая установленное на нем программное обеспечение. SMS предоставляет следующий сервис:
управление инвентаризацией программного и аппаратного обеспечения;
автоматизация установки и распространения программного обеспечения, включая его обновление;
удаленное устранение неисправностей и предоставление полного контроля администратору за
клавиатурой, мышью и экранами всех компьютеров в сети, работающих под управлением MS-DOS или Windows;
управление сетевыми приложениями.
SQL Server представляет собой систему управления реляционными базами данных, использующую
принципы технологии «клиент-сервер». MS SQL Server поддерживает систему обработки транзакций, систему
сохранения ссылочной целостности, механизм распределенных транзакций, тиражирование данных.
SNA Server обеспечивает связи IВМAS/400 и мэйнфреймами IBM (ЕС ЭВМ). Этот продукт позволяет
нескольким настольным ПЭВМ, работающим под управлением MS-DOS, Windows, Windows NT, Macintosh, Unix
или OS/2, «видеть» хост-компьютеры.
Exchange Server обеспечивает средства передачи и приема сообщений в информационной сети
организации. Этот сервис включает электронную почту (E-mail) и обмен информационными сообщениями для
рабочих групп. Microsoft Exchange Server построен на принципах технологии «клиент-сервер» и масштабируется в
соответствии с возрастанием вычислительных возможностей сети.
Internet Information Server обеспечивает возможность создания Web-, FTP- и Gopher-серверов для сети
Internet, поддерживает управление ими с помощью встроенной программы Internet Service Manager.
ЛЕКЦИЯ № 9 ГЛОБАЛЬНАЯ СЕТЬ INTERNET
Вопросы:
1.
Представление о структуре и системе адресации
2.
Способы организации передачи информации
Литература:
Информатика. Учебник для вузов под ред. Проф. Н.В.Макаровой
ПРЕДСТАВЛЕНИЕ О СТРУКТУРЕ И СИСТЕМЕ АДРЕСАЦИИ
Структура Internet
Internet представляет собой глобальную компьютерную сеть. Само ее название означает "между сетей".
Это сеть, соединяющая отдельные сети.
Логическая структура Internet представляет собой некое виртуальное объединение, имеющее свое
собственное информационное пространство.
Internet обеспечивает обмен информацией между всеми компьютерами, которые входят в сети,
подключенные к ней. Тип компьютера и используемая им операционная система значения не имеют. Соединение
сетей обладает громадными возможностями. С собственного компьютера любой абонент Internet может передавать
сообщения в другой город, просматривать каталог библиотеки Конгресса в Вашингтоне, знакомиться с картинами
на последней выставке в музее Метрополитен в Нью-Йорке, участвовать в конференции IEEE и даже в играх с
абонентами сети из разных стран. Internet предоставляет в распоряжение своих пользователей множество
всевозможных ресурсов.
Основные ячейки Internet -локальные вычислительные сети. Это значит, что Internet не просто
устанавливает связь между отдельными компьютерами, а создает пути соединения для более крупных единиц групп компьютеров. Если некоторая локальная сеть непосредственно подключена к Internet, то каждая рабочая
станция этой сети также может подключаться к Internet. Существуют также компьютеры, самостоятельно
подключенные к Internet. Они называются хост-компьютерами (host - хозяин). Каждый подключенный к сети
компьютер имеет свой адрес, по которому его может найти абонент из любой точки света.
1.
Для подключения локальных сетей к Internet используются средства, рассмотренные в подразд. 6.5. Схема
подключения локальной сети к Internet приведена на рис.1. Важной особенностью Internet является то, что она,
объединяя различные сети, не создает при этом никакой иерархии - все компьютеры, подключенные к сети,
равноправны. Для иллюстрации возможной структуры некоторого участка сети Internet приведена схема
соединения различных сетей (рис. 2).
Рис.1. Подключение локальной сети к Internet.
Рис.2. Подключение различных сетей к Internet.
Система адресации в Internet
Internet самостоятельно осуществляет передачу данных. К адресам станций предъявляются специальные
требования. Адрес должен иметь формат, позволяющий вести его обработку автоматически, и должен нести
некоторую информацию о своем владельце.
С этой целью для каждого компьютера устанавливаются два адреса: цифровой IP-адрес (IP - Internetwork
Protocol - межсетевой протокол) и доменный адрес.
Оба эти адреса могут применяться равноценно. Цифровой адрес удобен для обработки на компьютере, а
доменный адрес - для восприятия пользователем.
Цифровой адрес имеет длину 32 бита. Для удобства он разделяется на четыре блока по 8 бит, которые
можно записать в десятичном виде. Адрес содержит полную информацию, необходимую для идентификации
компьютера.
Два блока определяют адрес сети, а два другие - адрес компьютера внутри этой сети. Существует
определенное правило для установления границы между этими адресами. Поэтому IP-адрес включает в себя три
компонента: адрес сети, адрес подсети, адрес компьютера в подсети.
Пример 6.9. В двоичном коде цифровой адрес записывается следующим образом:
10000000001011010000100110001000. В десятичном коде он имеет вид: 192.45.9.200. Адрес сети - 192.45; адрес
подсети - 9; адрес компьютера - 200.
Доменный адрес определяет область, представляющую ряд хост-компьютеров. В отличие от цифрового
адреса он читается в обратном порядке. Вначале идет имя компьютера, затем имя сети, в которой он находится.
Примечание. Чтобы абонентам Internet можно было достаточно просто связаться друг с другом, все
пространство ее адресов разделяется на области - домены. Возможно также разделение по определенным
признакам и внутри доменов.
В системе адресов Internet приняты домены, представленные географическими регионами. Они имеют
имя, состоящее из двух букв.
Пример 6.10. Географические домены некоторых стран: Франция - fr; Канада- са; США - us; Россия - ru.
Существуют и домены, разделенные по тематическим признакам. Такие домены имеют трехбуквенное
сокращенное название.
Пример 6.11. Учебные заведения - edu. Правительственные учреждения - gov. Коммерческие организации
- com.
Компьютерное имя включает, как минимум, два уровня доменов. Каждый уровень . отделяется от другого
точкой. Слева от домена верхнего уровня располагаются другие имена. Все имена, находящиеся слева, поддомены для общего домена.
Пример 6.12. Существует имя tutor.splu.edu. Здесь edu - общий домен для школ и университетов. Tutor поддомен sptu, который является поддоменом edu.
Для пользователей Internet адресами могут быть просто их регистрационные имена на компьютере,
подключенном к сети. За именем следует знак @. Все это слева присоединяется к имени компьютера.
Пример 6.13. Пользователь, зарегистрировавшийся под именем victor на компьютере. имеющем в Internet
имя tutor.splu.edu. будет иметь адрес:
vicior@tutor.sptu.edu.
В Internet могут использоваться не только имена отдельных людей, но и имена групп. Для обработки пути
поиска в доменах имеются специальные серверы имен. Они преобразовывают доменное имя в соответствующий
цифровой адрес.
Локальный сервер передает запрос на глобальный сервер, имеющий связь с другими локальными
серверами имен. Поэтому пользователю просто нет никакой необходимости знать цифровые адреса.
Запомните! Для выхода в Internet вы должны знать адрес домена, с которым хотите установить связь.
СПОСОБЫ ОРГАНИЗАЦИИ ПЕРЕДАЧИ ИНФОРМАЦИИ
Электронная почта
Электронная почта (e-mail-electronic mail) выполняет функции обычной почты. Она обеспечивает
передачу сообщений из одного пункта в другой. Главным ее преимуществом является независимость от времени.
Электронное письмо приходит сразу же после его отправления и хранится в почтовом ящике до получения
адресатом. Кроме текста оно может содержать графические и звуковые файлы, а также двоичные файлы программы.
Электронные письма могут отправляться сразу по нескольким адресам. Пользователь Internet с помощью
электронной почты получает доступ к различным услугам сети, так как основные сервисные программы Internet
имеют интерфейс с ней. Суть такого подхода заключается в том, что на хост-компьютер отправляется запрос в
виде электронного письма. Текст письма содержит набор стандартных формулировок, которые и обеспечивают
доступ к нужным функциям. Такое сообщение воспринимается компьютером как команда и выполняется им.
Для работы с электронной почтой создано большое количество программ. Их можно объединить под
обобщающим названием mail. Так, для работы пользователей в MS DOS применяется программа bml, наиболее
распространенной программой для Unix-систем является программа elm. Пожалуй, одна из наиболее удобных и
несложных в использовании программ - Eudora для Microsoft Windows. В операционной системе Windows 95
работу с электронной почтой обеспечивает приложение Microsoft Exchange. Эти программы выполняют
следующие функции:
∙ подготовку текста;
∙ чтение и сохранение корреспонденции;
∙ удаление корреспонденции;
∙ ввод адреса;
∙ комментирование и пересылку корреспонденции;
∙ импорт (прием и преобразование в нужный формат) других файлов.
Сообщения можно обрабатывать собственным текстовым редактором программы электронной почты. Изза ограниченности его возможностей обработку текстов большого размера лучше выполнять внешним редактором.
При отправке такого текста программа электронной почты дает возможность его обработать.
Обычно программы электронной почты пересылают тексты в коде ASCII и в двоичном формате. Код
ASCII позволяет записывать только текст и не дает возможности передавать информацию об особенностях
национальных шрифтов.
В двоичных файлах сохраняется любая информация. Поэтому для передачи комбинированных сообщений
(графика и текст), а также для передачи программ используются двоичные файлы.
Запомните! При участии в дискуссиях или в составлении рассылочных списков необходимо оформлять
сообщения в коде ASCII.
Сообщения, записанные другими программами, можно отправлять, точно зная, что у абонента есть такая
же программа.
При отправлении сообщений по электронной почте необходимо указывать в адресе не только имя хосткомпьютера, но и имя абонента, которому сообщение предназначено.
Формат адреса электронной почты должен иметь вид:
имя пользователя@адрес хост-компьютера
Для каждого пользователя на одном хост-компьютере может быть заведен свой каталог для получения
сообщений по электронной почте.
Специальный стандарт MIME (Multipurpose Internet Mail Extension) - многоцелевое расширение почты
Internet - позволяет вкладывать в символьные сообщения любые двоичные файлы, включая графику, аудио- и
видеофайлы.
Пользователь, имеющий выход в Internet, может также отправлять электронную почту и по адресам других
сетей, подключенных к ней с помощью шлюзов.
В этом случае необходимо учитывать , что различные сети применяют различную адресацию
пользователей. Отправляя сообщение по электронной почте в другую сеть, следует использовать принятую там
систему адресов.
WORLD-WIDE-WEB (Всемирная информационная сеть)
W W W является одной из самых популярных информационных служб Internet. Две основные особенности
отличают WWW: использование гипертекста и возможность клиентов взаимодействовать с другими приложениями
Internet.
Гипертекст - текст, содержащий в себе связи с другими текстами, графической, видео- или звуковой
информацией.
Внутри гипертекстового документа некоторые фрагменты текста четко выделены. Указание на них с
помощью, например, мыши позволяет перейти на другую часть этого же документа, на другой документ в этом же
компьютере или даже на документы на любом другом компьютере, подключенном к Internet.
Все серверы WWW используют специальный язык HTML (Hypertext Markup Language - язык разметки
гипертекста). HTML-документы представляют собой текстовые файлы, в которые встроены специальные команды.
WWW обеспечивает доступ к сети как клиентам, требующим только текстовый режим, так и клиентам,
предпочитающим работу в режиме графики. В первом случае используется программа Lynx, во втором - Mosaic.
Отображенный на экране гипертекст представляет собой сочетание алфавитно-цифровой информации в различных
форматах и стилях и некоторые графические изображения - картинки.
Связь между гипертекстовыми документами осуществляется с помощью ключевых слов. Найдя ключевое
слово, пользователь может перейти в другой документ, чтобы получить дополнительную информацию. Новый
документ также будет иметь гипертекстовые ссылки.
Работать с гипертекстами предпочтительнее на рабочей станции клиента, подключенной к одному из Webсерверов, чем на страницах учебника, поэтому изложенный материал можно считать первым шагом к познанию
службы WWW.
Работая с Web-сервером, можно выполнить удаленное подключение Telnet, послать абонентам сети
электронную почту, получить файлы с помощью FTP-анонима и выполнить ряд других приложений (прикладных
программ) Internet- Это дает возможность считать WWW интегральной службой Internet.
Создание страниц WWW. Так как создание собственного сервера WWW является сложным и
дорогостоящим, то многие пользователи сети Internet могут размещать свою информацию на уже существующих
серверах. Собственные страницы WWW можно создавать с помощью таких средств, как Microsoft Internet Assistant
for Word и Netscape Navigator Gold. Редактор страниц Microsoft Internet Assistant представляет собой набор
макрокоманд, на базе которого создаются документы HTML.
В диалоговом режиме пользователь может создать свой документ. Редактор при этом обеспечивает:
∙ ввод заголовка документа;
∙ вставку графического изображения или видеофрагмента;
∙ вставку гипертекстовой ссылки;
∙ вставку закладки;
∙ просмотр страниц WWW.
Редактор, встроенный в навигатор Netscape Navigator Gold, содержит средства для работы с языком JAVA.
Этот язык позволяет интерпретировать программы, полученные из сети, на локальном компьютере пользователя.
JAVA - язык объектно-ориентированного программирования. Он используется для передового способа создания
приложений для Internet - программирования аплетов (аплет - небольшое приложение). С помощью аплетов можно
создавать динамичные Web-страницы.
Служба Gopher
Эта служба Internet выполняет функции, аналогичные WWW. Вся информация на Gopher-сервере хранится
в виде дерева данных (или иерархической системы меню). Начальный каталог Gopher является вершиной этого
дерева, а все остальные каталоги и файлы представляются элементами меню. Строка главного меню представляет
собой либо подменю, либо файл.
Gopher поддерживает разные типы файлов - текстовые, звуковые, программные и т.д.
Телеконференции Usenet
Система Usenet была разработана для перемещения новостей между компьютерами по всему миру. В
дальнейшем она практически полностью интегрировалась в Internet, и теперь Internet обеспечивает
распространение всех ее сообщений. Серверы Usenet имеют средства для разделения телеконференций по темам.
Телеконференции -дискуссионные группы, входящие в состав Usenet.
Телеконференции организованы по иерархическому принципу, и для верхнего уровня выбраны семь
основных рубрик. В свою очередь, каждая из них охватывает сотни подгрупп. Образуется древовидная структура,
напоминающая организацию файловой системы. Из числа основных рубрик следует выделить:
∙ сотр - темы, связанные с компьютерами;
∙ sci - темы из области научных исследований;
∙ news - информация и новости Usenet;
∙ soc - социальная тематика;
∙ talk - дискуссии.
Существуют, кроме того, специальные рубрики и региональное разделение телеконференций.
Управляют доступом к службе Usenet специальные программы, позволяющие выбирать телеконференции,
работать с цепочками сообщений и читать сообщения и ответы на них. Эти программы выполняют такую
функцию, как подписка на телеконференции. Если пользователь не вводит никаких ограничений, то по умолчанию
производится подписка на все телеконференции, с которыми имеет связь его хост-компьютер. Программа также
позволяет сделать тематический выбор и обеспечит пользователя сообщениями по интересующему его
направлению.
При участии в какой-либо телеконференции любой абонент может направить свое сообщение по
интересующей его теме.
Существуют два способа выполнения этой процедуры:
∙ посылка непосредственного ответа автору статьи по адресу его электронной почты;
∙ предоставление своего сообщения в распоряжение всех участников телеконференции.
Второй способ обозначается термином "Follow-up".
После электронной почты Usenet является самой популярной службой глобальной сети Internet.
Передача файлов с помощью протокола FTP
Назначение электронной почты - прежде всего обмен текстовой информацией между различными
компьютерными системами. Не меньший интерес для пользователей сети Internet представляет обмен отдельными
файлами и целыми программами.
Для того чтобы обеспечить перемещение данных между различными операционными системами, которые
могут встретиться в Internet, используется протокол FTP (File Transfer Protocol), работающий независимо от
применяемого оборудования. Протокол обеспечивает способ перемещения файлов между двумя компьютерами и
позволяет абоненту сети Internet получить в свое распоряжение множество файлов. Пользователь получает доступ
к различным файлам и программам, хранящимся на компьютерах, подключенных к сети.
Программа, реализующая этот протокол, позволяет установить связь с одним из множества FTP-серверов в
Internet.
FTP-сервер - компьютер, на котором содержатся файлы, предназначенные для открытого доступа.
Программа FTP-клиент не только реализует протокол передачи данных, но и поддерживает набор команд,
которые используются для просмотра каталога FTP-сервера, поиска файлов и управления перемещением данных.
Для установки связи с FTP-сервером пользователь при работе в Unix или MS DOC должен ввести команду
ftp, а затем адрес или доменное имя его.
Если связь установлена, появится приглашение ввести имя пользователя. Пользователь, не
зарегистрированный на сервере, может представиться именем "anonymus" и получит доступ к определенным
файлам и программам. Если будет запрошен пароль, можно ввести свой адрес электронной почты. Поступившее
после выполнения этих процедур приглашение позволяет работать с FTP-сервером.
Внимание! Основной режим передачи файлов - передача в коде ASCII. Для передачи двоичных файлов
необходимо ввести команду binary. Для определения активного режима необходимо ввести команду status.
Так как большинство FТР-серверов работает под управлением операционной системы Unix, то технология
работы в этой системе требует введения команд из командной строки компьютера и несколько затрудняет
действия пользователя в этом режиме.
Операционная система Windows 95 позволяет работать с программой WS_FTP, что обеспечивает более
удобный способ работы с серверами FTP. Еще один способ работы основан на использовании приложений навигаторов WWW, таких, как Microsoft Interact Explorer, Netscape Navigator.
Взаимодействие с другим компьютером (Telnet)
Telnet обеспечивает взаимодействие с удаленным компьютером. Установив такую связь через Telnet,
пользователь получает возможность работать с удаленным компьютером, как со "своим", т.е. теоретически
получить в свое распоряжение все ресурсы, если к ним разрешен доступ. Реально Telnet предоставляет открытый
доступ, но организация взаимодействия полностью определяется удаленным компьютером. Два вида услуг Internet
требуют подключения к серверам через Telnet: библиотечные каталоги и электронные доски объявлений (BBS).
Программа Telnet в использовании очень проста. Для установки с ее помощью связи с каким-либо
компьютером, подключенным к сети, необходимо знать его полный адрес в Internet, При установлении соединения
с нужным компьютером следует указать в команде его адрес, В процессе соединения хост-компьютер запрашивает
имя пользователя. Для работы в удаленной системе пользователь должен иметь там права доступа. После
успешного подключения к хост-компьютеру пользователь должен указать тип используемого терминала. Для
удобства работы пользователя хост-компьютер обычно указывает ему способ вызова справочной информации.
Работа с удаленной системой может вестись в "прозрачном" режиме, когда программы на сервере и у
клиента только обеспечивают протокол соединения, и в командном, когда клиент получает в свое распоряжение
набор команд сервера.
Следует заметить, что из соображений безопасности намечается тенденция сокращения числа узлов
Internet, позволяющих использовать Telnet для подключения к ним.
Электронные доски объявлений (BBS). Независимо от Internet существуют маленькие диалоговые
службы, предоставляющие доступ к BBS (Bulletin Board System - система электронных досок объявлений).
Это компьютеры, к которым можно подсоединиться с помощью модемов через телефонную сеть. BBS
содержат файлы, которые можно переписывать, позволяют проводить дискуссии, участвовать в различных играх и
имеют свою систему электронной почты.
Самой крупной и известной системой электронных досок объявлений является система CompuServe. Она
насчитывает около двух миллионов пользователей. Для расширения своих возможностей CompuServe
подключается к Internet и предоставляет своим пользователям право доступа к службам Internet.
Несмотря на относительную дешевизну обслуживания, ни одна из диалоговых систем BBS не может дать
пользователям тех возможностей, которые предоставляет Internet.
Лекция № 10 КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ ПОИСКА ДОКУМЕНТАЛЬНОЙ ИНФОРМАЦИИ
Вопросы:
1. Автоматизированный документальный поиск, его назначение и подходы в реализации.
2. Документальные информационно-поисковые системы (ДИПС)
3. Технология полнотекстовых баз данных
4. Автоматическое индексирование документальной информации
5. Структуры информационно-поисковых массивов в ИПС
1. Автоматизированный документальный поиск, его назначение и подходы в реализации.
Цель документального поиска — нахождение и выдача соответствующих запросу пользователя
документов или их описаний. Документы, отвечающие запросу пользователя, называются релевантными.
Традиционно информационно-поисковые системы (ИПС) применяются для тематического поиска
научно-технической информации в крупных библиотеках, научно-технических центрах, архивах, патентных
библиотеках.
В настоящее время в связи с возрастанием объема документальной информации, необходимой для
принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными
технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в
различных сферах экономики.
По оценкам американских экспертов (фирма Delphi Consulting), в США ежедневно генерируется более 1
млрд страниц документов, а в архивах хранится уже более 1,3 трлн документов, причем поток деловой
информации чрезвычайно разнообразен по видам ее представления.
Можно выделить три основных составляющих деловой информации.
По данным вышеназванной фирмы, 12% информации структурировано, представлено в электронной
форме, хранится и управляется с помощью систем управления базами данных.
Примерно 15% информации представляет собой неструктурированные данные в электронной форме, как
правило, это текстовая информация.
Для автоматизации хранения и поиска такой информации используются технологии информационнопоисковых систем.
Оставшиеся около 73% информации традиционно хранятся на бумаге. Организация быстрого и
эффективного поиска такой документальной информации становится все более неразрешимой проблемой.
Таким образом, сфера приложения для технологий информационно-поисковых систем представляется
достаточно широкой.
Примерами документальной информации, для которой эффективны автоматизированное хранение и
поиск, могут служить: законы, постановления, комментарии к нормативным актам, тексты контрактов, переписка с
клиентами и партнерами, проекты, стенограммы переговоров, приказы, распоряжения, письма, отчеты, планы,
программы, записи судебных дел, постановления судов, научные статьи, доклады, конспекты, рефераты,
периодические и специальные печатные издания, каталоги фирм, рекламные издания, справочники и другие
документы.
При автоматизации поиска документальной информации важнейшими являются задачи формализации
содержания документа и запроса. При решении этих задач могут использоваться различные подходы.
Первый подход состоит в том, что содержание документа, а также его характеристики (дата издания
документа, автор и т. п.) отображаются в некую структурированную информацию, представляющую собой,
например, запись реляционного файла. В этом случае поиск документа сводится к поиску структурированной
информации средствами СУБД
Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому
образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические
комбинации. Этот подход, соответствует традиционному пониманию информационного поиска.
Эффективность документального поиска оценивают на основе показателей полноты и точности.
Полнота поиска определяется как отношение числа выданных в ответ на запрос релевантных
документов к числу всех имеющихся в поисковом массиве релевантных документов.
Точность поиска определяется как отношение числа релевантных документов в выдаче к общему числу
выданных документов.
Автоматизированный документальный поиск может быть организован на основе различных технологий:
поиска по поисковому образу документа,
поиска по полному тексту документа,
поиска документов по гипертекстовым ссылкам.
Технология полнотекстового поиска является неотъемлемой составляющей таких современных и
перспективных информационных технологий как: системы управления документами (Document management
system, DMS), технологии групповой работы над документами (groupware), технологии поиска в
Internet/intranet.
На технологии гипертекста базируется самый известный сервис Internet - World Wide Web (WWW).
2. Документальные информационно-поисковые системы (ДИПС)
В документальных информационно-поисковых системах, их также называют библиографическими,
поиск документа происходит по краткому формализованному описанию его содержания — так называемому
поисковому образу документа (ПОД).
Хотя основы методологии ДИПС разработаны достаточно давно, в 50-х — 60-х гг., эта технология и в
настоящее время успешно применяется при организации как ручного, так и автоматизированного поиска
документов.
Важнейшей структурной составляющей документальной информационно-поисковой системы является
информационно-поисковый язык.
Информационно-поисковый язык, ИПЯ (indexing language, retrieval language) — искусственный язык
для выражения содержания документов или запросов с целью последующего поиска. Основное назначение ИПЯ
— установить принадлежность того или иного документа к определенной группе понятий.
Перевод текстов документов и запросов на ИПЯ называется индексированием. В результате
индексирования содержание документа отображается в ПОД, а содержание запроса — в поисковое предписание
(ПП). Индексирование может быть ручным (когда его производит человек) или автоматическим.
К настоящему времени разработан ряд ИПЯ, носящих как общеотраслевой, так и специальный характер,
например, Универсальная десятичная классификация (УДК), классификаторы документов, отраслевые
дескрипторные языки.
Однако разработка ДИПС для управленческих документов, как правило, требует разработки
собственного информационно-поискового языка, адекватного данной предметной области.
3. Технология полнотекстовых баз данных
В ДИПС поиск документов происходит посредством просмотра поискового образа документа. Такая
организация поиска документов имеет свои преимущества и недостатки.
Представление документа в виде ПОД позволяет значительно снизить расходы памяти, сократить время
поиска и не требует мощного и дорогого аппаратного и программного обеспечения. Поэтому технология ДИПС
успешно использовалась в большинстве созданных до 90-х гг. системах автоматического документного поиска.
В то же время технология ДИПС обладает рядом существенных недостатков. Любой набор
информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте.
Кроме того, суть процесса образования ПОД состоит в неком структурировании документа, что может привести к
искажению его содержания. Особенно это существенно для нормативных документов, где каждое слово и
словосочетание представляются значимыми.
В настоящее время в автоматизированных современных системах поиска документальной информации
реализуются технологии поиска по полному тексту документов. Такие системы получили название
полнотекстовые базы данных (full-textsystem) или текстовые базы данных.
Полнотекстовые базы данных прежде всего используются для хранения и поиска правовой информации
(справочные правовые системы — СПС), периодических изданий (газет и журналов), корпоративной
документации.
В отличие от СУБД, в информационно-поисковых системах до сих пор не выработаны стандартные
языки запросов. Различные системы используют и различные средства формирования информационных запросов.
Чем мощнее поисковые возможности системы, тем богаче ее язык запросов.
Во всех системах для поиска по сочетанию терминов используются логические функции AND(И),
ОR(ИЛИ), NOT(HE), соединяющие ключевые слова информационного запроса. Для иллюстрации процесса
выполнения запроса с использованием логических функций рассмотрим следующий пример.
Задано множество документов {D1, D2, D3, D4, D5, D6, D7, D8, D9}, содержащих слова {S1, S2, S3, S4,
S5, S6} таким образом, что S1 входит в текст документов D2, D3, D7, D8, S2 входит в текст документов D1, D7, D9,
S3 входит в текст документов D1, D2, D3, D4, D5, D6, D8, D9, S4 входит в текст документов D5, D6, D7, D8, D9, S5
входит в текст документов D2, D5, D7, D9, S6 входит в текст документа D4.
В этом случае:
Запросу S1 AND S2 будет соответствовать множество документов, являющихся результатом логического
умножения множеств документов, содержащих слова S1 и S2, т. е.:
S1 AND S2 соответствует {D2, D3, D7, D8} x {D1, D7, D9} = D7.
Запросу S2 OR S5 будет соответствовать множество документов, являющееся результатом операции
логического сложения множеств документов, содержащих слова S2 и S5, т. е.:
S2 OR S5 соответствует {D1, D7, D9} + {D2, D5, D7, D9} = {D1, D2, D5, D7, D9}.
Запросу S3 NOT S6 будет соответствовать множество документов, содержащих слово S3, но не
содержащих слово S6, т.е.:
S3 NOT S6 соответствует {D1, D2, D3, D4, D5, D6, D8, D9} - {D4} = {D1, D2, D3, D5, D6, D8, D9}.
Некоторые средства формирования запроса допускают вложенные запросы и позволяют структурировать
их, задавая порядок выполнения. Обычно с этой целью применяют круглые скобки. Логические операторы,
заключенные в скобки, имеют приоритет при обработке.
Например, для описанного выше случая запрос S2 AND S4 OR (S6 OR (S3 NOT S5)) будет выполняться в
следующем порядке:
1. S3 NOT S5 = {D1, D2, D3, D4, D5, D6, D8, D9} - {D2, D5, D7, D9} = {D1, D3, D4, D6, D8}
2. S6 OR (S3 NOT S5) = {D4} + {D1, D3, D4, D6, D8} = {D1, D3, D4, D6, D8}
3. S2 AND S4= {D1, D7, D9} * {D5, D6, D7, D8, D9} = {D7}
4. {D7} + {D1, D3, D4, D6, D8} = {D1, D3, D4, D6, D7, D8}
При формировании запросов в полнотекстовых базах данных желательно учитывать не только
логическую взаимосвязь терминов, но и другие аспекты естественного языка. С этой целью используют различные
средства, например, усечение терминов, нормализацию терминов, операторы контекстного поиска, запрос по
образцу.
Обычно усекают окончания слов для того, чтобы падеж или множественное число не влияли на выбор
слова. Как правило, для представления несущественного символа используют знак «?», а для представления ряда
несущественных символов используют знак «*». Например, выражение «налог?» может соответствовать словам:
«налоги», «налогу», «налога», «налог», а выражение «налог*», может соответствовать словам «налогам»,
«налогообложение», «налоговая» и т. п.
В ИПС Евфрат для осуществления этой операции введен оператор «по началу». В некоторых системах
эта операция производится автоматически.
Автоматическая нормализация терминов состоит в приведении всех форм каждого слова к одной
стандартной форме, например, существительного - к именительному падежу единственного числа.
Операторы контекстного поиска позволяют учитывать контекст и осуществлять поиск в заданной
комбинации слов. Эти операторы можно трактовать как функции «близости», которые являются развитием
функции «И». Формы представления операторов контекстного поиска существенно различаются, причем во
многих ИПС их нет вообще.
Может быть предложен следующий вариант операторов контекстного поиска. Оператор обозначает
слова, стоящие рядом; оператор nW— слова, разделенные не более n символами, стоящие в заданном порядке;
оператор nN— слова, разделенные не более n символами, стоящие в произвольном порядке; оператор S- слова,
стоящие в одном параграфе; оператор TITLE указывает, что слово должно находиться в заголовке.
В поисковых системах сети Интернет в качестве инструмента оператора контекстного поиска чаще всего
используется оператор NEAR.
Некоторые механизмы поиска позволяют выделить в выданном наборе документов особо полезный
документ и задать операцию типа «Найти аналогичную информацию», «Найти подобные». При этом поиск
выполняется на основе всех содержащихся в данном документе ключевых слов. Подобный тип поиска, который
называют QBE (запрос по образцу), может быть очень эффективным, поскольку позволяет задействовать термины,
которые были бы неочевидны для пользователя. Запрос типа QBE используется в качестве механизма поиска
документальной информации в некоторых поисковых системах Интернет (Excite, Open Text, WebGrawleruflp.).
При всем многообразии средств формирования запросов одним из главных требований к любой
современной компьютерной системе является наличие удобного и понятного интерфейса, обеспечивающего
диалог с пользователем.
Во многих современных ИПС существует возможность формулировки запросов на естественном языке.
Проблема интерфейса на естественном языке достаточно успешно решается во многих системах, в которых
базовым языком общения является английский, например, запрос на обычном английском языке обрабатывают
следующие поисковые системы Internet. AltaVista, Excite, HotBot, Infoseek Ultra, Lycos, WebGravfler. Русский язык в
этом аспекте гораздо сложнее английского, так как менее структурирован, имеет более сложные морфологию и
синтаксис. Поэтому в русскоязычных системах пока преобладают традиционные средства запросов.
4. Автоматическое индексирование документальной информации
Индексирование документа - это процедура отображения текста документа в определенную форму,
предназначенную для автоматической обработки (индекс документа).
Различают ручное и автоматическое индексирование. При ручном индексировании этот процесс
осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст
документа в набор ключевых слов или дескрипторов. Преимущество ручного индексирования состоит в его
качестве. Недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при
ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными
специалистами, может получить различные индексы.
При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой.
Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста
называют словоформами. Основная задача автоматического индексирования состоит в распознавании в
словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический
анализ текста.
Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с
целью определения принадлежности словоформы слову.
Задачами морфологического анализа текста являются: выделение из текста словоформ; распознавание
слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание
грамматических признаков словоформ (часть речи, падеж и т. п.). Грамматические признаки, приписываемые в
результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.
Для анализа текста в системах АИ используются различные автоматические словари, которые можно
разделить на два типа. Первый тип представлен словарями, используемыми для распознавания словоформ и их
нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний.
Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что в развитом языке
насчитываются десятки миллионов понятий, а слов - около миллиона. Поэтому большая часть понятий выражена
комбинациями слов.
Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат
информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях
между словами.
В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы,
предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость
заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность
поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.
Как уже отмечалось, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что
текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла
текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного
распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и
автоматический синтаксически» анализ текста.
Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью
установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются
результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИ
являются исследования в области математической лингвистики и опыт создания систем машинного перевода.
Результаты синтаксического анализа текста обычно представляются в виде дерева отношений между
словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.
В начале 90-х гг. появились альтернативные технологии автоматического индексирования текста.
Например, технология «адаптивного распознавания образов», при которой каждая словоформа представляется в
виде своего двоичного кода, который является её «образом». При этом становится возможен так называемый
«нечеткий поиск», при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии
является значительное увеличение скорости индексирования и поиска информации, минимизация объема индекса,
недостатком - снижение полноты и точности поиска вследствие отсутствия семантического анализа текста,
который особенно важен в случае русского языка.
Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются
методы статистического анализа текста.
В основе статистических методов анализа текста лежит идея о возможности использования числовых
параметров для оценки информативности лексических единиц, составляющих текст. Считается, что как очень
редкие, так и очень часто встречаемые термины не могут использоваться в качестве информативных слов, а пик
информативности приходится на слова со средней частотой встречаемости.
При статистическом анализе текста рассчитывают различные количественные оценки. Например, число
вхождений слова в документ, общее число вхождения слова в документы, относительная частота вхождения слова
в документ.
Статистические методы удобны тем, что позволяют автоматически, посредством достаточно простых
операций получить сведения о данной лексической единице в документе или массиве документов. В то же время
использование только статистических методов при определении информативности слов не всегда приводит к
адекватным результатам. Например, удаление часто встречающихся терминов уменьшает полноту, а удаление
редко встречающихся терминов снижает точность поиска. Поэтому статистические методы не могут в полной мере
оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить
автоматическое.
В современных информационно-поисковых системах часто предусмотрено и ручное, и автоматическое
индексирование.
5. Структуры информационно-поисковых массивов в ИПС
Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может
быть организован различными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их
копии и ПОД с адресами — номерами документов в поисковом массиве. Поиск осуществляется по второй части
ИПМ.
В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при
такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содержащих
информацию о тексте документа (индексах).
В ИПС используют две принципиальные схемы информационного массива — прямую и инверсную.
При прямой организации каждому документу соответствует перечень слов, составляющих текст или
поисковый образ документа. Например, логическая структура поискового файла при прямой организации для
примера, приведенного выше, будет выглядеть следующим образом (рис. 20.1).
Адрес документа
Ключевые слова
D1
S2 , S3
D2
S1 , S3 , S5
D3
S1 , S3
D4
S3 , S6
D5
S3 , S4 , S5
D6
S3 , S4
D7
S1 , S2 , S4 , S5
D8
S1 , S3
D9
S2 , S3 , S4 , S5
Рис. 20.1. Прямая схема организации информационного массива
При этом отыскание нужных документов производится путем поочередного сравнения поисковых
образов документов со словами, составляющими информационный запрос, т. е. реализуется принцип
последовательного доступа к данным. Достоинства прямой схемы
состоят в простоте организации и
использования, например, для включения нового документа в массив достаточно добавить новую запись в файл.
Недостатком прямой организации поиска является необходимость последовательного просмотра ПОД
всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных
применяют инверсный способ.
Инверсный способ организации поискового массива предусматривает создание инвертированной
матрицы, в которой и происходит поиск (ее называют инвертированным матричным индексом) (рис. 20.2).
Слова
S1
S2
S3
S4
S5
S6
Адреса документов
D2 , D3 , D7 , D8
D1 , D2 , D3 , D4 , D5 , D6 , D8 , D9
D1 , D2 , D3 , D4 , D5 , D6 , D8 , D9
D5 , D6 , D7 , D8
D2 , D5 , D7 , D9
D4
Рис. 20.2. Инверсная схема организации информационного массива
Простой индекс можно представить как бинарное отношение I(v, а), в котором «v» — слово, взятое из
текста, а «а» — список адресов документов, содержащих это слово. Каждый кортеж инвертированного индекса
называется инвертированным списком.
Инвертированная матрица напоминает предметный указатель в книге, где слова, размещенные в
алфавитном порядке, сопровождаются перечислением номеров страниц, на которых они встречаются.
Документальный поиск сводится к просмотру соответствующих записей файла инвертированного
матричного индекса. Таким образом, отпадает необходимость в последовательном просмотре всего
информационного массива и значительно сокращается время поиска.
При индексировании (инвертировании) текста документа возможны различные варианты.
В случае частичного инвертирования в индекс включают информативные ключевые слова, т. е.
формируется поисковый образ документа.
При полном инвертировании все слова документа, в том числе и шумовые (незначащие), включаются в
индекс.
В случае неполного инвертирования в индекс включаются все значимые слова текста документов, а
незначимые удаляются. В качестве незначимых слов выступают союзы, предлоги и прочие служебные части речи.
При инвертировании всех значащих слов текста документов файлы инвертированных матричных
индексов могут достигать гигантских размеров. Часто для них требуется более 50% дискового пространства,
необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в
размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что
встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае, в матрицу
добавляются лишь указатели на новые документы.
При решении задач организации эффективного доступа к данным индексы больших размеров
преобразуют в иерархию индексов небольших размеров. Один из способов реализации таких индексных структур
состоит в использовании B-деревьев, листьями которых являются ссылки на документы.
Списки адресов {а} в ИПС значительно больше по размерам, чем в СУБД. Поэтому для организации
эффективного доступа к данным индекс может храниться, например, в трех разных файлах, связанных
указателями. Первый файл — индексный, состоит из полей: слово; указатели пересылок. Второй файл —
пересылок, состоит из полей: номер документа; адрес документа. Третий файл содержит тексты документов.
В инвертированных матричных индексах может также храниться дополнительная информация,
например, данные о месте вхождения термина; статистические данные о термине; слова, связанные
парадигматическими отношениями с данным термином, и др.
Информация о месте вхождения термина - это зона, абзац, предложение и номер слова в предложении.
Эти данные могут указываться для каждого вхождения термина в документ и для каждого документа, содержащего
данный термин. Данные о положении слова используются для реализации некоторых видов контекстного поиска.
В индексных файлах могут также храниться частоты терминов и документов. Частота термина есть
число вхождений термина в документ. Частота документа есть число документов, содержащих данный термин.
Данные о частоте встречаемости используются в различных схемах поиска, основанных на весах или рангах
терминов.
Если в индексе присутствуют указатели на синонимы, то при обработке запроса происходит
автоматическое связывание инвертированных списков всех терминов, синонимичных указанному в запросе. Это
значительно повышает полноту поиска.
В дополнение к прямой и инвертированной схемам в ИПС используется атрибутный индекс. Он
позволяет хранить данные о документе, не содержащиеся непосредственно в его тексте, например, имя автора,
дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекаться из
документа либо вноситься вручную при вводе документа в систему. Структура атрибутного индекса соответствует
стандарту представления структурированной информации, т. е. это таблица с заранее заданными полями. На рис.
20.3. представлен пример организации поискового файла — атрибутного индекса, в котором все документы
характеризуются одним и тем же набором реквизитов-полей: автор документа, вид документа и его номер, дата
издания, название. Поиск по атрибутному индексу осуществляется средствами обработки запросов СУБД выдаются только те документы, значения атрибутов которых удовлетворяют условиям запроса.
Автор
Вид документа
Дата
издания
Название
Правительство
РФ
Постановление
№1172
07.11.96
06 утверждении Положения о порядке контроля за вывозом из РФ
товаров и технологий двойного назначения, экспорт которых
контролируется
Центральный
банк РФ
Приказ № 02-368 27.09.97
0 введении в действие Инструкции № 49 «0 порядке регистрации
кредитных
организаций
и
лицензирования
банковской
деятельности»
ГТК РФ
Письмо
14/1104
№01- 01.10.96
0 применении Положения о таможенном перевозчике
Рис. 20.3. Пример атрибутного индекса
Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному индексу, но
имеет значительно меньше поисковых возможностей. Однако атрибутный индекс позволяет находить
информацию, не являющуюся составной частью текста документа. Кроме того, файлы атрибутных индексов
значительно меньше по размеру файлов инвертированных матричных индексов с полным текстом, поскольку в
этом случае с каждым документом связано гораздо меньше хранимой информации.
В современных ИПС реализованы как атрибутное индексирование, так и инвертированное матричное.
Это позволяет, например, отыскать все документы, созданные за определенный период времени и при этом
содержащие конкретную фразу. Первая часть поиска - по дате - выполняется с помощью атрибутного индекса, а
вторая часть — по заданному набору слов — на основе инвертированного матричного индекса. Разрешается и
обратная последовательность отбора. Так, если пользователь из всей базы предварительно получил список
документов, содержащих сведения о льготах по уплате подоходного налога, он может сузить этот список,
ограничившись документами, принятыми каким-либо органом или за определенный период (дату).
Лекция № 11 ГИПЕРТЕКСТОВЫЕ ТЕХНОЛОГИИ ПОИСКА ДОКУМЕНТАЛЬНОЙ ИНФОРМАЦИИ
Вопросы:
1.
Гипертекстовые технологии поиска документальной информации
2.
Технологии поиска документальной информации в Интернет
1. Гипертекстовые технологии поиска документальной информации
Гипертекст (нелинейный текст) - это организация текстовой информации, при которой текст
представляет собой множество фрагментов с явно указанными ассоциативными связями между этими
фрагментами.
Основная идея гипертекстовых технологий состоит в том, что поиск документальной информации
происходит с учетом множества взаимосвязей, имеющихся между документами, а значит более эффективно, чем
при традиционных методах поиска.
Формально гипертекст можно представить в виде сети или графа, где узлами являются фрагменты
текста, а дуги отображают отношения, связывающие эти фрагменты. Доступ к информации осуществляется не
путем последовательного просмотра текста, как в обычных информационно-поисковых системах, а путем
движения от одного фрагмента к другому.
В самом общем виде взаимодействие пользователя с гипертекстовой системой заключается в
следующем. Пользователь читает на экране компьютера некоторый текст и имеет возможность выполнять ряд
определенных в системе действий в зависимости от того, какие у него возникают ассоциации от чтения текста на
экране.
Считают, что первым идею гипертекста, не используя самого термина «гипертекст», выдвинул в 1945 г.
Ванневар Буш, советник президента Рузвельта по науке. Им был предложен проект технической системы нового
типа (или лучше сказать — технической среды), названный им «Memex». Основное преимущество этой системы
состояло в возможности соединения и совместного просмотра отдельно существующих, но ассоциативно
связанных единиц информации (статей, текстовых документов, фотографий, чертежей). Система «Memex»
представлялась в виде своеобразной библиотеки с простым доступом к любому документу и возможностью
переходить от любого документа к смежным, связанным с ним по смыслу. Пользователь должен был иметь
возможность самостоятельно устанавливать нужные ему связи между документами, вводить собственные
документы, связывать их с существующим содержимым библиотеки. Таким образом, основная идея
предложенного проекта состояла в возможности фиксации смысловых связей между элементами информации и
доступа к этой информации по системе связей, т. е. принципы системы «Memex» полностью соответствуют
современным представлениям о сути гипертекста.
Первая компьютерная система, реализующая идею гипертекста, была создана в 1968 г. Она носила чисто
научно-исследовательский характер и обеспечивала возможность пользователям в соответствии со своими
представлениями формулировать, наращивать систему связей между элементами информации и просматривать
информацию как систему связей.
Термин «гипертекст» ввел Т. Нельсон. Он определил гипертекст как «соединение текста на естественном
языке с создаваемой компьютером возможностью интерактивного создания внутри него новых ветвей или
динамичной организации нелинейного текста, который уже не может быть напечатан обычным образом на
обычной странице».
Г. Нельсон был разработчиком гипертекстовой системы, которая использовалась для ведения
документации по проекту космического корабля «Апполон».
В 1987 г. фирма Apple выпустила первую гипертекстовую систему для персональных машин — пакет
HyperCard для компьютеров Macintosh.
С этого времени гипертекстовая технология приобретает массовый коммерческий характер.
Гипертекст можно рассматривать как своеобразную базу данных, которая организуется в виде открытой,
свободно наращиваемой и изменяемой сети, узлы которой (линейные тексты) соединяются самим пользователем.
От обычной базы данных гипертекст отличается прежде всего тем, что в нем отсутствуют априорно заданные
ограничения на характер связей (как, например, в иерархических структурах).
Элементы гипертекста (текстовые фрагменты) называются узлами. Узлы, между которыми возможен
переход, считаются смежными, а сама возможность перехода называется «связь». Совокупность смежных узлов
образует «окрестность» данного узла.
Последовательно соединенные связями узлы образуют «цепь». Расстояние между узлами, что
соответствует «близости» или «неблизости» их содержания, равно минимальному количеству промежуточных
узлов.
В общем случае в качестве узла могут выступать: слово; словосочетание; предложение; абзац; параграф;
документ; собрание документов, относящихся к одной теме; отдельные сообщения и т. п.
Характер связей между узлами может быть различным. Переход может осуществляться между текстом и
комментарием к нему; между разными редакциями текста; между текстом и его возможными продолжениями;
между текстами, отвечающими или возражающими друг другу; между текстами, пересекающимися по
содержанию, и т. д.
Создание гипертекста состоит прежде всего в формировании системы переходов от узла к узлу (системы
ссылок). В зависимости от типа гипертекстовой системы такая система может задаваться как разработчиками, так
и пользователем в процессе работы с гипертекстом.
Движение в гипертекстовой сети, совершаемое в процессе чтения гипертекста, называется «навигацией».
Если гиперсеть имеет сложную, разветвленную структуру, возникает проблема ориентации
пользователя, т. е. определения, в каком месте сети в данный момент он находится. Проблема ориентации
присутствует и при работе с традиционным линейным текстом большого объема, но в этом случае пользователь
имеет только два направления поиска — «выше» или «ниже». Гипертекст предлагает больше возможностей в
выборе направлений движения, поэтому в этом смысле работать с гипертекстом сложнее. Поэтому многие
гипертекстовые системы облегчают проблему ориентации в гипертексте, предоставляя наглядное изображение
структуры связей.
В некоторых современных гипертекстовых системах существует возможность запоминания направлений
поиска пользователя в процессе навигации. Такую информацию можно рассматривать как альтернативу обработки
информации по правилам логического вывода (экспертные системы). Примером использования такого подхода
могут служить системы, базирующиеся на технологии CBR (Case Based Reasoning— вывод, основанный на
прецедентах).
Гипертекстовая технология реализуется в конкретной гипертекстовой системе, которая состоит из двух
частей: гипертекста (базы данных) и гипертекстовой оболочки.
Гипертекстовая оболочка осуществляет следующие основные функции:
поддержка ссылочных связей;
создание, редактирование и наращивание гипертекста;
прямой доступ;
поддержка ссылочных связей;
просмотр (browsing— браузинг);
выделение виртуальных структур.
Поддержка ссылочных связей позволяет поддерживать ранее зафиксированные связи между узлами сети.
Функция создания, редактирования и наращивания гипертекста принципиально отличает технологию
гипертекста от технологии баз данных, в которых концептуальная схема данных заранее задана, позволяет вводить
новые узлы, редактировать содержание узлов, устанавливать связи между узлами.
Прямой доступ позволяет осуществлять прямой доступ к узлам сети по их именам.
Просмотр (browsing— браузинг) — операция, характерная только для гипертекста. Означает поиск
информации посредством просмотра гипертекстовой сети, при этом возможно запоминание пути следования, с тем
чтобы при последующем аналогичном запросе поиск происходил по зафиксированному пути следования.
Реальные гипертекстовые системы в зависимости от специализации могут обладать различным набором
вышеперечисленных функций.
Гипертекстовые технологии широко используются в различных прикладных системах:
в настольных издательских системах - для создания документов большого объема со свойствами
гипертекста (т. е. с системой ссылок);
в системах управления документами (СУД) - например, для сведения в один итоговый документ
информации, содержащейся в разнородных документах;
в системах подготовки электронных документов, позволяющих составлять гипертекстовые документы с
возможностью осуществления навигации.
Наиболее известным инструментом создания гипертекста остается система HyperCard, входящая в набор
базовых программных средств для машины Macintosh.
Одним из перспективных направлений развития гипертекстовых систем является технология
гипермедиа — соединение технологии гипертекста и технологии мультимедиа (интеграция текста, графики, звука,
видео). Для разработки гипермедийных приложений фирма Apple разработала среду программирования АМТ(Apple
Media Tool), в которой основным объектом разработки является не «карта», как в HyperCard, а «экран». С
помощью этих средств создаются различные электронные издания — справочники, энциклопедии;
разрабатываются обучающие программы.
Гипертекстовые технологии нашли широкое применение и при организации поиска документальной
информации в сети Интернет, например, в сервисе World Wide-Web (WWW).
Сервис Web построен на основе архитектуры «клиент — сервер». В состав Web-системы входят
следующие составляющие:
язык гипертекстовой разметки документов HTML (Hyper Text Markup Language);
универсальный способ адресации ресурсов в сети URL (Universal Resource Locator);
протокол обмена данными (гипертекстовой информацией) HTTP (Hyper Text Transfer Protocol);
средства просмотра Web-страниц (браузеры).
Язык HTML - это средство для формирования гипертекстовых документов. Гипертекстовые ссылки
встроены в текст документа и хранятся как его часть. Благодаря этому языку можно не только формировать
гипертекстовые документы, но и осуществлять связь текста и изображения с документами, расположенными на
другом сервере Web.
Универсальный способ адресации применяется для организации гипертекстовых ссылок и обеспечивает
доступ к распределенным ресурсам сети.
Адрес URL состоит из трех элементов: используемого протокола доступа, логического имени сервера,
имени файла. Например, сервер Государственной публичной научно-технической библиотеки России имеет адрес:
http://gpntb.ippi.ras.ru/.
Протокол обмена данными служит для установления связи с документами формата HTML независимо от
его местонахождения.
В настоящее время гипертекстовые технологии развиваются в нескольких направлениях.
Одно из них концентрируется на представлении в узлах гипертекста разнородной, но семантически
связанной информации — текста, рисунков, графики, фотографий, видео, звука.
Важным направлением развития гипертекстовых технологий является аналитическая обработка
информации. Например, смысловое упорядочивание документов, обеспечивающих решение многоэтапной задачи
или разработку сложных проектов.
Наиболее перспективным направлением являются технологии организации информационных ресурсов,
распределенных в сетях различных типов (локальных, корпоративных, глобальных), и, прежде всего, Webтехнология.
2. Технологии поиска документальной информации в Интернет
Интернет представляет собой огромное хранилище распределенной документальной информации,
различных форматов и видов:
Web-страницы,
онлайновые электронные библиотеки,
виртуальные музеи,
каталоги по продуктам и услугам,
открытая правительственная информация,
научно-исследовательские публикации,
документы различных сервисов Интернет: Gopher, FTP, Usenet и электронной почты,
коммерческая и финансовая информация.
По некоторым оценкам, в настоящее время Web содержит сотни миллионов страниц и каждые четыре
месяца этот объем удваивается.
Одна из основных проблем пользователя современного Интернета — эффективный поиск информации.
Очевидно, что актуальность этой проблемы будет возрастать, так как объем документальной информации в
Интернет возрастает экспоненциально.
Как показывает практика, существующие инструменты поиска документальной информации в Интернет
обеспечивают пока неудовлетворительную точность выдачи и возвращают слишком много документов, из которых
лишь небольшая часть действительно соответствует запросу пользователя.
Основным инструментом поиска в Интернет являются поисковые системы.
В настоящее время насчитывается около 200 поисковых систем.
2.1. Классификация поисковых систем Интернет
Существующие поисковые системы Интернет можно классифицировать по нескольким критериям:
1. Объем поискового индекса
Поисковые системы периодически просматривают узлы Интернет и формируют постоянно обновляемые
индексы документов.
Из-за экспоненциального расширения всемирной сети исчерпывающее индексирование всего
содержимого Web и создание одного огромного индекса практически невозможно. В настоящее время даже
лучшие поисковые системы индексируют не более трети всего содержимого сети. Самый больший объем
индексируемой информации собран на узле HotBot - 34%; несколько меньше - на AltaVista (28%), Northern Light
(20%) и Excite (14%). Список замыкает Lycos, поисковая машина которого индексирует только около 3% всей
информации.
2.Метод выбора серверов для просмотра (опроса)
Генерация поискового индекса требует систематического обхода Web-узлов и определения
местонахождения каждого документа. Структура Web аналогична структуре ориентированного графа, поэтому
здесь применимы алгоритмы обхода графа.
Существуют четыре метода такого обхода:
1) случайный выбор первого URL-адреса для инициализации поиска. Программа индексирует
начальный документ, выделяет URL-адреса, указывающие на другие документы, а затем анализирует эти URL для
поиска «преимущественно в ширину» или «преимущественно в глубину»;
2) поиск начинается с набора URL-адресов, определяемых на основе популярности Web-узлов;
3) пространство Web делится на разделы на основе системы имен Internet или кодов стран, а для полного
исследования этих разделов выделяется одна программа-робот или несколько — такой метод используется чаще,
чем первые два;
4) частота опроса - каждые несколько часов, каждый день, каждый месяц. Частота опроса является
важной характеристикой качества работы системы, так как определяет актуальность и полноту индекса.
3.Используемые поисковые технологии
По этому критерию поисковые системы можно разделить на четыре категории:
тематические каталоги;
специализированные каталоги (онлайновые справочники);
поисковые машины (полнотекстовый поиск);
средства мета-поиска.
Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких
категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации
Индексирование может проводиться автоматически либо вручную с помощью специалистов, которые
просматривают популярные Web-узлы и составляют краткое описание документов-резюме (ключевые слова,
аннотация, реферат).
Например, в ИПС Yahoo каталог построен на основе фасетно-иерархической классификации.
Иерархически организованный тематический каталог Web генерируется полуавтоматически. Ссылки на различные
ресурсы присылаются пользователями и извлекаются программами-роботами, считывающими новые ссылки из
известных источников. Тематика каталога разделена на большие классы, например, Компьютеры, Правительство,
которые далее детализируются по иерархическому принципу.
В ИПС Magellan индексируются Web-узлы, серверы FTP» Gopher, а также новости Usenet и сеансы
Telnet. Коллектив редакторов и авторов просматривает Web-узлы и ранжирует их по таким факторам, как полнота и
простота исследования. Пользователи могут присылать для рецензии свои URL-адреса. Критерий выдачи
оценивается на основе частоты вхождения терминов запроса в документ. Более релевантными считаются те
документы, которые содержат указанные в запросе термины в заголовке, дескрипторе МЕТА или URL-адреса.
Результаты запроса ранжируются.
Специализированные каталоги или справочники - это каталоги, созданные по отдельным отраслям и
темам: каталог по новостям, каталог по городам, каталог по адресам электронной почты и т. п.
Поисковые машины (самое развитое средство поиска) реализуют технологию полнотекстового поиска.
Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о
нескольких миллионах документов, например, в индексе популярной ИС AltaVista 56 млн URL-адресов (данные
1999г.).
Запрос может быть сформулирован как запрос к полнотекстовой базе данных, распределенной в сети.
Поскольку это база огромных размеров, то характер запроса значительно влияет на результат. При формировании
запроса в ПС могут использоваться следующие инструменты:
1) отдельные ключевые слова — этот вид запроса целесообразно использовать только для
узкоспециальных терминов, в противном случае количество найденных документов может достигать нескольких
десятков тысяч, т. е. такой поиск становится бессмысленным;
2) логические операторы (булев поиск);
3) средства контекстного поиска: указание расстояния между словами; указания порядка следования
слов;
поиск по полям документа HTML (слово в названии, заголовке и т. п.);
4) запрос по образцу (QBE) (найти такой же, найти подобный).
Позволяет выделять в наборе выданных документах особо полезный документ и автоматически
формировать запрос на основе ключевых слов этого документа. Этот тип запросов позволяет сформулировать
более точный запрос с использованием новых ключевых слов;
5) поиск фразы. Поиск документов, содержащих конкретное словосочетание или фразу;
6) поиск с использованием всех словоформ слова. Поиск с элементами морфологического анализа. Это
средство особенно важно при поиске в русскоязычных текстах;
7) определение области поиска (наименование сервиса), домена (серверы с определенным расширением
имени, su, ru) и т.п.
8) запрос на естественном языке.
Запрос на русском языке можно делать только в Яndex. Несмотря на кажущуюся привлекательность,
данный вид запроса не очень эффективен — поиск будет не очень точным и полным, так как этот запрос
автоматически индексируется и система сама выделяет из него ключевые слова.
При расчете критерия выдачи в поисковых системах учитываются:
частота слова в документе;
его местоположение (в заголовке, подзаголовке, HTML-дескрипторах).
Документы сортируются в порядке убывания релевантности, информация об этих документах выдается в
виде:
URL-адреса;
названия;
первых нескольких строк или краткого описания (резюме, автоматическая аннотация или
реферат).
В конкретных поисковых системах может быть предложен различный набор этих инструментов.
Средства метапоиска. Запрос одновременно осуществляется несколькими поисковыми системами,
результат поиска объединяется в общий, упорядоченный по степени релевантности список. Поскольку каждая
система обрабатывает только часть узлов сети, это позволяет значительно расширить базу поиска. К этому классу
можно также отнести так называемые персональные программы поиска, которые позволяют формировать
собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).
Примерами систем данного вида могут быть: IBM InfoMarket — выполняет поиск в Yahoo, Open Text,
Magellan, различных коммерческих ресурсах и группах новостей одновременно, генерируя ранжированные
результаты обработки запроса; MetaCrawler — посылает запросы восьми различным серверам поиска: OpenText,
Lycos, WebCrawler, JnfoSeek, Excite, AltaVista, Yahoo и Galaxy, поддерживает булевы операции и поиск фраз.
Для количественной оценки эффективности ИПС используется формальное измерение точности и
полноты поиска, полученное на основе экспериментов в контролируемых условиях. Это требует наличия
экспериментальной системы с фиксированным числом документов, стандартного набора запросов и множества
документов, релевантных и нерелевантных каждому обрабатываемому в эксперименте запросу. Создание
подобных условий в контексте Web крайне затруднено. Как говорилось, различные серверы поиска работают с
разными индексами, различающимися полнотой охвата документов Web.
Таким образом, объективное сравнение эффективности поиска различных поисковых систем
осуществить достаточно сложно.
2.2. .Глобальные поисковые системы и каталоги
Самой популярной поисковой системой считается AltaVista, которая имеет одну из самых крупных
индексных баз и всемирную зону охвата. Сервер расположен в США. Имеется ряд зеркальных серверов в других
странах. Обрабатывает и русские серверы.
Применяется программа-робот (программа для просмотра) под названием Scooter, просматривающая
документы Web и группы новостей Usenet.
Индексирование выполняется по всему тексту документа. В качестве аннотации используются первые
несколько строк документа. Для краткого описания содержимого авторы HTML-документов могут применять
оператор МЕТА, в котором указываются ключевые слова документа.
Индекс AltaVista обновляется по крайней мере раз в день. При посещении страниц Scooter отдает
приоритет тем, которые изменяются наиболее часто. Страница, не меняющаяся в течение месяца, будет
просматриваться реже, чем страница, оказывающаяся обновленной при каждом ее просмотре программойроботом.
Alta Vista поддерживает полный булев поиск, поиск по фразам. Результаты ранжируются по
релевантности. Более высокий приоритет имеют:
документы, содержащие искомые термины в числе первых нескольких слов;
документы, в которых термины находятся близко друг от друга;
документы, содержащие несколько вхождений терминов.
Результаты выборки включают в себя заголовок, аннотацию документа, его размер и дату последней
модификации.
Самым известным представителем глобальных каталогов является система Yahoo.
2.3. Российские поисковые системы и каталоги
Если англоязычные документы лучше искать, применяя глобальные поисковые системы, то при поиске
русскоязычных документов целесообразнее пользоваться поисковыми системами, которые индексируют только
русскоязычную часть Интернет. Подобные поисковые серверы называются локальными.
Системы, специализирующиеся на просмотре русскоязычных серверов, поддерживают различные
кодировки кириллицы и проводят морфологический анализ текста, в частности учитывают при поиске различные
словоформы слов.
Основными полнотекстовыми поисковыми системами, представленными в русскоязычном секторе
Интернет, считаются Rambler, Апорт, Яndex, TELA-ПОИCK. Системы проводят автоматическое сканирование
документов только с доменов ru, su и других доменов, принадлежащих странам ближнего зарубежья. При
регистрации страницы, располагающейся в зоне .сот, робот проверит корневую страницу ресурса. При отсутствии
русского текста индексация не произойдет.
Поисковая система Rambler стала работать в конце 1996 г. В ее состав входят следующие компоненты:
поисковая система по серверам России и стран СНГ. Содержит миллионы документов с более
чем 15.000 сайтов. Имеет развитый язык запросов и гибкую форму вывода результатов;
добровольный рейтинг сайтов/страниц по посещаемости с учетом классификации. Система
рейтинга охватывает более 5000 участников.
Язык запросов поисковой системы Rambler включает следующие инструменты:
1) ключевые слова — в запросе можно использовать одно слово или несколько слов, разделенных
пробелами. Могут быть использованы как русские, так и английские словосочетания. По умолчанию, если не
используется расширенный поиск, считается, что в найденных документах должны содержаться все указанные в
запросе слова;
2) булев поиск — поисковые термины могут быть объединены логическими операциями посредством
служебных слов And, Or и Not. Символы '&', '|' и '!' могут использоваться вместо служебных слов или в сочетании с
ними;
3) учет регистра - любой поисковый термин может содержать в себе как заглавные, так и прописные
символы. Индекс базы данных строится с приведением слов к прописным символам;
4) учет словоформ — при необходимости нахождения документов, содержащих различные формы
поискового слова, перед таким термином следует использовать служебный символ '@'. В меню детального запроса
имеется соответствующая возможность установить такой режим для всех слов запроса;
5) усечение
слов
—
возможно
использование
метасимволов
'*'
и
'?'
для обозначения произвольной части слова и произвольного символа слова. По умолчанию система ищет
поисковые слова в том виде, в котором они были введены;
6) использование весовых коэффициентов — для увеличения/уменьшения весового значения любого слова
можно использовать'+' и '—'. Возможно многократное использование данных символов;
7) определение области поиска — для этого можно использовать специальные слова: $All, $URL, $ТШе,
$Header, $Essence, $Address. Специальные слова начинаются с символа "$";
8) сортировка результатов — можно определить тип сортировки, отличный от обычной сортировки
результатов поиска по степени релевантности, используя служебные слова: $YOUNG и $OLD. В первом случае
документы будут отсортированы по дате так, что вначале будут показаны самые свежие документы, во
втором случае — наоборот;
9) элементы контекстного поиска — используется служебное слово $NEAR, слово $RANDOM
используется для отмены этого режима. Оба служебных слова можно использовать в запросе отдельно, но
можно и вместе, если после комбинации слов необходимо отключить текущий режим оптимизации между
словами.
Поисковая система Яndex стала работать с конца сентября 1997 г. Помимо серверов с расширением su и
га индексирует содержание русских зарубежных Web-узлов. Нормализация слов происходит на основе
специального алгоритма, это позволяет не хранить все словоформы в словаре.
Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор
вспомогательных модулей (анализатор документов, языки разметки, конверторы форматов, сетевой «паук»).
Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать
слова, т. е. находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре.
Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с
учетом логических операторов.
Создаваемый индекс составляет около 1/3 объема текста (без картинок, tag'oв и пр.), при этом
записывается адрес слова с точностью до позиции в тексте, что позволяет проводить контекстный поиск.
Используется словарь на 90 тыс. слов. При индексации происходит нормализация, т. е. слово ставится в
свою исходную форму (для существительных — именительный падеж единственного числа, для глаголов —
неопределенная форма). Одновременно с индексацией исключается омонимия. Скорость индексации — не менее 2
Мб/мин.
Если, слово не существует в словаре, то словарный сервер на основании имеющихся у него
морфологических правил строит гипотезы возможной нормализации и словоизменения, т. е. алгоритм
морфологического разбора позволяет распознавать слова, не найденные в словаре.
Индексирование проводится по всем словам, стоп-слова определяются статистически.
Язык запросов Япdех. включает следующие компоненты:
1) булев поиск:
оператор<<пробел>> или «&» означает логическое И (в пределах предложения);
оператор «&&» означает логическое И (в пределах документа);
оператор «|» означает логическое ИЛИ;
оператор «~» означает бинарный оператор И НЕ (в пределах предложения);
оператор «~ ~» означает бинарный оператор И НЕ (в пределах документа);
2) контекстный поиск:
оператор «()» означает группирование слов;
оператор «/(n т)» означает расстояние в словах (—назад +вперед);
оператор «""» означает поиск фразы;
оператор «&&/(n т)» означает расстояние в предложениях (—назад +вперед);
3) определение области поиска:
$title (выражение) — означает поиск в заголовке;
$anchor (выражение) — означает поиск в тексте ссылок;
#keywords= (выражение) — означает поиск в ключевых словах;
#image= «значение» — означает поиск файла изображения;
#hint= (выражение) — означает поиск в подписях к изображениям;
4) поиск по адресам:
#url= «значение» — поиск на заданном сайте (странице);
#link= «значение» — поиск ссылок на заданный URL;
5) поиск по дате — позволяет искать документы, изданные за указанный период времени.
Результаты поиска упорядочиваются по степени релевантности. Критерий релевантности рассчитывается
на основе: числа встретившихся в документе терминов запроса, их положения и числа слов между ними. В каждом
документе выделяются (подсвечиваются) найденные слова. Возможно задавать форму выдачи: полное описание,
краткое описание, адрес.
Поисковая система TELA-ПОИСК в настоящее время менее популярна, чем три рассмотренные
системы. Поисковая система TELA, созданная компанией DUX, позволяет производить поиск по ключевым словам
русскоязычных страниц во «всемирной паутине», а также англоязычных страниц на российских серверах. Поиск
производится с учетом морфологии русского языка. Поисковая часть сервера TELA сделана на базе системы поиска
FreeWAIS-SF c использованием русской версии системы поддержки морфологии языка ILIAS, которая позволяет
задавать ключевые слова в произвольной форме.
При определении релевантности учитываются:
количество слов из запроса найденных в документе;
частота встречаемости слов запроса в языке (редкие слова считаются более значимыми, более
характерными);
отношение найденных слов к общему количеству слов в документе.
В соответствии с этими критериями найденные документы сортируются в выборке по убыванию степени
соответствия запросу от 1000 (максимальное соответствие) до 0. В начале выборки находятся наиболее
соответствующие запросу документы.
Вместе со ссылкой отображаются начальный фрагмент текста найденного документа, а также дата и
время последней модификации файла.
Основным русскоязычным каталогом является система @Rus (прежнее название Aу!). Работает с 1996 г.,
располагает базой данных, содержащей более 30 000 аннотаций, которые представлены в Рубрикаторе,
насчитывающем более 200 тематических разделов.
Аннотации сайтов в зависимости от информативности и содержания распределяются в четыре лиги (в
результатах поиска они отмечаются одной или несколькими звездочками), что позволяет пользователю сразу
выбрать лучший источник. В настоящее время @Rus посещает более 15 000 человек в день (данные на декабрь
1999г.).
Основным элементом @Rus является Каталог, содержащий аннотации с гиперссылками. Он-лайновый
каталог состоит из более 30 000 сайтов, которые разделены на четыре лиги:
элитная лига (****) — наиболее популярные и известные сайты крупных корпораций и
правительственных организаций;
высшая лига (***) — наиболее информативные и полезные сайты;
профессиональная лига (**) - корпоративные и профессиональные сайты;
любительская лига (*) — частные и непрофессионально выполненные сайты.
Каталог @Rus интегрирован с поисковой системой Апорт.
В настоящее время существует тенденция расширения функций поисковых систем и каталогов,
преобразование их в информационные порталы. Такие системы помимо традиционного документального поиска
предоставляют и другие информационные услуги. Эти возможности и услуги можно разделить на несколько
групп:
аналитическая информация — обзоры и рекомендованные сайты, новости IT, аналитика по
статистике и популярности сайтов;
справочная информация - новости, погода, курсы валют;
бесплатная электронная почта;
деловые услуги — электронная коммерция;
интерактивные элементы — конференции, чаты, опросы.
Лекция № 12 ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ
Вопросы:
1.
2.
3.
4.
История развития искусственного интеллекта
Направления развития искусственного интеллекта
Данные и знания
Модели представления знаний
1. ИСТОРИЯ РАЗВИТИЯ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
1.1. История развития искусственного интеллекта за рубежом
Идея создания искусственного подобия человеческого разума для решения сложных задач моделирования
мыслительной способности витала в воздухе с древнейших времен [6,7]. Впервые ее выразил Р.Луллий (ок.1235ок.1315), который еще в XIV в. пытался создать машину для решения различных задач на основе всеобщей
классификации понятий.
В XVIII в. Г.Лейбниц (1646 - 1716) и Р.Декарт (1596- 1650) независимо друг от друга развили эту идею,
предложив универсальные языки классификации всех наук. Эти идеи легли в основу теоретических разработок в
области создания искусственного интеллекта.
Развитие искусственного интеллекта как научного направления стало возможным только после создания
ЭВМ. Это произошло в 40-х гг. XX в. В это же время И.Винер (1894- 1964) создал свои основополагающие работы
по новой науке - кибернетике.
Термин искусственный интеллект (artificial intelligence) предложен в 1956 г. на семинаре с аналогичным
названием в Станфордском университете (США). Семинар был посвящен разработке логических, а не
вычислительных задач. Вскоре после признания искусственного интеллекта самостоятельной отраслью науки
произошло разделение на два основных направления: нейрокибернетику и кибернетику "черного ящика". И только
в настоящее время стали заметны тенденции к объединению этих частей вновь в единое целое.
Основную идею нейрокибернетики можно сформулировать следующим образом. Единственный объект,
способный мыслить, - это человеческий мозг. Поэтому любое "мыслящее" устройство должно каким-то образом
воспроизводить его структуру.
Таким образом нейрокибернетика ориентирована на аппаратное моделирование структур, подобных
структуре мозга. Физиологами давно установлено, что основой человеческого мозга является большое количество
связанных между собой и взаимодействующих нервных клеток - нейронов. Поэтому усилия нейрокибернетики
были сосредоточены на создании элементов, аналогичных нейронам, и их объединении в функционирующие
системы. Эти системы принято называть нейронными сетями, или нейросетями.
Первые нейросети были созданы в конце 50-х гг. американскими учеными Г.Розенблаттом и П.МакКигюком. Это были попытки создать системы, моделирующие человеческий глаз и его взаимодействие с мозгом.
Устройство, созданное ими, получило название перцептрона. Оно умело различать буквы алфавита, но было
чувствительно к их написанию, например, буквы А, А и А для этого устройства были тремя разными знаками.
Постепенно в 70-80 гг. количество работ по этому направлению искусственного интеллекта стало снижаться.
Слишком неутешительны оказались первые результаты. Авторы объясняли неудачи малой памятью и низким
быстродействием существующих в то время компьютеров.
Однако в середине 80-х гг. в Японии в рамках проекта разработки компьютера V поколения, основанного
на знаниях, был создан компьютерVI поколения, или нейрокомпьютер. К этому времени ограничения по памяти и
быстродействию были практически сняты. Появились транспьютеры - параллельные компьютеры с большим
количеством процессоров. От транспьютеров был один шаг до нейрокомпьютеров, моделирующих структуру
мозга человека. Основная область применения нейрокомпьютеров - распознавание образов.
В настоящее время используются три подхода к созданию нейросетей:
аппаратный - создание специальных компьютеров, плат расширения, наборов микросхем, реализующих
все необходимые алгоритмы,
программный - создание программ и инструментариев, рассчитанных на высокопроизводительные
компьютеры. Сети создаются в памяти компьютера, всю работу выполняют его собственные процессоры;
гибридный - комбинация первых двух. Часть вычислений выполняют специальные платы расширения
(сопроцессоры), часть - программные средства.
В основу кибернетики "черного ящика" лег принцип, противоположный нейрокибернетике. Не имеет
значения, как устроено "мыслящее" устройство. Главное, чтобы на заданные входные воздействия оно реагировало
так же, как человеческий мозг.
Это направление искусственного интеллекта было ориентировано на поиски алгоритмов решения
интеллектуальных задач на существующих моделях компьютеров. В 1956 -1963 гг. велись интенсивные поиски
моделей и алгоритма человеческого мышления и разработка первых программ. Оказалось, что ни одна из
существующих наук - философия, психология, лингвистика - не может предложить такого алгоритма. Тогда
кибернетики предложили создать собственные модели. Были созданы и опробованы различные подходы.
В конце 50-х гг. родилась модель лабиринтного поиска. Этот подход представляет задачу как некоторый
граф, отражающий пространство состояний, и в этом графе проводится поиск оптимального пути от входных
данных к результирующим. Была проделана большая работа по разработке этой модели, но в решении
практических задач идея большого распространения не получила.
Начало 60-х гг. - эпоха эвристического программирования.
Эвристика - правило, теоретически не обоснованное, но позволяющее сократить количество переборов в
пространстве поиска. Эвристическое программирование - разработка стратегии действий на основе известных,
заранее заданных эвристик.
В 1963- 1970 гг. к решению задач стали подключать методы математической логики. На основе метода
резолюций, позволившего автоматически доказывать теоремы при наличии набора исходных аксиом, в 1973 г.
создается язык Пролог.
Существенный прорыв в практических приложениях искусственного интеллекта произошел в середине 70х гг., когда на смену поискам универсального алгоритма мышления пришла идея моделировать конкретные знания
специалистов-экспертов. В США появились первые коммерческие системы, основанные на знаниях, или
экспертные системы.
Пришел новый, подход к решению задач искусственного интеллекта - представление знаний. Созданы
MYCIN и DENDRAL - ставшие уже классическими экспертные системы для медицины и химии. Объявлено
несколько глобальных программ развития интеллектуальных технологий - ESPRIT (Европейский Союз). DARPA
(министерство обороны США), японский проект машин V поколения.
Начиная с середины 80-х гг. происходит коммерциализация искусственного интеллекта. Растут ежегодные
капиталовложения, создаются промышленные экспертные системы. Растет интерес к самообучающимся системам.
1.2. История развития искусственного интеллекта в России
В 1954 г. в МГУ под руководством профессора А.А.Ляпунова (1911 - 1973) начал свою работу семинар
"Автоматы и мышление". В этом семинаре принимали участие крупнейшие физиологи, лингвисты, психологи,
математики. Принято считать, что именно в это время родился искусственный интеллект в России. Как и за
рубежом, выделились направления нейрокибернетики и кибернетики "черного ящика".
Среди наиболее значимых результатов, полученных отечественными учеными, следует отметить алгоритм
"Кора" М.Бонгарда, моделирующий деятельность человеческого мозга при распознавании образов (60-е гг.).
В 1945- 1964 гг. создаются отдельные программы и исследуется поиск решения логических задач. В
Ленинграде (ЛОМИ - Ленинградское отделение математического института им. В.А.Стеклова) создается
программа, автоматически доказывающая теоремы (АЛИЕВ ЛОМИ). Она основана на оригинальном обратном
выводе С.Ю.Маслова, аналогичном методу резолюций Робинсона.
В 1965- 1980 гг. получает развитие новая наука - ситуационное управление (соответствует представлению
знаний в западной терминологии). Основоположник этой научной школы - профессор Д.А.Поспелов. Разработаны
специальные модели представления ситуаций - представления знаний.
В 1980- 1990 гг. проводятся активные исследования в области представления знаний, разрабатываются
языки представления знаний, экспертные системы (более 300). В Московском государственном университете
создается язык РЕФАЛ.
В 1988 г. создается АИИ - Ассоциация искусственного интеллекта. Ее членами являются более 300
исследователей. Президент Ассоциации - Д.А.Поспелов. Крупнейшие центры - в Москве, Петербурге, ПереславлеЗалесском, Новосибирске.
В рамках Ассоциации проводится большое количество исследований, собираются конференции, издается
журнал. Уровень теоретических исследований по искусственному интеллекту в России ничуть не ниже мирового.
К сожалению, начиная с 1975 г- на развитии этого направления сказалось прогрессирующее отставание в
технологии. На данный момент отставание в области промышленных интеллектуальных систем составляет
порядка 5-7 лет.
2. НАПРАВЛЕНИЯ РАЗВИТИЯ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Искусственный интеллект - это одно из направлений информатики, цель которого разработка аппаратнопрограммных средств, позволяющих пользователю-непрограммисту ставить и решать свои задачи, традиционно
считающиеся интеллектуальными, общаясь с ЭВМ на ограниченном подмножестве естественного языка.
1. Представление знаний и разработка систем, основанных на знаниях
Это основное направление искусственного интеллекта. Оно связано с разработкой моделей представления
знаний, созданием баз знаний, образующих ядро экспертных систем (ЭС). В последнее время включает в себя
модели и методы извлечения и структурирования знаний и сливается с инженерией знаний.
2. Игры и творчество
Традиционно искусственный интеллект включает в себя игровые интеллектуальные задачи - шахматы,
шашки, го. В основе лежит один из ранних подходов - лабиринтная модель плюс эвристики. Сейчас это скорее
коммерческое направление, так как в научном плане эти идеи считаются тупиковыми.
3. Разработка естественно-языковых интерфейсов и машинный перевод
В 50-х п. одной из популярных тем исследований искусственного интеллекта являлась область машинного
перевода. Первая программа в этой области - переводчик с английского языка на русский. Первая идея пословный перевод, оказалась неплодотворной. В настоящее время используется более сложная модель,
включающая анализ и синтез естественно-языковых сообщений, которая состоит из нескольких блоков. Для
анализа это:
морфологический анализ - анализ слов в тексте;
синтаксический анализ - анализ предложений, грамматики и связей между словами;
семантический анализ - анализ смысла каждого предложения на основе некоторой предметноориентированной базы знаний;
прагматический анализ - анализ смысла предложений в окружающем контексте на основе собственной
базы знаний. Синтез включает аналогичные этапы, но несколько в другом порядке.
4. Распознавание образов
Традиционное направление искусственного интеллекта, берущее начало у самых его истоков. Каждому
объекту ставится в соответствие матрица признаков, по которой происходит ею распознавание. Это направление
близко к машинному обучению, тесно связано с нейрокибернетикой.
5. Новые архитектуры компьютеров
Это направление занимается разработкой новых аппаратных решений и архитектур, направленных на
обработку символьных и логических данных. Создаются Пролог- и Лисп-машины, компьютеры V и VI поколений.
Последние разработки посвящены компьютерам баз данных и параллельным компьютерам.
6. Интеллектуальные роботы
Роботы - это электромеханические устройства, предназначенные для автоматизации человеческого труда.
Идея создания роботов исключительно древняя. Само слово появилось в 20-х гг. Его автор - чешский
писатель Карел Чапек. Со времени создания сменилось несколько поколений роботов.
Роботы с жесткой схемой управления. Практически все современные промышленные роботы
принадлежат к первому поколению. Фактически это программируемые манипуляторы.
Адаптивные роботы с сенсорными устройствами. Есть образцы таких роботов, но в промышленности
они пока не используются.
Самоорганизующиеся, или интеллектуальные, роботы. Это конечная цель развития робототехники.
Основная проблема при создании интеллектуальных роботов - проблема машинного зрения7. Специальное программное обеспечение
В рамках этого направления разрабатываются специальные языки для решения задач не вычислительного
плана. Эти языки ориентированы на символьную обработку информации - LISP, PROLOG, SMALLTALK, РЕФАЛ
и др. Помимо этого создаются пакеты прикладных программ, ориентированные на промышленную разработку
интеллектуальных систем, или программные инструментарии искусственного интеллекта, например KEE,
ARTS[10].Достаточно популярно создание так называемых пустых экспертных систем, или "оболочек", - BXSYS,
MI и др., в которых можно наполнять базы знаний, создавая различные системы.
8. Обучение и самообучение
Активно развивающаяся область искусственного интеллекта. Включает модели, методы и алгоритмы,
ориентированные на автоматическое накопление знаний на основе анализа и обобщения данных. Включает
обучение по примерам (или индуктивное), а также традиционные подходы распознавания образов.
3. ДАННЫЕ И ЗНАНИЯ
При изучении интеллектуальных систем традиционно возникает вопрос - что же такое знания и чем они
отличаются от обычных данных, десятилетиями обрабатываемых ЭВМ. Можно предложить несколько рабочих
операций, в рамках которых это становится очевидным.
Данные - это отдельные факты, характеризующие объекты, процессы и явления в предметной области, а
также их свойства.
При обработке на ЭВМ данные трансформируются, условно проходя следующие этапы:
данные как результат измерений и наблюдений;
данные на материальных носителях информации (таблицы, протоколы, справочники;
модели (структуры) данных в виде диаграмм, графиков, функций;
данные в компьютере на языке описания данных;
базы данных на машинных носителях.
Знания связаны с данными, основываются на них, но представляют результат мыслительной деятельности
человека, обобщают его опыт, полученный в ходе выполнения какой-либо практической деятельности. Они
получаются эмпирическим путем.
Знания - это выявленные закономерности предметной области (принципы, связи, законы), позволяющие
решать задачи в этой области. При обработке на ЭВМ знания трансформируются аналогично данным:
знания в памяти человека как результат мышления;
материальные носители знаний (учебники, методические пособия);
поле знаний - условное описание основных объектов предметной области, их атрибутов и
закономерностей, их связывающих;
знания, описанные на языках представления знаний (продукционные языки, семантические сети,
фреймы - см. далее);
базы знаний.
Часто используются такие определения знаний:
знания - это хорошо структурированные данные, или данные о данных, или метаданные.
Существует множество способов определять понятия. Один из широко применяемых способов, основан на
идее интенсионала.
Интенсионал понятия - это определение через понятие более высокого уровня абстракции с указанием
специфических свойств. Этот способ определяет знания. Другой способ определяет понятие через перечисление
понятий более низкого уровня иерархии или фактов, относящихся к определяемому. Это есть определение через
данные, или экстенсионал понятия.
Пример 16.1. Понятие "персональный компьютер". Его интенсионал: “Персональный компьютер - это
дружественная ЭВМ, которую можно поставить на стол и купить менее чем за $2000 - 3000".
Экстенсионал этого понятия: "Персональный компьютер - это Mac, IBM PC, Sinkler...".
Для хранения данных используются базы данных (для них характерны большой объем и относительно
небольшая удельная стоимость информации), для хранения знаний - базы знаний (небольшого объема, но
исключительно дорогие информационные массивы).
База знаний - основа любой интеллектуальной системы.
Знания могут быть классифицированы по следующим категориям:
поверхностные - знания о видимых взаимосвязях между отдельными событиями и фактами в
предметной области;
глубинные - абстракции, аналогии, схемы, отображающие структуру и процессы в предметной
области.
Современные экспертные системы работают в основном с поверхностными знаниями. Это связано с тем,
что на данный момент нет адекватных моделей, позволяющих работать с глубинными знаниями.
Кроме того, знания можно разделить на процедурные и декларативные. Исторически первичными были
процедурные знания, т.е. знания, "растворенные" в алгоритмах. Они управляли данными. Для их изменения
требовалось изменять программы. Однако с развитием искусственного интеллекта приоритет данных постепенно
изменялся, и все большая часть знаний сосредоточивалась в структурах данных (таблицы, списки, абстрактные
типы данных), т.е. увеличивалась роль декларативных знаний.
Сегодня знания приобрели чисто декларативную форму, т.е. знаниями считаются предложения,
записанные на языках представления знаний, приближенных к естественному и понятных неспециалистам.
Существуют десятки моделей (или языков) представления знаний для различных предметных областей.
Большинство из них может быть сведено к следующим классам:
продукционные;
семантические сети;
фреймы;
формальные логические модели.
4. МОДЕЛИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ
4.1. Продукционная модель
Продукционная модель, или модель, основанная на правилах, позволяет представить знания в виде
предложений типа: Если (условие), то (действие).
Под условием понимается некоторое предложение-образец, по которому осуществляется поиск в базе
знаний, а под действием - действия, выполняемые при успешном исходе поиска (они могут быть
промежуточными, выступающими далее как условия, и терминальными или целевыми, завершающими работу
системы).
При использовании продукционной модели база знаний состоит из набора правил, Программа,
управляющая перебором правил, называется машиной вывода. Чаще всего вывод бывает прямой (от данных к
поиску цели) или обратный (от цели для ее подтверждения - к данным). Данные - это исходные факты, на
основании которых запускается машина вывода - программа, перебирающая правила из базы.
Пример 16.2. Имеется фрагмент базы знаний из двух правил:
П1: Если "отдых - летом" и "человек - активный", то "ехать в горы",
П2: Если "любит солнце", то "отдых летом",
Предположим, в систему поступили данные - "человек активный" и "любит "солнце"
Прямой вывод - исходя из данных, получить ответ.
1-й проход.
Шаг 1. Пробуем П1, не работает (не хватает данных "отдых - летом").
Шаг 2. Пробуем П2, работает, в базу поступает факт "отдых - летом".
2-й проход.
Шаг 3. Пробуем П1, работает, активируется цель "ехать в горы", которая и выступает как совет, который
дает ЭС.
Обратный вывод - подтвердить выбранную цель при помощи имеющихся правил и данных.
1-й проход.
Шаг 1. Цель - "ехать в горы": пробуем П1 - данных, "отдых - летом" нет, они становятся новой целью, и
ищется правило, где она в правой части.
Шаг 2. Цель "отдых - летом": правило П2 подтверждает цель и активирует ее.
2-й проход.
Шаг 3. Пробуем П1, подтверждается искомая цель.
Продукционная модель чаще всего применяется в промышленных экспертных системах. Она привлекает
разработчиков своей наглядностью, высокой модульностью, легкостью внесения дополнений и изменений и
простотой механизма логического вывода.
Имеется большое число программных средств, реализующих продукционный подход (язык OPS 5 [8];
"оболочки" или "пустые" ЭС - EXSYS [10], ЭКСПЕРТ [2]; инструментальные системы 11ИЭС [1] и СПЭИС [3] и
др.), а также промышленных ЭС на его основе (ФИАКР [8]) и др.
4.2. Семантические сети
Термин семантическая означает смысловая, а сама семантика - это наука, устанавливающая отношения
между символами и объектами, которые они обозначают, т.е. наука, определяющая смысл знаков,
Семантическая сеть- это ориентированный граф, вершины которого - понятия, а дуги - отношения между
ними.
Понятиями обычно выступают абстрактные или конкретные объекты, а отношения - это связи типа: "это"
("is"), "имеет частью" ("has part"), "принадлежит", "любит". Характерной особенностью семантических сетей
является обязательное наличие трех типов отношений:
класс - элемент класса;
свойство - значение;
пример элемента класса.
Можно ввести несколько классификаций семантических сетей. Например, по количеству типов
отношений:
однородные (с единственным типом отношений);
неоднородные (с различными типами отношений).
По типам отношений:
бинарные (в которых отношения связывают два объекта);
парные (в которых есть специальные отношения, связывающие более двух понятий).
Наиболее часто в семантических сетях используются следующие отношения:
связи типа "часть-целое" ("класс-подкласс", "элемент-множество" и т.п.);
функциональные связи (определяемые обычно глаголами "производит", "влияет"...);
количественные (больше, меньше, равно...);
пространственные (далеко от, близко от, за, под, над...);
временные (раньше, позже, в течение...);
атрибутивные связи (иметь свойство, иметь значение...);
логические связи (и, или, не) и др.
Проблема поиска решения в базе знаний типа семантической сети сводится к задаче поиска фрагмента
сети, соответствующего некоторой подсети, соответствующей поставленному вопросу.
Пример 16.3. На рис. 16.1 изображена семантическая сеть. В качестве вершин понятия: Человек, Иванов,
Волга. Автомобиль, Вид транспорта. Двигатель.
Рис.16.1. Семантическая сеть.
Основное преимущество этой модели - в соответствии современным представлениям об организации
долговременной памяти человека. Недостаток модели - сложность поиска вывода на семантической сети.
Для реализации семантических сетей существуют специальные сетевые языки, например NET[12] и др.
Широко известны экспертные системы, использующие семантические сети в качестве языка представления знаний
- PROSPECTOR, CASNBT, TORUS [8,10].
4.3. Фреймы
Фрейм (англ. frame - каркас или рамка) предложен М.Минским в 70-е гг. Как структура знаний для
восприятия пространственных сцен. Эта модель, как и семантическая сеть, имеет глубокое психологическое
обоснование.
Под фреймом понимается абстрактный образ или ситуация. В психологии и философии известно понятие
абстрактного образа. Например, слово "комната" вызывает у слушающих образ комнаты: "жилое помещение с
четырьмя стенами, полом, потолком, окнами и дверью, площадью 6-20 м2 ". Из этого описания ничего нельзя
убрать (например, убрав окна мы получим уже чулан, а не комнату), но в нем есть "дырки", или "слоты", - это
незаполненные значения некоторых атрибутов -количество окон, цвет стен, высота потолка. покрытие пола и др.
В теории фреймов такой образ называется фреймом. Фреймом называется также и формализованная
модель для отображения образа.
Структуру фрейма можно представить так;
ИМЯ ФРЕЙМА :
(имя 1-го слота: значение 1-го слота),
(имя 2-го слота: значение 2-го слота),
---(имя N-го слота: значение N-гo слота).
Ту же запись представим в виде таблицы, дополнив двумя столбцами.
В таблице дополнительные столбцы предназначены для описания тина слота и возможного присоединения
к тому или иному слоту специальных процедур, что допускается в теории фреймов. В качестве значения слота
может выступать имя другого фрейма; так образуют сети фреймов.
Различают фреймы-образцы, или прототипы, хранящиеся в базе знаний, и фреймы-экземпляры, которые
создаются для отображения реальных ситуаций на основе поступающих данных.
Модель фрейма является достаточно универсальной, поскольку позволяет отобразить все многообразие
знаний о мире через:
фреймы-структуры, для обозначения объектов и понятий (заем, залог, вексель);
фреймы-роли (менеджер, кассир, клиент);
фреймы-сценарии (банкротство, собрание акционеров, празднование именин);
фреймы-ситуации (тревога, авария, рабочий режим устройства) и др.
Важнейшим свойством теории фреймов является заимствованное из теории семантических сетей
наследование свойств. И во фреймах, и в семантических сетях наследование происходит по АКО-связям (A-Kind-Of
= это). Слот АКО указывает на фрейм более высокого уровня иерархии, откуда неявно наследуются, т.е.
переносятся, значения аналогичных слотов.
Пример 16.4. Например, в сети фреймов на рис. 16.2 понятие "ученик" наследует свойства фреймов
"ребенок" и "человек", которые находятся на более высоком уровне иерархии. Гак, на вопрос: "Любят ли ученики
сладкое?" Следует ответ: "Да", так как ним свойством обладают все дети, что указано во фрейме "ребенок".
Наследование свойств может быть частичным, так, возраст для учеников не наследуется ил фрейма "ребенок",
поскольку указан явно в своем собственном фрейме.
Основным преимуществом фреймов как модели представления знаний является способность отражать
концептуальную основу организации памяти человека [13], а также гибкость и наглядность.
Специальные языки представления знаний в сетях фреймов FRL (Frame Representation Language) [1] и
другие позволяют эффективно строить промышленные ЭС. Широко известны такие фреймо-ориентированные
экспертные системы, как ANALYST, МОДИС [3,8].
Рис. 16.2. Сеть фреймов
4.4. Формальные логические модели
Традиционно в представлении знаний выделяют формальные логические модели, основанные на
классическом исчислении предикатов 1 порядка, когда предметная область или задача описывается в виде набора
аксиом. Мы же опустим описание этих моделей по следующим причинам. Исчисление предикатов 1 порядка в
промышленных экспертных системах практически не используется. Эта логическая модель применима в основном
в исследовательских "игрушечных" системах, так как предъявляет очень высокие требования и ограничения к
предметной области.
1.
2.
3.
4.
Лекция № 13 ЭКСПЕРТНЫЕ СИСТЕМЫ В ОБЕСПЕЧЕНИИ УПРАВЛЕНЧЕСКОЙ ДЕЯТЕЛЬНОСТИ.
Вопросы:
Предметные области для экспертных систем
Обобщенная структура экспертной системы. Основные понятия и определения
Классификация экспертных систем
Инструментальные средства построения экспертных систем
1.
ПРЕДМЕТНЫЕ ОБЛАСТИ ДЛЯ ЭКСПЕРТНЫХ СИСТЕМ
В нашей стране современное состояние разработок в области экспертных систем можно
охарактеризовать как стадию всевозрастающего интереса среди широких слоев экономистов, финансистов,
преподавателей, инженеров, медиков, психологов, программистов, лингвистов.
Процесс создания экспертной системы требует участия высококвалифицированных специалистов в
области искусственного интеллекта. Современные экспертные системы широко используются для тиражирования
опыта и знаний ведущих специалистов практически во всех сферах экономики. Традиционно знания существуют в
двух видах - коллективный опыт и личный опыт.
Если большая часть знаний в предметной области представлена в виде коллективного опыта (например,
высшая математика), эта предметная область не нуждается в экспертных системах (рис. 16.3).
Если в предметной области большая часть знаний является личным опытом специалистов высокого
уровня (экспертов), если эти знания по каким-либо причинам слабо структурированы, такая предметная область
скорее всего нуждается в экспертной системе (рис. 16.4).
Рис. 16.3. Предметная область, не пригодная
для создания экспертной системы
Рис. 16.4. Предметная область, пригодная
для создания экспертной системы
ОБОБЩЕННАЯ СТРУКТУРА ЭКСПЕРТНОЙ СИСТЕМЫ.
ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
Экспертные системы (ЭС) - это сложные программные комплексы, аккумулирующие знания
специалистов в конкретных предметных областях и тиражирующие этот эмпирический опыт для консультаций
менее квалифицированных пользователей.
Обобщенная структура экспертной системы представлена на рис. 16.5.
2.
Рис. 16.5 Структура экспертной системы
Пользователь - специалист предметной области, для которого предназначена система. Обычно его
квалификация недостаточно высока, и поэтому он нуждается в помощи и поддержке своей деятельности со
стороны ЭС.
Инженер по знаниям - специалист по искусственному интеллекту, выступающий в роли
промежуточного буфера между экспертом и базой знаний. Синонимы: когнитолог, инженер-интерпретатор,
аналитик.
Интерфейс пользователя - комплекс программ, реализующих диалог пользователя с ЭС как на стадии
ввода информации, так и получения результатов.
База знаний (БЗ) - ядро ЭС, совокупность знаний предметной области, записанная на машинный
носитель в форме, понятной эксперту и пользователю (обычно на некотором языке, приближенном к
естественному). Параллельно такому "человеческому" представлению существует БЗ во внутреннем "машинном"
представленииРешатель - программа, моделирующая ход рассуждения эксперта на основании знаний, имеющихся в
БЗ. Синонимы: дедуктивная машина, блок логического вывода.
Подсистема объяснений - программа, позволяющая пользователю получить ответы на вопросы; "Как
была получена та или иная рекомендация?" и "Почему система приняла такое решение?" Ответ на вопрос "как" это трассировка всего процесса получения решения с указанием использованных фрагментов БЗ, т.е. всех шагов
цепи умозаключений. Ответ на вопрос "почему"- ссылка на умозаключение, непосредственно предшествовавшее
полученному решению, т.е. отход на один шаг назад.
Интеллектуальный редактор БЗ - программа, представляющая инженеру по знаниям возможность
создавать БЗ в диалоговом режиме. Включает в себя систему вложенных меню, шаблонов языка представления
знаний, подсказок ("help" - режим) и других сервисных средств, облегчающих работу с базой.
В коллектив разработчиков ЭС входят как минимум четыре человека:
эксперт;
инженер по знаниям;
программист;
пользователь.
Возглавляет коллектив инженер по знаниям, это ключевая фигура при разработке систем, основанных на
знаниях.
КЛАССИФИКАЦИЯ ЭКСПЕРТНЫХ СИСТЕМ
Схема классификации
Класс "экспертные системы" сегодня объединяет несколько тысяч различных программных комплексов,
которые можно классифицировать по различным критериям. Полезными могут оказаться следующие
классификации
3.
Рис. 16.6. Классификация экспертных систем.
Классификация по решаемой задаче
Интерпретация данных. Это одна из традиционных задач для экспертных систем. Под интерпретацией
понимается определение смысла данных, результаты которого должны быть согласованными и корректными.
Обычно предусматривается многовариантный анализ данных.
Пример 16.5 (все примеры далее из [7, 8, 10]):
обнаружение и идентификация различных типов океанских судов - SIAP;
определение основных свойств личности по результатам психодиагностического тестирования в
системах АВТАНТЕСТ и МИКРОЛЮШЕР и др.
Диагностика. Под диагностикой понимается обнаружение неисправности в некоторой системе.
Неисправность - это отклонение от нормы. Такая трактовка позволяет с единых теоретических позиций
рассматривать и неисправность оборудования в технических системах, и заболевания живых организмов, и
всевозможные природные аномалии. Важной спецификой является необходимость понимания функциональной
структуры ("анатомии") диагностирующей системы.
Пример 16.6:
диагностика и терапия сужения коронарных сосудов - ANGY;
диагностика ошибок в аппаратуре и математическом обеспечении ЭВМ - система CRIB и др.
Мониторинг. Основная задача мониторинга - непрерывная интерпретация данных в реальном масштабе
времени и сигнализация о выходе тех или иных параметров за допустимые пределы. Главные проблемы "пропуск" тревожной ситуации и инверсная задача "ложного" срабатывания. Сложность этих проблем в
размытости симптомов тревожных ситуаций и необходимость учета временного контекста.
Пример 16.7:
контроль за работой электростанций СПРИНТ, помощь диспетчерам атомного реактора REACTOR:
контроль аварийных датчиков на химическом заводе - FALCON и др.
Проектирование. Проектирование состоит в подготовке спецификаций на создание "объектов" с заранее
определенными свойствами. Под спецификацией понимается весь набор необходимых документов чертеж,
пояснительная записка и т.д. Основные проблемы здесь - получение четкого структурного описания знаний об
объекте и проблема "следа". Для организации эффективного проектирования и, в еще большей степени,
перепроектирования необходимо формировать не только сами проектные решения, но и мотивы их принятия.
Таким образом, в задачах проектирования тесно связываются два основных процесса, выполняемых в рамках
соответствующей ЭС: процесс вывода решения и процесс объяснения.
Пример 16.8:
проектирование конфигураций ЭВМ VAX ― 1/780 в системе XCON (или R1), проектирование
БИС - CADHELP;
синтез электрических цепей - SYN и др.
Прогнозирование. Прогнозирующие системы логически выводят вероятные следствия из заданных
ситуаций. В прогнозирующей системе обычно используется параметрическая динамическая модель, в которой
значения параметров "подгоняются" под заданную ситуацию. Выводимые из этой модели следствия составляют
основу для прогнозов с вероятностными оценками.
Пример 16.9:
предсказание погоды - система WILLARD:
оценки будущего урожая - PLANT;
прогнозы в экономике - ЕСОN и др.
Планирование. Под планированием понимается нахождение планов действий, относящихся к объектам,
способным выполнять некоторые функции. В таких ЭС используются модели поведения реальных объектов с тем,
чтобы логически вывести последствия планируемой деятельности.
Пример 16.10:
планирование поведения робота - STRIPS,
планирование промышленных заказов - 1SIS,
планирование эксперимента - MOLGEN и др.
Обучение. Системы обучения диагностируют ошибки при изучении какой-либо дисциплины с помощью
ЭВМ и подсказывают правильные решения. Они аккумулируют знания о гипотетическом "ученике" и его
характерных ошибках, затем в работе способны диагностировать слабости в знаниях обучаемых и находить
соответствующие средства для их ликвидации. Кроме того, они планируют акт общения с учеником в зависимости
от успехов ученика с целью передачи знаний.
Пример 16.11:
обучение языку программирования Лисп в системе "Учитель Лиспа";
система PROUST - обучение языку Паскаль и др.
Классификация по связи с реальным временем
Статические ЭС разрабатываются в предметных областях, в которых база знаний и интерпретируемые
данные не меняются во времени. Они стабильны.
Пример 16.12. Диагностика неисправностей в автомобиле.
Квазидинамические ЭС интерпретируют ситуацию, которая меняется с некоторым фиксированным
интервалом времени.
Пример 16.13. Микробиологические ЭС, в которых снимаются лабораторные измерения с
технологического процесса один раз в 4 - 5 (производство лизина, например) и анализируется динамика
полученных показателей по отношению к предыдущему измерению.
Динамические ЭС работают в сопряжении с датчиками объектов в режиме реального времени с
непрерывной интерпретацией поступаемых данных.
Пример 16.14. Управление гибкими производственными комплексами, мониторинга в реанимационных
палатах и т.д. Пример инструментария для разработки динамических систем - G2[5].
Классификация по типу ЭВМ
На сегодняшний день существуют:
ЭС для уникальных стратегически важных задач на суперЭВМ (Эльбрус, CRA'. CONVEX и др.);
ЭС на ЭВМ средней производительности (типа ЕС ЭВМ, mainframe);
ЭС на символьных процессорах и рабочих станциях (SUN, APOLLO);
ЭС на мини- и супермини-ЭВМ (VAX, micro-VAX и др.);
ЭС на персональных компьютерах (IBM PC, MAC II и подобные).
Классификация по степени интеграции с другими программами
Автономные ЭС работают непосредственно в режиме консультаций с пользователем для специфически
"экспертных" задач, для решения которых не требуется привлекать традиционные методы обработки данных
(расчеты, моделирование и т. д.).
Гибридные ЭС представляют программный комплекс, агрегирующий стандартные пакеты прикладных
программ (например, математическую статистику, линейное программирование или системы управления базами
данных) и средства манипулирования знаниями. Это может быть интеллектуальная надстройка над ППП или
интегрированная среда для решения сложной задачи с элементами экспертных знаний.
Несмотря на внешнюю привлекательность гибридного подхода, следует отметить, что разработка таких
систем являет собой задачу, на порядок более сложную, чем разработка автономной ЭС. Стыковка не просто
разных пакетов, а разных методологий (что происходит в гибридных системах) порождает целый комплекс
теоретических и практических трудностей.
4.
ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ПОСТРОЕНИЯ ЭКСПЕРТНЫХ СИСТЕМ
Традиционные языки программирования
Языки искусственного интеллекта
Это прежде всего Лисп (LISP) и Пролог (Prolog) [8] - наиболее распространенные языки,
предназначенные для решения задач искусственного интеллекта. Есть и менее распространенные языки
искусственного интеллекта, например РЕФАЛ, разработанный в России. Универсальность этих языков меньшая,
нежели традиционных языков, но ее потерю языки искусственного интеллекта компенсируют богатыми
возможностями по работе с символьными и логическими данными, что крайне важно для задач искусственного
интеллекта. На основе языков искусственного интеллекта создаются специализированные компьютеры (например,
Лисп-машины), предназначенные для решения задач искусственного интеллекта. Недостаток этих языков неприменимость для создания гибридных экспертных систем.
Специальный программный инструментарий
В эту группу программных средств искусственного интеллекта входят специальные инструментарии
общего назначения. Как правило, это библиотеки и надстройки над языком искусственного интеллекта Лисп: KEE
(Knowledge Engineering Environment), FRL (Frame Representation Language), KRL (Knowledge Represantation
Language), ARTS и др. [1,4,7,8,10], позволяющие пользователям работать с заготовками экспертных систем на
более высоком уровне, нежели это возможно в обычных языках искусственного интеллекта.
"Оболочки"
Под "оболочками : (shells) понимают "пустые" версии существующих экспертных систем, т.е. готовые
экспертные системы без базы знаний. Примером такой оболочки может служить EMYCIN (Empty MYCIN - пустой
MYC1N) [8], которая представляет собой незаполненную экспертную систему MYCIN. Достоинство оболочек в
том, что они вообще не требуют работы программистов для создания готовой экспертной системы. Требуется
только специалисты) в предметной области для заполнения базы знаний. Однако если некоторая предметная
область плохо укладывается в модель, используемую в некоторой оболочке, заполнить базу знаний в этом случае
весьма не просто.
ЛЕКЦИЯ 14-15. ТЕХНОЛОГИИ ОБРАБОТКИ ГРАФИЧЕСКОЙ ИНФОРМАЦИИ. ТЕХНОЛОГИИ
МУЛЬТИМЕДИА.
ВОПРОСЫ:
1. Основные понятия мультимедиа
2. Аппаратные средства мультимедиа
3. Технологии мультимедиа
1. ОСНОВНЫЕ ПОНЯТИЯ МУЛЬТИМЕДИА
Термин «мультимедиа» (англ. Multimedia) произошел от слияния двух латинских слов: maltum — много и
medium — средства, соединение, сочетания.
Определение 1: Мультимедиа — это комплекс аппаратных и программных средств, позволяющих
пользователю работать в диалоговом режиме с информацией, представленной в виде графических, текстовых,
звуковых и видеофайлов, образующих единую информационную среду.
Специалисты ассоциируют понятие «мультимедиа» прежде всего с определенным техническим
стандартом персонального компьютера и набором программных средств. Комплекс аппаратных и программных
средств мультимедиа составляет аппаратно-программную систему мультимедиа или платформу
мультимедиа. В зависимости от базовых параметров и функциональных возможностей аппаратно-программной
платформы мультимедиа формируется та или иная технология создания, редактирования, соединения элементов
мультимедиа.
Появление мультимедиа-продуктов в виде компакт-дисков вызвало настоящую технологическую
революцию в информационно компьютерной среде. Такая революция связана с развитием новых цифровых
технологий, дальнейшим увеличением мощности ресурсов компьютеров и возможности подключения к ним
разработанных периферийных устройств.
Определение 2: Базовыми элементами мультимедиа являются текст, изображение, звук.
Определение 3: Мультимедиа-приложение — воспроизводимый программный модуль, в котором
базовые элементы мультимедиа соединены между собой интерактивным пользовательским интерфейсом в целую
информационную среду мультимедиа.
Определение 4: Информационная система мультимедиа создается с помощью инструментальных
средств специализированного пакета прикладных программ. Мультимедиа-приложение всегда связано с той
инструментальной средой того программного пакета, в котором оно создано. Перенесение мультимедиаприложения из одной программной среды в другую зависит от их совместимости.
Определение 5: Интерактивный пользовательский интерфейс — способ организации многократно
повторяемого диалога пользователя с инструментальными средствами для управления информационными
объектами, выводимыми на экране.
В рамках интерактивного режима работы можно не только просматривать информационные элементы, но
и управлять их взаимодействием.
Определение 6: Если пользователю предоставляется структура связанных объектов, т.е. элементы
мультимедиа имеют определенную логическую связь, то интерактивное мультимедиа становится гипермедиа.
Определение 7: Под гипермедиа понимается программный метод управления сюжетными элементами в
единой структуре «сценария» мультимедиа-приложения.
Определение 8: Мультимедиа-продукт — конечный результат использования современных и
телекоммуникационных средств записи созданной программы мультимедиа на компакт-диск в соответствии с
проектом мультимедиа.
Определение 9: Проект мультимедиа — совокупности характеристик информационной системы
мультимедиа, предназначенных для реализации основной идеи и удовлетворения пользовательской потребности в
определенной предметной области деятельности.
2. АППАРАТНЫЕ СРЕДСТВА МУЛЬТИМЕДИА
В настоящее время, минимальными требованиями к компьютеру, чтобы его можно было назвать
мультимедийным, можно считать следующими:
Процессор
Pentium III 400 и поддержка PIIX6 (PCI/ISA Interface Accelerator)
RAM
128 Мб
HDD
6,4 Гб
Дисковод
CD-ROM (с 48 - кратной скоростью), DVD-ROM
Графические
системы
Видеоплата с памятью 8 Мб и порт AGP(Accelerated Graphic Port — ускоренный
графический порт)
Аудио-система
Плата Sound Blaster — звуковая карта, совместимая для слота PCI
Периферия
Модем со скоростью передачи данных 56 кбит/с (внешний или для слота PCI), 101/102клавишная клавиатура, мышь, совместимая с Microsoft Mouse, для игровых программ
желательно наличие джойстика или аналогичного ему устройства с поддержкой шины
USB
Ввод/вывод
Порты USB, аналоговый порт ввода/вывода MIDI, один последовательный или один
параллельный порт
ОС
Windows 98 или Windows NT, 2000, XP
Система
воспроизведения
видео
Наличие видеовыхода для переноса изображения на экран телевизора и ТВ-тюнера
2.1.
Звуковая плата
а) Принцип оцифровки звука.
Для оцифровки звука используют импульсно-кодовое преобразование непрерывной величины (что собой и
представляет звук) в код (цифру), рис.12.1, где обозначено:
U(t) – исходная непрерывная функция звука;
АЦП – аналогоцифровой преобразователь;
A(t) – дискретная функция, соответствующая непрерывной
аналоговой функции звука;
Тн – период несущей частоты дискретизации A(t).
U2(t) – пример цифрового кода одной дискретной амплитуды Ак в функции
дискретизации A(t);
ЦАП – цифроаналоговый преобразователь.
fн
U(t)
АЦП
Рис. 12.1. Принцип преобразования непрерывной величины в цифровую и обратно.
б) Звуковая плата
Звуковая плата или звуковая карта представляет собой целое устройство, предназначенное для работы с
аудиоинформацией.
Звуковую платы рассмотрим на примере 8 битовой платы Sound Blaster (рис12.2) с частотой дискретизации
fд=11/22 кГц (запись/воспроизведение, соответственно).
FM-синтезатор, интерфейс MIDI (Musical Instrument Digital Interface), аналоговые аудиовходы.
В ее состав входят:
1) Модуль микшер, предназначенный для цифровой записи и воспроизведения звука.
2) Преобразователи АЦП и ЦПА, осуществляющие преобразование аналогового аудиосигнала в
цифровой вид и обратно. АЦП и ЦПА обычно интегрируются в состав одной из микросхем карты или
применяются как отдельная микросхема.
SB
Тв
Синтезатор
Усилитель
Микшер
CD
Line
ЦАП
Выход
АЦП
Цифровой интерфейс MIDI
Блок-схема
звуковой
карты
К шине расширений
Рис 12.2. Структурная схема звуковой платы
Гр
3) Синтезатор, осуществляющий синтез звука одним из принятых методов.
4) Цифровой интерфейс, представляющий собой многоголосный частотный синтезатор звука,
позволяющий генерировать сигналы сложной формы в Midi данные. Интерфейс базируется на микросхеме
таблично-волнового синтеза, микросхеме синтеза частотной модуляции или микросхемах обоих синтезов и имеет
возможность подключения к шине ПК.
5) Плата имеет входы от компакт диска СD и /или линии line, а так же выходы через усилитель на
телевизионный приемник Тв или динамик Гр.
Принципы работы.
Работа звуковых плат осуществляется на базе двух методов синтеза звуков: таблично-волнового и частотной
модуляции.
Первый метод — таблично-волновой синтез (Wave Table — таблица волн) основан на воспроизведении
сэмплов (sample (образец, шаблон) — заранее записанные в цифровом виде звучания реальных инструментов). При
этом методе записывается звук или небольшой продолжительности, или лишь небольшая часть варианта звучания
инструмента. Запись может быть началом, серединой или концом звука. Для получения звука нужной высоты
применяется изменение скорости воспроизведения каждой ноты, применяется параллельное проигрывание
нескольких сэмплов и реализуется дополнительная обработка звука (модуляция, фильтрация, различные звуковые
спецэффекты и т.п.)
Второй метод — частотной модуляции (Frequency Modulation, FM) — это синтез звука на основе
использования нескольких генераторов сигнала с взаимной модуляцией.
Основными параметрами звуковых плат являются: частота дискретизации, разрядность дискретизации,
параметры синтезатора, расширяемость и совместимость.
Частота дискретизации определяет частоту изменения характеристик аналоговой звуковой волны.
Частота дискретизации выражается в кГц. Чем выше частота, тем точнее представлен аналоговый сигнал в
цифровой форме.
Разрядность дискретизации — это количество бит памяти, используемое для кодирования цифрового
представления звука. Чем выше разрядность, тем выше качество звука.
Параметры синтезатора определяют технические возможности звуковой платы при синтезе отдельного
звука или музыкального произведения в целом.
Синтезаторы могут быть 2-х типов FM и WT, что в значительной мере определяет качество звучания
музыки. С помощью FM-синтезатора качество звучания инструментов низкое, имитация классических
инструментов достаточно условное. С помощью WT- синтезатора качество звучания классических инструментов
более естественно. Большинство WT- синтезаторов содержат встроенное постоянно запоминающее устройство со
стандартным набором инструментов, а так же оперативное, для загрузки дополнительных оцифрованных звуков,
которые будут использоваться при исполнении музыки.
Расширяемость звуковой платы означает возможность подключения дополнительных устройств,
установки микросхем, расширения объема памяти.
Совместимость звуковых плат подразумевает совместимость с платами Sound Blaster (фирма Creative
Labs) и AdLib.
2.2. Видеоплата
Основное функциональное назначение видеоплаты — формирование видеоизображения на мониторе
компьютера.
Видеоплата представляет собой систему, элементами которой являются собственный процессор,
видеопамять и другие микросхемы. От параметров каждого из перечисленных элементов и их сочетания между
собой зависит качество видеоизображения. На качество видеоизображения влияет быстродействие процессора
видеократы и объем видеопамяти.
Видеопамять является одним из главных элементов видеокарты, предназначена для хранения
графических данных и их обмена между устройствами компьютера.
Обработка графической информации в видеокартах поддерживается собственными мощными
видеопроцессорами, в работе которых в значительной мере задействован центральный процессор компьютера.
Для реализации двухмерного изображения видеокарты оснащены 2D-ускорителями, то есть схемами,
способными быстро рисовать плоские графические фигуры, выполнять заливки. Ускорители выполняют
различные функции помощи центральному процессору, которые заключаются в подаче общих команд от
процессора к видеокарте.
При формировании трехмерного изображения видеокарты оснащены 3D-ускорителями, функции
которых заключаются в выполнении большей части расчетов для создания объемной 3-мерной картинки.
2D- и 3D-ускорители конструктивно могут быть выполнены как в виде самостоятельных устройств,
подключаемых к материнской плате, так и находиться на самой видеокарте.
Для систем мультимедиа взаимосвязь технических параметров монитора и видеоплаты очень важна, так
как отражается на качестве видеоизображения. Прежде всего, к таким параметрам относятся разрешающая
способность экрана и высокая скорость кадровой развертки (регенерации).
2.3. Устройства для записи и хранения информации
В мультимедиа-системах запись и хранение разработанной информации является наиболее важной
функцией. Для этих целей существуют различные устройства. Устройства, предназначенные для записи, чтения и
хранения данных, принято называть накопителями информации.
Накопитель на жестких магнитных дисках, «жесткий диск» или «винчестер» является основным средством
долговременного хранения информации.
Приложения мультимедиа содержат большой объем информации, который необходимо сохранить для
дальнейшего использования. Наиболее предпочтительным способом хранения данных благодаря большой емкости
являются компакт-диски (CD, DVD). Для считывания информации, записанной на CD- и DVD-дисках, требуются
специальные дисководы (приводы) CD-ROM и DVD-ROM.
В настоящее время использование CD-дисководов в качестве носителей программ и данных является
наиболее актуальным.
Важной характеристикой дисководов CD-ROM является способность считывать различные формы записи
данных. Существуют следующие формы записи информации на компакт-диск:
Формат
Описание
ISO-9660
Позволяет записывать графику, звук и текст. Формат основан на базе стандарта HighSierra, который был первой неудачной создать стандарт для CD-ROM, в силу
ограниченности своих возможностей.
CD-DA
Compact Disk Digital Audio (компакт-диск с цифровым аудио) Red Book (красная
книга). Формат является стандартом записи на музыкальные компакт-диски (Audio
CD).
CD-ROM Mode 1/
Yellow book (желтая книга). Формат является стандартом расширения CD-DA (красная
книга) записи данных.
CD-ROM Mode 2
CD-ROM / XA
Compact Disk Read Only Memory eXtended Architecture (постоянно запоминающее
устройство расширенной архитектуры ни компакт-диске). Формат записи, в котором
существует возможности добавить звуковой сигнал, а также сигнал звуковой
синхронизации к видеосигналу для воспроизведения озвученного видеоизображения.
CD-I
Compact Disk Interactive (интерактивный компакт-диск) Green Book (зеленая книга).
Формат создан на основе желтой и красной книг. В этом формате записываются
звуковая информация, цифровые данные. Неподвижные графические изображения и
видеоизображения невысокого качества длительностью 90 мин. Для считывания
данных требуется специальное оборудование.
CD-Extra
Blue Book (голубая книга). Запись на компакт-диск в этом формате представляет собой
аудиотреки или дорожки. Данный формат используется в обычных бытовых
музыкальных плеерах для проигрывания музыки без считывания данных.
CD-I-Ready
Интерактивный компакт-диск, готовый к воспроизведению на устройстве CD-I.
Формат спроектирован и предложен для обеспечения совместимости компьютерной
записи со стандартами музыкальных произведений.
CD-G
Формат записи музыкального компакт-диска с дополнительной текстовой или
графической информацией (Karaoke)
CD-Text
Формат записи музыкального компакт-диска с дополнительной текстовой (иногда и
графической) информацией. Запись в данном формате позволяет совместить
музыкальную и текстовую информацию.
CD-Video
White Book (белая книга). Формат записи видеокомпакт-дисков. В данном формате на
стандартный компакт-диск записывается сжатый видеофайл, размером больше 650 Мб.
CD-Bridge
Формат записи обеспечивает совместимость записи в форматах CD-ROM XA и CD-I.
Photo-CD
Формат, основанный на стандарте CD-Bridge, для записи и хранения фотоизображения.
Предложен фирмой Kodak. Информация, записанная в этом формате, может быть
считана не только на компьютере, но и с помощью специальных устройств на
телевизоре.
Дальнейшее повышение производительности дисководов CD-ROM проблематично из-за ограничения
механических параметров.
С развитием мультимедиа-систем большое значение приобретает проблема качественного хранения и
записи большого объема данных. Результатом решения такой проблемы стало появление новой цифровой
технологии записи данных, которая имеет многофункциональный характер. Такая технология получила название
DVD (Digital Versatile Disk, ранее Digital Video Disk). Технология DVD была создана для систематизации
методов записи и считывания видео- и аудиоинформации большого объема в компьютерных и других технических
системах.
Компакт диск DVD-ROM представляет собой носитель информации как многоцелевой цифровой диск для
хранения данных. Емкость такого диска от 4,7 до 17 Гб. Запись данных DVD-технологии организована более
компактно, в сжатом виде.
DVD-диски могут быть одно- и двухсторонними, с одним или двумя рабочими слоями.
Компакт-диск DVD-Video предназначен для цифровой записи полнометражных видеофильмов высокого
качества изображения и звукового сопровождения высокого качества в формате Dolby Digital (фирма Dolby) с 5
каналами, разрядность 20 бит, дискретизация 32-48 кГц.
Современное развитие цифровых технологий и расширение рынка продуктов мультимедиа требует
постоянного совершенствования технологий записи, чтения данных и создания новых носителей информации. К
таким носителям можно отнести FMD-ROM (Fluorescent Multilayer Disk, флюоресцентные диски).
FM-диски — это многослойные 120-миллиметровые диски с возможностью хранения информации
объемом до 140 Гб и скоростью чтения данных в дисководах FMD до 1 Гб в секунду. Диск FMD-ROM способен
вместить до 20 часов сжатых видеоинформации.
3. ТЕХНОЛОГИИ МУЛЬТИМЕДИА
Под понятием «технология мультимедиа» понимают систему взаимосвязанных способов творческой
обработки информационных элементов мультимедиа и методов их гармонического соединения с помощью
авторской системы мультимедиа.
Авторские системы мультимедиа — инструментальные средства специализированных программных
продуктов, позволяющие автоматизировать процесс разработки мультимедиа-приложения.
3.1. Создание текстовых объектов мультимедиа
Текстовые элементы мультимедиа играют ведущую роль при разработке проекта мультимедиа. Такие
элементы поддерживают не только весь структурный класс проекта, но и используется при создании
содержательного материала, интерактивного меню, для связывания различных информационных элементов
(ссылок и гипертекста), системы управления информационными объектами (гипермедиа) и др.
Наиболее мощным средством создания текстовых элементов мультимедиа является гиперметод.
Термин «Гипер» (от греч. — над, сверх, выше) принято использовать в случае, когда нужно особо
подчеркнуть особый статус явления или процесса. В информационных технологиях словосочетание «гиперметод»
рекомендуется трактовать как метод соединения информационных элементов при организации поиска данных на
основе определенных ассоциаций. Для реализации механизма «гиперметода» используется технология
«гипертекста».
Гипертекст — это компьютерное представление текста, в котором автоматически поддерживаются
смысловые связи между выделенными понятиями, терминами или разделами.
Метод гимертекста является основной формой обмена информацией сети Word Wide Web (паутина).
Использование этого метода для создания элементов мультимедиа можно объяснить необходимостью точности,
концептуальной емкостью информации, отсутствием избыточности. На основе применения гипертекста создаются
не только сами текстовые файлы, но и осуществляется логическая связь между файлами другого содержания.
На основе метода гипертекста родилась новая технология, которая стала называться гипермедиа.
В системе гипермедиа фрагменты информации или узлы могут быть представлены не только и не столько
текстовыми файлами, а графическими, звуковыми и видео файлами. Связь между узлами информации,
представленными в различном формате, осуществляется с помощью переходов меню и интерактивных кнопок.
Самый простой способ продвижения по структуре (навигационной карте) гипермедиа состоит в использовании
кнопок, которые позволяют получать связанные фрагменты информации (текст, графическое изображение, звук).
Для создания текста используются три основных способа:
ввод текста вручную с клавиатуры, используя программы текстового процессора или настольной издательской
системы;
сканирование текста и ввод его с помощью программы распознавания текста;
ввод текста с помощью системы распознавания речи.
3.2. Создание графических объектов мультимедиа
Изображение, фотографии, рисунки являются наиболее существенными элементами мультимедиа.
Создание качественных визуальных элементов является основной развития самого мультимедиа.
В компьютерной технике используются два базовых метода представления данных изображения, на
основе которых развиваются современные технологии компьютерной графики.
Первый метод — метод векторной графики. Векторные файлы не зависят от разрешающей способности
компьютерной системы, в которой они создаются; имеют более компактный вид, чем растровые файлы; могут
формировать пакет многочисленных проекций трехмерных графических объектов, но существуют и их
недостатки: при генерации сложного изображения требуется большой объем времени, поэтому векторное
изображение не может быть использовано для воссоздания на экране в режиме реального времени; векторные
файлы не пригодны для записи фотографий.
Второй метод — метод растровой графики. Качество растровых графических объектов всегда зависит от
разрешающей способности монитора компьютера.
Графические элементы в проекте мультимедиа можно масштабировать, окрашивать в различные цвета,
делать прозрачными, наслаивать друг на друга, создавать теневой эффект и т.д. Все эти возможности можно
реализовать с помощью специальных инструментальных средств, которые предусмотрены в графических
редакторах.
Изображения могут быть подвижными и неподвижными. Создание подвижных изображений связано с
использованием метода анимации.
В основе метода анимации лежит учет принципа устойчивости зрительного образа, быстрого изменения
видимого изображения. При быстром воспроизведении последовательных картинок отдельные изменения в
изображении сливаются и происходит визуализация движения.
При создании как неподвижных так и подвижных графических элементов мультимедиа общим являются
способы создания графических файлов. К ним относятся три основных способа создания графики:
ввод с помощью сканера;
выбор из библиотек графических объектов в инструментальных средствах и графических пакетах;
создание с помощью графических редакторов.
3.3. Создание звуковых элементов мультимедиа
Звук является самым выразительным объектом мультимедиа.
Существует два основных метода синтеза звуковых сигналов: таблично-волновой синтез и частотная
модуляция.
Достоинством первого метода является реалистичность звучания классических инструментов и простота
звучания. Недостатком — ограниченность жесткого набора заранее подготовленных тембров, невозможность
изменения многих параметров и разное звучание мелодий, в зависимости от моделей синтезаторов и набора
стандартных инструментов.
Достоинством второго метода является то, что нет необходимости заранее записывать и хранить в
постоянной памяти звуковые сигналы. Недостаток — грубая, приблизительная имитация звучания реальных
инструментов. Небольшой диапазон возможных звучаний инструментов у управляющих схем.
При создании звуковых файлов применяются два основных метода:
оцифровка звука с помощью звуковой карты;
сокращенная запись звучания музыкальных инструментов в числовой форме (технология MIDI — Musical
Instrument Digital Interface).
При технологии оцифровки звука применяется метод FM-синтеза звука, с помощью которого создаются
цифровые данные, звучание которых не зависит от устройства их воспроизведения, воспроизведение цифрового
звука всегда одинаково.
При MIDI –технологии записи звука используется метод WT-синтеза. MIDI –данные зависят от устройств
их воспроизведения.
Создание звуковых файлов производится в основном двумя способами:
с помощью программ-секвенсеров (устройство для записи, редактирования и воспроизведения MIDI информации);
с помощью звуковых редакторов.
Создание видеоэлементов мультимедиа
В современном мире пока существуют два типа видео: аналоговое и цифровое.
Аналоговое видео — это тип видео, который используется в телевидении (аналоговый видеосигнал). Для
получения подвижного видео каждую секунду необходимо изменять несколько кадров. Кадры сменяются с
частотой несколько десятков в секунду. Отдельное изображение состоит из строк, которые воспроизводятся в двух
наборах, называемых полями. В телевидении используется чересстрочный способ формирования изображения, при
котором за первый цикл прохода электронным лучом экрана формируется изображение нечетных строк, а за
второй — четных. В результате полный кадр формируется из двух полукадров (полей). При этом в стандарте PAL
и SECAM 625 строк развертываются за 1/25 секунды. Частота обновления кадров должна быть достаточно высокой
для устранения мерцания экрана. В типичных телевизорах она составляет 50-60 Гц, в мониторах 80-1500 Гц.
Цифровое видео — изображение или серия изображений, информация в которых хранится в цифровом
виде. Оно использует цифровые сигнал и стандарты, отличные от стандартов, используемых в аналоговом видео.
DV (Digital Video) — это цифровой формат записи видеоизображения, который гарантирует идентичность
каждой копии оригинала. В рамках этого формата существует возможность редактирования видеоизображения
(вплоть до отдельных кадров) без потери качества. Благодаря раздельной записи видео и звука формат DV
позволяет добавлять звуковое сопровождение после завершения записи-редактирования видео, а также
перезаписывать звук. Формат DV обеспечивает высокое выходное качество видеоизображения при небольших
размерах и значительно меньшей стоимости. Цифровое видео может переноситься с видеоаппаратуры на жесткий
диск компьютера и обратно без преобразований. Благодаря этому не происходит потеря качества изображения при
использовании компьютерного видеомонтажа.
3.4. Технологии связывания объектов мультимедиа
Базовые элементы мультимедиа, представленные в цифровом виде, можно рассматривать как дискретные
объекты, обладающие своими свойствами. Поэтому для их связывания можно использовать метод объективноориентированного программирования. Этот метод может быть реализован в технологиях DDE и OLE.
Технология DDE (Dynamic Data Exchange) предназначена для динамического обмена данными в среде
Windows. Позволяет приложениям обмениваться данными динамически во время выполнения.
Технология DDE позволяет передавать данные между клиентами и серверами. Данные могут пересылаться
в режиме «горячей» связи, когда изменения в программе сервера вызывают соответствующие изменения в
программе клиента. Режим «холодной» связи предусматривает независимое импортирование данных в программуклиента от изменений в программе–сервера.
Технология OLE является дальнейшим развитием идеи разделяемых между приложениями данных. Если с
помощью DDE можно было работать с текстом, то технология OLE позволяет легко встроить в приложение
обработку любых типов данных. Как и в случае с DDE, для правильной работы приложения-клиента (OLEконтейнера) требуется наличие приложения OLE-сервера. Каждый раз, когда в программе-клиенте пользователь
обращается к OLE-объекту с целью просмотра или редактирования данных, запускается приложение-сервер, в
котором и происходит работа с данными.
СИСТЕМЫ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА И ВЕДЕНИЯ ЭЛЕКТРОННОГО АРХИВА.
Лекция № 16-17 Технологии и системы автоматизации ДОУ. Классификация систем автоматизации
делопроизводства
1.
2.
3.
4.
Вопросы:
История развития технологий и систем автоматизации ДОУ.
Особенности российского документооборота.
Функциональные требования к системам автоматизации делопроизводства.
Классификация систем автоматизации делопроизводства.
1. ИСТОРИЯ РАЗВИТИЯ ТЕХНОЛОГИЙ И СИСТЕМ АВТОМАТИЗАЦИИ ДОУ
Первоначально внедрение компьютеров в делопроизводство касалось, прежде всего, документирования —
создания с помощью специальных прикладных программ (текстовых редакторов и процессоров) электронных
версий документов, которые в любой момент времени могли быть распечатаны на принтере. Разработчики таких
программ стали снабжать их специальными средствами, облегчающими создание документа. Так появилась
возможность ведения своих библиотек шаблонов — заготовок документа, в определенные места которых надо
было вносить соответствующие данные. Поскольку многие документы оформляются в виде таблиц, были
разработаны специальные табличные процессоры, позволяющие не только отобразить табличную форму, но и
осуществить подсчет цифровых данных таблицы.
Создание подобного рода специальных программ привело к возникновению отдельного класса
информационных технологий работы с документами — технологий обработки электронных версий документов
(documentprocessing).
При этом обмен документами может осуществляться не только путем распечатки и передачи бумажного
документа, но и путем передачи электронной версии на гибком магнитном носителе.
Как только развитие вычислительной техники привело к появлению локальных и глобальных
вычислительных сетей, появилась возможность сетевого обмена данными. На их базе были созданы специальные
службы, например такие, как электронная почта.
Создание компьютерных сетей и служб обмена данными совершили революционный переворот в
автоматизации делопроизводства. Появилась возможность использовать сеть для перемещения документов и
централизованного слежения за ходом делопроизводственного процесса.
Правда, вместе с решениями появились и проблемы.
Первой стала проблема правового режима электронной копии документа. Техническое решение этой
проблемы заключается в том, что любые данные, представленные в электронной форме, могут быть зашифрованы
и снабжены электронной цифровой подписью — специальным кодом, который не дает усомниться в авторстве и
правильности передачи документа. Для придания соответствующего статуса электронному документу
предусматриваются механизмы наложения на него подписи и печати т, а также механизмы регистрации. Иными
словами, речь идет о добавлении к документу информации, определяющей его аутентичность. Аутентичность подтверждение того, что содержательная информация документа не претерпела изменений с момента его
подписания, и документ подписан определенным лицом. Файл получает юридическую силу документа только
после его подписания электронной подписью. При этом алгоритмы подписи стандартизируются, а программное
обеспечение, реализующее алгоритм, должно быть соответствующим образом сертифицировано. Данный подход
позволил говорить о возможности безбумажной технологии ведения делопроизводства.
Второй существенной проблемой стала проблема разграничения прав доступа к тем или иным
документам при работе в сетевой среде.
Она решается с помощью системы специальных регистрационных имен пользователей и паролей: именам
пользователей сети ставится в соответствие ряд правил доступа к данным, а правильный ввод пароля служит
признаком того, что к работе приступил пользователь, владеющий соответствующими правами.
Создание технологической базы для развития систем автоматизации делопроизводства привело к
разработке ряда оригинальных информационных технологий работы с документами.
При этом природа данных технологий определяется необходимостью обеспечения пользователя
привычными атрибутами традиционного делопроизводства, когда документы распределяются по папкам, папки —
по шкафам, шкафы — по кабинетам. Такой подход нашел свое отображение в системах управления
документами (document management). Такие системы обладают чрезвычайно простым и удобным интерфейсом,
который наглядно отображает структуру хранения документов. При этом поиск какого-либо документа может
полностью повторить порядок традиционного поиска: в своем электронном «кабинете» исполнитель открывает
свой электронный «шкаф», «папку» и путем просмотра документов, сложенных в определенном порядке
(например, по возрастанию регистрационных номеров), быстро находит нужный материал. Естественно, такие
системы реализуют и другие способы поиска, но зачастую визуальное отображение созданного пользователем
«хранилища» позволяет найти нужный документ быстрее.
Другая особенность правил документооборота, заключающаяся в том, что какой-либо тип документа
(например накладная) по правилам данного предприятия должен быть обязательно направлен конкретному
сотруднику, породила системы управления ходом работ (workflow management).
Данные системы позволяют строго регламентировать направления документопотока в зависимости от типа
документа и значений его реквизитов, т.е. автоматически направлять документ определенному исполнителю при
возникновении заранее сформулированных условий. Например, если в платежном документе обозначена сумма до
тысячи долларов, то он направляется на подпись финансовому директору, а свыше — только президенту
компании. Примером среды разработки таких систем является, например, пакет Staffware (Staffware PLS).
С другой стороны, правила документооборота могут, наоборот, требовать полной свободы в определении
маршрута движения документа. При этом каждый предыдущий исполнитель документа сам определяет, кому
должен быть передан документ на очередном этапе. Такой порядок характерен для предприятий, в которых
руководитель, вынося резолюцию, исходит из субъективных соображений при назначении исполнителей.
Технология, поддерживающая организацию групповой работы с документами, получила название
workgroup management.
Постоянные организационные трудности несет с собой параллельная работа с документом нескольких
исполнителей. Такая работа требует неоднократных передач друг другу проектов документов, особенно если
содержание одной части документа влияет на содержание другой. С появлением компьютерных сетей у
пользователей возникло естественное желание автоматизировать параллельную работу с документом таким
образом, чтобы, во-первых, несколько исполнителей могли одновременно обратиться к одному и тому же
документу, а, во-вторых, изменения, внесенные кем-либо из исполнителей, немедленно становились известными
другим участникам процесса. При кажущейся простоте постановки вопроса обеспечение группового доступа к
документу породило множество проблем (например, как реагировать на одновременную правку одного и того же
фрагмента текста), которые нашли свое разрешение в системах, реализующих технологию группового доступа
(groupware), например в пакетах Group Wize и Lotus Notes (Lotus-IBM).
Какие же технологии необходимы для комплексной автоматизации делопроизводства? Во многих
западных компаниях автоматизация базируется на двух простых технологиях: электронной почте, позволяющей
обмениваться данными, и системе управления документооборотом, позволяющей осуществлять единый контроль
над всеми документами организации.
2. Особенности российского документооборота
В России общегосударственная система документооборота сложилась задолго до появления современных
информационных технологий. Как показывает опыт, для ее реализации необходимо использование различных
информационных технологий работы с документами.
С одной стороны, необходимость централизованной концентрации данных о документах всей организации
в сочетании с достаточно сложным набором реквизитов регистрационно-контрольных форм принципиально
требует достаточно мощных средств управления документооборотом.
Детальный анализ показывает, что для описания обобщенной структуры данных документа требуется до
нескольких десятков реляционных таблиц. Для эффективной реализации такой системы необходима СУБД
масштаба предприятия и соответствующие средства проектирования. С другой стороны, документооборот
предполагает сложные многошаговые алгоритмы прохождения документов по организации, то есть, по сути,
предполагает технологии управления рабочими группами.
В связи с этим на российском рынке наряду с системами, разработанными на базе готовых западных
продуктов одного из вышеперечисленных классов, предлагаются оригинальные системы, разработанные
специально
для
автоматизации
отечественного
документооборота
с
использованием
элементов
вышеперечисленных технологий.
3. Функциональные требования к системам автоматизации делопроизводства
С точки зрения традиционной технологии отечественного делопроизводства, автоматизированными
системами должны поддерживаться следующие обязательные функции:
1. Регистрация входящих, исходящих и внутренних документов.
2. Возможность ввода неограниченного числа резолюций к документу.
3. Возможность контроля исполнения резолюций, включая упредительный контроль.
4. Списание документа в дело.
5. Атрибутивный поиск документа в базе данных (поиск по произвольному сочетанию значений
реквизитов регистрационной карточки документа).
6. Возможность проектирования стандартных (простых) отчетных форм без привлечения разработчика.
Потребительские свойства систем автоматизации могут быть расширены за счет ряда дополнительных
функций, многие из которых являются обязательными при организации тендеров (конкурсов) на приобретение
системы.
1. Возможность работы с электронной копией документа.
2. Интеграция со средствами пакета MS Office.
3. Автоматизированная регистрация документа, поступившего по электронной почте.
4. Поддержка средств электронной цифровой подписи.
5. Возможность задания логических связей между документами.
6. Полнотекстовый поиск по электронным копиям документов.
7. Разделение прав доступа пользователей к различным категориям документов.
8. Web-доступ к документационной базе данных (доступ через Интернет).
9. Ведение реестров рассылки внешним адресатам, включая возможность формирования конвертов,
печати адресов на конвертах или наклейках, печати описей вложений.
10. Ведение внутренних реестров рассылки (реестров передачи бумажных документов между
сотрудниками учреждения).
11. Возможность проектирования произвольных (связанных со сложной логической обработкой)
отчетных форм без привлечения фирмы-разработчика.
12. Распознавание текстов отсканированных документов.
13. Ведение электронных архивов документов.
14. Поддержка средств криптографической защиты информации.
В ряде зарубежных систем автоматизации обеспечивается поддержка специальных функций, прежде всего
связанных с лингвистическим анализом текстов документов:
1. Автоаннотирование — автоматическое составление аннотации документа по его полному тексту.
2. Авторубрицирование — автоматическое отнесение документа к той или иной тематической рубрике.
3. Автосвязывание — автоматическая установка гиперссылок между документами.
4. Семантический анализ, результатом которого может быть указание пользователю о недостаточности
информации для успешного поиска документа в дальнейшем (например, в качестве аннотаций документов
вводятся схожие тексты).
5. Формирование связных текстов (отчетов) по заданной тематике на базе архива хранимых документов
(так называемое «копание данных»).
4.
Классификация систем автоматизации делопроизводства.
Автоматизация делопроизводства и документооборота заключается в комплексной автоматизации задач
разработки, согласования, распространения, поиска и архивного хранения документов организации.
Попытаемся классифицировать системы ведения электронного делопроизводства в зависимости от
решаемых задач и реализующих их информационных технологий.
По отношению к задачам автоматизации делопроизводства такие системы обеспечивают:
учет документов и контроль их исполнения;
выполнение только архивных и поисковых функций;
только документооборот;
делопроизводство в целом.
По информационным технологиям, применяемым для автоматизации различных задач делопроизводства,
можно выделить следующие типы систем:
1.
Автоматизированные системы контроля исполнения документов;
2.
электронные архивы;
3.
программное обеспечение для рабочих групп (Groupware).
4.
системы автоматизации деловых процессов, АДП (WorkFlow System);
5.
системы обработки изображений документов (Imaging System);
6.
системы оптического распознавания символов (Optical Character Recognition System, OCR);
7.
системы управления документами, СУД (Document Management System, DMS);
1.1.
Автоматизированные системы контроля исполнения документов
Системы данного типа обеспечивают учет документации учреждения, а также постановку на контроль и
контроль исполнения документов. Они поддерживают ведение журналов регистрации и контроля или
регистрационно-контрольных карточек документов, выдачу напоминаний о приближении сроков окончания
исполнения, сообщений и отчетов о просроченных документах. Системы рассчитаны на делопроизводственный
персонал и группы контроля.
1.2.
Электронные архивы
Эти системы, предназначенные, прежде всего, для физического хранения электронных копий документов
и их поиска, могут включать также функции автоматизированного учета и контроля исполнения документов.
Хранение документов осуществляется либо в файловой системе, либо в базе данных. Поиск обычно
осуществляется как по атрибутам, так и по содержанию документов. Система может строиться на персональных
или клиент-серверных СУБД.
1.3.
Системы, основанные на организации групповой работы
Программное обеспечение для рабочих групп (groupware) предназначено для организаций, сотрудникам
которых по характеру их деятельности требуется постоянный обмен документами. Осуществляет задачи хранения,
просмотра и совместного использования документов.
Системы класса groupware позволяют автоматизировать такую деятельность, которая не вписывается в
стандартные схемы реляционных баз данных. Например, взаимодействие большого числа людей, исполняющих
различные работы в физически удаленных друг от друга местах. Такие приложения могут обрабатывать как
структурированную, так и неструктурированную информацию.
Основными функциями ПО для рабочих групп являются:
электронная почта;
поддержка видеоконференций/совещаний;
управление изображениями документов;
совместное использование документов;
маршрутизация документов;
календарное планирование.
Лучшими системами класса groupware считаются: Lotus Notes компании Lotus Development, Link Works
компании Digital Equipment, Group Wise компании Novel.
Многие отечественные разработчики создали на базе Groupware-систем собственные корпоративные
приложения для автоматизации сложных процессов работы с документами.
1.4. Системы автоматизации деловых процессов (Workflow-системы )
Системы автоматизации деловых процессов (АДП) предназначены для создания сложных
прикладных систем коллективной обработки документов в процессе осуществления конкретных бизнес-процессов.
Документальные потоки на предприятии привязываются к существующим бизнес-процессам и регламенту их
взаимодействия.
Workflow-системы (системы управления потоками работ) обеспечивают систематическую
маршрутизацию работ любого типа в рамках структурированных и неструктурированных бизнес-процессов. Они
применяются в первую очередь для автоматизации документооборота и многошаговых операций и используются в
целях ускорения бизнес-процессов, повышения контролируемости и эффективности процессов в организации.
В основу функционирования таких систем положено понятие потока работ, определяющих бизнеспроцесс. В качестве базовой единицы принята работа, выполняемая при определенных условиях в заданной
последовательности и заданными исполнителями. Работа может производиться в различных временных рамках,
контролироваться по времени и содержанию, с ней могут связываться документы, задания, резолюции и т. п.
Понятие "работа" в Workflow гораздо шире, чем "документ", а понятие "движение работ" шире
"документооборота"; документооборот является составной частью Workflow.
Информацию о работах (карты работ) Workflow-система хранит в базе данных. Документы и другие
прикрепления к работам либо хранятся на сервере, либо передаются физически от исполнителя к исполнителю
согласно карте работы. В случае хранения документов на сервере пользователям передаются только права доступа
к ним. Неотъемлемой частью таких систем является графический редактор маршрутов работ. Возможна жесткая,
свободная и смешанная маршрутизация с параллельным и последовательным выполнением работ.
Системы данного типа обычно имеют открытые интерфейсы и механизмы для интеграции с другими
приложениями. Одним из примеров Workflow-систем является продукт Domino Workflow, построенный на
платформе Lotus Domino/Notes.
Другим примером систем АДП может служить продукт фирмы Staffware. Документы в системе
обрабатываются по принятому в организации алгоритму и перемещаются в рамках корпоративной системы между
отдельными подразделениями и исполнителями по заранее определенным маршрутам. Система основана на
технологии клиент - сервер, интегрируется с программными продуктами, работающими на платформах Windows
NT, Windows 95, UNIX. В состав системы может входить графический построитель процедур (Graphical Workflow
Definer), описывающий документопоток в виде диаграмм с указанием логических шагов, маршрутизации,
предельных сроков и форм отчетов. Является инструментом для разработки модели бизнес-процессов.
1.5.
Системы обработки изображений документов
Системы обработки изображений документов предназначены для ввода, обработки, хранения и
поиска графических образов бумажных документов. Подобные системы целесообразно применять в организациях
с большим объемом документооборота. Техническое обеспечение систем включает высокоскоростные сканеры,
документные контроллеры (выполняют быструю и высокоэффективную компрессию/декомпрессию документов и
обеспечивают скоростную работу со сканерами и принтерами), библиотеки-автоматы на базе оптических
накопителей с автоматической подачей дисков. Компьютерные образы документов находятся на сервере
изображений и просматриваются на рабочих станциях-клиентах.
Системы обработки изображений осуществляют сканирование документов для записи на сервер, их
классификацию по различным критериям, передачу изображений на рабочую станцию для просмотра,
модификацию или печать. Подобные системы предусматривают также определение маршрута передачи
изображений по сети, их рассылку по факсу или электронной почте, поиск изображений по отдельным элементам.
Так как файлы изображений достигают больших размеров, существуют различные варианты
организации их хранения. В целях экономии памяти на запоминающем устройстве большинство систем сжимают
изображения и создают специальный индекс изображений, где содержатся соответствующие значения атрибутов
документов, например — наименование, автор, тема.
В высокопроизводительных системах реализованы технологии, позволяющие увеличить скорость
работы. Например: предварительная выборка и перенос изображений с медленных оптических носителей на более
быстрые магнитные; адаптируемое кэширование, позволяющее хранить часто используемые изображения в памяти
сервера; вывод на лазерный диск; групповое сканирование, обеспечивающее считывание нескольких страниц за
одну операцию.
Многие системы обработки изображений включают программное обеспечение оптического
распознавания символов (OCR).
Применение OCR позволяет решить проблему перевода бумажных документов в электронную форму в
виде текстового файла. Системы OCR позволяют получать электронную копию документа с печатного листа либо
копию документа, пришедшего по факсу. Существуют экспериментальные системы, позволяющие подобным
образом обрабатывать также и рукописные материалы (Intelligent Character Recognition).
Кратко функционирование системы OCR можно представить следующим образом. С помощью
сканирующего устройства считывается изображение документа. В результате распознавания текста изображение
документа отображается в файл, отформатированный как текстовый. Таким образом, бумажный документ, минуя
низкопроизводительный и трудоемкий ручной ввод, автоматически преобразуется в электронную форму.
Выделяют два класса систем OCR — обучаемые и интеллектуальные. Принцип действия систем первого
класса основан на поточечном сравнении оцифрованного символа с образцом из справочника. При совпадении
образца и символа, последний считается распознанным и добавляется в результирующий файл. При таком способе
распознавания размеры образца и шрифта документа должны совпадать, т. е. в системе необходимо иметь маски
для каждого размера каждого типа шрифта, поэтому подобная система более эффективна в случае однотипного и
качественного текста. Во втором случае «маска» символа заменяется на его «образ», который может быть
использован для любых размеров шрифтов.
Для повышения точности распознавания интеллектуальные системы могут выполнять ряд проверок
результирующего текста, например, осуществлять частотный анализ текста и сравнивать частоту появления
данного символа в тексте с его частотой в языке оригинала или обнаруживать неправильное сочетание символов,
исходя из правил орфографии.
В реальных системах OCR сочетаются различные распознавательные механизмы, что дает возможность
обрабатывать любые шрифты и любые тексты.
На сегодняшний день известны несколько достаточно качественных программных продуктов по
распознаванию текста, в том числе — две системы отечественных фирм, ориентированных прежде всего на
распознавание русскоязычных текстов (FineReader и CuneiForm). Средняя скорость работы системы ОСЛ на
оборудовании средней мощности составляет примерно одну машинописную страницу в минуту. Качество
распознавания — в среднем одна—две ошибки на 1000 знаков в тексте среднего качества.
1.6.
Системы управления электронными документами
Делопроизводство и документооборот являются частным случаем общего понятия "управление
документами". Соответственно, "системы управления электронными документами" (Electronic Document
Management -- EDM) считаются универсальными и способными автоматизировать весь комплекс задач,
возлагаемых на делопроизводство.
EDM-система, ориентированная на отечественное делопроизводство, должна производить следующие
операции:
обслуживать пользователей на основе ведения организационно-штатной структуры организации;
вести журналы регистрации и контроля исполнения;
контролировать сроки исполнения документов, оповещать исполнителя и делопроизводителя о
приближении сроков контроля, о невыполненных в срок документах;
хранить документы в системе; уметь работать с шаблонами документов, составными документами,
версиями, перекрестными ссылками между документами;
отслеживать документы вне системы, производить выписку документов из системы;
осуществлять поиск документов: атрибутивный, полнотекстовый, нечеткий;
поддерживать разработку документов на стадии проекта, включая коллективную разработку;
поддерживать визирование, согласование, утверждение документов;
обеспечивать документооборот с поддержкой всех видов маршрутизации, автоматической рассылки,
обмена сообщениями и поручениями внутри системы, формировать реестры отправки во внешние организации;
вести классификаторы документов (по типу, виду и т.п.), справочников внешних и внутренних
организаций, а также других необходимых справочников;
разграничивать полномочия в системе, протоколировать и аудировать действий пользователей;
поддерживать шифрование, цифровую подпись; вести дела документов, осуществлять списание
документов в дело, передачу дел на хранение в архив;
формировать требуемые отчеты, в том числе статистические отчеты по делопроизводству организации.
Системы EDM основываются как на документоориентированных, так и на реляционных СУБД -- Oracle,
Informix, Microsoft, Sybase. Обмен документами между пользователями осуществляется подсистемой обмена и
маршрутизации документов; зачастую роль этой подсистемы выполняют Workflow-системы. Многие системы
снабжены редакторами (дизайнерами) справочников, регистрационно-контрольных карт для задания атрибутов
различных видов документов.
Корпоративные EDM-системы обеспечивают инфраструктуру для создания документов, совместной
работы над ними и их публикации, доступную, как правило, всем пользователям в организации. Их отличительной
особенностью является способ применения. Как правило, эти системы не ориентированы на использование только
в какой-то определенной индустрии или для решения узко определенной задачи. Обычно они применяются как
общекорпоративные технологии, доступные практически любой категории пользователей.
В целом, все вышерассмотренные типы систем должны удовлетворять следующим требованиям:
масштабируемость,
переносимость,
поддержка распределенного управления,
работа удаленных групп и мобильных пользователей,
работа через Internet, доступ к документам через браузеры,
модульность архитектуры,
удобство и простота администрирования,
наличие интуитивного интерфейса.
Системы должны поддерживать промышленные стандарты и иметь свои собственные открытые
интерфейсы прикладного программирования, интегрироваться с офисными приложениями и почтовыми
программами.
В последнее время наблюдается тенденция интеграции функциональных возможностей вышеописанных
технологий. Так, в системах, классифицируемых как groupware, могут использоваться технологии полнотекстовых
баз данных, систем управления документами и автоматизации деловых процедур. Поэтому в современных
системах автоматизации документооборота вышеуказанные технологии могут применяться как в качестве
отдельных, так и интегрированных компонент.
Сегодня на рынке представлены различные системы для автоматизации тех или иных функций
делопроизводства организации имеющих, как правило, разные названия. Каждый производитель вводит свою
систему обозначений и терминов, по-своему расставляет приоритеты.
Прежде всего следует внимательно выяснить, какие операции делопроизводства и в каком объеме
поддерживает предлагаемая система. И лишь после проведения подобного рода экспертизы можно решать, что
представляет собой данная система, и насколько она подходит для решения конкретных задач.