Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по информационным технологиям
Основные понятия и классификация информационных систем и технологий

Основные понятия и классификация информационных систем и технологий

👀 1762 просмотра
📌 1708 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Основные понятия и классификация информационных систем и технологий», doc

Загружаем конспект в формате doc

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Основные понятия и классификация информационных систем и технологий», Word формат

ВВЕДЕНИЕ 3 1. Основные понятия и классификация информационных систем 5 1.1. Принципы функционирования и основные элементы ИС 5 1.2. Классификация ИС. 8 1.3. Технологии описания предметной области 11 1.4. Архитектура клиент - сервер 13 2. Документальные информационные системы 16 2.1. Основные понятия и классификация документальных ИС. 16 2.2. Информационно-поисковый язык 18 2.3. Эффективность функционирования документальных ИПС. 20 3. Гипертекст. 21 3.1. Основные понятия и определения. 21 3.2. Технологии разметки документов. 24 3.3. Технологии документирования информационных ресурсов - ODA. 27 4. Фактографические информационные системы 29 4.1. Основные понятия и определения. 29 4.2. Структурированные типы данных. 30 4.3. Основные модели данных. 32 4.4. Семантические модели данных. 34 4.5. Иерархическая модель данных 37 4.6. Сетевая модель данных 38 4.7. Реляционная модель данных 39 5. Предметно-ориентированные ИС. 44 5.1. Информационные хранилища. 44 5.2. Геоинформационные системы. 47 5.3. Банковские информационные системы 49 6. Безопасность информационных систем 56 7. Основные термины и их определение в области информацинных технологий 60 7.1.Общие термины 60 7.2.Основные виды технологических процессов, составляющих информационную технологию 61 7.3.Основные средства информационной технологии. 62 7.4.Базовые и прикладные информационные технологии. 62 Литература 63 ВВЕДЕНИЕ Учебное пособие подготовлено в соответствии с Государственным стандартом высшего профессионального образования РФ и ориентировано на студентов специальностей 351400 «Прикладная информатика (по областям), 071900 «Информационные системы в экономике», и других родственных специальностей в различных сферах. Дисциплина «Информационные системы» (ИС) является общепрофессиональной дисциплиной (федеральный компонент ОПД.Ф.04) и имеет целью дать студентам знания терминологии и основных понятий, используемых в теории и практике информационных систем; классификации информационных систем по различным признакам; методологии и технологии разработки информационных систем; моделях данных, их видов и основных свойствах; методов представления предметной области; концептуальных средствах описания; современных средствах разработки информационных систем. На современном этапе общественного развития информация превращается из набора сведений в основной социальный и экономический ресурс, качественно изменяющий все стороны жизни. Дальнейшее развитие различных сфер человеческой деятельности невозможно без широкого применения вычислительной техники и создания информационных систем различного направления. Обработка информации в подобных системах является самостоятельным научно-техническим направлением. Процесс информатизации и создание информационной среды, охватывая материальное производство, социальную сферу, а также услуги, включают в себя: • создание информационной техники и технологий, которые обеспечивают производство, обработку и распространение информации; • разработку инфраструктуры, обеспечивающей применение и развитие средств и процессов информатизации; • производство самой информации, информационных продуктов и услуг. Объектами процессов информатизации являются: • машинообрабатываемая информация, существующая в виде сообщений, документов или массивов баз данных в устройствах памяти любой конструкции; • информационные технологии; • программные средства; • информационно-вычислительные системы и сети; • информационные услуги. Инфраструктура информации включает в себя: • систему коммуникаций, вычислительных средств и систем, обеспечивающих взаимодействие между собой информационных объектов и технологий; • программные средства, поддерживающие функционирование комплексов аппаратуры; • информационные средства и базы данных; • систему подготовки кадров, способных эффективно эксплуатировать эти технологии; • экономические и правовые механизмы, способствующие эффективному развитию процесса информатизации. Создание современной инфраструктуры информатизации должно обеспечивать пользователям широкий набор информационно-вычислительных услуг с доступом к локальным и удаленным машинным ресурсам, технологиям и базам данных. Настоящее учебное пособие знакомит студентов с основными понятиями и определениями в области ИС, с функциями и классификацией информационных систем, современным уровнем развития информационных систем, основными принципами и возможностями CALS и CASE-технологий. В пособии рассматриваются документальные ИС, их структура и логико-семантический аппарат, приводятся критерии оценки документальных систем и технологии поиска. Затем рассматриваются основные понятия фактографических ИС, методы организации данных и управления данными, концептуальное моделирование данных, модель «сущность-связь». В заключение рассмотрены некоторые предметно-ориентированные информационные системы. 1. Основные понятия и классификация информационных систем 1.1. Принципы функционирования и основные элементы ИС В соответствии с системным подходом любая система представляет собой совокупность взаимосвязанных объектов (элементов), функционирующих совместно для достижения общей цели. Для системы характерно изменение состояний объектов, которое с течением времени происходит в результате взаимодействия объектов в различных процессах и с внешней средой. В результате такого поведения системы важно соблюдение следующих принципов: • эмерджентности, то есть целостности системы на основе общей структуры, когда поведение отдельных объектов рассматривается с позиции функционирования всей системы; • гомеостазиса, то есть обеспечения устойчивого функционирования системы и достижения общей цели; • адаптивности к изменениям внешней среды и управляемости посредством воздействия на элементы системы; • обучаемости путем изменения структуры системы в соответствии с изменением целей системы. С позиций кибернетики процесс управления системой как направленное воздействие на элементы системы для достижения цели можно представить в виде информационного процесса, связывающего внешнюю среду, объект и систему управления. При этом внешняя среда и объект управления информируют систему управления о своем состоянии, система управления анализирует эту информацию, вырабатывает управляющее воздействие на объект управления, отвечает на возмущения внешней среды и при необходимости модифицирует цель и структуру всей системы. В первом приближении ИС может быть представлена в виде множества следующих взаимодействующих элементов: • оборудование, системное и базовое программное обеспечение (компьютеры, периферия, оборудование и каналы связи, операционные системы, СУБД, тесты и т.п.); • ИР (данные, информация и знания): методы, модели, алгоритмы и прикладные программы, которые обеспечивают обработку ИР; • услуги (сервисы), которые должна предоставлять ИС (предоставление определенных, функционально полезных для организации услуг является смыслом существования, назначением ИС. С точки зрения стандартов (ГОСТы класса 34 «Информационная технология. Комплекс стандартов на автоматизированные системы»), элементы ИС структурированы по видам обеспечений (рис. 1.1), которые определяют следующим образом. Функциональные подсистемы ИС информационно обслуживают определенные виды деятельности предприятия, характерные для структурных подразделений, и/или функций управления. Интеграция функциональных подсистем в единую систему достигается за счет создания и функционирования обеспечивающих подсистем. Рис. 1.1. Компоненты информационных систем Математическое обеспечение — совокупность примененных математических методов, моделей и алгоритмов. Эффективность используемого математического аппарата во многом определяет эффективность всей технологии обработки данных, получения на их основе информации и знаний, необходимых для подготовки принятия решений. Из современных направлений математического обеспечения следует выделить методы, модели и алгоритмы интеллектуального анализа информационных ресурсов, нейроинформатики, экспертных систем, принятия решений в условиях неопределенности. Информационное обеспечение — совокупность форм документов классификаторов, нормативной базы и реализованных решений по объемам, размещению и формам существования информации. Оно определяет состав, структуру и способы организации данных и метаданных, вопросы информационной совместимости со смежными системами, использование действующих классификаторов и систем обозначений, документирования данных и информации, продуцируемых техническими средствами (формы документов, УСД, шаблоны и т.д.), придания им юридической силы. Лингвистическое обеспечение — совокупность средств и правил для формализации естественного языка, используемых при общении пользователей и эксплуатирующего персонала с комплексом средств автоматизации при функционировании ИС. Примерами могут служить классификаторы и системы обозначений, тезаурусы (одно- и многоязычные), языки запросов типа SQL, языки типа SGML, ЯОКС, Express, UML и т.п. Техническое обеспечение — совокупность всех технических средств, используемых для функционирования ИС. К нему относятся следующие классы аппаратуры: • ЭВМ различных классов; • устройства ввода-вывода данных; • устройства хранения и накопления данных; • средства телекоммуникации; • устройства защиты данных; • устройства тиражирования данных; • средства оргтехники. Метрологическое обеспечение — совокупность средств и методик измерения характеристик объектов информации, а также технических и программных средств. Методики измерения базируются на соответствующих теориях измерений и шкалах, выбор которых серьезно влияет на адекватность информационных моделей. Правовое обеспечение — совокупность правовых норм, регламентирующих правовые отношения при функционировании ИС и юридический статус результатов ее функционирования. Документированная информация, обработанная ИС, приобретает юридическую силу после ее удостоверения должностным лицом в установленном порядке или электронной цифровой подписью. Кроме того, правовое обеспечение включает: права, обязанности и ответственность персонала, в том числе за своевременность и точность обработки информации, правила пользования информацией и порядок разрешения споров по поводу ее достоверности. Организационное обеспечение — совокупность документов, устанавливающих организационную структуру, права и обязанности пользователей и эксплуатационного персонала ИС в условиях функционирования, проверки и обеспечения работоспособности системы. Организационные компоненты отражают значимость человеческого фактора в успешном функционировании ИС. До ее внедрения должна быть проведена огромная работа по упорядочению и совершенствованию организационной структуры объекта, на котором внедряется ИС, в противном случае эффективность внедряемой ИС будет низкой. Главная проблема заключается в выявлении степени соответствия существующих функций управления и организационной структуры, реализующей эти функции управления и стратегию развития организации. Средствами достижения цели — совершенствование организационных структур — являются различные методы моделирования организаций и коммуникаций. Методическое обеспечение — совокупность документов системообразующего характера, позволяющих сделать обозримыми и понятными для заказчика проектные предложения разработчика, а также обеспечивающих взаимодействие проектировщиков со смежниками, а эксплуатационников с взаимодействующими системами. Методическое обеспечение разрабатывается на всех стадиях и этапах жизненного цикла ИС. Технологическое обеспечение — совокупность документов, описывающих технологию функционирования ИС и технологические приемы для получения конкретных результатов при функционировании. Основная функция — реализация типовых технологических процессов, операций и технологических переходов при обработке данных. Эргономическое обеспечение — совокупность реализованных решений по согласованию психологических, психофизиологических, антропометрических, физиологических характеристик и возможностей пользователей ИС с техническими характеристиками комплекса средств автоматизации и параметрами рабочей среды на рабочих местах персонала. В настоящее время при широком распространении мультимедийных технологий важным моментом является информационная перегрузка лиц, принимающих решения (ЛПР). Учет эргономических факторов (например, в международных стандартах по структуре Документов — ODA, по эргономике офисных систем, использующих видеотерминалы, по межгосударственным стандартам для систем «человек-машина») при проектировании и эксплуатации ИС, использование эргономики знаковых систем для повышения информативности отображаемой информации позволит значительно повысить эффект использования ИС. 1.2. Классификация ИС. Классификация информационных систем управления зависит от видов процессов управления, уровня управления, сферы функционирования экономического объекта и его организации, степени автоматизации управления. Основными классификационными признаками автоматизированных информационных систем являются: • уровень в системе государственного управления; • область функционирования экономического объекта; • виды процессов управления; • степень автоматизации информационных процессов; • уровень структурированности решаемых задач; • характер использования информации. В соответствии с признаком классификации по уровню государственного управления автоматизированные информационные системы делятся на федеральные, территориальные (региональные) и муниципальные ИС, которые являются информационными системами высокого уровня иерархии в управлении. ИС федерального значения решают задачи информационного обслуживания аппарата административного управления и функционируют во всех регионах страны. Территориальные (региональные) ИС предназначены для решения информационных задач управления административно-территориальными объектами, расположенными на конкретной территории. Муниципальные ИС функционируют в органах местного самоуправления для информационного обслуживания специалистов и обеспечения обработки экономических, социальных и хозяйственных прогнозов, местных бюджетов, контроля и регулирования деятельности всех звеньев социально-экономических областей города, административного района и т. д. Классификация по области функционирования экономического объекта ориентирована на производственно-хозяйственную деятельность предприятий и организаций различного типа. К ним относятся автоматизированные информационные системы промышленности и сельского хозяйства, транспорта, связи, банковские ИС и др. По видам процессов управления ИС делятся на: ИС управления технологическими процессами предназначены для автоматизации различных технологических процессов (гибкие технологические процессы, энергетика и т. д.). ИС управления организационно-технологическими процессами представляют собой многоуровневые, иерархические системы, которые сочетают в себе ИС управления технологическими процессами и ИС управления предприятиями. Наибольшее распространение получили ИС организационного управления, которые предназначены для автоматизации функций управленческого персонала. Учитывая наиболее широкое применение и разнообразие этого класса систем, часто различные информационные системы понимаются именно в этом толковании. К этому классу ИС относятся информационные системы управления как промышленными фирмами, так и непромышленными экономическими объектами — предприятиями сферы обслуживания. Основными функциями таких систем являются оперативный контроль и регулирование, оперативный учет и анализ, перспективное и оперативное планирование, бухгалтерский учет, управление сбытом и снабжением и решение других экономических и организационных задач. Интегрированные ИС предназначены для автоматизации всех функций управления фирмой и охватывают весь цикл функционирования экономического объекта: начиная от научно-исследовательских работ, проектирования, изготовления, выпуска и сбыта продукции до анализа эксплуатации изделия. ИС автоматизированного проектирования (САПР) предназначены для автоматизации функций инженеров-проектировщиков, конструкторов, архитекторов, дизайнеров при создании новой техники или технологии. Основными функциями подобных систем являются: инженерные расчеты, создание графической документации (чертежей, схем, планов), создание проектной документации, моделирование проектируемых объектов. Корпоративные ИС используются для автоматизации всех функций управления фирмой или корпорацией, имеющей территориальную разобщенность между подразделениями, филиалами, отделениями, офисами и т. д. ИС научных исследований обеспечивают решение научно-исследовательских задач на базе экономико-математических методов и моделей. Обучающие ИС используются для подготовки специалистов в системе образования, при переподготовке и повышении квалификации работников различных отраслей экономики. По степени автоматизации информационных процессов ИС подразделяются на: Ручные информационные системы, которые характеризуются отсутствием современных технических средств обработки информации и выполнением всех операций человеком по заранее разработанным методикам. Автоматизированные информационные системы — человеко-машинные системы, обеспечивающие автоматизированный сбор, обработку и передачу информации, необходимой для принятия управленческих решений в организациях различного типа. Автоматические информационные системы характеризуются выполнением всех операций по обработке информации автоматически, без участия человека, но оставляют за человеком контрольные функции. Классификация ИС по признаку структурированности задач. Чем точнее математическое описание задачи, тем выше возможности компьютерной обработки данных и тем меньше степень участия человека в процессе ее решения. Это и определяет степень автоматизации задачи. Различают три типа задач, для которых создаются информационные системы: структурированные (формализуемые), неструктурированные (неформализуемые) и частично структурированные. Структурированная (формализуемая) задача  задача, где известны все ее элементы и взаимосвязи между ними. Неструктурированная (неформализуемая) задача  задача, в которой невозможно выделить элементы и установить между ними связи. В структурированной задаче удается выразить ее содержание в форме математической модели, имеющей точный алгоритм решения. Подобные задачи обычно приходится решать многократно, и они носят рутинный характер. Целью использования информационной системы для решения структурированных задач является полная автоматизация их решения, т. е. сведение роли человека к нулю. Примером структурированной задачи является, например, расчет заработной платы. Решение неструктурированных задач из-за невозможности создания математического описания и разработки алгоритма связано с большими трудностями. Возможности использования здесь информационной системы невелики. Решение в таких случаях принимается человеком из эвристических соображений на основе своего опыта и, возможно, косвенной информации из разных источников. По характеру использования информации различают: информационно-поисковые и информационно-решающие системы. Информационно-поисковые системы производят ввод, систематизацию, хранение, выдачу информации по запросу пользователя без сложных преобразований данных. Например, информационно-поисковая система в библиотеке, в железнодорожных и авиа кассах продажи билетов. Информационно-решающие системы осуществляют все операции переработки информации по определенному алгоритму. Среди них можно провести классификацию по степени воздействия выработанной результатной информации на процесс принятия решений и выделить два класса: управляющие и советующие. Управляющие ИС вырабатывают информацию, на основании которой человек принимает решение. Для этих систем характерны тип задач расчетного характера и обработка больших объемов данных. Примером могут служить система оперативного планирования выпуска продукции, система бухгалтерского учета. Советующие (экспертные) ИС вырабатывают информацию, которая принимается человеком к сведению и не превращается немедленно в серию конкретных действий. Эти системы обладают более высокой степенью интеллекта, так как для них характерна обработка знаний, а не данных. 1.3. Технологии описания предметной области Современные средства ИТ формируют собственные информационные модели предметных областей и функциональные модели реализуемых ими процессов, которые во многих случаях оказываются несовместимыми. Это происходит из-за отсутствия согласованных подходов к их разработке. Кроме того, при усложнении моделируемых систем требуется учет все большего количества факторов, в том числе и из других предметных областей. Указанные проблемы могут быть решены за счет: • согласования информационных представлений об объектах и процессах; • организации активного обмена согласованной информацией между деловыми партнерами; • исчерпывающего анализа всех факторов, влияющих на конкурентоспособность в современном представлении. Все эти подходы были объединены в рамках концепции CALS (Continuous Acquisition and Life-Cycle Support — Поддержка Жизненного Цикла Изделий). Позднее CALS стала «Бизнесом в Высоком Темпе» (Commerce At Light Speed), где подчеркивалась переориентация этих технологий в направлении Информационных Магистралей и Электронной Коммерции. Фундамент CALS-технологий — это система единых международных стандартов ISO 10303 (STEP — Standard, Exchange, Product) и ISO 13584 (P_LIB). ISO 10303 — международный стандарт для компьютерного представления и обмена данными о продукте. Цель стандарта — дать нейтральный механизм описания данных о продукте на всех стадиях его жизненного цикла, не зависящий от конкретной системы. Природа такого описания делает его подходящим не только для нейтрального файла обмена, но и в качестве базиса для реализации и распространения баз данных о продукте, а также для архивирования. ISO 13584 представляет информацию о библиотеке изделий вместе с необходимыми механизмами и определениями, обеспечивающими обмен, использование и корректировку данных библиотеки изделий. Имеется в виду обмен между различными компьютерными системами и средами, связанными с полным жизненным циклом продукта, где могут использоваться изделия библиотеки, включая проектирование, изготовление, эксплуатацию, обслуживание и утилизацию продукта. По существу CALS-стандарты включают в себя три группы: • функциональные стандарты, определяющие процессы и методы формализации; • информационные стандарты по описанию данных о продуктах и процессах; • стандарты технического обмена, контролирующие носители информации и процессы обмена данными между передающими и принимающими системами. На сегодня в качестве функциональных стандартов в CALS рассматриваются стандарты, определяющие функциональные требования для ввода изделий в эксплуатацию и их поддержки в течение всего жизненного цикла. Данная группа стандартов охватывает область разработки функциональных требований к следующим процессам: • управления конфигурацией; • поставок запасных частей (начальные и дополнительные); • технического обслуживания, ремонта и капитального ремонта; • модификации и пересмотра (обновления информации) эксплуатационного мониторинга и сообщения о неисправностях. Область действия рассматриваемых стандартов включает также информацию, необходимую для работы организаций заказчика и поставщика, а также для обмена данными между ними. Международные стандарты создаются на основе опыта разработки множества существующих стандартов в разных странах. Помимо вышеуказанных стандартов, охватывающих функциональные спецификации в области логистики, в CALS широко используется способ функционального моделирования, разработанный ранее в проекте USAF «Интегрированное производство» и называемый IDEF0. ISO 10303 организован в серии томов, каждый из которых публикуется отдельно. Тома этого международного стандарта распределены по следующим сериям: методы описания, интегрированные ресурсы, протоколы приложений, наборы абстрактных тестов, формы реализации и тестирование соответствия. Утверждать, что ISO 10303 является стандартом обмена данными о продукте, можно лишь при Расширенной трактовке STEP (ISO 10303) как стандарта, включающего в себя стандарты P_LIB и MANDATE. С технологической точки зрения это так и есть, поскольку P_LIB и MANDATE строятся на базе стандарта STEP, заимствуя из него методы описания (язык EXPRESS), формы реализации (обменный файл и интерфейс доступа к данным) и, при необходимости, интегрированные ресурсы (информационные структуры). Структура представления знаний моделируется при объектно-ориентированном подходе в виде иерархии классов с механизмом наследования общих свойств. Реализация такого подхода возможна в двух вариантах: • некоторый набор знаний сразу доводится до уровня машинной программы; • проводится раздельное моделирование иерархии понятий и функциональных связей, из описания класса исключаются методы, описание становится декларативным и уже не связано с использующей его программой. Во втором варианте проектирование программного продукта включает три вида деятельности: информационное моделирование, функциональное моделирование и программную реализацию. Стандарт STEP (в расширенной трактовке) обеспечивает интеграцию понятий в предметной области «промышленное производство продукции», представляет единую информационную модель этих понятий в виде, формализованном на уровне спецификаций языка Express. Функциональное моделирование отвечает за второй элемент представления знаний — функциональные связи между понятиями. Интеграция знаний в этой области пока осуществляется без привлечения ЭВМ (в основном, это интеграция логистических проработок под эгидой SOLE), хотя предпринимаются попытки как-то регламентировать представление знаний, в частности, средствами IDEF0. В стандарте STEP средства IDEF0 используются для иллюстративного представления сферы использования приложения — программной реализации стандартного протокола приложения (АР), содержащего специализированную информационную модель. Наконец, стандарт STEP касается и третьего компонента проектирования — программной реализации стандартного АР. Для каждого стандартного протокола его разработчиками составляется набор абстрактных тестов, по которому проверяется реализация протокола на соответствие требованиям АР. Следует отметить, что структура функциональной модели приложения (значит, и представление в ЭВМ функциональных связей между понятиями) не определяется стандартом STEP, а лишь ограничивается снизу требованием, чтобы ЭВМ «владела» понятиями информационной модели по крайней мере на уровне минимальных требований, заданных набором абстрактных тестов. Проектирование комплексной по предметной направленности, интегрированной и, обычно, большой по размеру БД стало сложной задачей. Наличие целостной методологии проектирования позволило позаботиться о системах автоматизации проектирования БД. Этому способствовало наличие технологического опыта в организации и компьютерной поддержке систем разработки программного обеспечения и, с другой стороны, использование активных интегрированных словарей-справочников данных (DD/D, Data Dictionary/Directory). Так возникли системы CASE (Computer Aided System Engineering) — системы для структурного проектирования БД и связанных с ними ИС, ориентированные на модели данных, реализованные в различных СУБД. Наибольшую популярность получили CASE-системы для реляционных СУБД с SQL-моделями данных, a DD/D переименовался в CASE-депозитарий проектируемой ИС. 1.4. Архитектура клиент - сервер Архитектура современных корпоративных ИС базируется на принципах клиент - серверного взаимодействия программных компонентов информационной системы. Под сервером обычно понимают процесс, который обслуживает информационную потребность клиента. В различных архитектурах в качестве процесса может быть поиск или обновление в базе данных, и тогда сервер называется сервером базы данных, или процесс может выполнять некоторая процедура обработки данных, и тогда сервер называется сервером приложения. Клиентом является приложение, посылающее запрос на обслуживание сервером. Задачей клиента являются инициирование связи с сервером, определение вида запроса на обслуживание, получение от сервера результата обслуживания, подтверждение окончания обслуживания. Клиент - серверная архитектура реализует многопользовательский режим работы и является распределенной, когда клиенты и серверы располагаются на разных узлах локальной или глобальной вычислительной сети. В общем случае схема клиент-серверной архитектуры включает три уровня представления: уровень представления (презентации) данных пользователем; уровень обработки данных приложением и уровень взаимодействия с базой данных. По этой схеме возможны два варианта работы пользователя (клиента): • в первом варианте клиент вводит данные, которые после контроля и преобразования некоторым приложением попадают в базу данных; • во втором варианте клиент запрашивает обработку данных приложением, которое обращается за необходимыми данными к базе данных. Получив необходимые данные, сервер их обрабатывает, а результаты или помещает в базу данных, или выдает клиенту в удобном для него виде, например в виде текстового документа, электронной таблицы, графика, или делает то и другое вместе. Клиент-серверная архитектура в вычислительной сети может быть реализована по-разному. Выбор конкретной схемы определяется различными вариантами территориального распределении удаленных подразделений предприятия, требованиями эксплуатационной надежности, быстродействием, простотой обслуживания. Рассмотрим различные схемы клиент - серверной архитектуры. Файл - серверная архитектура представляет наиболее простой случай распределенной обработки данных, согласно которой на сервере располагаются только файлы данных, а на клиентской части находятся приложения пользователей вместе с СУБД. Файл-сервер в среде сетевой операционной системы организует доступ к файлам, полностью эквивалентным файлам операционной системы и расположенным во внешней памяти файл - сервера. При данном подходе программы СУБД располагаются в оперативной памяти рабочих станций локальной сети, а файлы базы данных - на магнитных дисках файл-сервера. Специальный интерфейсный модуль распознает, где находятся файлы, к которым осуществляется обращение. В связи с этим данная СУБД может работать как с локальными базами данных, так и с центральной базой данных. Синхронизация совместного использования базы данных файл-сервера возлагается на систему управления базами данных, которая должна обеспечивать блокирование записей на время их корректировки, чтобы сделать их недоступными с других рабочих станций. Использование файл-серверов предполагает, что вся обработка данных выполняется на рабочей станции, а файл-сервер лишь выполняет функции накопителя данных и средств доступа. Двухуровневая клиент-серверная архитектура основана на использовании только сервера базы - данных (DB-сервера), когда клиентская часть содержит уровень представления данных, а на сервере находится база данных вместе с СУБД и прикладными программами. DB-сервер отличается от файл-сервера тем, что в его оперативной памяти, помимо сетевой операционной системы, функционирует централизованная СУБД, которая обеспечивает совместное использование рабочими станциями базы данных, размещенной во внешней памяти этого DB-сервера. DB-сервер дает возможность отказаться от пересылки по сети файлов данных целиком и передавать только ту выборку из базы данных, которая удовлетворяет запросу пользователя. При этом возможно разделение пользовательского приложения на две части: одна часть выполняется на сервере и связана с выборкой и агрегированием данных из базы данных, а вторая часть по представлению данных для анализа и принятия решения выполняется на клиентской машине. Таким образом, увеличивается общая производительность информационной системы в результате объединения вычислительных ресурсов сервера и клиентской рабочей станции. Обращение к базе данных осуществляется на языке SQL, который фактически стал стандартом для реляционных баз данных. Отсюда сервер баз данных часто называют SQL-сервером, который поддерживается всеми реляционными СУБД: Oracle, Informix, MS SQL, ADABAS D, InterBase, SyBase и др. Клиентское приложение может быть реализовано на языке настольных СУБД (MS Access, FoxPro, Paradox, Clipper и др.). При этом взаимодействие клиентского приложения с SQL-сервером осуществляется через ODBC-драйвер (Open Data Base Connectivity), который обеспечивает возможность пересылки и преобразования данных из глобальной базы данных в структуру базы данных клиентского приложения. Применение этой технологии позволило разработчикам не заботиться о специфике работы с той или иной СУБД и делать свои системы переносимыми между базами данных. За время своего существования ODBC стал стандартом де-факто на алгоритм доступа к разнородным базам данных, и на сегодняшний день насчитывается более 160 прикладных систем, которые работают с источниками информации через драйверы ODBC. Трехуровневая клиент-серверная архитектура позволяет помещать прикладные программы на отдельные серверы приложений, с которыми через API-интерфейс (Application Program Interface) устанавливается связь клиентских рабочих станций. Работа клиентской части приложения сводится к вызову необходимых функций сервера приложения, которые называются «сервисами». Прикладные программы в свою очередь обращаются к серверу базы данных с помощью SQL запросов. Такая организация позволяет еще более повысить производительность и эффективность КИС за счет: •многократности повторного использования общих функций обработки данных в множестве клиентских приложений при существенной экономии системных ресурсов; •параллельности в работе сервера приложений и сервера базы данных, причем сервер приложений может быть менее мощным по сравнению с сервером базы данных; •оптимизации доступа к базе данных через сервер приложений из клиентских мест путем диспетчеризации выполнения запросов в вычислительной сети; •повышения скорости и надежности обработки данных в результате дублирования программного обеспечения на нескольких серверах приложений, которые могут заменять друг друга в сети в случае перегрузки или выхода из строя одного из них; •переноса функций администрирования системы по проверке полномочий доступа пользователей с сервера базы данных на сервер приложений. Многоуровневая архитектура «Клиент-сервер» создается для территориально-распределенных предприятий. Для нее в общем случае характерны отношения «многие ко многим» между клиентскими рабочими станциями и серверами приложений, между серверами приложений и серверами баз данных. Такая организация позволяет более рационально организовать информационные потоки между структурными подразделениями в процессе выполнения общих деловых процессов. Интегрированная база данных находится на отдельном сервере, на котором обеспечиваются централизованное ведение и администрирование общих данных для всех приложений. Выделение нескольких серверов баз данных особенно актуально для предприятий с филиальной структурой, когда в центральном офисе используется общая база данных, содержащая общую нормативно - справочную, планово-бюджетную информацию и консолидированную отчетность, а в территориально-удаленных филиалах поддерживается оперативная информация о деловых процессах. При обработке данных в филиалах для контроля используется плановая и нормативно-справочная информация из центральной базы данных, а в центральном офисе получение консолидированной отчетности сопряжено с обработкой оперативной информации филиалов. Для сокращения объема передачи данных по каналам связи в распределенной информационной системе предлагается репликация данных, то есть тиражирование данных на взаимодействующих серверах баз данных с автоматическим поддержанием соответствия копий данных. При этом возможны следующие режимы репликации: • синхронный режим, когда тиражируемые данные обновляются по мере возникновения необходимости одновременно на серверах баз данных во всех копиях. Требуемое быстродействие каналов для синхронного режима - единицы Мбит в секунду; • асинхронный режим, когда тиражирование данных выполняется в строго определенные моменты времени, например каждый час работы информационной системы. Требуемое быстродействие каналов для асинхронного режима - единицы Кбит в секунду. Асинхронный режим может вызывать откладывание выполнения транзакций до момента обновления данных. Направление тиражирования между серверами баз данных может быть: • равноправным, т.е. в обоих направлениях; • сверху-вниз типа «ведущий/ведомый», когда на серверах филиалов содержатся только некоторые подмножества данных центральной базы данных; • снизу-вверх по консолидирующей схеме, когда при обновлении данных в филиалах в определенные моменты времени обновляется центральная база данных. Контрольные вопросы: 1. Каковы основные принципы функционирования систем? 2. Как происходит процесс управления системой? 3. Перечислите основные элементы ИС и их назначение. 4. Перечислите виды обеспечивающих подсистем. 5. Назовите признаки классификации ИС. 6. Приведите примеры технологий описания предметной области. 7. Дайте понятие CALS- технологии. 8. Охарактеризуйте стандарт STEP. 9. Что понимается под клиент-серверной архитектурой? 10. Охарактеризуйте уровни представления клиент-серверной архитектуры? 11. Каковы варианты клиент-серверной архитектуры? 12. Назовите преимущества клиент-серверной архитектуры 13. Что такое репликация данных и каковы режимы ее осуществления? 2. Документальные информационные системы 2.1. Основные понятия и классификация документальных ИС. В развитии программного обеспечения СУБД в 70-е – 80-е годы превалировало направление, связанное с фактографическими информационными системами, т.е. с системами, ориентированными на работу со структурированными данными. Были разработаны основы и модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы специальные языки запросов к базам данных и решен целый ряд других задач по эффективному управлению большими объемами структурированной информации. В результате основу информационного обеспечения деятельности предприятий и организаций к началу 90-х годов составили фактографические информационные системы, вобравшие в себя в совокупности колоссальный объем структурированных данных. Потребности в системах, ориентированных на накопление и эффективную обработку неструктурированной или слабоструктурированной информации привели к возникновению еще в 70-х годах отдельной ветви программного обеспечения систем управления базами данных, на основе которых создаются документальные информационно-поисковые системы. Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты и т.п. которых адекватны его информационным потребностям. Поэтому можно дать следующее определение документальной ИС - единое хранилище документов с инструментарием поиска и отбора необходимых документов. Поисковый характер документальных информационных систем исторически определил еще одно их название — информационно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС. Соответствие найденных документов информационным потребностям пользователя называется пертинентностъю. В силу теоретических и практических сложностей с формализацией смыслового содержания документов пертинентность относится скорее к качественным понятиям, хотя, как будет рассмотрено ниже, может выражаться определенными количественными показателями. В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС можно разделить на две группы: • системы на основе индексирования; • семантически-навигационные системы. Семантика (от греч. «semantikos» - обозначающий) — смысловая сторона языка, отдельных слов и частей слова, а также раздел языкознания, изучающий значения слов. В семантически-навигационных системах документы, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС. В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности средствами и языком поискового пространства, формируя поисковый образ запроса (ПОЗ) к базе документов. Система на основе определенных критериев и способов ищет документы, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя, и выдает соответствующие документы. Соответствие найденных документов запросу пользователя называется релевантностью. Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования иллюстрируется на Рис.2.1. Рис.2.2. Общий принцип функционирования документальных ИПС на основе индексирования 2.2. Информационно-поисковый язык Поиск информации предполагает сравнение смыслового содержания запроса со смысловым содержанием документов. Такая операция возможна только в том случае, когда существует некоторый язык представления информации, позволяющий однозначно описывать смысловое содержание документов и запросов. Естественный язык для этой цели не подходит в силу своей многозначности и высокой сложности. Таким образом, поисковое пространство, отображающее поисковые образы документов и реализующее механизмы информационного поиска документов так же, как и в СУБД фактографических систем, строится на основе языков документальных баз данных, называемых информационно-поисковыми языками (ИПЯ). Информационно-поисковый язык представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и запросов по поиску необходимых документов. По аналогии с языками баз данных фактографических систем ИПЯ можно разделить на структурную и манипуляционную составляющие. Основными элементами ИПЯ являются: алфавит, лексика и грамматика. Алфавит ИПЯ - система знаков, используемых для записи слов и выражений ИПЯ. Лексика, или словарный состав ИПЯ, - совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. Грамматика ИПЯ - совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Морфология - совокупность средств и способов построения и изменения слов. Синтаксис - совокупность средств и способов соединения слов в выражения и фразы. Можно указать следующие требования, которым должен удовлетворять ИПЯ: • располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса; • не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование; • отображать только объективные характеристики предметов и отношений между ними; • быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП). Парадигматические отношения - это отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями, обозначенными данными словами. Наиболее важны следующие парадигматические отношения: • "вид-род", например, "шкаф-мебель". В данном случае понятие "шкаф" является видовым по отношению к понятию " мебель" - понятие "мебель" является родовым по отношению к понятию "шкаф". Родовое понятие всегда включает в себя видовое; • "часть-целое", например "лезвие-нож". Лезвие является частью ножа; • "причина-следствие", например "лампа-свет"; • "функциональное сходство", например "лопата-экскаватор". Естественный язык (ЕЯ) обладает высокой многозначностью. Это создает богатство его форм и содержания. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов ЕЯ, используемых в ИПЯ. Омонимия — это совпадение слов по написанию или звучанию, и несовпадение по смыслу. Полисемия слова состоит в том, что одно и тот же слово выражает пучок родственных понятий. Например, знак "соль" обозначает вещество, а также понятие смысла. Оба значения близки по смыслу. Синонимия — это совпадение слов по значению, и несовпадение по написанию. Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов. Синтагматические отношения - отношения слов при соединении их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и предложения. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов. Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет семантическую силу ИПЯ. Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий. По способу организации понятий различают предкоординируемые (классификационные) ИПЯ и посткоординируемые (дескрипторные) ИПЯ. Предкоординация - предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка. Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т. е. классификация документа. Посткоординируемые (дескрипторные языки) основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ - ключевых слов и дескрипторов. Координатное индексирование - индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов. Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией. Назывные слова - слова, обозначающие вещи, явления, процессы, имена собственные (т. е. в качестве ключевого слова не может выступать предлог, союз и др.). К классификационным языкам относят: • информационно-поисковый язык иерархического типа; • информационно-поисковый язык фасетного типа; • алфавитно-предметную классификацию. 2.3. Эффективность функционирования документальных ИПС. Рассмотрим основные показатели эффективности функционирования документальных ИПС. Такими показателями являются полнота и точность информационного поиска. Полнота информационного поиска R определяется отношением числа найденных пертинентных документов А к общему числу пертинентных документов С, имеющихся в системе или в исследуемой совокупности документов: Точность информационного поиска Р определяется отношением числа найденных пертинентных документов А к общему числу документов L, выданных на запрос пользователя: Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума К, соответственно, определяется отношением числа нерелевантных документов (L-A), выданных в ответе пользователю к общему числу документов L, выданных на запрос пользователя: В идеале полнота информационного поиска и точность информационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90%. Пертинентность - соответствие полученной информации информационной потребности пользователя Контрольные вопросы: 1. Приведите основные понятия документальных ИС. 2. Назовите признаки классификации ИС. 3. Поясните принцип функционирования документальных ИПС на основе индексирования. 4. Дайте понятие ИПЯ и перечислите его элементы. 5. Перечислите принцы классификации ИПЯ. 6. Назовите основные показатели эффективности функционирования документальных ИПС. 3. Гипертекст. 3.1. Основные понятия и определения. Рост количества полнотекстовых документов, представленных в электронном виде, требует развития соответствующих методов навигации в информационных фондах. На сегодняшний день традиционной формой представления электронной формы текстовой информации следует считать гипертекст, основные достоинства которого — интерактивность работы с материалом и многомерность представления. В 1945 г. Ваневар Буш - научный советник президента США Г. Трумэна, проанализировал способы представления информации в виде отчетов, докладов, проектов, графиков, планов и, поняв неэффективность такого представления, предложил способ размещения информации по принципу ассоциативного мышления. На основе этого принципа была разработана модель гипотетической машины "МЕМЕКС". Через 20 лет Теодор Нельсон реализовал этот принцип на ЭВМ и назвал его гипертекстом. Гипертекст обладает нелинейной сетевой формой организации материала, разделенного на фрагменты, для каждого из которых указан переход к другим фрагментам по определенным типам связей. При установлении связей можно опираться на разные основания (ключи), но в любом случае речь идет о смысловой, семантической близости связываемых фрагментов. Следуя указанным связям, можно читать или осваивать материал в любом порядке. Текст теряет свою замкнутость, становится принципиально открытым, в него можно вставлять новые фрагменты, указывая для них связи с имеющимися фрагментами. Структура текста не нарушается, и вообще у гипертекста нет априорно заданной структуры. Таким образом, гипертекст - это технология представления неструктурного свободно наращиваемого знания. Под гипертекстом понимают систему информационных объектов, объединенных между собой направленными семантическими связями, образующими сеть. Каждый объект связывается с информационной панелью экрана, на которой пользователь может ассоциативно выбирать одну из связей. Гипертекстовая технология предполагает перемещение от одних объектов к другим с учетом их смысловой, семантической связанности. Обработке информации по правилам формального вывода в гипертекстовой технологии соответствует запоминание пути перемещения по гипертекстовой сети. Пользователь сам определяет подход к изучению материала, учитывая свои индивидуальные способности, знания, уровень квалификации и подготовки. Гипертекст содержит не только информацию, но и аппарат ее эффективного поиска. Структурно гипертекст состоит из информационного материала, тезауруса гипертекста, списка главных тем и алфавитного словаря. Информационный материал подразделяется на информационные статьи, состоящие из заголовка статьи и текста. Заголовок содержит тему или наименование описываемого объекта. Информационная статья содержит традиционные определения и понятия, должна занимать одну панель и быть легко обозримой, чтобы пользователь мог понять, стоит ли ее внимательно читать или перейти к другим, близким по смыслу статьям. Текст, включаемый в информационную статью, может сопровождаться пояснениями, примерами, графиками, документами и видеоизображениями объектов реального мира. Ключевые слова для связи с другими информационными статьями должны визуально различаться. Тезаурус гипертекста - это автоматизированный словарь, отображающий семантические отношения между лексическими единицами информационно-поискового языка и предназначенный для поиска слов по их смысловому содержанию. Термин "тезаурус" был введен в XIII в. флорентинцем Брунетто Лотики для названия энциклопедии. С греческого языка этот термин переводится как сокровище, запас, богатство. Тезаурус гипертекста состоит из тезаурусных статей, каждая из которых имеет заголовок и список заголовков родственных тезаурусных статей, где указаны тип родства и заголовки тезаурусных статей. Заголовок тезаурусной статьи совпадает с заголовком информационной статьи и является наименованием объекта, описание которого содержится в информационной статье. Формирование тезаурусной статьи гипертекста означает индексирование текста. Список главных тем содержит заголовки всех справочных статей, для которых нет ссылок с отношениями "род - вид", "часть - целое". Желательно, чтобы список занимал не более одной панели экрана. Алфавитный словарь содержит перечень наименований всех информационных статей в алфавитном порядке. Изучая информацию, представленную в виде гипертекста, пользователь может знакомиться с последовательностями блоков данных. Процесс выбора последовательностей этих блоков, т. е. методику вождения пользователя от одного объекта к другому, называют навигацией. При этом выделяют терминологическую навигацию - последовательное движение по терминам, друг из друга вытекающим, и тематическую навигацию, с помощью которой пользователь должен получить для чтения все статьи, необходимые для изучения нужной ему темы. Архитектура гипертекстовой системы (рис. 3.1) подобна архитектуре системы обработки данных. В ней различаются гипертекстовая база данных (гипербаза данных, гипертекст) и система управления гипертекстом. Система управления гипертекстом включает два инструментальных комплекса. Один используется в качестве инструмента интерактивного управления процессами броузинга, а второй — в процессах создания и ведения гипертекста. Навигация — центральное понятие концепции гипертекста означает управление процессом перемещения в гиперпространстве из произвольного узла отправления в узел прибытия. Специфической составляющей навигации является броузинг, обозначающий: • процесс беглого просматривания гипертекстовых документов или гипертекстовой базы данных с целью поиска определенных сведений или просто чего-нибудь любопытного; в общем смысле — действий, целью которых является изучение информации, но не ее изменение; • способность человека воспринимать информацию в процессе такого беглого просматривания. Замечено, что броузинг стимулирует творческое мышление и что в процессе броузинга может возникать эффект «творческого озарения» (для его обозначения в англоязычной литературе используется понятие serendipity), он может быть настолько сильным, что заставит радикально изменить цель броузинга. Броузинг осуществляется в процессе навигации по предустановленным связям. Богатство установленной системы связей зависит от знаний, которыми обладает автор (разработчик) гипертекста, и от его способности создать гипертекст, ориентированный на различные категории пользователей и на различные задачи, ради которых создается гипертекстовая информационная среда. Рис. 3.1. Архитектура гипертекстовой системы 3.2. Технологии разметки документов. Идея использования стандартных форматов для подготовки структурированных мобильных документов, которые могут быть перенесены с одной компьютерной платформы на другую, зародилась в 60-е годы. Пионерами в этой области были организация Graphic Communications Association (GCA), разработавшая систему GenCode для обмена документами между различными предприятиями, и корпорация IBM, разработавшая язык обобщенной разметки GML для обмена документами внутри корпорации. В результате совместных усилий создателей GenCode и GML был разработан язык SGML (Structured Generalized Markup Language), принятый в качестве стандарта ISO в 1986 г. Основная идея языка SGML проста. В соответствии с ней текст документов дополняется информацией (метаданными), задающей макетную и логическую структуры документа. Выделение элементов логической и макетной структур документа осуществляется с использованием меток, часто называемых тэгами, которые отмечают начало и конец выделяемого фрагмента и указывают, каким образом следует интерпретировать данный фрагмент документа (глава, раздел, рисунок и т.д.). Выделение элемента может не сопровождаться указанием способа его форматирования. Такая разметка документа называется описательной, или дескриптивной. Описательная разметка повышает мобильность документа, так как не содержит требований к представлению его фрагментов. Документ, содержащий описательную разметку, может быть перенесен на другую платформу, в среду другой СПТД, в которой может быть получено надлежащее представление документа. Развитие идей описательной разметки привело к определению разметки как формального языка описания документов (ЯОД). В результате язык обобщенной разметки SGML обладает такими важными функциями, как: 1) расширяемость. Автор документа может самостоятельно определять имена тэгов и атрибутов, задавая их синтаксис и семантику, путем создания определения типа документа (DTD), включающего совокупность тэгов разметки и правила их интерпретации; 2) структурированность. Документ может служить контейнером для других документов при неограниченной степени вложенности, что позволяет создавать сложные документы из более простых документов; 3) проверка корректности. Формальное описание грамматики языка позволяет автоматизировать проверку корректности SGML-документа в обрабатывающей СПТД. Язык SGML содержит и позволяет создавать идентификаторы описывающие различные элементы документов и их атрибуты, выполнять обобщенную разметку документов сложной логической и макетной структуры. Язык SGML обеспечивает следующие основные возможности представления и обработки документов: • поддерживает символьные данные, представляющие естественные языки, научную запись или форматированный текст; • поддерживает разделение данных на записи; • поддерживает двоичные данные, которые могут интерпретироваться как иллюстративный материал, звуковые сигналы или другие множества числовых или логических значений; • поддерживает версии документа, тексты которых незначительно отличаются друг от друга, без дублирования текста общих частей; • поддерживает объекты, например части документа, содержащиеся в отдельных файлах. Язык SGML широко распространен на практике, однако основная проблема его применения связана со сложностью этого языка. Так, полная спецификация языка SGML содержит около 500 страниц. По этой причине на основе SGML разработаны специализированные языки разметки документов. Язык гипертекстовой разметки HTML представляет собой упрощенный вариант языка обобщенной разметки с ограниченными возможностями, созданный на основе языка SGML. В частности, язык HTML имеет строго ограниченный набор тэгов, который не может быть расширен пользователем. Кроме того, HTML не допускает вложенной структуры документов. Гипертекст представляет собой систему электронных документов с перекрестными ссылками как внутри документов, так и между различными документами. Язык HTML служит для структурированной разметки документов, он содержит тэги, которыми могут быть помечены необходимые элементы документа для доступа к ним из других частей документа или других документов. Основная область применения языка HTML — это публикация Документов в сетях Internet/Intranet и поиск информации с использованием гипертекстовых ссылок. Возможности языка HTML обеспечивают вывод информации на экран в удобном для пользователя виде. XML — расширяемый язык разметки — быстро становится стандартом для идентификации и описания данных в рамках Web-технологии. Так же, как и HTML, XML является подмножеством давно существующего, но не получившего пока широкого распространения языка SGML. Принципиальное отличие XML от HTML состоит в том, что HTML предназначен для описания внешнего представления документа Web-навигатором, в то время как задача XML — описание внутренней структуры документа. Если тэги HTML — это по сути инструкции для визуализации содержания документа Web-навигатором, то тэги XML определяют смысл того, что за ними следует. Так, в HTML запись Oracle означает, что при визуализации слова Oracle оно будет выделено жирным шрифтом. Напротив, в XML запись Oracle означает, что слово Oracle будет интерпретировано как имя компании (разумеется, при условии, что тэг изначально был предназначен конкретно для задания имени компании и ни для чего иного). Ключевым преимуществом XML по сравнению с HTML является то, что в XML описание внешнего представления документа отделено от его структуры и содержания. Для задания внешнего представления документов используются стили (style sheet). XML-документ может быть представлен в различных вариантах, которые определяются примененными к нему стилями. Для одного XML-документа может быть подготовлено сколь угодно много стилей. Другое важное преимущество XML по отношению к HTML — это то, что XML разрешает пользователю задавать собственную спецификацию тегов, т.е. пользователь может создавать свои собственные тэги для того, чтобы адекватно представлять смысл и структуру данных, с которыми он работает. Создаваемые пользователем тэги могут быть определены двумя путями: 1) непосредственным заданием тэга в теле самого документа; 2) они могут быть формально определены в специальной структуре, которая называется DTD (Document Type Definition). В настоящее время XML становится все более популярным как средство настройки представления данных для различных навигаторов и специфических устройств, а также в широком смысле — для прикладных программ и пользователей. Используя XML-документы совместно со стилями в рамках архитектуры клиент/сервер (т.е. как на клиенте, так и на серверах, будь то серверы баз данных или серверы приложений), мы можем организовывать, трансформировать и представлять данные, сформированные для потребностей конкретного пользователя для широкого класса различных устройств, включая графические и неграфические навигаторы, персональные цифровые помощники (PDA), такие, как Palm Pilot, мобильные сотовые телефоны, пейджеры и т.д. Уже сейчас XML начинает использоваться для замены устаревшей технологии EDI (Electronic Data Interchange), что позволяет включать в сферу e-commerce множество средних и мелких предприятий, для которых технология EDI была недоступна из-за своей громоздкости и дороговизны. Все более активно XML начинает использоваться и в ERP приложениях. Например, в Oracle Applications Release 11/ предполагается использовать основанные на XML средства интеграции как внутри Oracle Applications, так и с ERP-системами других поставщиков. Принятие языка XML в качестве стандарта, которому все готовы следовать, связано в значительной степени с его простотой. Принятая в XML объектно-ориентированная модель (Document Object Model, DOM) позволяет легко преобразовывать XML-документы для хранения в объектно-реляционных и реляционных СУБД, и наоборот. Например, эти функции выполняет средство Oracle — XML SQL Utility for Java. Однако даже для такого относительно простого объекта стандартизации, как иерархический документ, требуется более Широкая унификация стандартов — для более эффективного использования в Сети. 3.3. Технологии документирования информационных ресурсов - ODA. Разнообразие форматов представления слабоструктурированных учрежденческих документов и необходимость обмена документированной информацией как внутри, так и между различными АСУ побудили международные организации по стандартизации предпринять усилия к разработке общей модели документа, которая могла бы учитывать и поддерживать следующие базовые процессы обработки документов: • процесс редактирования документов, состоящий в преобразовании структуры и содержания документа; • процесс макетирования, т.е. отображение содержания и структуры документа в виде, предназначенном для последующего воспроизведения; • процесс воспроизведения документа на бумаге или экране дисплея для его восприятия человеком; • процесс обмена документами с использованием каналов связи. В результате была разработана общая модель документа, которая стала основой нескольких взаимоувязанных международных стандартов и получила наименование office document architecture (ODA) — архитектуры учрежденческих документов (АУД). Документы, представленные в соответствии с требованиями указанных стандартов, доступны для восприятия их человеком и пригодны для передачи по каналам связи и автоматизированной обработки. Общая модель документа может быть представлена в виде иерархической структуры. В АУД документ представляется в терминах двух структур: логической структуры и макетной структуры. Логическая структура документа определяет смысловые составные компоненты и их соотношения в понятиях, свойственных естественному взгляду людей на документы как на смысловые структуры. Например, к основным смысловым компонентам относятся: • авторские данные; • аннотация; • оглавление; • разделы; • подразделы; • пункты; • рисунки; • сноски; • приложения. Компоненты логической структуры могут быть как уникальными, так и повторяющимися (заголовок раздела, пункт, рисунок, подрисуночная подпись). Макетная структура документа содержит описание содержания документа в терминах физических единиц: страниц, полос, колонок, рамок для рисунков и т.п. Каждый элемент макетной структуры определяет физическую область для размещения соответствующего реквизита документа и правила его отображения в этой области. АУД поддерживает классы документов, имеющие общий набор характеристик (отчеты, счета-фактуры, служебные письма и т.д.), и С0держит правила их определения. Общие логические и макетные свойства документов, принадлежащих одному классу, определяются в терминах обобщенной логической и обобщенной макетной структур. Эти классы могут применяться при формализации методов генерации документов, формально-логическом контроле и структуризации документов. В АУД документ состоит из профиля документа и тела документа. Профиль документа характеризует документ в целом и содержит данные о структуре документа и типах его содержания. Профиль может быть отделен от документа и обработан независимо от него, например, с целью принятия решения о дальнейшей обработке документа. Тело документа состоит из фактического содержания документа и пяти компонентов, характеризующих модель документа. Этими компонентами являются: • обобщенная логическая структура. Характеризует общие аспекты определенного класса документов (например, класс «служебные письма», «докладные записки», «отчеты»); • обобщенная макетная структура. Определяет общие аспекты класса документов, связанные с его макетным представлением (например, представление адресной части в письме); • специфическая (конкретная) логическая структура. Определяет отношения (связи) между содержанием документа и логическими объектами (например, такими, как подписи, пункты, примечания и т.п.). Определение прикладных логических структур возлагается на пользователя, эти объекты не стандартизуются в АУД. Получатель может модифицировать содержание и структуру документа, т.е. представить документ в своей структуре; • специфическая макетная структура. Содержание документа организуется в соответствии с макетными объектами (атрибутами), такими, как страницы, колонки, блоки текста и др.Если эта структура может быть передана для обмена в линию связи, то получатель может отображать документ, но не может обработать его на логическом уровне; • стиль документа. Определяет набор атрибутов и состоит из двух аспектов: стиль текста и стиль представления. Макет определяет граничные условия (например, условие, что иллюстрация и соответствующая текстовая ссылка должны размещаться на одной странице). В стиле представления определяются все атрибуты, специфичные для представления конкретного содержания. Например, типы шрифтов для заголовков, примечаний, формул, текстовых пунктов. Изменяя документа, его можно представить в различных макетах и этом сохранить структуру документа. Возможности представления документов в АУД достаточно широкие, но они не охватывают всех требований к полиграфическим изданиям и по этой причине не предназначены для автоматизации издательской деятельности. Контрольные вопросы: 1. Приведите определение понятия гипертекст и его основных элементов. 2. Охарактеризуйте архитектуру гипертекстовой системы. 3. Поясните смысл технологии разметки документов. 4. Перечислите языки разметки документов и приведите их возможности. 5. Назовите базовые процессы обработки документов 6. Что такое архитектура учрежденческих документов (АУД). 7. Приведите структуру АУД. 4. Фактографические информационные системы 4.1. Основные понятия и определения. Проблемы упорядочения и структуризации данных для любых отраслей экономики, где добываемые знания отличаются высоким уровнем неопределенности, неполнотой и фрагментарностью, а интерпретация - большой долей субъективности. Компьютерная технология предлагает разработчикам и пользователям разнообразные средства создания, ведения и использования компьютерных баз данных и знаний, позволяющие каждому создавать их на свой вкус. Практически каждая база данных и знаний строится на собственной структурно-классификационной основе, так что и здесь нет единообразия, ожидаемости и интерпретируемости. Важным шагом, который стал возможным в связи с развитием вычислительной техники, ростом объемов памяти и быстродействия, явилось возникновение фактографических информационных систем. Эти системы содержали уже формализованную информацию в виде значений свойств различных объектов (лиц, организаций, событий и т. д.). Пользователь таких систем мог получить ответ на свой вопрос, не обращаясь к первоисточникам. Информация в фактографических системах организовывалась в виде баз данных. В этих базах могли храниться также библиографические описания документов и рефератов. Фактографические информационные системы оперируют фактическими сведениями, представленными в виде специальным образом организованных совокупностей формализованных записей данных. Центральное функциональное звено фактографической информационной системы – СУБД. Фактографические информационные системы используются не только для реализации справочных функций, но и для решения задач обработки данных. Под обработкой данных понимается специальный класс решаемых на ЭВМ задач, связанных с вводом, хранением, сортировкой, отбором и группировкой записей данных однородной структуры. Эти задачи предусматривают представление пользователям итоговых результатов обработки в виде отчетов табличной формы. В настоящее время в парадигме создания информационных систем наметился очевидный переход к реляционным моделям данных. Эти модели впервые предложены Е.Коддом в 1970 году в качестве наиболее независимых от аппаратных средств компьютера. Широкое внедрение персональных компьютеров, мощные ресурсы которых поступают в полное распоряжение одного пользователя в отличие от больших ЭВМ, открыли дорогу реляционным СУБД. За счет некоторой избыточности сетевая и иерархическая модель могут быть сведены к табличной (реляционной) модели данных. Формируемая исключительно в форме множества таблиц, реляционная модель обеспечивает единообразное представление данных. Фактографические информационные системы, созданные средствами технологии баз данных, принято называть банками данных. Их центральным функциональным звеном является система управления базами данных, настроенная на работу с заданными конкретными базами данных. Базы данных воплощают в себе структуру соответствующей предметной области и обеспечивают хранение, поиск и обработку, содержащейся в базе данных информации. Среди баз данных выделяются базы общего назначения и специализированные базы. СУБД общего назначения не ориентированы на какую-либо конкретную предметную область или на информационные потребности конкурентной группы пользователей. Каждая система такого рода реализуется как программный продукт, способный функционировать на некоторой модели ЭВМ в определенной операционной обстановке. Специализированные СУБД - предназначены для конкретных областей применения. Их разработка весьма трудоемкое дело даже в самых простых случаях. Особенностью новой методологической парадигмы является ее ориентация на структурный подход. Под структурой здесь понимается некоторое множество сущностей (объектов, признаков, качеств или свойств), рассматриваемое как единое целое. Cледует отметить, что системная классификация понятий и основанная на ней методология создания интегрированных баз данных могут быть полезными и в разных областях гуманитарного знания (истории, лингвистике, социологии, экономике и др.). Кроме того, их практическое использование будет способствовать интеграции этих наук. 4.2. Структурированные типы данных. Развитие в вычислительной технике сопровождалось эволюцией представления о роли данных. Одним из свойств компьютеров является способность хранить и обрабатывать большие объемы информации и обеспечивать легкий доступ к этой информации. Информация, подлежащая обработке, представляет некоторый абстрактный фрагмент реального мира. Данные, хранящиеся в компьютере - это абстрактное представление реальности, поскольку некоторые свойства и характеристики реальных объектов при этом игнорируются как несущественные. Например, каждый сотрудник в списке сотрудников некоторого учреждения представлен множеством данных. Это множество включает идентифицирующие данные и данные, относящиеся к профессиональной сфере деятельности. Таким образом, данные о человеке – некий снимок с человека, абстрактное представление. Решая конкретную задачу, необходимо выбрать множество данных, представляющих реальную ситуацию, затем выбирается способ представление этой информации. Представление данных выбирается исходя из средств и возможностей аппаратного и программного обеспечения информационной системы. Важную роль играют и свойства самих данных, операции, которые должны выполняться над ними. Развитие аппаратного обеспечения позволяет использовать как простейшие неструктурированные данные, так и более сложные данные, полученные из комбинации простейших, они называются структурированными, поскольку обладают известной организацией. Современные средства программирования позволяют оперировать множествами, массивами, записями, файлами (очередями). В более сложных случаях – динамические структуры данных, память для хранения которых выделяется в процессе выполнения программы. К таким данным относятся: списки, стеки, деревья, графы. Структурированные типы данных классифицируют по следующим признакам: • однородность; • упорядоченность; • вид доступа - прямой или последовательный; • вид организации - статическая или динамическая. Если все элементы, образующие структуру, однотипны, например, символы, целые числа, то структура называется однородной. Если в ней присутствуют элементы разных типов, то структура называется неоднородной. Структура является упорядоченной, если между ее элементами определен порядок следования. Примером упорядоченной структуры является числовая последовательность. Наличие индекса в записи элементов структуры указывает на ее упорядоченность. По способу доступа упорядоченные структуры разделяют на структуры прямого и последовательного доступа. При прямом доступе каждый элемент структуры доступен в любой момент независимо от других элементов. Если у структуры размер (длина, количество элементов) не может быть изменен при выполнении, а фиксируется заранее, то такая структура называется статической. Соответственно, если размер структуры определяется по ходу решения задачи и меняется при необходимости, то такую структуру называют динамической. Например, такие структуры возникают при описании закономерностей движения очередей. Самым традиционным из структурированных типов данных является массив (регулярный тип) – однородная упорядоченная статическая структура прямого доступа. Массив объединяет однородные величины одного и того же типа, называемыми компонентами. Все компоненты имеют общее имя – идентификатор и определяются (адресуются) вычисляемым индексом. Обычный прием работы с массивом – выборочное изменение его компонентов. Важной особенностью массива является его статичность, т.е. он должен быть описан в программе, т.е. определены тип и число компонентов массива. Компонентами массива могут быть не только простейшие данные, но и структурные, в том числе массивы. В этом случае мы получаем многомерный массив. Обобщением массива является комбинированный тип данных – запись. Запись – это неоднородная упорядоченная статическая структура прямого доступа, т.е. запись – набор именованных компонент – полей, объединенных одним общим именем и идентифицируемых (адресуемых) с помощью имени записи и имен полей (запись – строка таблицы). Очередь – это линейно-упорядоченный набор следующих друг за другом компонентов, доступ к которым происходит по следующим правилам: 1) новые компоненты добавляются только в хвост очереди 2) значения компонент могут извлекаться только в порядке следования от головы к хвосту очереди (первым вошел – первым вышел, FIFO –First Input First Output). Стек – это структура данных, в которой тот элемент, который последним в нее помещался, выходит первым (LIFO – Last Input First Output), второе название стека – магазин –по аналогии с магазином стрелкового оружия. Из рассмотренных структур данных можно создавать различные комбинации, которые называются суперпозициями. Например, файл записей, которая применяется при создании баз данных. 4.3. Основные модели данных. СУБД должна предоставлять доступ к данным любым пользователям, включая и тех, которые практически не имеют и (или) не хотят иметь представления о: • физическом размещении в памяти данных и их описаний; • механизмах поиска запрашиваемых данных; • проблемах, возникающих при одновременном запросе одних и тех же данных многими пользователями (прикладными программами); • способах обеспечения защиты данных от некорректных обновлений и (или) несанкционированного доступа; • поддержании баз данных в актуальном состоянии и множестве других функций СУБД. При выполнении основных из этих функций СУБД должна использовать различные описания данных. Естественно, что проект базы данных надо начинать с анализа предметной области и выявления требований к ней отдельных пользователей, для которых создается база данных. Объединяя частные представления о содержимом базы данных, полученные в результате опроса пользователей, и свои представления о данных, которые могут потребоваться в будущих приложениях, разработчик сначала создает обобщенное неформальное описание создаваемой базы данных. Это описание, выполненное с использованием естественного языка, математических формул, таблиц, графиков и других средств, понятных всем людям, работающих над проектированием базы данных, называют инфологической (или информационной, или концептуальной, или семантической) моделью данных (рис. 4.1). Рис. 4.1. Уровни моделей данных Инфологическая модель полностью независима от физических параметров среды хранения данных. В конце концов этой средой может быть память человека, а не ЭВМ. Поэтому инфологическая модель не должна изменяться до тех пор, пока какие-то изменения в реальном мире не потребуют изменения в ней некоторого определения, чтобы эта модель продолжала отражать предметную область. Остальные модели, показанные на рис. 4.1, являются компьютеро-ориентированными. С их помощью СУБД дает возможность программам и пользователям осуществлять доступ к хранимым данным лишь по их именам, не заботясь о физическом расположении этих данных. Нужные данные отыскиваются СУБД на внешних запоминающих устройствах по физической модели данных. Так как указанный доступ осуществляется с помощью конкретной СУБД, то модели должны быть описаны на языке описания данных этой СУБД. Такое описание, создаваемое по инфологической модели данных, называют даталогической моделью данных. Трехуровневая архитектура (инфологический, даталогический и физический уровни) позволяет обеспечить независимость хранимых данных от использующих их программ. Администратор базы данных (АБД) может при необходимости переписать хранимые данные на другие носители информации и (или) реорганизовать их физическую структуру, изменив лишь физическую модель данных. АБД может подключить к системе любое число новых пользователей (новых приложений), дополнив, если надо, даталогическую модель. Указанные изменения физической и даталогической моделей не будут замечены существующими пользователями системы (окажутся "прозрачными" для них), так же как не будут замечены и новые пользователи. Следовательно, независимость данных обеспечивает возможность развития системы баз данных без разрушения существующих приложений. Инфологическая модель отображает реальный мир в некоторые понятные человеку концепции, полностью независимые от параметров среды хранения данных. Существует множество подходов к построению таких моделей: графовые модели, семантические сети, модель "сущность-связь" и т.д. Наиболее популярной из них оказалась модель "сущность-связь", которая будет рассмотрена ниже. Инфологическая модель должна быть отображена в компьютеро-ориентированную даталогическую модель, "понятную" СУБД. В процессе развития теории и практического использования баз данных, а также средств вычислительной техники создавались СУБД, поддерживающие различные даталогические модели. Сначала стали использовать иерархические даталогические модели. Простота организации, наличие заранее заданных связей между сущностями, сходство с физическими моделями данных позволяли добиваться приемлемой производительности иерархических СУБД на медленных ЭВМ с весьма ограниченными объемами памяти. Но, если данные не имели древовидной структуры, то возникала масса сложностей при построении иерархической модели и желании добиться нужной производительности. Сетевые модели также создавались для мало ресурсных ЭВМ. Это достаточно сложные структуры, состоящие из "наборов" – поименованных двухуровневых деревьев. "Наборы" соединяются с помощью "записей-связок", образуя цепочки и т.д. При разработке сетевых моделей было выдумано множество "маленьких хитростей", позволяющих увеличить производительность СУБД, но существенно усложнивших последние. Прикладной программист должен знать массу терминов, изучить несколько внутренних языков СУБД, детально представлять логическую структуру базы данных для осуществления навигации среди различных экземпляров, наборов, записей и т.п. Сложность практического использования иерархических и и сетевых СУБД заставляла искать иные способы представления данных. В конце 60-х годов появились СУБД на основе инвертированных файлов, отличающиеся простотой организации и наличием весьма удобных языков манипулирования данными. Однако такие СУБД обладают рядом ограничений на количество файлов для хранения данных, количество связей между ними, длину записи и количество ее полей. 4.4. Семантические модели данных. Семантические модели данных представляют собой средства представления структуры предметной области и отвечают следующим требованиям: 1) Обеспечение интегрированного представления о предметной области. 2) Понятийный аппарат моделей должен быть понятен и специалисту предметной области, и специалисту, разрабатывающему базу данных. 3) Модель должна содержать информацию, достаточную для дальнейшего проектирования информационной системы. Семантические модели данных используют общий набор понятий и отличаются друг от друга конструкциями, применяемыми для выражения, полнотой отражения понятий в модели, удобством использования при разработке ЭИС. Примером семантической полноты является язык естественный. Элементами высказываний являются атомарные факты. Способ представления атомарного факта состоит в указании объектов, их взаимодействий и свойств, которые описывают событие, соответствующее атомарному факту, а также указание времени поступления этого события. Объекты могут быть атомарными и составными. Атомарный объект – любой объект, разложение которого на другие объекты в рамках данной предметной области не производится. Составные объекты содержат некоторые множества объектов. Атомарный факт представляется тремя компонентами: 1)множеством объектов; 2)свойствами и связями объектов; 3) временем. Объекты могут вступать в отношения двух типов: 4) Обобщение – когда один объект определяется в виде множества других объектов. Например, объект “Личность” обобщает такие объекты, как “Рабочий”, “Служащий”, “Студент”. 5) Агрегация – когда объект соотносится с именем действия, в котором он может участвовать. Например, объект “Транспорт” агрегируется с действием “Перевозка”. Семантические модели данных предполагают два уровня интерпретации: 1) Уровень объектов предметной области 2) Уровень атрибутов базы данных Существуют различные типы моделей предметной области: например, модели типа «отношение свойство» (property relation models, PR- модели) и модели типа «сущность-связь» (entity relation models, ER- модели), отражающие принципы синтаксической и семантической структуризации данных. Различие между моделями состоит в подходе к дифференциации типов по категориям. В PR- модели такая дифференциация не предусматривается: предполагается, что любой элемент реального мира может быть представлен как некий объект или атрибут объекта. В ER- модели типы обычно распределяются по категориям сущностей, связей, характеристик, причем правила порождения структур для различных категорий в общем случае не совпадают. Наиболее распространенной семантической моделью является модель “сущность – связь”(entity relation). Структура предметной области в модели “сущность-связь” изображается в форме диаграммы. Линия на диаграмме соединяет тип сущности с типом связи. Основными конструктивными элементами семантических моделей являются сущности (категории классификации данных), их свойства (атрибуты) и связи между сущностями. Сущность (Entity) – любой различимый среди других объект, информацию о котором необходимо хранить в базе данных. Необходимо различать понятие типа сущности (относящееся к набору однородных объектов) и экземпляра сущности (к конкретному объекту в наборе). Например, типом сущности может быть Город, а экземпляром – Москва, Киев и т.д. Названия типов сущностей пишутся с заглавной буквы или полностью заглавными буквами. Атрибут – именованная характеристика сущности. Его наименование пишется строчными буквами и должно быть уникальным для конкретного типа сущности, но может быть одинаковым для различного типа сущностей (например, атрибут «размер» может быть определен для многих типов сущностей: Город, Автомобиль, Сделка и т.д.). Атрибут может быть необязательным и обязательным. Ключ – минимальный набор атрибутов, по значениям которых можно однозначно найти требуемый экземпляр сущности. Минимальность означает, что исключение из набора любого атрибута не позволяет идентифицировать сущность по оставшимся. Для сущности «Расписание» ключом может быть как один атрибут «Номер рейса», так и набор атрибутов: {Пункт отправления, Время отправления, Пункт назначения} (составной ключ). Поэтому среди возможных ключей выделяется один ключ – первичный (обычно это несоставной ключ или ключ с минимальным числом атрибутов). Значения атрибутов первичного ключа не могут быть неопределёнными. Связь (Relationship) – ассоциация двух или более сущностей. Связью называют также ассоциацию между типами сущностей, хотя в данном случае точнее говорить о типе связи. Одно из основных требований к базе данных – это возможность отыскания одних сущностей по другим, для чего необходимо установить между ними определенные связи. Между двумя сущностями возможны четыре основных вида связей: • «один к одному»; • «один ко многим»; • «многие к одному»; • «многие ко многим». Между одними и теми же сущностями может существовать несколько связей, а связи могут относиться к трём и более сущностям. Метод структурного моделирования “сущность-связь” является вполне достаточным для проектирования базы данных информационной системы, хотя для моделирования остальных её составляющих (прежде всего, приложений) необходимо привлекать другие модели, которые описывают не только данные, но и функции, процессы, потоки данных и т.д. Связи между сущностями обычно реализуются через связывание их атрибутов. Для этого используется понятие внешнего ключа – набора атрибутов, значения которых совпадает со значениями атрибутов первичного ключа связанной сущности. Преобразование семантической модели данных в логическую может проводиться либо вручную (в соответствии с существующими методиками), либо автоматически – теми же CASE-средствами, с помощью которых она создавалась. Существуют и полуэкспериментальные СУБД, в которых работа с базой данных происходит непосредственно в семантической модели, – с неявным преобразованием её в реляционную модель или без такового. Наиболее близко ко второму подходу находятся современные объектно-ориентированные СУБД, модели данных которых по многим параметрам близки к семантическим моделям (и даже расширяют их в некоторых аспектах). 4.5. Иерархическая модель данных Иерархическая модель организует данные в виде древовидной структуры и является реализацией логических связей: родо-видовых отношений или отношений «целое-часть». Примером простого иерархического представления может служить административная структура высшего учебного заведения: университет – отделение - институт – кафедра - группа (студенческая). Графическим способом представления иерархической структуры является дерево. Дерево представляет собой иерархию элементов, называемых узлами. Под элементами понимается список (совокупность, набор) атрибутов, описывающих объекты. В иерархической модели имеется корневой узел, или корень дерева. Корень находится на самом верхнем уровне и не имеет узлов, стоящих выше него. У одного дерева может быть только один корень. Остальные узлы, называемые порожденными, связаны между собой следующим образом: каждый узел имеет исходный, находящийся на более высоком уровне. Так, для нашего примера корнем является узел «Университет», а для узла «Дневное отделение» узел «Университет» является исходным. Если каждый узел может быть связан только с одним исходным узлом, то на последующем уровне он может иметь один, два и большее количество узлов либо не иметь ни одного. В последнем случае узлы, не имеющие порожденных, называются листьями. В иерархии рассматривают уровни, на которых расположен тот или иной узел. Между исходным узлом и порожденными узлами существует отношение «один ко многим» («многие к одному»). В общем случае иерархическая структура должна удовлетворять следующим условиям. 1. Одно дерево может иметь только один корень. 2. Узел содержит один или несколько атрибутов, описывающих объект в данном узле. 3. Порожденные узлы могут добавляться в горизонтальном и в вертикальном направлениях. Практически некоторые СУБД накладывают ограничения на количество уровней иерархии, поэтому при отображении концептуальной модели в логическую модель данных (иерархическую) следует учитывать технические возможности используемой СУБД. 4. Доступ к порожденным узлам возможен только через исходный узел, поэтому существует только один путь доступа к каждому узлу. 5. Теоретически возможно существование неограниченного числа экземпляров узла каждого уровня. При этом каждый экземпляр исходного узла начинает логическую запись. Достоинствами рассматриваемой модели являются наличие промышленных СУБД, поддерживающих данную модель, простота понимания используемого принципа иерархии, обеспечение определенного уровня независимости данных. К основным недостаткам такого вида модели можно отнести следующие: • сложность отображения связей «многие ко многим»; • иерархия в значительной степени усложняет операции включения информации о новых объектах в базу данных и удаления устаревшей; • доступ к любому узлу возможен только через корневой узел. 4.6. Сетевая модель данных Отношения между объектами, в которых порожденный элемент имеет более одного исходного, описываются в виде сетевой структуры. Отличие сетевой структуры от иерархической заключается в том, что любой элемент в сетевой структуре может быть связан с любым другим элементом. В сетевой структуре между объектами присутствуют два вида связей: «один ко многим» и «многие к одному». Выполнения этого условия для соответствующих узлов сетевой схемы приводит к простой сетевой структуре. Сложной сетевой структурой называется схема, в которой присутствует хотя бы одна связь «многие ко многим». Разделение сетевых структур на два типа (сложные и простые) необходимо потому, что структуры, построенные с использованием связи «многие ко многим», требуют для их реализации использования более сложных методов. Некоторые системы управления базами данных могут обрабатывать простые сетевые структуры, но не могут обрабатывать сложные. База данных, описываемая сетевой моделью, состоит из нескольких областей. Каждая область состоит из записей, которые, в свою очередь состоят из полей. Объединение записей в логическую структуру возможно не только по областям, но и с помощью так называемых наборов. Термин набор является основной конструкцией языка систем баз данных КОДАСИЛ. По существу, набор - это именованное двухуровневое дерево, которое позволяет строить многоуровневые деревья и простые сетевые структуры. Используя множество таких двухуровневых связей, специалист по анализу систем может конструировать достаточно сложные структуры данных. Каждый тип набора представляет собой отношение между двумя или несколькими типами записей. Для каждого типа набора один тип записей может быть объявлен его владельцем и один или несколько других типов записей - элементами набора. Каждый набор должен содержать один экземпляр записей, имеющий тип записи-владельца, и может содержать любое количество экземпляров каждого типа записей - элементов набора. Например, набор можно использовать для объединения записей о студентах одной группы. Тогда тип набора можно определить как «Состав группы» с типом записи-владельца «Группа» и типом записей - элементов «Студент». Свойства, присущие набору: • в каждом экземпляре набора имеется только один экземпляр владельца; • экземпляр набора может содержать нуль, один или несколько записей- элементов; • набор считается пустым, если ни один экземпляр записи- элемента не связан с соответствующим экземпляром записи-владельца; • экземпляр набора существует после запоминания записи-владельца; • тип набора представляет логическую взаимосвязь «один ко многим» между владельцем и членом набора. При этом не предполагается, что экземпляры членов набора должны располагаться вблизи экземпляра набора в физической памяти; • каждому типу набора присваивается имя, что позволяет одной и той же паре типов объектов участвовать в нескольких взаимосвязях. Существенное различие между сетевой и иерархической моделями данных состоит в том, что в сетевой модели каждая запись может участвовать в любом числе наборов. Например, в сетевой модели, представленной двумя типами наборов «Преподаватель ведет дисциплину» и «Студент обучается дисциплине», запись-элемент «Дисциплина» входит в оба типа наборов и по сути является связкой этих типов наборов. Кроме того, любая запись сетевой модели может играть роль как владельца, так и элемента набора. Основной недостаток сетевой модели состоит в ее сложности. Прикладной программист должен детально знать логическую структуру базы данных, поскольку ему необходимо осуществлять навигацию среди различных экземпляров наборов и записей, т.е. программист должен представлять текущее состояние в экземплярах наборов при «продвижении» по базе данных. Другим недостатком является возможная потеря данных при реорганизации базы данных. Кроме того, в сетевой модели данных представление, используемое прикладной программой, сложнее, чем в иерархической модели, поэтому и процедура составления прикладных программ может оказаться сложнее. 4.7. Реляционная модель данных В настоящее время наибольшее распространение при разработке БД получила реляционная модель данных, которая позволяет определять: • структуры данных; • операции по запоминанию и поиску данных; • ограничения, связанные с обеспечением целостности данных. Основное ее положительное отличие от иерархической и сетевой моделей - отсутствие связей. Связи в реляционной модели рассматриваются как объекты и представляются следующим образом: имена (ключи) записей используются в качестве значений атрибутов других записей. В явном виде связи могут быть выражены, например, в диаграмме связей между объектами. Общая структура данных в реляционной модели может быть представлена в виде таблицы, в которой каждая строка соответствует логической записи, а заголовки столбцов являются названиями полей (атрибутов) в записях. Каждая запись в реляционной модели имеет уникальное имя (первичный ключ), которое в общем случае состоит из значений нескольких атрибутов. Ключ позволяет однозначно идентифицировать запись среди множества других записей. Если ключ записи состоит из значений нескольких атрибутов, то он называется составным, а если из одного атрибута - простым. Например, любая запись таблицы «Поставки» идентифицируется составным ключом: {Код поставки, Код поставщика и Код товара}. Имена всех записей хранятся в самих записях (что не имело места для иерархической и сетевой моделей). Чтобы связать две таблицы, необходимо ключ первой таблицы ввести в состав ключа второй таблицы (возможно совпадение ключей). Таким образом, реляционная база данных с логической точки зрения может быть представлена множеством двумерных таблиц самого различного предметного наполнения. Основными достоинствами реляционной модели данных являются: • простота и доступность; • независимость данных; • гибкость; • возможность непроцедурных запросов. При описании реляционных БД часто используется своя терминология. Множество допустимых значений (область определения) атрибута называется доменом, запись - кортежем, а множество однотипных записей – отношением (таблицей). Список имен атрибутов одного отношения называется схемой отношения, каждое отношение, как правило, имеет свое название (имя). От термина «отношение» (от англ, relation) происходит название реляционная модель данных. Одним из требований, предъявляемых к отношениям, является требование нормализации. Согласно условиям нормализации в каждом кортеже содержатся данные, отражающие либо свойства реального мира», либо связи между двумя или несколькими объектами. Об отношении говорят, что оно имеет нормальную форму или нормализовано, если оно удовлетворяет определенным ограничивающим условиям. Ограничивающее условие, обычное для всех нормальных форм, состоит в том, что отношения не должны носить характер вложений, т.е. никакое отношение не может быть определено как элемент другого отношения. Целью введения любой нормальной формы является предотвращение разного рода нарушений нормального функционирования (аномалий обновления) в результате корректировок. Порядок записей в отношении произволен. Недопустимо наличие в отношении двух записей с одинаковыми ключами. Часто вместо термина отношение используется термин таблица или реляционная таблица, в которой кортеж есть строка, каждый столбец соответствует домену. Таким образом, с логической точки зрения реляционная БД представляет собой множество таблиц различного предметного наполнения. Основные достоинства реляционной модели: 1) Простота и доступность. 2) Независимость данных. 3) Гибкость. 4) Возможность непроцедурных запросов. Свойства отношений: 1) Отсутствие кортежей – дубликатов. Т.к. отношение определяется как множество кортежей, а множество по определению состоит из различных элементов, оно не может содержать кортежей-дубликатов. Из этого свойства вытекает наличие у каждого отношения первичного ключа, т.е. набора атрибутов, значение которых однозначно определяют кортеж отношения (запись, строка). Для каждого отношения по крайней мере полный набор атрибутов обладает этим свойством. Обычно при определении первичного ключа требуется обеспечить его минимальность, т.е. в набор атрибутов первичного ключа не должны входить такие атрибуты, которые можно отбросить без нарушения основного свойства – однозначного определения кортежа. 2) Отсутствие упорядоченности кортежей. Это свойство придает дополнительную гибкость СУБД при хранении данных во внешней памяти и при выполнении запросов к БД. Тем не менее при формулировании запроса можно потребовать сортировки результирующей таблицы в соответствии с целями пользователя. 3) Отсутствие упорядоченности атрибутов. Это свойство теоретически позволяет модифицировать схемы существующих отношений не только путем добавления новых атрибутов, но и удаление существующих. 4) Атомарность значений атрибутов. Значение всех атрибутов являются атомарными. Это следует из определения домена как множества значений простого типа данных, т.е. среди значений домена не могут содержаться составные элементы. Наиболее распространенной трактовкой реляционной модели данных является то, что реляционная модель состоит из трех частей, описывающих разные аспекты реляционного подхода: структурной части, манипуляционной части, целостной части. В структурной части модель фиксируется, что единственной структурой данных, используемой в реляционных моделях, является нормализованная N-арное отношение. В теории реляционных баз данных обычно выделяется следующая последовательность нормальных форм: 1) Первая нормальная форма; 2) Вторая нормальная форма; 3) Третья нормальная форма; 4) Нормальная форма Бойса – Кодда; 5) Четвертая нормальная форма; 6) Пятая нормальная форма. Каждой нормальной форме соответствует определенный набор ограничений, поэтому и говорят, что отношение находится в некоторой нормальной форме, если удовлетворяет свойственному ей набору ограничений. Ограничения первой нормальной формы: значения всех атрибутов отношения должны быть атомарными. Теория нормализации основывается на наличии той или иной зависимости между полями таблицы. Определены два вида таких зависимостей: функциональные и многозначные. Функциональная зависимость. Поле В таблицы функционально зависит от поля А той же таблицы в том и только в том случае, когда в любой заданный момент времени для каждого из различных значений поля А обязательно существует только одно из различных значений поля В. Отметим, что здесь допускается, что поля А и В могут быть составными. Полная функциональная зависимость. Поле В находится в полной функциональной зависимости от составного поля А, если оно функционально зависит от А и не зависит функционально от любого подмножества поля А. Многозначная зависимость. Поле А многозначно определяет поле В той же таблицы, если для каждого значения поля А существует хорошо определенное множество соответствующих значений В. Основные свойства нормальных форм: 1) каждая следующая нормальная форма улучшает свойства предыдущей; 2) при переходе к следующей нормальной форме свойства предыдущих нормальных форм сохраняются. Таблица находится в первой нормальной форме (1НФ) тогда и только тогда, когда ни одна из её строк не содержит в любом своем поле более одного значения и ни одно из ее ключевых полей не пусто. Таблица находится во второй нормальной форме (2НФ), если она удовлетворяет определению 1НФ и все её поля, не входящие в первичный ключ, связаны полной функциональной зависимостью с первичным ключом. Таблица находится в третьей нормальной форме (3НФ), если она удовлетворяет определению 2НФ и не одно из ее неключевых полей не зависит функционально от любого другого неключевого поля. Теоретики реляционных систем Кодд и Бойс обосновали и предложили более строгое определение для 3НФ, которое учитывает, что в таблице может быть несколько возможных ключей. Таблица находится в нормальной форме Бойса-Кодда (НФБК), если и только если любая функциональная зависимость между её полями сводится к полной функциональной зависимости от возможного ключа. В следующих нормальных формах (4НФ и 5НФ) учитываются не только функциональные, но и многозначные зависимости между полями таблицы. Для их описания познакомимся с понятием полной декомпозиции таблицы. Полной декомпозицией таблицы называют такую совокупность произвольного числа ее проекций, соединение которых полностью совпадает с содержимым таблицы. Теперь можно дать определения высших нормальных форм. И сначала будет дано определение для последней из предложенных – 5НФ. Таблица находится в пятой нормальной форме (5НФ) тогда и только тогда, когда в каждой её полной декомпозиции все проекции содержат возможный ключ. Таблица, не имеющая ни одной полной декомпозиции, также находится в 5НФ. Четвертая нормальная форма (4НФ) является частным случаем 5НФ, когда полная декомпозиция должна быть соединением ровно двух проекций. Весьма не просто подобрать реальную таблицу, которая находилась бы в 4НФ, но не была бы в 5НФ. Манипуляционная часть реляционной модели состоит из операций запоминания и поиска данных. Эти операции делятся на две группы: операции на множествах (объединение, пересечение, разность, произведение) и реляционные операции (выбрать, спроецировать, соединить, разделить). Любой язык манипулирования данными, обеспечивающий все эти операции, является реляционно полным. В зависимости от способа формирования выражений языка его называют либо реляционной алгеброй, либо реляционным исчислением. Языки манипулирования данными, которые могут использоваться конечными пользователями в диалоговом режиме (т.е. не являются вложенными в язык программирования главной системы), часто называют языками запросов. В целостной части реляционной модели данных фиксируются два базовых требования целостности, которые должны поддерживаться в любой реляционной СУБД. Первое требование называется требованием целостности сущностей. Объекту или сущности реального мира в реляционных БД соответствуют кортежи отношений. Для соблюдения целостности сущности достаточно гарантировать отсутствие в любом отношении кортежей с одним и тем же значением первичного ключа. Второе требование называется требованием целостности по ссылкам и заключается в следующем. Атрибут, значения которого однозначно характеризуют сущности, представленные кортежами некоторого другого отношения называется внешним ключом. Таким образом отношение, в котором определен внешний ключ, ссылается на соответствующее отношение, в котором такой же атрибут является первичным ключом. Требование целостности по ссылкам, или требование внешнего ключа, состоит в том, что для каждого значения внешнего ключа должен найтись кортеж с таким же значением первичного ключа в отношении, на которое ведется ссылка, либо значение внешнего ключа должно быть полностью неопределенным (т.е. ни на что не указывать). Для нашего примера это означает, что если для товара указан код поставщика, то этот поставщик должен существовать. При обновлении ссылающегося отношения (вставке новых кортежей или модификации значения внешнего ключа в существующих кортежах) достаточно следить за тем, чтобы не появлялись некорректные значения внешнего ключа. При удалении кортежа из отношения, на которое ведет ссылка, существуют три подхода, поддерживающих целостность по ссылкам. Первый подход заключается в том, что запрещается производить удаление кортежа, на который существуют ссылки (т.е. сначала нужно либо удалить ссылающиеся кортежи, либо соответствующим образом изменить значения их внешнего ключа). При втором подходе при удалении кортежа, на который имеются ссылки, во всех ссылающихся кортежах значение внешнего ключа автоматически становится неопределенным. Третий подход (каскадное удаление) состоит в том, что при удалении кортежа из отношения, на которое ведет ссылка, из ссылающегося отношения автоматически удаляются все ссылающиеся кортежи. В развитых реляционных СУБД обычно можно выбрать способ поддержания целостности по ссылкам для каждой отдельной ситуации определения внешнего ключа. Конечно, для принятия такого решения необходимо анализировать требования конкретной прикладной области. Контрольные вопросы: 1. Дайте определение фактографической ИС. 2. Что такое база и банк данных? 3. Назовите признаки классификации структурированных типов данных. 4. Перечислите и охарактеризуйте структурированные типы данных. 5. Приведите основные функции СУБД. 6. Назовите основные уровни моделирования данных. 7. Перечислите основные виды моделей данных. 8. Приведите основные требования к семантическим моделям и их элементы. 9. Назовите типы моделей предметной области. 10. Перечислите основные элементы модели «сущность связь». 11. Назовите основные виды связей и приведите примеры этих видов. 12. Приведите основные понятия и определения иерархической модели данных. 13. Приведите основные понятия и определения сетевой модели данных. 14. Приведите основные понятия и определения реляционной модели данных. 15. Перечислите свойства отношений. 16. Приведите аспекты реляционной модели данных. 17. Дайте понятие нормализации и приведите совокупность нормальных форм. 18. Перечислите операции на манипуляционном уровне реляционной модели. 19. Дайте определение целостности данных. 5. Предметно-ориентированные ИС. 5.1. Информационные хранилища. Системы интеграции данных должны обрабатывать запросы, для ответа на которые может потребоваться извлечение и обобщение данных из различных источников. При этом трудности интеграции обусловлены следующим. Источники могут использовать различные модели данных и предоставлять различные интерфейсы для доступа к своим данным (реляционные, объектные или унаследованные СУБД) или данные источника могут быть не структурированными (HTML файлы, текстовые файлы и т.д.). Источники атомарные — взаимодействовать с источником можно только через предоставляемый им интерфейс и нет никакой возможности повлиять на его внутренние процессы. Наибольшую популярность приобрели два подхода к решению задачи интеграции данных — хранилища данных (Data Warehouse, DW) и виртуальные хранилища. При использовании первого подхода хранилище заполняется данными из различных источников и затем все запросы обрабатываются с использованием этих данных. Таким образом, актуальность данных не гарантируется, поскольку никакой синхронизации с источником не происходит, но преимущество заключается в том, что время выполнения запроса невелико. DW является ядром технологии комплексного использования сведений, находящихся в различных БД. Здесь процесс обработки данных физически разделяется на два этапа: • первый из них связан с обработкой транзакций в реальном времени (OLTP), в результате Чего в базах данных накапливается первичная информация о функционировании предприятия, например финансового банка; • на втором этапе осуществляется аналитическая обработка в реальном времени (OLAP), например анализ снятия наличности со счетов, объема оказываемых услуг, показатели эффективности работы служащих. При создании хранилища выполняются преобразования, обеспечивающие работу баз данных различных типов и имеющих разные форматы документов. В свою очередь, информационное хранилище используется для составления нужных отчетов и выполнения прикладных процессов. Информационное хранилище обслуживает запросы, анализирует результаты их выполнения и формирует отчеты Хранилище также обеспечивает загрузку данных и периодическое удаление информации, утратившей актуальность (рис. 5.1). Рис. 5.1. Структура хранилища данных Хранилище характеризуется четырьмя важными особенностями: • объектно-ориентированной архитектурой, в которой данные организованы в соответствии с их содержанием, а не прикладными программами; • цельностью, связанной с преобразованием кодов блоков данных, полученных из различных баз данных; • этапностью, определяющей, что информация собрана за определенный интервал времени; • защищенностью, запрещающей изменять либо обновлять данные, помещенные в хранилище. При использовании виртуальных хранилищ, данные хранятся в источниках, а запросы к системе интеграции транслируются в запросы или операции, понятные источнику. Данные, полученные в ответ на эти запросы к источникам, объединяются и предоставляются пользователю. Преимущество виртуальных хранилищ заключается в гарантии того, что пользователь получает только «свежие» данные. Но поскольку источники могут значительно отличаться, возникают трудности, связанные с оптимизацией запросов, и дополнительные расходы на конвертацию данных во время выполнения запроса, что существенно снижает производительность систем, использующих данный подход. Для построения систем, объединяющих большое количество источников, содержание которых часто изменяется (например, Web-серверы), наиболее предпочтительным является виртуальный подход, поэтому в последнее время активно ведутся исследования именно в этом направлении. Переходя к подробному рассмотрению виртуального подхода, отметим, что многие методы, используемые при решении проблем в контексте этого подхода, часто при небольшой модификации применимы и при реализации хранилищ данных. Рассматривая типичную организацию виртуального хранилища, выделим два уровня — логический и физический. Логический уровень определяется выбором модели данных и языка запросов для этой модели. Выбранная модель используется для представления данных, извлекаемых из всех источников. Таким образом, пользователь системы интеграции получает возможность унифицированного доступа ко всем интегрируемым данным. Важное требование к модели данных — это обеспечение прозрачности доступа к внешним источникам, т.е. пользователь видит внешние данные как локальные в выбранной модели и не заботится об управлении доступом к источнику. Данная архитектура основана на распространенной концепции посредников (mediators). Рассмотрим два типа компонентов этой архитектуры: 1) обертка (wrapper) используется для хранения информации о внешнем источнике и организации к нему доступа. Происходит это следующим образом: при получении запроса обертка обращается к источнику через предоставляемый им интерфейс. Полученные от источника данные конвертируются во внутренний формат данных хранилища (т.е. в модель данных хранилища). Понятно, что для каждого источника необходима своя обертка. 2) посредник осуществляет интеграцию данных из различных источников (из различных оберток). Посредник может взаимодействовать как с обертками, так и с другими посредниками. Таким образом, предоставляется возможность построения сложной сети взаимодействующих между собой посредников, что позволит обобщать данные различными способами для удовлетворения нужд различных приложений взаимодействующих с виртуальным хранилищем. Важно отметить, что посредник не содержит данных, а интеграция происходит, как правило, за счет использования техники представлений. Поскольку при использовании предложенной архитектуры задача построения виртуального хранилища сводится к созданию оберток и посредников, необходимо иметь утилиты, позволяющие легко их генерировать. С этой целью разработаны специальные декларативные языки, на которых описываются обертки и посредники, затем по этим описаниям и происходит их генерация. Для хранилищ данных характерны следующие особенности: 1) неизменчивость данных (в хранилищах данных не поддерживаются операции обновления данных); 2) постоянный мониторинг и отбор (по критериям достоверности, оперативности и др.) источников данных; 3) реструктурированность получаемых и накапливаемых документированных данных; 4) формирование полного наименования и описания каждого элементарного сообщения при реструктуризации; 5) приведение к сопоставимому виду однородных данных, накапливаемых в информационном хранилище; 6) формирование полных наименований и описаний элементарных сообщений на основе согласованных информационной модели и модели данных среды хранения; 7) каталогизация всех поступивших данных в виде словаря-справочника данных (репозитория, базы метаданных); 8) возможность восстановления получаемых документов по метаданным; 9) использование эффективного аппарат формирования запросов. 5.2. Геоинформационные системы. Геоданные, т.е. информация, имеющая свое определенное место на карте, схеме, плане, составляют порядка 80—90% всех данных. В государственном управлении ГИС-технологии используются в при анализе критических и чрезвычайных ситуаций, при пространственном анализе данных для подготовки управленческих решений, при подготовке статистической информации (статистический анализ, подготовка отчетов, обработка результатов переписи населения), в государственных кадастрах (градостроительном, земельном, лесном, природных ресурсов и др.) и регистрах, при организации торговли, обслуживания населения, почтовой связи и телекоммуникаций, при регулировании транспортной и инженерной инфраструктур, для проведения выборов и в других сферах. В муниципальном управлении эти технологии предоставляют ИР для эффективного территориального планирования и градорегулирования, правового зонирования и ведения генеральных планов городов, управления административными единицами. Рис. 5.2. ГИС-данные Географическая информационная система (ГИС) — это возможность нового взгляда на окружающую нас действительность, современная ИТ для картирования и анализа объектов и событий реального мира. Эта технология объединяет традиционные операции работы с базами данных, такими, как запрос и статистический анализ, с преимуществами полноценной визуализации и географического (пространственного) анализа, которые предоставляют карты и планы. Эти возможности отличают ГИС от других ИТ и обеспечивают уникальный потенциал для ее применения в широком спектре задач, связанных с анализом и прогнозом явлений и событий окружающего мира, с осмыслением и выделением главных факторов и причин, а также их возможных последствий, с планированием стратегических решений и текущих последствий предпринимаемых действий. ГИС хранит информацию о реальном мире в виде набора тематических слоев, объединенных на основе географического положения. Этот простой, но очень гибкий подход доказал свою ценность при решении разнообразных реальных задач: • для отслеживания передвижения транспортных средств и материалов; • детального отображения реальной обстановки и планируемых мероприятий; • моделирования глобальной циркуляции атмосферы. ГИС работают с двумя существенно отличающимися типами данных — векторными и растровыми. В векторной модели информация о точках, линиях и полигонах кодируется и хранится в виде набора координат X, Y. Местоположение точки (точечного объекта), описывается парой координат (X, Y). Линейные объекты, такие как дороги, реки или трубопроводы, сохраняются как наборы координат X, Y. Полигональные объекты, типа речных водосборов, земельных участков или областей обслуживания хранятся в виде замкнутого набора координат. Векторная модель особенно удобна для описания дискретных объектов и меньше подходит для описания непрерывно меняющихся свойств, таких, как типы почв или доступность объектов. Растровая модель оптимальна для работы с непрерывными свойствами. Растровое изображение представляет собой набор значений для отдельных элементарных составляющих (точек, ячеек, пикселов), оно подобно отсканированной карте или фотографии. ГИС общего назначения, в числе прочего, обычно выполняет пять процедур (задач) с ИР: ввод, манипулирование, управление, запрос и анализ, визуализацию. Ввод. Для использования в ГИС данные должны быть преобразованы в подходящий цифровой формат. Процесс преобразования данных с бумажных карт и планов в компьютерные файлы называется оцифровкой. В современных ГИС этот процесс автоматизирован с применением сканерной технологии, что особенно важно при выполнении крупных проектов, либо, при небольшом объеме работ, данные можно вводить с помощью специальных устройств — дигитайзеров. Многие данные уже переведены в форматы, напрямую воспринимаемые ГИС-пакетами. Манипулирование. Часто для выполнения конкретного проекта имеющиеся данные нужно дополнительно видоизменить в соответствии с требованиями вашей системы. Например, географическая информация может быть в разных масштабах, а для совместной обработки и визуализации все данные удобнее представить в едином масштабе. ГИС-технология предоставляет разные способы манипулирования пространственными данными и выделения данных, нужных для конфетной задачи. Управление. В небольших проектах географическая информация может храниться в виде обычных файлов. Но при увеличении объема информации и росте числа пользователей для хранения, структурирования и управления данными эффективнее применять БД (картографические и атрибутивные) и системы управления базами данных (СУБД). Запрос и анализ. При наличии ГИС и географической информации вы сможете получать ответы на простые вопросы (Кто владелец данного земельного участка? На каком расстоянии друг от друга расположены эти объекты? Где расположена данная промышленная зона?) и более сложные, требующие дополнительного анализа запросы (Где есть подходящие участки для строительства жилого дома? Каков основной тип почв? Как повлияет на пассажиропотоки строительство новой дороги? Какова будет зона затопления, сколько человек и какими маршрутами придется эвакуировать при подъеме уровня воды на 7 метров?). Запросы можно задавать как простым щелчком мышью на определенном объекте, так и посредством развитых аналитических средств. С помощью ГИС можно выявлять и задавать шаблоны для поиска, проигрывать сценарии по типу «что будет, если ...». Современные ГИС имеют множество мощных инструментов для анализа, среди них наиболее значимы два: анализ близости и анализ наложения. Для проведения анализа близости объектов относительно друг друга в ГИС применяется процесс, называемый буферизацией. Он помогает ответить на вопросы типа: Сколько домов находится в пределах 100 м от этого водоема? Сколько покупателей живет в радиусе 500 м от данного магазина? Процесс наложения включает возможность интеграции данных, расположенных в разных тематических слоях. В простейшем случае это операция отображения, но при ряде аналитических операций данные из разных слоев объединяются физически. Наложение, или пространственное объединение, позволяет, например, интегрировать данные о почвах, уклоне, растительности и землевладении со ставками земельного налога. Визуализация. Для многих типов пространственных операций конечным результатом является представление данных в виде тематических карт и планов, дополненных, при необходимости, другой графикой отчетными документами, трехмерными изображениями, графиками, диаграммами и таблицами, фотографиями и другими средствами, например видео и мультимедийными. ГИС предлагает совершенно новый путь развития картографии. Преодолеваются основные недостатки обычных карт — их статичность и ограниченная емкость как носителя информации. В последние десятилетия бумажные карты из-за перегруженности информацией становятся нечитабельными. ГИС же обеспечивает управление визуализацией информации. Появляется возможность выводить (на экран, на твердую копию) только те объекты или их множества, которые интересуют нас в данный момент. Фактически осуществляется переход от сложных комплексных карт к серии взаимоувязанных частных карт. При этом улучшается структурированность информации, повышается эффективность её обработки и анализа. В ГИС карта оживает и становится действительно динамическим объектом в смысле: • динамичного выбора масштаба; • преобразования картографических проекций; • варьирования объектным составом карты (что выводится); • возможности «опроса» через карту в режиме реального времени многочисленных баз данных; • изменения способа отображения объектов (цвет, тип линии символ и т.п.) в зависимости от содержимого баз данных; • легкости внесения любых изменений. Наряду с традиционной картографической информацией, данные дистанционного зондирования (ДЗ) составляют информационную основу ГИС-технологий, и чем дальше, тем больше этот источник информации доминирует над традиционными картами. Под ДЗ понимаются исследования неконтактным способом, различного рода съемки с летательных аппаратов — атмосферных и космических, в результате которых получается изображение земной поверхности в каком-либо диапазоне (диапазонах) электромагнитного спектра. 5.3. Банковские информационные системы Рассмотрим подход к созданию банковской информационной системы на примере ИБС БИСквит. Интегрированная банковская система ИБС БИСквит обеспечивает высокий уровень информационной поддержки банковских операций в условиях динамичного развития рынка финансовых услуг. Основными преимуществами данного решения являются: • поддержка сложных, нестандартных технологий и индивидуальных требований банка; • ведение операций в реальном масштабе времени; • организация работы удалённых отделений в режиме on-line; • оперативное обеспечение интенсивного развития бизнеса при введении новых банковских продуктов; • устойчивая работа при резком увеличении количества клиентов и операций; • надёжная и эффективная обработка большого объёма документооборота; • оперативность и качество отчётной и аналитической информации; • своевременная адаптация при изменении требований законодательства, инструкций банка России, других государственных органов, внешнего и внутреннего аудита; • организация эффективного и надёжного контроля доступа к финансовой и нефинансовой информации; • оптимизация управления деятельностью подразделений за счёт интегрированности, оперативности и информативности используемых систем; • максимально полная реализация принципа защиты инвестиций в аппаратные средства; • успешный опыт эксплуатации в кредитных организациях любой организационной структуры. Принципы построения ИБС: Интегрированность – наличие общего программного ядра, единой модели данных и единой технологии обработки данных. Единая технология позволяет автоматически отражать операцию, выполняемую в любом модуле, в единой БД и использовать ее результаты во всех остальных модулях. Функциональная полнота позволяет автоматизировать множество операций коммерческого банка. Модульная структура дает возможность банку нести только обоснованные в данный момент сферой его деятельности и объемом документооборота затраты на программное обеспечение, легко наращивая функциональные возможности системы по мере расширения круга выполняемых операций. Гибкие средства настройки позволяют создать автоматизированное рабочее место сотрудника банка необходимой функциональной структуры, описать маршруты прохождения документов между исполнителями и технологические процессы их обработки с учетом особенностей бизнес-процессов банка. Масштабируемость позволяет переносить систему без существенных доработок на различные программно-аппаратные платформы, что обеспечивает возможность наращивания количества ежедневно обрабатываемых банковских транзакций или подключения дополнительных пользователей за счет увеличения производительности. Открытость системы позволяет взаимодействовать с внешними прикладными программными системами, в качестве которых могут быть использованы системы других производителей, системы, разработанные силами банка, другие экземпляры ИБС БИСквит. Адаптивность обеспечивает адекватную поддержку со стороны ИБС БИСквит бизнес-процессов кредитной организации и своевременную, экономически обоснованную реконструкцию информационной системы при необходимости их реорганизации. Высокая производительность обеспечивает обработку заданных объемов информации в течение требуемого временного интервала. Надежность системы позволяет обеспечить сохранность информации, ее целостность и взаимосогласованность в любой момент времени. Для этого в полной мере используются возможности СУБД Progress, имеющей надежные встроенные механизмы обеспечения целостности транзакций и автоматического восстановления данных, в том числе при сбое или выходе из строя сервера БД. Архитектура системы ИБС БИСквит представляет собой набор функциональных модулей, работающих с единой логической базой данных и объединенных вокруг единого ядра. При ее разработке используются объектно-ориентированные возможности расширения реляционной модели данных. Рис. 5.3. Общая структура ИБС БИСквит Ядро системы включает: • определение базовых информационных объектов, реализующих представление предметной области, и стандартных методов манипулирования объектами; • реализацию множества системных служб, позволяющих осуществлять поддержку банковских продуктов. К основным информационным объектам, реализованным в системе, относятся такие понятия предметной области, как сделка (договор), документ, проводка, счет, финансовый инструмент, клиент, пользователь. Хранение и обработку информации об основных бизнес-процессах, а также своевременную настройку и перенастройку процессов их автоматизированной обработки в ИБС БИСквит обеспечивает совокупность следующих системных служб: финансовых инструментов, метасхемы, клиентов, договоров, документов, учетной информации, стандартных транзакций, начислений, сообщений, расписаний, справочников, классификаторов, пользователей, OLAP. Служба метасхемы дает возможность определять иерархически устроенные классы объектов и стандартные методы их обработки в терминах бизнес-объектов. Расширяемая метасхема содержит метаданные - информацию, описывающую логическую структуру базы данных в универсальных реляционных таблицах. Служба клиентов позволяет хранить информацию о субъектах трех основных типов (юридическое лицо, физическое лицо, банк) и, помимо уникального внутреннего кода клиента в системе, иметь произвольное число типов идентификатора субъекта, например, индивидуальный номер налогоплательщика, различные виды удостоверений личности (для физических лиц), различные виды идентификаторов для банков (БИК – банковский индивидуальный код, код в системе SWIFT и т.д.). Служба договоров обеспечивает хранение информации о совокупности распределенных во времени операций, обеспечивающих привлечение и размещение денежных средств, их трансформацию (например, операции покупки или продажи валюты), расчетно-кассовое обслуживание, услуги по хранению материальных ценностей и их инкассации, услуги обеспечивающего и нефинансового характера. Служба позволяет вести перечень субъектов и счетов, связанных с выполнением операций по договору, отслеживать состояние ресурсов по договору и их изменение в течение периода его действия, определять условия реализации договора и хранить историю их изменения. Служба документов позволяет реализовать технологический процесс обработки документов в системе и задать маршруты обработки документов (work flow). При настройке документооборота определяются типы обрабатываемых документов, множества допустимых состояний и маршруты допустимых переходов для каждого их типа, связи между документами, правила обработки групп связанных документов. Документы могут быть как финансовыми (расчетно-кассовые: платежное поручение, мемориальный ордер и т.д.), так и нефинансовыми (запросы, заявки, распоряжения и т.п.). Служба классификаторов решает задачи группировки и классификации информации. Основным назначением классификаторов является хранение признаков, позволяющих группировать, объекты БД и определять логику их обработки. Объектами могут быть лицевые счета, клиенты, элементы различных справочников, таблицы БД, сами классификаторы и т. д. Каждый такой объект может быть включен в любое количество групп. Служба учетной информации отвечает за автоматизацию информационной системы бухгалтерского учета. Служба ведет аналитические и синтетические регистры учета, обеспечивает классификацию счетов и ведение плана счетов, горизонтальные информационные связи между счетами, осуществляемые с помощью проводок, ведение множества областей учета, открытие, ведение и закрытие учетных периодов (например, открытие и закрытие операционного дня, проведение заключительных оборотов при закрытии финансового года). В ИБС БИСквит реализовано учетное ядро, которое позволяет осуществлять бухгалтерский учет операций в полном соответствии с требованиями Банка России (Положение 205-П). В системе имеется возможность работать со счетами, документами и проводками по всем 5 категориям учета. Функциональность учетного ядра ИБС БИСквит не ограничивается поддержкой стандартных требований ЦБ. Возможности ядра позволяют пользователям самостоятельно создавать новые области учета и определять для них необходимые свойства. Данная функциональность используется, например, для ведения отдельной области налогового учета. Это позволяет также настраивать в системе планы счетов других государств. Служба финансовых инструментов обеспечивает поддержку различных форм краткосрочного и долгосрочного инвестирования, торговля которыми осуществляется на финансовых рынках. К ним относятся денежные средства в различных валютах, ценные бумаги, производные инструменты (форварды, фьючерсы, свопы, опционы и т.д.). В процессе настройки бизнес-логики важное значение принадлежит настройке операций, которая выполняется с помощью службы стандартных транзакций путем определения множества шаблонов их выполнения и производится в соответствии с типом операции (индивидуальная или групповая), видом транзакции (определяется обрабатывающей выполнение операции процедурой) и атрибутами настройки – основными и дополнительными. Описание сценария выполнения операции определяется конкретным видом банковского продукта, а его интерпретация задает конкретный экземпляр продукта. Служба начислений определяет порядок и размер начисления и взимания платежей по процентам и комиссиям. Служба расписаний обеспечивает вычисление времени выполнения события на основании заданной периодичности или временного ряда, хранение информации о ранее произошедших и плановых событиях, ведение журнала регистрации событий, ведение расписания плановых операций, инициирование выполнения операций в связи с наступлением срока плановой операции, указанного в расписании. Служба сообщений обеспечивает интерфейс экспорта-импорта информации на основе внутрисистемных и поддерживаемых ИБС внешних стандартов обмена информацией. Для хранения и расчета отчетных и аналитических данных с помощью службы OLAP применяется технология оперативной аналитической обработки данных на основе использования многомерной аналитической БД (OLAP-технология). Принципы реализации технологии OLAP: • Работа всех входящих в систему модулей основывается на единой информационной базе и единой технологии обработки данных. Внутри единой БД выделены транзакционная (OLTP) и аналитическая (OLAP) составляющие, при этом существует возможность физического выделения OLAP-базы. При проектировании аналитической составляющей хранимые данные представляются в виде многомерного куба, имеющего два общих измерения - элементы организационной структуры банка и произвольные периоды отчетности. Зафиксировав значения по двум общим измерениям, в свою очередь, получим многомерный куб, содержащий отчетную и аналитическую информацию по выбранному для анализа объекту за указанный период времени. • Выборка информации для расчета агрегированных показателей или их динамических статистических рядов осуществляется в процессе формирования отчета непосредственно из единой базы данных, что гарантирует их целостность, непротиворечивость и актуальность. При этом возможно одновременное использование информации из OLAP- и OLTP- ее составляющих. • Схема базы данных ориентирована на возможность формирования отчетной и аналитической информации в режиме "on-line" с учетом требования сохранять приемлемые размеры и быстродействие при значительном увеличении объемов хранимой информации. • Механизмы расширения схемы данных, структуризации и группировки данных являются универсальными и позволяют агрегировать информацию в соответствии с требованиями выбранной экономической модели. • Изменения формул и результатов расчетов протоколируются. • Структура и вид отчетных и аналитических форм могут быть модифицированы или расширены штатными средствами службы. • Описание организационной структуры банка и соответствующее структурирование выполняемых финансовых операций дает возможность анализировать эффективность работы в разрезе центров ответственности (центров прибыли). Служба пользователей реализует ряд функций, наиболее важными из которых являются управление правами пользователей, аудит действий пользователей путем ведения журнала истории изменений, хранение данных о структуре банка и глобальных пользовательских настройках. Архитектура ИБС БИСквит обеспечивает возможность многоуровневой настройки системы (рис. 5.4). Рис.5.4. Уровни настройки бизнес-процессов Единое информационное пространство на основе ИБС БИСквит (рис. 5.5)обеспечивает интеграцию операционной, учетной и аналитической информации; реализацию единой технологии обработки информации; поддержку унифицированной технологии реализации банковских продуктов. Преимущества предлагаемого решения состоят в более простой реализации новых функциональных возможностей, унификации схемы сопровождения и достижения в итоге более экономичной структуры операционных затрат. Рис.5.5. Информационное пространство на основе ИБС. Контрольные вопросы. 1. Дайте определение информационного хранилища данных и его назначения. 2. Приведите основные понятии и структуру виртуального информационного хранилища данных. 3. Дайте определение ГИС. 4. Перечислите основные процедуры ГИС общего назначения. 5. Охарактеризуйте принципы анализа данных в ГИС. 6. Назовите основные принципы построения ИБС. 7. Приведите основные элементы архитектуры ИБС. 8. Перечислите принципы реализации технологии OLAP. 6. Безопасность информационных систем Анализ состояния дел в области обеспечения информационной безопасности ИС показывает, что в большинстве ведущих зарубежных стран сложилась вполне сформировавшаяся концепция и архитектура обеспечения информационной безопасности ИС, основу которой составляют: • достаточно четко очерченная система концептуальных взглядов на проблему обеспечения информационной безопасности ИС; • весьма развитый арсенал технических средств защиты, производимых на собственной промышленной базе; • значительное число фирм, включающих в свой состав ведущих ученых и специалистов в области информационной безопасности ИС и специализирующихся на решении вопросов информационной безопасности; • наличие значительного практического опыта с обеспечением защиты ноу-хау в вопросах практического обеспечения информационной безопасности ИС. Под информационной безопасностью принято понимать степень защищенности ИР и поддерживающей инфраструктуры от случайных или преднамеренных воздействий естественного или искусственного характера, чреватых нанесением ущерба владельцам или пользователям ИР и поддерживающей инфраструктуры. Однако информационная безопасность не сводится исключительно к защите ИР Субъект информационных отношений может пострадать непосредственно от процесса информатизации. С этой точки зрения под информационной безопасностью следует понимать свойство процесса информатизации, характеризующее состояние защищенности личности, общества и государства от возможных негативных последствий информатизации. Кроме того, субъект информационных отношений может понести убытки не только от недостаточной степени защищенности ИР, но и от повреждения ИС, вызвавшего задержку в функционировании критических систем или перерыв в обслуживании клиентов в коммерческих структурах. Таким образом информационная безопасность должна иметь двунаправленный характер: • необходимо гарантировать непрерывность и корректность функционирования ИС, обеспечивающих безопасность людей и экологической обстановки; • необходимо обеспечивать защиту ИР, обрабатываемых в этих системах. Требования по обеспечению информационной безопасности в различных информационных системах могут существенно отличаться, однако они всегда направлены на достижение трех основных свойств: 1) целостности — информация, на основе которой принимаются решения, должна быть достоверной и точной, защищенной от искажения, уничтожения и (или) несанкционированной модификации (изменения содержания); 2) доступности (готовности) — информация и соответствующие автоматизированные службы должны быть доступны, готовы к работе всегда, когда в них возникает необходимость; 3) конфиденциальности — информация ограниченного пользования должна быть доступна только тому, кому она предназначена. Важное звено мероприятий по реализации политики безопасности ИТ — это сертификация продуктов и аттестация систем информационных технологий на соответствие требованиям безопасности информации. Для создания эффективной системы обеспечения информационной безопасности необходимо достаточно корректно построить иерархическую систему показателей эффективности, точно соответствующих целям и задачам формируемой системы. На сегодня существует два способа выбора показателей (критериев) защищенности информации: 1) определение минимального набора необходимых для защиты информации функций, соответствующего конкретному классу защищенности в соответствии с принятыми стандартами; 2) определение профиля защиты, в котором учитываются особенности решения задач защиты информации в организации (в соответствий с международными стандартами ИСО 15408, ИСО 17799, германским стандартом BSI). Более гибкий применительно к построению современных систем защиты информации — второй способ, что подтверждается мировой практикой. Он связан с необходимостью объединения в единой системе множества технических средств и программ, используемых в открытых вычислительных системах или сетях. Термин «открытые» следует понимать таким образом, что соответствующая определенным стандартам вычислительная система будет открыта для взаимосвязи с любой другой системой, которая соответствует тем же стандартам. Это, в частности, относится и к механизмам защиты информации от несанкционированного доступа (НСД). В начале 1990-х годов ИСО и МЭК стали создавать международные стандарты по критериям оценки безопасности информационных технологий для общего использования, названные Common Criteria for Information Technology Security Evaluation или просто Common Criteria и 8 июня 1999 г. был утвержден Международный стандарт ИСО/МЭК 15408 под названием «Общие критерии оценки безопасности информационных технологий» (ОК). Использование методик данного стандарта позволяет специалистам определить для заказчика те критерии, которые могут быть использованы в качестве основы для выработки оценок защитных свойств продуктов и систем информационной технологии. Кроме того, эти методики позволяют проводить наиболее полное сравнение результатов оценки защитных свойств корпоративных информационных систем (КИС) с помощью общего перечня (набора) требований для функций защиты продуктов и систем, а также методов точных измерений, проводимых во время получения оценок защиты. Основываясь на этих требованиях, в процессе выработки оценки уровня защиты устанавливается уровень доверия. ОК используются для задания требований безопасности продуктов или систем ИТ и в качестве методической базы при оценке степени выполнения требований безопасности. Оценка должна проводиться в рамках утвержденной схемы оценки. Методика оценки действует в рамках административных и правовых ограничений, которые также определяются схемой оценки. На рис. 6.1 показаны основные элементы процесса оценки безопасности и их взаимосвязь. Схема оценки включает стандарты и правила административного регулирования, которым должны отвечать условия оценки и следовать специалисты, осуществляющие оценку. Процедура сертификации представляет независимую экспертизу результатов оценки, завершаемую заключением о пригодности продукта или системы и выдачей сертификата. Информация о сертификате обычно является открытой. Стандарты предоставляют заказчикам методы выбора требований безопасности в соответствии с назначением их продуктов или систем ИТ. Рис. 6.1. Основные элементы процесса оценки безопасности и их взаимосвязь Требования заказчика (запросы потребителя) формируются на основании результатов проведенного анализа риска, выбранной политики безопасности организации и с помощью иерархической шкалы гарантийных требований. Разработчики могут использовать механизмы, предлагаемые в ОК, для создания продукта или системы ИТ, комплекс средств обеспечения безопасности которых реализует предъявляемые к ним функциональные требования и уровень гарантии безопасности. ОК можно использовать также для определения круга специалистов и их действий, необходимых для подготовки обоснования и проведения оценки. ОК определяют также содержание и форму такого обоснования. Эксперты, проводящие оценку, должны использовать ОК при составлении заключения о соответствии объекта оценки предъявляемым к нему требованиям безопасности. ОК дают общее описание процесса экспертизы, но не определяют процедуру ее осуществления. Международный стандарт ИСО 17799 «Управление информационной безопасностью». Стандарт определяет общую организацию, классификацию данных, системы доступа, направления планирования, ответственность сотрудников, использование оценки рисков и т.д. в контексте информационной безопасности. По сути стандарт определяет систему менеджмента, и в этом смысле не является техническим стандартом. Официальное Руководство по применению стандарта содержит рекомендации, позволяющие организации самостоятельно определить необходимые требования по обеспечению информационной безопасности в каждом конкретном случае. Стандарт содержит более 100 элементов управления информационной безопасностью, сгруппированных следующим образом: 1. ПОЛИТИКА В ОБЛАСТИ БЕЗОПАСНОСТИ. Назначение: обеспечение управления и поддержки политики в области информационной безопасности со стороны руководства предприятия. 2. ОРГАНИЗАЦИЯ СИСТЕМЫ БЕЗОПАСНОСТИ. Назначение: создание организационной структуры, которая будет внедрять и обеспечивать работоспособность системы информационной безопасности организации. 3. КЛАССИФИКАЦИЯ РЕСУРСОВ И УПРАВЛЕНИЕ. Назначение: поддержка адекватной информационной безопасности организации путем возложения персональной ответственности, а также классификации информационных ресурсов по необходимости и приоритету защиты. 4. БЕЗОПАСНОСТЬ И ПЕРСОНАЛ. Назначение: уменьшение риска человеческих ошибок, хищений и неправильного использования оборудования, в том числе путем эффективного обучения и внедрения механизма отслеживания инцидентов. 5. ФИЗИЧЕСКАЯ И ВНЕШНЯЯ БЕЗОПАСНОСТЬ. Назначение: предотвращение несанкционированного доступа, повреждения и нарушения работы информационной системы. 6. МЕНЕДЖМЕНТ КОМПЬЮТЕРОВ И СЕТЕЙ. Назначение: обеспечение безопасного функционирования компьютеров и сетей. 7. УПРАВЛЕНИЕ ДОСТУПОМ К СИСТЕМЕ. Назначение: управление доступом к деловой информации, предотвращение несанкционированного доступа и обнаружение несанкционированной деятельности. 8. РАЗРАБОТКА И ОБСЛУЖИВАНИЕ СИСТЕМЫ. Назначение: обеспечение выполнения требований безопасности при создании или развитии информационной системы организации, поддержка безопасности приложений и данных. 9. ОБЕСПЕЧЕНИЕ НЕПРЕРЫВНОСТИ РАБОТЫ. Назначение: подготовка планов действий в случае чрезвычайных обстоятельств и для обеспечения непрерывности работы организации. 10. СООТВЕТСТВИЕ ЗАКОНОДАТЕЛЬСТВУ. Назначение: обеспечение выполнения требований законодательства, включая законы об авторских правах и защите данных и нормативных актов. Такая структура позволяет выбрать те средства управления, которые имеют отношение к конкретной организации или сфере ответственности внутри организации. Выделено также десять так называемых ключевых элементов управления, являющихся фундаментальными: 1) политика по информационной безопасности; 2) распределение ответственности за информационную безопасность; 3) образование и тренинг по информационной безопасности; 4) отчетность по инцидентам с безопасностью; 5) защита от вирусов; 6) обеспечение непрерывности работы; 7) контроль копирования лицензируемого программного обеспечения; 8) защита архивной документации организации; 9) защита персональных данных; 10) выполнение политики по информационной безопасности. Контрольные вопросы 1. Дайте определение информационной безопасности. 2. Перечислите основные положения концепциии обеспечения информационной безопасности ИС. 3. Каковы гарантийные требования информационной безопасности? 4. Что определяет международный стандарт ИСО 17799 «Управление информационной безопасностью» и какова его структура? 5. Назовите десять ключевых элементов управления информационной безопасностью. 7. Основные термины и их определение в области информацинных технологий 7.1.Общие термины Информационная технология (information technology) — технология информационного процесса — совокупность методов, способов, приемов и средств, реализующих информационный процесс в соответствии с заданными требованиями. Информационная технология может быть представлена как определенная последовательность управляющих воздействий технологических процессов различных видов (ввод, вывод, представление, обработка, запись, поиск, сбор, хранение, актуализация, предоставление, тиражирование, обмен, передача, защита информации) и реализующих их средств, а также как научное описание этих процессов и способов их реализации. Информация (information) — сведения о фактах, событиях, явлениях, процессах, понятия или команды. Информация воспринимается от окружающей среды, выдается в нее, преобразуется или сохраняется внутри некоторой системы и передается с помощью носителей какой-либо физической природы в виде графических, звуковых и световых сигналов, энергетических и нервных импульсов. Информационный процесс (information process) — совокупность процессов получения, накопления, обработки и передачи информации. Функция (function) информационной технологии — совокупность действий, направленных на реализацию определенной части информационного процесса. Функции могут реализоваться человеком, полуавтоматическими, автоматическими и другими средствами. Информационное пространство (information space) — совокупность информационных ресурсов, информационных систем и коммуникационной среды. Информационный ресурс (information resource) — совокупность информации, содержащейся в различных источниках. Информационная система (information system) — организованная совокупность информационных технологий, объектов и отношений между ними, образующая единое целое. Информационная система может включать в качестве объектов персонал, информационные, материально-технические и другие ресурсы, необходимые для реализации конкретного информационного процесса. Коммуникационная среда (communication environment) — совокупность способов и средств, обеспечивающих передачу (обмен) информации. Информационный продукт (information product) — информация, полученная в результате реализации информационной технологии. Входная информация (initial information) — информация, получаемая из окружающей среды. Внутренняя информация (internal information) — информация, сохраняемая в некоторой системе. Выходная информация (output information) — информация, выдаваемая в окружающую среду. Документированная информация (document information) — информация, оформленная в установленном порядке и закрепленная на материальном носителе, обеспечивающем ее передачу во времени и пространстве. Информационный массив (information array) — совокупность документированной информации, упорядоченной по определенным признакам. Информационный ресурс (information resource) — комплекс данных (результатов измерения), информации (результатов фильтрации и реструктуризации данных), знаний (результатов реструктуризации информации с выделением фактографической и процедурной частей) для разрешения управленческой проблемной ситуации (ПС), выступающий как субститут финансовым, энергетическим, трудовым, временным ресурсам объекта управления, 7.2.Основные виды технологических процессов, составляющих информационную технологию Ввод информации (information input) — совокупность действий по непосредственной передаче информации от объектов окружающей среды информационной системе. Вывод информации (information output) — совокупность действий по непосредственной передаче информации объектам окружающей среды от информационной системы. Представление информации (information representation) — совокупность действий по преобразованию информации, обеспечивающих возможность ее восприятия пользователем или последующим процессом. Обработка информации (information processing) — совокупность действий по изменению состояния информации с целью придания ей требуемых свойств. Запись информации (information writing) — совокупность действий по переносу информации на материальные носители. Поиск информации (information retrieval) — совокупность действий по отбору (нахождению) информации по заданным признакам. Сбор информации (information collection) — совокупность действий по получению информации из различных источников и определению ее состояния, в том числе идентификация информации, группирование по определенным признакам и представление ее в требуемом виде. Хранение информации (information storage) — совокупность действий по поддержанию состояния информации и носителей, обеспечивающего доступность информации в течение заданного времени. Актуализация информации (information actualization) — совокупность действий по обновлению, расширению, восстановлению, переструктурированию информации с целью обеспечения эффективности ее использования. Предоставление информации (information allocation) — совокупность действий по обеспечению доступа к информационным ресурсам. Тиражирование информации (information edition) — совокупность действий по переносу информации на материальные носители, обеспечивающие ее точное отображение в требуемом количестве экземпляров. Обмен информацией; коммуникация (information communication) — совокупность действий по обеспечению информационного взаимодействия объектов. Передача информации (information transmission) — совокупность действий по пересылке информации от источника к приемнику, не зависящая от вида информации и режимов ее обработки. Защита информации (information protection) — совокупность действий по обеспечению сохранности информационных ресурсов от внутренних и внешних угроз. 7.3.Основные средства информационной технологии. Организационные средства информационной технологии (organize means) — совокупность организационно-методических и научно-технических документов, содержащих описание и регламентацию технологических процессов, реализующих информационный процесс. Инструментальные средства информационной технологии (instrument means) — совокупность технических, программных и языковых средств, обеспечивающих реализацию информационного процесса. Технические средства информационной технологии (technical means) — совокупность механических, электрических, электронных и иных приспособлений, обеспечивающих реализацию информационного процесса. Программные средства информационной технологии (software) — совокупность алгоритмов и программ, используемых при реализации информационного процесса с помощью вычислительной техники. Языковые средства информационной технологии (language means) — наборы символов, соглашений и правил, которые используются для организации взаимодействия человека со средствами, реализующими информационный процесс и описания таких процессов. 7.4.Базовые и прикладные информационные технологии. Базовые информационные технологии: • технологии обработки текстов; • технологии баз данных; • технологии информационных хранилищ; • технологии интеллектуального анализа данных; • геоинформационные технологии; • технологии информационной безопасности; • технологии отображения информации; • мультимедиа технологии; • Internet-технологии; • Intranet-технологии, технологии «клиент-сервер»; • конвейерные технологии; • технологии нейровычислений; • технологии автоматизированного проектирования (CALS и CASE-технологии); • телекоммуникационные технологии; • технологии описания информационных потоков (work-flow); • технологии аналого-цифровых преобразований; • технологии тиражирования информации; • мультимедиа технологии и технологии создания виртуальной реальности; Прикладные информационные технологии : • информационные технологии по формированию и применению информационных ресурсов; • информационные технологии в системах массового обслуживания населения; • информационные технологии в процессах экологии; • информационные технологии в сфере организационного управления; • информационные технологии в сфере формирования и применения интеллектуального потенциала; • информационные технологии в производственных процессах; • информационные технологии поддержки управляющих решений в социальной, политической, экономической сферах и безопасности государства. Литература 1. Автоматизированные информационные технологии в экономике: Учебник/ Под ред. И.Т. Трубилина.- М.: Финансы и статистика, 2000.- 416 с. 2. Автоматизированные информационные технологии в экономике: Учебник/ Под ред. Г.А. Титоренко.- М.: ЮНИТИ, 2000.- 400 с. 3. Бажин И.И. Информационные системы менеджмента.- М.: ГУ-ВШЭ, 2000.- 688 с. 4. Бойко В.В., Савинков В.М. Проектирование баз данных информационных систем. – М.: Финансы и статистика, 1989. – 351 с. 5. Воройский Ф.С. Информатика. Новый систематизированный толковый словарь - справочник: - 2-е изд., перераб. и доп.- М.: "Издательство Либерея", 2001.- 536 с. 6. Гайфуллин Б.Н., Антипина Г.С. Современные информационные технологии. Обучение и консалтинг.- М.: СИНТЕГ, Интерфейс-ПРЕСС, 2000.- 176 с. 7. Годин В.В., Корнеев И.К. Информационное обеспечение управленческой деятельности: Учебник.- М.: Мастерство, Высшая школа, 2001.- 240 с. 8. Грабауров В.А. Информационные технологии для менеджеров.- 2-е изд., перераб. и доп.- М.: Финансы и статистика, 2005.- 512 с. 9. Захарова И.Г. Информационные технологии в образовании: Учеб. пособие.- М: ИЦ "Академия", 2003.- 192 с.- (Высш. образование). 10. Информатизация бизнеса: концепции, технологии, системы/ Под ред. А.М. Карминского.- 2-е изд., перераб. и доп.- М.: Финансы и статистика, 2004.- 624 с. 11. Информационные системы в экономике: Учебник для вузов/ Под ред. В.В. Дика - М.: Финансы и статистика,1996. - 269с.:ил. 12. Информационные системы и технологии в экономике: Учебник/ Под ред. В.И. Лойко; Т.П. Барановская, М.И. Семенов, А.И. Трубилин.- 2-е изд., доп. и перераб.- М.: Финансы и статистика, 2003.- 416 с. 13. Информационные технологии в маркетинге: Учебник для вузов/ Под ред. Г.А. Титоренко.- М.: ЮНИТИ,, 2000.- 335 с. 14. Информационные технологии (для экономиста): Учеб. пособие/ Под ред. А.К. Волкова.- М.: ИНФРА-М, 2001.- 310 с. 15. Информационные технологии в транспортной логистике/ Сост. А.К. Труханов.- М.: ООО "КИА центр", 2000.- 86 с. 16. Информационные технологии управления: Учебное пособие/ Под ред. Ю.М. Черкасова.- М.: ИНФРА-М, 2001.- 216 с. 17. Информационные технологии управления: Учеб.пособие для вузов/ Под ред. Г.А. Титоренко.- 2-е изд., доп.- М.: ЮНИТИ, 2005.- 439 с. 18. Козырев А.А. Информационные технологии в экономике и управлении: Учебник.- СПб.: Изд-во Михайлова В.А., 2001.- 360 с. 19. Корнеев И.К., Машурцев В.А. Информационные технологии в управлении.- М.: ИНФРА-М, 2001.- 158 с. 20. Костров А.В. Основы информационного менеджмента: Учеб. пособие для вузов.- М: Финансы и статистика, 2004.- 336 с. 21. Кульгин М. Технологии корпоративных сетей: Энциклопедия- СПб: "Питер", 2000.- 704 с. 22. Мейер М. Теория реляционных баз данных. – М.: Мир, 1987. – 608 с. 23. Мартин Дж. Планирование развития автоматизированных систем. – М.: Финансы и статистика, 1984. – 196 с. 24. Мишенин А.И. Теория экономических информационных систем: Учебник. – 4-е изд., доп. и перераб. – М.: Финансы и статистика, 1999. – 240с. 25. Романов В.П. Интеллектуальные информационные системы в экономике: Учеб. пособие.- М.: Экзамен, 2003.- 496 с. 26. Смирнова Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем: Учебник- М.: Финансы и статистика, 2002.-512 с. 27. Соколова Г.Н. Информационные технологии экономического анализа.- М.: "Экзамен", 2002.- 320 с. 28. Уткин В.Б., Балдин К.В. Информационные системы в экономике: Учебник.- М: Академия, 2004.- 283 с. 29. Федорова Г.В. Информационные технологии бухгалтерского учета, анализа и аудита.- М.: Омега-Л., 2004.- 304 с. 30. Хаббард Дж. Автоматизированное проектирование баз данных. – М.: Мир, 1984. – 294 с. 31. Цикритизис Д., Лоховски Ф. Модели данных. – М.: Финансы и статистика, 1985. – 344 с.