Надежность информационных систем

👀 2684 просмотра
📌 2665 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Надежность информационных систем», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Надежность информационных систем», Word формат

Надежность информационных систем Тема 1 ПРЕДМЕТ ТЕОРИИ НАДЕЖНОСТИ 1.1. ПРЕДПОСЫЛКИ ВОЗНИКНОВЕНИЯ ТЕОРИИ НАДЕЖНОСТИ На всех стадиях создания информационных систем (ИС) от предпроектного обследования объекта управления, технического и рабочего проектирования систем и до внедрения в эксплуатацию решается большое количество сложных задач обеспечения надежности, а именно выбор показателей надежности, оценка надежности элементов и рациональное внедрение различных видов резерва. Теория надежности ИС – это научная дисциплина, в которой разрабатываются и изучаются методы обеспечения эффективности создания и работы этих систем, вводятся основные понятия и показатели надежности, обосновываются требования к надежности с учетом экономических и других факторов, разрабатываются рекомендации по обеспечению заданных требований к надежности на стадиях проектирования и эксплуатации этих систем. На первых этапах развития теории надежности основное внимание уделялось сбору и обработке статистических данных об отказах систем. В оценке преобладала констатация степени надежности на основании этих данных. Развитие теории надежности сопровождалось совершенствованием вероятностных методов исследования, таких, как определение законов распределения показателей надежности, разработка методов расчета и испытаний систем с учетом случайного характера отказов технических средств. Среди испытаний на надежность технических средств со временем стали преобладать ускоренные и неразрушающие испытания. Наряду с ними широкое распространение получили математическое моделирование и сочетание натурных испытаний с моделированием. К 50-м годам XX века сформировались основы общей теории надежности и ее частных направлений. Технический прогресс первой половины XX в. последовательно ставил все более сложные задачи обеспечения прочности строительных конструкций, машин и надежной передачи электроэнергии. Введение запасов, с одной стороны, приводило к увеличению габаритов и массы оборудования, дополнительному расходованию материалов; с другой стороны, стимулировало изучение реальных нагрузок эксплуатации и несущих способностей материалов и конструкций, а также процессов изменения несущей способности вследствие усталости и старения материалов. Все это стимулировало более широкое использование методов возникшей еще в XVII в. теории вероятности, а также создание математической статистики. В течение длительного времени доминировало мнение о том, что исследования долговечности и надежности машин не могут вылиться в форму стройной теории и служить основой прогнозов надежной работоспособности машин вследствие множества факторов, оказывающих влияние на их долговечность. Кроме того, считалось вполне достаточным стремление к повышению долговечности и надежности деталей машин вообще, без количественной оценки достигнутого повышения. Однако стало очевидным, что стремиться к беспредельному повышению сроков службы отдельных деталей, при котором эти сроки могут значительно превосходить срок службы машины в целом, нерационально. 2 Новые трудности возникли с появлением и развитием автоматики и электроники. С развитием авиации и с появлением реактивной авиации возникла проблема надежности бортовой аппаратуры. 1.2. АКТУАЛЬНОСТЬ ПРОБЛЕМЫ НАДЕЖНОСТИ СЛОЖНЫХ СИСТЕМ Острота проблемы надежности со временем возрастала по причинам:  роста сложности технических систем, включающих до 104–106 отдельных элементов;  повышения интенсивности режимов работы системы или отдельных ее частей: при высоких температурах, высоких давлениях, высоких скоростях;  сложности условий, в которых эксплуатировались системы (низкие или высокие температуры, высокая влажность, вибрация, ускорение и радиация);  высоких требований, предъявляемых к качеству работы систем (высокие точность и эффективность);  повышения ответственности функций, выполняемых системой, высокой технической и экономической цены отказа;  полной или частичной автоматизации и исключения непосредственного участия человека при выполнении системой ее функций, исключением непрерывного наблюдения и контроля со стороны человека. Режимы работы систем характеризуются высокими температурами и давлениями, например, высокими температурами в камерах реактивных двигателей, высокими скоростями в современных турбореактивных двигателях, гироскопах и других элементах и приборах. Одновременно с развитием электроники, авиационной и других видов техники росли требования уменьшения массы и габаритов аппаратуры, требования к сокращению сроков проектирования и внедрения. Интуитивный и эмпирический подходы перестали удовлетворять требованиям практики. Возникли окончательные предпосылки для создания новой научной дисциплины – теории надежности, которая исследует и научно обосновывает общие методы и приемы, которых следует придерживаться при проектировании, изготовлении, приемке и эксплуатации систем для обеспечения максимальной эффективности от их использования. 1.3. НАУЧНО-ТЕХНИЧЕСКОЕ НАПРАВЛЕНИЕ «НАДЕЖНОСТЬ СИСТЕМ» В 1950-е годы окончательно получило признание новое научно-техническое направление – «надежность систем». Выдающаяся роль в этом принадлежит А. И. Бергу, Н. Г. Бруевичу, Б. В. Гнеденко, В. И. Сидорову, Б. С. Сотскову. Основные факторы, гарантирующие специфику этапов этого направления, условно можно разбить на три группы. К факторам первой группы, которые характеризуют исходные условия развития на каждом этапе и актуальность развития направления, относятся:  уровень сложности создаваемых систем;  уровень надежности используемых готовых элементов и изученность характеристик материалов и элементов;  изменчивость и изученность условий эксплуатации;  объем производства создаваемых систем и ответственность решаемых ими задач. 3 Сложность системы можно охарактеризовать минимальным числом элементов, принципиально позволяющих системе выполнять все возложенные на нее функции. Для систем с резервированием необходимым показателем является коэффициент резервирования. Трудности обеспечения надежности конкретной создаваемой системы определяются её сложностью и уровнем безотказности ее элементов. Для восстанавливаемых систем существенными являются характеристики ремонтопригодности, которые определяются как свойствами самих элементов, так и уровнем организации системы. В процессе создания системы изученность воздействующих на ее элементы факторов возрастает за счет экспериментальной проверки взаимного влияния элементов и эффективности средств защиты, уточнения технологических воздействий на элементы при изготовлении, технологическом контроле. В процессе применения уточняются характеристики воздействий на систему. Степень ответственности задач, решаемых системами, оценивается величиной ущерба из-за невыполнения системой своих задач. Этими факторами определяются уровень начальной неопределенности, с которой встречается разработчик новой системы, а также необходимый уровень надежности, гарантирующий успешную и своевременную реализацию программы создания и применения системы. К факторам второй группы, характеризующим возможности научно-технического направления, следует отнести организационное, техническое, программное, информационное и методическое обеспечения. Организационное обеспечение включает установленный порядок планирования и реализации работ по обеспечению надежности, организацию служб надежности, существующие экономические, административные и правовые отношения между потребителями, разработчиками и изготовителями систем. Техническое обеспечение определяется состоянием средств вычислительной техники, экспериментальной и производственной базой, уровнем технологии. Методическое обеспечение включает естественно-научный фундамент и специальные технические науки, в том числе инженерные методы анализа надежности систем на различных стадиях создания, методы синтеза рациональных программ обеспечения надежности, а также методы и алгоритмы, используемые при реализации и анализе результатов программ обеспечения надежности. Информационное обеспечение включает средства и способы сбора, накопления, обработки и использования данных о процессе создания и результатах применения систем данных, связанных с результатами анализа отказов, неисправностей, дефектов, замечаний. К факторам третьей группы относят основные результаты развития направления на данном этапе. С помощью этих результатов на каждом этапе формируются начальные условия для следующего этапа, т. е. определяются значения ряда факторов из первых двух групп. Организация структуры системы определяет наличие упорядоченности, обмена информацией между ее элементами и, как результат, гибкость и динамическую устойчивость поведения, возможности системы обрабатывать информацию, эффективно управлять объектом. Организация процесса определяет гибкость управления созданием и применением систем и возможность использования при этом управлении дополнительной оперативной и полезной информации. 4 1.4. ОСНОВНЫЕ ЭТАПЫ РАЗВИТИЯ НАДЕЖНОСТИ Выделяют четыре этапа развития научно-технического направления «надежность»: 1-й этап – 1950-е годы – становление направления; 2-й этап – 1960-е годы – этап классической теории надежности; 3-й этап – 1970-е годы – «третье поколение в надежности»; 4-й этап – 1980-е годы – настоящее время – автоматизация оценки надежности и оптимизация резервирования. Решение проблем надежности первоначально было направлено на выяснение причин отказов оборудования. В 1957 г. в США опубликовали доклад с рекомендациями об анализе отказов электронного оборудования. Основной причиной ненадежности радиоэлектронной аппаратуры была низкая надежность комплектующих элементов, поэтому перед разработчиками и исследователями встали следующие вопросы:  каковы основные причины ненадежности элементов и пути их устранения;  существуют ли возможности создания надежных систем из элементов ограниченной надежности;  можно ли прогнозировать надежность создаваемой системы на этапах проектирования. Повышение надежности элементов было достигнуто благодаря изучению влияния на отказы таких факторов, как температура окружающей среды, вибрация, электрическая нагрузка, и в большей мере благодаря совершенствованию процесса разработки, технологии изготовления и контроля готовых систем. Ответом на второй вопрос было резервирование ненадежных элементов и схем. Использование схем с резервированием привело к развитию методов анализа надежности, а также теоретических методов синтеза надежных схем из ненадежных элементов. Использование вероятностных моделей, основанных на гипотезе об экспоненциальном законе распределения времени до отказа электронного оборудования, дало положительные результаты, поскольку появились возможности прогнозирования надежности создаваемых систем. Переход ко второму этапу начался в 1958 г., когда появились первые контракты, требовавшие экспериментального подтверждения надежности аппаратуры. Возрастающее количество испытаний на надежность и четкий анализ причин отказов показали зависимость между конструкцией «приборов», технологией производства, испытаниями, эксплуатационными условиями, с одной стороны, и отказами элементов – с другой. На втором этапе была отмечена недостаточная эффективность прямых статистических испытаний на надежность в сочетании с последующим выборочным производственным контролем работоспособности элементов и систем, не исключающим отказов систем при эксплуатации. С 1968 г. отмечается переход к 3-му этапу. К этому времени был накоплен большой объем экспериментальных данных и богатый опыт изготовления высоконадежных систем. Вместе с тем не всегда обоснованное применение моделей и оценок надежности, основанных только на экспоненциальном законе, стало тормозом в обеспечении надежности. В связи с этим НАСА был опубликован новый вариант требований по надежности:  четкое планирование и эффективное руководство всеми работами в области надежности; 5  определение специальных задач в области надежности и их роли и места в процессе проектирования и разработки;  оценка надежности оборудования (с учетом взаимного влияния документального и математического обеспечения) путем использования инженерного анализа, испытаний, экспертных оценок и прогнозирования;  регулярная и своевременная информация о состоянии дел в области надежности разрабатываемой системы. Количественные показатели надежности вводят в теорию надежности на основе построения математических моделей рассматриваемых объектов. В теории надежности используются разнообразные математические методы, особое место занимают методы теории вероятности и математической статистики. Аналитические методы расчета надежности сочетаются с методами моделирования на ЭВМ. Тема 2 ОСНОВНЫЕ ПОНЯТИЯ НАДЕЖНОСТИ ИНФОРМАЦИОННЫХ СИСТЕМ Проявление нарушений имеет место во всех сферах реальной действительности. При этом неизбежность нарушений заложена в самой природе вещей. Поэтому под надежностью понимают свойство систем, проявляющееся в способности эффективно функционировать, сохраняя при этом устойчивость определенных параметров в некоторый промежуток времени. 2.1. ОСНОВНЫЕ ПОНЯТИЯ, ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ В процессе функционирования информационные системы (в дальнейшем ИС) испытывают как внутренние (отказы, ошибки оперативного персонала), так и внешние (возмущения внешней среды, изменение состояния технического объекта управления) возмущения. Для того чтобы система считалась надежной, время реакции ее на возмущающее воздействие должно быть меньше длительности этого воздействия. Для ИС под надёжностью понимается свойство системы выполнять заданные функции, сохраняя во времени значения установленных эксплутационных показателей в заданных пределах, соответствующих установленным условиям использования, технического обслуживания и ремонта. Надёжность является комплексным свойством, зависящим от назначения системы и условий её эксплуатации. Главными свойствами системы, обеспечивающими надёжность, являются безотказность, ремонтопригодность, долговечность, сохраняемость. Для различных систем эти свойства могут иметь различную значимость. Для неремонтируемых систем надёжность включает в себя в основном безотказность (системы управления на спутниках, ракетах и т. д.). Для ремонтируемых систем одним из важнейших свойств, составляющих надёжность, является ремонтопригодность. Количественно надёжность оценивается с помощью показателей, которые выбираются и определяются с учетом особенностей системы, режимов и условий её эксплуатации и последствий отказов. Значения показателей в зависимости от условий обеспечения надежности могут изменяться в процессах проектирования, производства и эксплуатации. 6 Под обеспечением надёжности системы понимается совокупность организационнотехнических и научно-методических мер, направленных на достижение при поддержании заданных показателей надёжности на всех стадиях жизненного цикла. Наработка – время работы системы. Она может работать непрерывно или с перерывом, во втором случае учитывается суммарная наработка. Наработка измеряется в единицах времени. В процессе эксплуатации или испытаний системы различают наработку на отказ, наработку до отказа, заданную наработку. Безотказность – свойство системы непрерывно сохранять работоспособность в течение некоторого времени или некоторой наработки. Этим свойством система обладает как в период эксплуатации, так и в периоды хранения и транспортировки. Ремонтопригодность – свойство системы, заключающееся в приспособленности к предупреждению и обнаружению причин возникновения нарушений работоспособности и устранению их последствий проведением ремонтов и технического обслуживания. Показатели ремонтопригодности в нормативно-технической документации могут относиться к регламентируемым условиям ремонта. Долговечность – свойство системы сохранять работоспособность до наступления предельного состояния при установленной системе технического обслуживания и ремонта. Под предельным состоянием подразумевается состояние системы, при котором её дальнейшая эксплуатация должна быть прекращена из-за неустранимого нарушения требований или неустранимого снижения эффективности эксплуатации ниже допустимой. Сохраняемость – свойство системы непрерывно сохранять исправное и работоспособное состояние до и после хранения и/или транспортирования. Исправность – состояние системы, при котором она соответствует всем требованиям, установленным нормативно-технической документацией. Неисправность (неисправное состояние) – состояние системы, при котором она не соответствует хотя бы одному из требований, установленных нормативно-технической документацией. Работоспособность – состояние системы, при котором она способна выполнять заданные функции, сохраняя значение заданных параметров в пределах, установленных нормативно-технической документацией. Неработоспособность – состояние системы, при котором значение хотя бы одного заданного параметра, характеризующего способность выполнить заданные функции, не соответствует требованиям, установленным нормативно-технической документацией. Понятие «исправность» шире понятия «работоспособность». Работоспособная система в отличие от исправной удовлетворяет лишь тем требованиям НТД, которые обеспечивают её нормальное функционирование при выполнении заданных функций. При этом она может не удовлетворять, например, требованиям, относящимся к внешнему виду. Работоспособная система может быть неисправной, однако её неисправности при этом не настолько существенны, чтобы нарушить нормальное функционирование системы. Восстанавливаемая система – система, работоспособность которой в случае отказа подлежит восстановлению в рассматриваемой ситуации. Невосстанавливаемая система – система, работоспособность которой в случае возникновения отказа не подлежит восстановлению в рассматриваемой ситуации. Ремонтируемая система – система, исправность и работоспособность которой в 7 случае возникновения или повреждения подлежит восстановлению. Неремонтируемая система – система, исправность и работоспособность которой в случае возникновения отказа или повреждения не подлежит восстановлению. Повреждение – событие, заключающееся в нарушении исправности системы или её составных систем вследствие внешних воздействий, превышающих уровни, установленные в нормативно-технической документации на систему. Повреждение может быть существенным или несущественным. В первом случае оно является причиной нарушения работоспособности. Во втором – работоспособность системы сохраняется. Повреждение может быть также значительным или незначительным. В первом случае – отказ системы, во втором – нарушение исправности при сохранении работоспособности. Некоторые незначительные повреждения со временем могут переходить в категорию значительных и тем самым приводить к отказу системы. Отказ – событие, заключающееся в нарушении работоспособности системы. Признаки (критерии) отказа устанавливаются нормативно-технической документацией. Сбой – самоустраняющийся отказ, приводящий к кратковременному нарушению работоспособности. Резервирование – метод повышения надёжности системы введением дополнительных средств и возможностей сверх минимально необходимых для выполнения системой заданных функций. Структурное резервирование – резервирование, предусматривающее использование избыточных элементов структуры системы. Временное резервирование предусматривает использование избыточного времени. Информационное резервирование предусматривает использование избыточной информации. Функциональное резервирование предусматривает использование способности элементов выполнять дополнительные функции. Нагрузочное резервирование предусматривает использование способности объекта воспринимать дополнительные нагрузки. Скользящее резервирование – резервирование замещением, при котором группа основных элементов системы резервируется одним или несколькими резервными элементами, каждый из которых может заменить любой отказавший основной элемент в данной группе. Нагруженный резерв – резервный элемент, находящийся в том же режиме, что и основной элемент. Кратность резервирования – отношение числа резервных элементов к числу резервируемых или основных элементов системы. Дублирование – резервирование, кратность которого равна единице. Общее, раздельное, смешанное резервирование – резервирование объектов в целом, отдельных элементов, совмещение различных видов резервирования. Достоверность – вероятность получения правильного результата. Количественно показатель равен отношению количества правильно решенных задач к общему количеству решённых однотипных задач за достаточно большой промежуток времени. 2.2. ПОКАЗАТЕЛИ НАДЕЖНОСТИ Показателем надёжности является величина 8 или совокупность величин, характеризующих качественно или количественно степень приспособленности систем к выполнению поставленной задачи при применении по назначению. Качественные показатели надёжности указывают на то, что рассматриваемая система обладает каким-либо свойством, имеет то или иное устройство, способное выполнить поставленные задачи; дают возможность отличать системы друг от друга, но не позволяют сравнивать их по надёжности. Количественные показатели надёжности выражаются в виде числа, надёжность измеряется или оценивается в принятой шкале оценок в абсолютных или относительных единицах при помощи этих показателей. Количественные показатели определяются путём статических наблюдений на основе обработки результатов применения или испытания систем, а также путём аналитических расчетов или моделирования процессов функционирования систем. 2.2.1. Показатели надежности элементов Опыт испытаний и эксплуатации элементов автономно и в составе системы показывает, что каждому элементу может соответствовать некоторое неотрицательное число ti, характеризующее его работоспособность во времени с момента поставки в эксплуатацию до появления отказа. Величина ti, определяющая длительность срока службы элемента, является его характеристикой надёжности. Анализ появления отказов и обработка результатов наблюдений свидетельствует о том, что величина ti может рассматриваться как реализация случайной величины T, обладающей статически устойчивым распределением. О статической устойчивости соответствующего распределения свидетельствует экспериментально подтверждающее равенство вида (2.1) i t   Fi t  , где i t  – частота появления отказов за промежуток времени [0,t]; F(t) – вероятность появления отказа за время [0,t]. (2.2) pi t   1  Fi t  , где pi t  – вероятность безотказной работы элемента. 2.2.2. Показатели надежности системы Система считается выполнившей возложенные на неё функции, если она в момент t3 поступления заявки на применение находилась в установленном для неё исходном положении, своевременно прошла период подготовки ~г n и не потеряла работоспособность за время применения ~г p . В качестве общего показателя надёжности системы применяется вероятность выполнения её заданных функций в установленные сроки при соблюдении правил эксплуатации. Выполнение системой поставленной задачи в установленные сроки при соблюдении правил эксплуатации представляет собой сложное событие A, являющееся произведением трёх событий:  A1 – нахождение системы в момент времени t3 поступления заявки на применение необходимом исходном положении;  A2 – подготовка к применению за установленное время ~г n ;  A3 – отсутствие отказов за время ~rp . 9 p(t 3 , ~ гn , ~ г p )  K r (t 3 , ~ г n )  p(t 3 , ~ г n )  P(t 3 , ~ гp ) , (2.3) где Kr (t3 , ~гn ) – вероятность события A1, зависящая в общем случае от момента поступления заявки на применение системы; p(t3 , ~гn ) – вероятность события A2, вычисленная при условии, что событие A1 имело место; P(t3 , ~г p ) – вероятность события A3, вычисленная при условии, что A1 и A2 имели место. Будем называть вероятность Kr (t3 , ~гn ) – показатель технической готовности системы, вероятность p(t3 , ~гn ) – показатель надёжности системы в период подготовки, вероятность P(t3 , ~ г p ) – показатель надёжности системы в период применения: ~ гn K r   K r t3  f t3 dt3 . (2.4) Для систем со случайным периодом обслуживания, где f(t3) – плотность распределения времени поступления заявки на применение системой Kr ~ 1 гn  ~  K r t3  f t3 dt3 . г 0 (2.5) Для систем со случайным техническим обслуживанием, если принять гипотезу о равномерном законе распределения времени t3, что соответствует плотности f(t3) = 1/ ~г n, (2.6) K r  1  Ton~ гn . 2.2.3. Частные показатели надежности систем Сложная ИС в общем случае может характеризоваться такими периодами эксплуатации как:  содержание в готовности к применению ~г г;  подготовка к применению ~г n ;  применение по назначению ~г nр. Суммарная продолжительность эксплуатации системы равна ~г = ~г + ~г + ~г . э г n р (2.7) 2.2.4. Основные показатели надежности Показатели надёжности количественно характеризуют, в какой степени системе или объекту присущи определённые свойства, обуславливающие их надёжность. Показатели надёжности могут иметь размерность (наработка на отказ) или не иметь её (вероятность безотказной работы). Показатель надёжности, относящийся к одному из свойств, определяющих надёжность, называется единичным. Комплексный показатель надёжности относится к нескольким свойствам, определяющим надёжность системы. 2.2.4. Единичные показатели надежности Показатели безотказности Вероятность безотказной работы – вероятность того, что в пределах заданной наработки отказ не возникает. Средняя наработка до отказа – математическое ожидание наработки системы до 10 первого отказа. Показатель применяется по отношению к невосстанавливаемым системам, для которых первый отказ является единственным, усреднение производится по совокупности однотипных систем. Оценка средней наработки до отказа зависит от плана испытаний и закона распределения наработки до отказа. Например, при плане [N, U, Т] и экспериментальном распределении наработки до отказа (оценка) определяется по формуле r Ti  t i 1 i  T (N  r) , r r  0, (2.9) где ti – наработка i-й системы до отказа; N – число испытываемых систем; r – число отказов за время испытаний. Наработка на отказ – отношение наработки восстанавливаемой системы к математическому ожиданию числа её отказов в течение этой наработки. Наработка на отказ статистически определяется отношением суммарной наработки восстанавливаемых систем к суммарному числу отказов этих систем. При экспоненциальном распределении наработки между отказами оценка для наработки на отказ определяется формулой: T0  1  . (2.10) Величина наработки на отказ в общем случае зависит от длительности периода, в течение которого она определяется. Это обусловлено непостоянством характеристики потока отказов. Если после каждого отказа система восстанавливается до первоначального состояния, то среднее время между отказами равно среднему времени до отказа. Интенсивность отказов – условная плотность вероятности возникновения отказа невосстанавливаемой системы, определяется для рассматриваемого момента времени при условии, что до этого момента отказ не возник. Определение этого термина основывается на применяемом в теории надежности понятии плотности вероятности отказа в момент t, под которой понимается предел отношения вероятности отказа в интервале времени от t до t + ∆t к величине интервала ∆t при ∆t→0. Физический смысл плотности вероятности отказа – это вероятность отказа в достаточно малую единицу времени. Из определения интенсивности отказов λ(t) следует, что p(t )   (t )  t  f (t )  t , (2.12) где p(t) – вероятность безотказной работы за время t; f(t) – плотность распределения наработки до отказа. Из этого соотношения имеем  (t )  f (t ) , p(t ) (2.13) т. е. формулу для аналитического определения λ(t) по известному закону распределения наработки до отказа. Параметр потока отказов – плотность вероятности возникновения отказа восстанавливаемой системы, определённая для рассматриваемого момента времени. Детально показатели применяются для систем, а значит, к ЭВМ, для которых характерны сбои, которые преобладают в общем количестве нарушения работоспособности. (2.14) Nc  k  Nom 11 где 1 < k < 14. Так как устранение последующих сбоев имеет ряд особенностей, по сравнению с восстановлением работоспособности после устойчивых отказов, во многих случаях целесообразно перечисленные показатели применять только по отношению к устойчивым отказам, а для сбоев ввести дополнительные показатели: вероятность бессбойной работы, среднее время между сбоями, параметр потоки сбоев. Показатели ремонтопригодности Ремонтопригодность характеризуется временем восстановления работоспособности после отказа, временем, затрачиваемым на обнаружение отказа, поиск его причины и устранение последствий. Вероятность восстановления в заданное время – вероятность того, что время восстановления работоспособности системы не превысит заданного Pв. Время восстановления – время, затраченное на обнаружение, поиск причин отказа и устранение последнего отказа. Среднее время восстановления – математическое ожидание времени восстановления работоспособности Tв. Показатели долговечности Долговечность системы характеризуется его наработкой от начала эксплуатации до наступления предельного состояния. Эта наработка называется техническим ресурсом (или просто ресурсом). Ресурс для каждой системы может быть величиной случайной. Долговечность системы может оцениваться следующими показателями:  средний ресурс – математическое ожидание ресурса;  гамма-процентный ресурс – время, в течение которого система не достигнет предельного состояния с заданной вероятностью  процентов;  назначенный ресурс – суммарная наработка системы, после достижения которой должна быть прекращена эксплуатация независимо от его состояния. Показатели сохраняемости В режиме хранения и (или) транспортировки могут возникать отказы, поэтому сохраняемость характеризуется показателями, аналогичными показатели безотказности: вероятностью невозникновения отказа в течение заданного времени хранения (транспортировки), средним временем хранения (транспортировки) до отказа, средним временем хранения (транспортировки) на отказ, интенсивностью отказов и параметров потока отказов при хранении (транспортировке). Показатели сохраняемости характеризуют величину срока сохраняемости – календарную продолжительность хранения (транспортировки) системы в заданных условиях, в течение и после которой сохраняются значения заданных показателей в установленных пределах. Средний срок сохраняемости – математическое ожидание срока сохраняемости. Гамма-процентный срок сохраняемости – срок сохраняемости, который будет достигнут системой с заданной вероятностью  процентов. Комплексные показатели надёжности Комплексные показатели надёжности используются для совместной оценки свойств безотказности и ремонтопригодности восстанавливаемых систем. При выборе необходимо учитывать следующие факторы:  назначение системы;  характер процесса функционирования; 12  требования к показателю или системе показателей;  простой физический смысл;  минимальный объём системы показателей;  возможность опытной проверки. В общем случае показатели делятся на первичные и обобщенные (рис.2.1). Первичные показатели Интенсивность отказов Интенсивность восстановления Наработка на отказ Обобщенные показатели Вероятность безотказной работы Среднее время восстановления Коэффициент оперативной готовности Коэффициент готовности Вероятность восстановления Рис. 2.1 Тема 3 СИСТЕМАТИЗАЦИЯ НАРУШЕНИЙ РАБОТОСПОСОБНОСТИ ИНФОРМАЦИОННЫХ СИСТЕМ 3.1. ХАРАКТЕРИСТИКА ОТКАЗОВ Отказ – это частичная или полная утрата свойств элемента, которая существенным образом снижает работоспособность или приводит к ее полной потере. Отказ наступает каждый раз, когда системы не сохраняют своих параметров в заданных пределах. Например, ухудшение точности ниже заданного предела есть отказ, хотя система работоспособна. Отказы можно классифицировать по различным признакам. 1. По характеру устранения можно различать устойчивые и перемежающиеся отказы. Устойчивые отказы являются следствием необратимых процессов в деталях и материалах. В этих случаях для восстановления работоспособности объекта необходимо производить его ремонт. Перемежающиеся отказы в большинстве случаев являются следствием обратимых случайных изменений режимов работы системы. При возвращении режима работы в допустимые пределы система сама, обычно без вмешательства человека, возвращается в работоспособное состояние. Обычно последствия возникновения перемежающихся отказов отличаются от последствий появления устойчивых отказов. Перемежающиеся отказы особенно неприятны в информационных системах, работающих в реальном масштабе времени. Их появление трудно обнаружить, т. к. после их исчезновения система остается работоспособной. 2. По связи с другими отказами можно различать отказы первичные, возникшие по любым причинам, кроме действия другого отказа, и вторичные, возникшие в результате другого отказа. Отказ является случайным событием, отказы могут быть независимыми или зависимыми. Отказы являются зависимыми, если при появлении одного из них изменяется вероятность появления второго отказа. Для независимых отказов вероятность появления одного из них не зависит от того, происходили другие отказы или нет. Различие между вторичными и зависимыми отказами состоит в том, что после появления отказа (первичного) вторичный отказ другого элемента наступает неизбежно, а для зависимого отказа лишь изменяется вероятность его появления. 3. По легкости обнаружения отказы подразделяются на очевидные (явные) или скрытные (неявные). Явные отказы легко диагностируются, скрытые требуют значительных технических и программных ресурсов. 4. По характеру возникновения можно различать отказы внезапные, состоящие в 13 резком, практически мгновенном изменении характеристик систем, и отказы постепенные, происходящие за счет медленного постепенного ухудшения качества системы. Внезапные отказы обычно проявляются в виде механических повреждений элементов. Внезапные отказы получили свое название из-за того, что обычно отсутствуют видимые признаки их приближения, т. е. перед отказом обычно не удается обнаружить количественные изменения характеристик системы. Постепенные отказы связаны с износом деталей, старением материалов и разрегулированием устройств. Параметры системы могут достигнуть критических значений, при которых его состояние считается неудовлетворительным, т. е. происходит отказ. 5. При классификации отказов по характеру проявления различают систематический отказ, полный отказ, частичный отказ. Под систематическим отказом понимается многократно повторяющийся отказ, обусловленный неисправностями системы, заложенными при её проектировании, изготовлении и эксплуатации. Полный отказ – система переходит в неработоспособное состояние. Причина систематического отказа, устанавливается и ликвидируется. Частичный отказ – отказ, после возникновения которого система может быть использована по назначению, но с меньшей эффективностью. Применительно к отказам рассматривают критерии, причину, признаки, характер и последствия. Критерий – признак, позволяющий установить факт нарушения работоспособности. Причина – суть неисправности и дефекта, заложенные на стадиях проектирования, изнашивания и старения. Признаки – непосредственные или косвенные воздействия на органы чувств наблюдателя явления, характерные для неработоспособных состояний системы (зацикливание). Характер – конкретные изменения в системе, связанные с возникновением отказа. Последствия – результат отказа. В общем количестве отказов системы преобладают сбои, т. е. самоустраняющиеся отказы. Под сбоем системы понимается непредусмотренное изменение ее состояния, после которого работоспособность самовосстанавливается или восстанавливается оператором без проведения ремонта. Хотя сбои и рассматриваются как «самоустраняющиеся отказы», для устранения их влияния на систему, как правило, требуется принятие специальных мер (введение дополнительных программ устранения последствий сбоев, дополнительной аппаратуры, вмешательство оператора). Это вызвано тем, что во время сбоев может быть искажена часть хранимых данных. Отказы, возникающие в процессе функционирования системы, можно рассматривать как композицию ошибок проектирования; ошибок операторов; искажений исходных данных; искажение данных в линиях связи при их передаче; искажений, возникающих при хранении информации на магнитных носителях; искажений, порождаемых неисправностями логических и специальных элементов. Ошибки проектирования включают те ошибки в документации, аппаратуре или программном обеспечении, которые не были обнаружены в процессе проектирования и опытной эксплуатации системы, но проявились в процессе работы. Объективная возможность наличия таких ошибок связана со сложностью современных систем управления и ограниченным временем, отводимым на их испытания. 14 В программном обеспечении системы можно выделить следующие типы ошибок: программные, алгоритмические и системные. Большинство ошибок проектирования выявляют и устраняют в период комплексной отладки и сдачи системы в эксплуатацию. Однако часть ошибок остается необнаруженной. При разработке программного обеспечения сложных систем следует учитывать тот факт, что с некоторой вероятностью эксплуатационный персонал будет работать с системой, содержащей ошибки проектирования. В ряде случаев они проявляют себя как сбои, диагностика которых может быть весьма сложной. Ошибки операторов возникают в работе системы из-за ошибочных действий операторов, а также вследствие плохой организации технической эксплуатации. Ошибки оператора статистически непредсказуемы и повторяются с непредсказуемой частотой. Один сбой в системе из четырех является следствием ошибки оператора. Ошибки в исходных данных. В системах, обрабатывающих экономическую информацию, особенно остро стоит проблема борьбы с ошибками в исходных данных. В этих системах вручную подготавливают большое количество исходных данных, и необнаруженные ошибки приводят к существенным издержкам. Например, при расчете подетальных планов производства на 2-м Московском часовом заводе оказалось, что одна необнаруживаемая ошибка в любом из массивов исходной информации искажает 30–50 % результатов расчета и приводит к увеличению времени решения задачи в несколько раз. При обработке экономической информации наиболее существенными составляющими ошибки, определяющими достоверность входных данных, являются ошибки из-за неправильности заполнения исходных документов. Ошибки в линиях связи. Линии связи, предназначенные для передачи данных, являются в настоящее время компонентом большого числа систем. Средняя вероятность ошибки для большинства линий связи составляет 10–3 – 10–4. 3.2. ОШИБКИ, ПОРОЖДАЕМЫЕ НЕИСПРАВНОСТЯМИ ЛОГИЧЕСКИХ И СПЕЦИАЛЬНЫХ ЭЛЕМЕНТОВ Имеющийся статистический материал показывает, что сбои составляют большую часть общего числа нарушения работоспособности систем: внезапные и постепенные отказы 0,5–4,5 %, сбои 55–95,5 %. Для обнаружения ошибок в системах широко используют различные методы контроля, позволяющие зафиксировать наиболее типичные из них. Сбои, зафиксированные системой контроля, исправляют, и тем самым не допускается распространение их на выход системы. На сегодня самая серьезная проблема в области обработки данных – это проблема программного обеспечения. В качестве подтверждения этого факта можно привести немало примеров. Дефект в программном обеспечении бортовой системы космического корабля «Аполлон-8» уничтожил содержимое части памяти машины. За 10 дней полета «Аполлона-14» было обнаружено 18 ошибок. Серьезные ошибки в программном обеспечении не ограничивались только программой «Аполлон». Ошибка в единственном операторе программы на Фортране (в операторе DO была пропущена запятая) привела к неудаче при первом запуске американского исследовательского корабля на Венеру. Дефекты в медицинском программном обеспечении явились причиной нескольких 15 смертельных случаев, а ошибка в программе проектирования самолета вызвала несколько серьезных авиакатастроф. По мере введения ИС во все сферы нашей жизни последствия недостаточной надежности становятся все серьезнее. 3.3. ОТКАЗЫ В НЕВОССТАНАВЛИВАЕМЫХ СИСТЕМАХ В невосстанавливаемых системах частотой отказов называется отношение числа отказавших элементов системы в единицу времени к числу элементов, первоначально установленных на испытания при условии, что отказавшие элементы не восстанавливаются и не заменяются исправными. Так как число отказавших элементов в интервале времени Δt может зависеть от расположения этого промежутка по оси времени, то частота отказов является функцией времени. Эта характеристика в дальнейшем обозначается a (t). Согласно определению nt  , (3.1) at   N 0  t где n(t) – число отказавших образцов в интервале времени от t – Δt / 2 до t + Δt / 2; Δt – интервал времени; N0 – число элементов системы, первоначально установленных на испытание. Это выражение является статистическим определением частоты отказов. Этой количественной характеристике надежности легко дать вероятностное определение. Вычислим в выражении (3.1) n(t), т. е. число элементов, отказавших в интервале Δt. Очевидно, n (t) = – [N(t + Δt) – N(t)], (3.2) где N(t) – число элементов, исправно работающих к моменту времени t; N(t+Δt) – число элементов, исправно работающих к моменту времени t + Δt. При достаточно большом числе элементов N0 справедливы соотношения N(t) = N0  P(t); N(t + Δt) = N0  P(t + Δt). (3.3) Подставляя (3.2) в (3.1) и учитывая (3.3), получим N  Pt  t   Pt  . (3.4) at   N 0  t Устремляя Δt→0 и переходя к пределу, получим (3.5) Из этого выражения видно, что частота отказов есть плотность распределения времени работы системы до ее отказа. Численно она равна взятой с противоположным знаком производной от вероятности безотказной работы. Частота отказов, являясь плотностью распределения, наиболее плотно характеризует такое случайное явление, как время возникновения отказов. В этом ее основное достоинство как характеристики надежности. Средней частотой отказов называется отношение числа отказавших элементов в единицу времени к числу испытываемых элементов при условии, что все элементы, вышедшие из строя, заменяются исправными (новыми или восстановленными). nt  , (3.6) wt   a(t) = – lim[P(t + Δt) – P(t)] / Δt = – ΔP'(t). N 0  t где n(t) – число отказавших образцов в интервале времени от t – Δt / 2 до t + Δt / 2; Δt – интервал времени; N0 – число испытываемых элементов (N0) остается в процессе испытания постоянным, т. к. все отказавшие элементы заменяются исправными). Сложная система состоит из большого числа элементов. Поэтому представляет 16 интерес найти зависимость средней частоты отказов системы от средних частот отказов элементов. Для этой цели введем понятие суммарной частоты отказов сложной системы. Суммарной частотой отказов называется число отказов системы в единицу времени, приходящееся на один ее экземпляр. nt  , (3.7) wc t   1  t где n(t) – число отказавших образцов в интервале времени от t – Δt / 2 до t + Δt / 2; Δt – интервал времени. Если для определения wc(t) используется несколько элементов, то суммарная частота отказов вычисляется по формуле N0 wc t    n t  , i 1 i N 0  t (3.8) где ni(t) – число отказов i-го элемента в интервале времени от t – Δt / 2 до t + Δt / 2; Δt – интервал времени; N0 – число испытываемых элементов системы. Отказы сложной системы состоят из отказов отдельных элементов, поэтому число отказов n(t) системы в выражении (3.7) будет равно сумме всех отказов элементов. Если Ni – число элементов i-го типа, а wi – средняя частота отказов элементов i-го типа, то за промежуток времени (t, t + Δt) произойдет Ni wi(t)Δt отказов элементов i-го типа, а всего отказов будет r (3.9) nt   t   N i  wi t  , i 1 где r – число типов элементов. Подставляя значение n(t) в (3.7) получим r wc t    N i  wi t  , (3.10) i 1 т. е. суммарная частота отказов сложной системы в момент времени t равна сумме средних частот отказов элементов. Интенсивностью отказов называется отношение числа отказавших элементов системы в единицу времени к среднему числу элементов, исправно работающих в данный отрезок времени, при условии, что отказавшие образцы не восстанавливаются и не заменяются исправными. Эта характеристика обозначается λ(t) и в ряде источников называется либо опасностью отказов, либо лямбда-характеристикой. Согласно определению,  t   Nnt t , (3.11) cp где n(t) – число отказавших образцов в интервале времени от t – Δt / 2 до t + Δt / 2; Δt – интервал времени; Nср = (Ni + Ni+1) / 2 – среднее число исправно работающих элементов в конце интервала Δt. Для большинства элементов автоматизированных систем, в состав которых они входят, характерным свойством интенсивности отказов является свойство λ = const для периода нормальной работы системы. Это объясняется отсутствием старения элементов на участке нормальной работы. Выражение (3.11) является статическим определением интенсивности отказов. Для вероятностного представления этой характеристики установим зависимость между интенсивностью отказов, вероятностью безотказной работы и частотой отказов. Подставим в выражение (3.11) вместо n(t) его значения из (3.2) и (3.3). Тогда получим 17  t   N0  Pt  t   Pt  . Ncp  t Учитывая, что Nср = N0 – n(t), найдем Pt  t   Pt  .  t   Pt   t Устремляя Δt→0 и переходя к пределу, получим λ(t) = –lim[P(t + Δt) – P(t)] / P(t)Δt = –ΔP'(t) / P(t). (3.12) (3.13) (3.14) Интегрируя (3.14), получим t    t dt  lnPt  . (3.15) Т. к. – P'(t) = a(t), то на основании (3.14) получим at   t   Pt  или t at     t   ехр  t dt . (3.16) (3.17) Выражения (3.15)–(3.17) устанавливают зависимость между вероятностью безотказной работы, частотой отказов и интенсивностью отказов. Выражение (3.16) может быть вероятностным определением интенсивности отказов. 3.4. ОТКАЗЫ В ВОССТАНАВЛИВАЕМЫХ СИСТЕМАХ Надежность ИС оценивают, в отличие от среднего времени безотказной работы, так называемой наработкой на отказ. Наработкой на отказ называется среднее значение времени между соседними отказами при условии восстановления каждого отказавшего элемента. Эта характеристика обозначается t0 и определяется из статистических данных об отказах по формуле n tc  t i 1 i , n (3.18) где n – число отказов системы за время t; ti – время исправной работы системы между (i – 1)-м и i-м отказами. Из формулы (3.18) видно, что наработка на отказ является средним временем между соседними отказами. Этой формулой удобно пользоваться, если tс – характеристика лишь одного элемента системы. Если испытание проводится с несколькими элементами, определяется по данным об отказах, то tсi вычисляется по формуле N0 tc  t j 1 cp j N0 , (3.19) где tсрj – среднее время между соседними отказами j-го элемента, вычисляемое по формуле (4.18); N0 – число испытываемых элементов. Найти связь среднего времени между соседними отказами с другими количественными характеристиками надежности проще всего через среднюю частоту отказов. Действительно, если известны средние частоты отказов элементов сложной системы, то среднее число отказов системы в любом промежутке времени определяется ее суммарной частотой отказов. Тогда среднее время между соседними отказами будет 18 равно величине, обратной суммарной частоте отказов, т. е. 1 tcp t   wc t  или 1 , tcp t   r  Ni  wi t  (3.20) (3.21) i 1 где r – число типов элементов. Так как средняя частота отказов элементов wi(t) при t → ∞ стремится к постоянной величине, равной 1 / Ti , то tср системы также стремится к постоянной величине, определенной выражением 1 , (3.22) limt cp t   r t   N i / Ti i 1 где Ti – среднее время безотказной работы системы из-за отказов элементов i-го типа. Так как (3.23)  N / T  1/ T , r i 1 i i то при t → ∞ среднее время между соседними отказами системы стремится к ее среднему времени безотказной работы и в пределе равно T, т. е. (3.24) lim t cp t   T . t  Среднее время между соседними отказами как всякое среднее значение случайной величины не может полностью характеризовать время безотказной работы системы. Вероятность безотказной работы P(t), частота отказов a(t), средняя частота отказов w(t), интенсивность отказов λ(t) и среднее время безотказной работы T, среднее время между соседними отказами tср являются основными количественными характеристиками надежности. Каждая из них имеет свои достоинства и недостатки. Ни одна из них не является исчерпывающей характеристикой надежности. Только все они в совокупности могут характеризовать достаточно полно надежность системы в течение ее работы. При эксплуатации ИС отказы возникают в случайные моменты времени. Так как они устраняются, то в течение достаточно длительного времени эксплуатации наблюдается поток отказов. Под потоком отказов, как уже определили ранее, понимается последовательность отказов, происходящих один за другим в случайные моменты времени. Вид потока отказов определяет свойства системы и критерии надежности, аналитические зависимости между количественными характеристиками надежности, а также методы ее расчетов и испытания. Поэтому изучение потоков отказов имеет важное значение. Наиболее важными характеристиками потока отказов является параметр потока. Параметром потока отказов λ(t) называется предел отношения вероятности появления хотя бы одного отказа за промежуток Δt к данному промежутку при Δt → 0, т. е. P t , t  t  . (3.25)  t   liт 1 t 0 3.5. t ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВРЕМЕНИ МЕЖДУ ОТКАЗАМИ Время между отказами является непрерывной случайной величиной. Эта случайная 19 величина с вероятностной точки зрения будет полностью определена, если известна ее функция распределения. В теории надежности наиболее целесообразно характеризовать время между соседними отказами производной от функции распределения, т. е. дифференциальным законом распределения. Это объясняется тем, что одна из количественных характеристик надежности, а именно частота отказов, является дифференциальным законом распределения времени между отказами. Эта функция часто называется плотностью распределения, плотностью вероятности. Случайные величины в зависимости от их физического смысла могут иметь различные законы распределения. На практике время между отказами сложных систем и простейших элементов подчиняется только таким законам распределения, как экспоненциальное (показательное), Рэлея, нормальное, гамма-распределение, Вейбулла. При экспоненциальном законе распределения времени возникновение отказов является величиной постоянной, т. е. справедливо условие λ(t) = λ = const. Тогда зависимости между основными количественными характеристиками будут выражены формулами P(t) = exp[-λ t]; Q(t) = 1 – exp[-λt]; (3.26) a(t) = λexp[-λt]; T = 1 / λ. Условие λ(t) = const означает, что средняя частота отказов и среднее время между соседними отказами соответственно равны интенсивности отказов и среднему времени безотказной работы, т. е. w(t) = λ(t) = λ = const. tср = T. (3.27) Эти условия становятся очевидными, если вспомнить, что для простейшего потока его интенсивность и параметр совпадают. При проведении эксперимента с целью получения λ(t) из общего числа N0 элементов, первоначально установленных на испытания, выбывают отказавшие элементы, т. е. число элементов, участвующих в испытаниях, с течением времени уменьшается. Если отсутствует старение системы, то пропорционально уменьшению числа элементов N0 уменьшается также число отказавших образцов n. Пропорциональное уменьшение числителя и знаменателя выражения (3.11) означает, что интенсивность отказов не зависит от времени эксплуатации, т. е. λ = const. При распределении времени возникновения отказов по закону Рэлея частота отказов определяется выражением t (3.28) at   2  ехр t 2 / 2   2  ,  где σ – параметр распределения Рэлея. Тогда вероятность безотказной работы, опасность отказов и среднее время безотказной работы будут выражаться следующими формулами: P(t) = exp[- t2 / 2σ2]; λ(t) = t / σ2; T    / 2 . (3.29) Из выражения (3.29) видно, что в области малых t, где интенсивность отказов незначительна, вероятность безотказной работы системы уменьшается с течением времени медленнее, чем при экспоненциальном законе. Это означает, что сложные системы, предназначенные для малого времени непрерывной работы, целесообразно строить на элементах, имеющих рэлеевский закон распределения времени между отказами. Условие целесообразности применения таких элементов по сравнению с элементами, поток отказов которых подчиняется экспоненциальному распределению, аналитически можно записать в виде следующего неравенства: 20 (3.30) Это условие вытекает из сравнения выражений для вероятности безотказной работы при указанных законах распределения времени возникновения отказов. Особо высокой надежностью могут обладать резервированные системы кратковременного действия с рэлеевским законом распределения отказов элементов. Это вытекает из основного противоречия всякого резервирования, которое состоит в том, что выигрыш надежности резервированной системы тем больше, чем более надежна основная система. Нормальное распределение. Длительность безотказной работы системы не может быть отрицательной. Поэтому количественные характеристики надежности имеет смысл рассматривать только при усеченном нормальном законе распределения времени между отказами. Частота отказов в этом случае определяется выражением: (3.31) at   C  ехр2   2 , 2 где σ – дисперсия времени между отказами в нормальном законе; С – постоянная  усеченного нормального распределения, которая выбирается из условия  at  dt  1 и равна t / 2σ2 < λ. 2 / C   1    T1 /   2    . (3.32) Тогда вероятность безотказной работы можно представить в виде Pt   1  C      t 2     f t dt ; (3.33)  t  T 2  2 (3.34) f t   1   2    exp  ,  где σ( 2 π) – нормальный закон распределения времени между отказами. Гамма-распределение. При этом распределении частота отказов выражается формулой at   0 0t k 1  e  t , k  1! (3.35) где λ0 – параметр гамма-распределения. Тогда при целом и положительном k вероятность безотказной работы, опасность отказов и среднее время безотказной работы выражаются следующими формулами: t k 1  t 2 (3.36) Pt   1   at dt  e  t  0 ;  t   at   pt   k 0 T   pt dt  2! i 0 0 0t  k 1 k 1 0t i i 0 i! k  1! . ; (4.37) (3.38) Параметр k характеризует асимметрию и эксцесс гамма-распределения. В зависимости от его величины существенно изменяется вид основных количественных характеристик надежности. Это распределение может явиться характеристикой времени возникновения отказов сложных электромеханических систем, если имеют место мгновенные отказы элементов на начальной стадии эксплуатации или в процессе обработки системы, т. е. при k<1 гамма-распределение является удобной характеристикой времени возникновения отказов аппаратуры в течение времени ее приработки. Распределение Вейбулла. При этом распределении частота отказов задается выражением a(t) = λ0ktk-1exp[–λ0tk]. (3.39) 21 Параметр λ0 определяет масштаб, а параметр k – асимметрию и эксцесс распределения. Для распределения Вейбулла основные количественные характеристики выражаются следующими формулами: T Pt   1   at dt  1  e 0tk  t   t  e 0tk ; at   0ktk 1 ; pt  1    1  k 0t k T   e dt   1 k  . 0 (3.40) (3.41) (3.42) Тема 4 АНАЛИТИЧЕСКИЕ МЕТОДЫ РАСЧЕТА НАДЕЖНОСТИ ИНФОРМАЦИОННЫХ СИСТЕМ 4.1. КРАТКАЯ ХАРАКТЕРИСТИКА МЕТОДОВ Решение задачи оценки надежности системы при использовании любого аналитического метода включает три этапа: 1) составление формальной модели исследуемой системы; 2) анализ модели и составление расчетных формул; 3) выполнение вычислений, приводящих к искомому результату. Аналитические методы оценки надежности систем отличаются главным образом видом используемых формальных моделей и математическим аппаратом, применяемым для их анализа и получения расчетных формул. При классификации аналитических методов используют два признака: наличие или отсутствие методической погрешности и применяемый математический аппарат. По первому признаку аналитические методы подразделяются на два класса:  точные методы;  приближенные методы. В свою очередь, точные методы разделены на две группы:  методы, использующие математический аппарат случайных величин и случайных событий;  методы, использующий математический аппарат теории случайных процессов. В первую группу входят два метода на основе аппарата случайных событий (классический и логико-вероятностный методы) и два метода, использующие аппарат случайных величин (W-метод и -метод). В основе классического метода заложен вероятностный аппарат теории случайных событий. Искомой характеристикой надежности является вероятность отказа P(t) или безотказной работы Q(t) за время (0, t). Основу логико-вероятностного метода составляет объединение аппарата теории случайных величин с элементами алгебры логики. Искомая характеристика записывается в виде логического выражения, над которым по правилам алгебры логики проводятся логические преобразования. В отличие от классического и логико-вероятностного методов, W-метод основан на аппарате теории случайных величин и теории функций случайных аргументов. Искомая 22 характеристика надежности представляется в виде распределения некоторой случайной величины, имеющей размерность времени, как функция некоторого набора других случайных величин. К основным недостаткам перечисленных выше методов относится ограниченность их применения в случаях, когда:  существуют последействия отказов;  элементы в системе могут находиться более чем в двух состояниях;  в определении состояний системы играют роль временные соотношения;  в системе имеются комбинации видов технического обслуживания;  число состояний в системе велико. Вторую группу образуют два метода, использующие аппарат теории марковских процессов (МП-метод и топологический метод), и два метода, основанные на аппарате полумарковских процессов. МП-метод и топологический метод просты в обращении и позволяют получать надежностные характеристики и показатели в явном виде как на начальном (длящемся от момента включения системы до первого отказа), так и на стационарном (потоки отказов и восстановлений системы считаются установившимися) участках функционирования системы. Различие этих методов заключается в том, что топологический метод в ряде случаев позволяет вычислять показатели надежности системы, не прибегая к составлению дифференциальных уравнений, а непосредственно по графу состояний. Основными недостатками методов, основанных на этом математическом аппарате, является то, что: - существуют жесткие ограничения на законы распределения времени безотказной работы и времени восстановления (они должны быть экспоненциальными); - решение на начальном участке функционирования системы получается только в виде преобразования Лапласа, что исключает возможность дальнейшего использования результатов в практике. ПМП-метод основан на математическом аппарате теории полумарковских процессов с конечным множеством состояний и является обобщением МП-метода. Анализ надежностных свойств системы этим методом проводится в предположении произвольности одного из законов распределения: времени безотказной работы или времени восстановления. В этом состоит основное отличие ПМП-метода от МП-метода. Метод ПМП и ПМС, в свою очередь, является обобщением ПМП-метода и основан на математическом аппарате теории полумарковских процессов с произвольным множеством состояний. Анализ надежности системы этим методом можно проводить в предположении произвольности законов распределения времени безотказной работы элементов и времени восстановления. Приближенные методы включают большую группу так называемых асимптотических методов, в которых в качестве расчетных формул для оценки показателей надежности моделей реальных систем используются соотношения для некоторых предельных случаев в определенных классах случайных процессов (марковских, полумарковских и др.). Примером такого метода является метод фазового укрупнения, использующий предельные соотношения, доказанные для полумарковских процессов с конечным множеством состояний. Другую группу в классе приближенных методов образуют методы оценки надежности, использующие специальный прием, состоящий в составлении на основе реальной исследуемой системы двух формальных моделей, одна из которых в 23 надежностном смысле лучше, а другая – хуже точной модели и в получении, соответственно, верхней и нижней оценок искомого показателя надежности. Примером метода данной группы является метод усечения графа состояний. 4.2. ПОСТРОЕНИЕ НАДЕЖНОСТНО-ФУНКЦИОНАЛЬНОЙ СХЕМЫ Надежностно-функциональные схемы (НФС) – это способ графического представления надежностной структуры системы (состава используемых элементов, перечня выполняемых системой функций и взаимосвязи элементов в обеспечении работоспособности системы по каждой функции), который обеспечивает, с одной стороны, простоту и наглядность описания структуры системы, что очень важно на этапе рассмотрения ее с разработчиками, а с другой – строгую формальность и однозначность этого описания, необходимые при четкой постановке задачи анализа надежности. НФС представляет собой граф, отображающий элементы системы и выполняемые ею функции и взаимосвязи между ними и позволяющий с помощью набора формальных правил для произвольной совокупности состояний (работоспособности или отказа) всех элементов однозначно определить состояние (работоспособность иди отказ) системы по каждой функции. НФС представляется в виде ориентированного однонаправленного графа. Узлами графа являются элементы рассматриваемой системы (прямоугольники) и выполняемые ею функции (окружности); ребра (стрелки) отображают взаимодействие элементов в выполнении функции. В графе выделяются узлы высшего и низшего рангов: узел имеет высший (низший) ранг, если все связанные с ним ребра графа направлены только к нему (от него). При рассмотрении НФС большую роль играет понятие пути. Путем в графе называют произвольную траекторию движения от одного узла к другому вдоль ориентированных ребер. Узел графа является проходимым для путей, если соответствующий компонент системы находится в состоянии работоспособности. Если компонент находится в состоянии отказа, то соответствующий узел закрыт для путей в графе. Условимся говорить, что данный узел имеет путь вверх, если существует хотя бы один путь, соединяющий его с одним из узлов высшего ранга. При данной совокупности состояний элементов система способна выполнять некоторую функцию, если соответствующий этой функции узел графа имеет путь вверх. Если узел, отображающий данную функцию, не имеет пути вверх, то система не способна к ее выполнению. Этих несложных правил достаточно, чтобы на основе НФС для произвольного набора состояний элементов системы однозначно определить, работоспособна или неработоспособна рассматриваемая система по каждой из ее функций. Простота и наглядность, а также строгая формальность и однозначность НФС позволяют рекомендовать их в качестве унифицированного способа описания надежностных системы при постановке задачи анализа их надежности. Рассмотрим примеры НФС некоторых типовых надежностных структур комплекса технических средств системы/ Независимое соединение элементов. Система включает n элементов, каждый из которых выполняет свою функцию независимо от работы других элементов. Таким образом, всего система выполняет n функций: Ф1, Ф2,…,Фn. НФС такой системы содержит n узлов высшего ранга, соответствующих элементам, и n узлов низшего ранга, 24 соответствующих функциям. Узлы высшего и низшего рангов связаны попарно (рис.44.1). 1 2 n 1 Ф1 Ф2 2 Ф n Фn Рис. 4.1 Рис.4.2 Последовательное соединение элементов. На графе НФС все последовательные соединения элементов выстраиваются в одну цепь узлов с одинаковым направлении стрелок. Очередность элементов в цепи безразлична; безразлично также, какому из элементов соответствует узел высшего ранга; (n + 1) – m в указанной цепи включается реализуемая системой функция (рис. 4.2). Параллельное соединение элементов. В НФС эта структура отображается графом, представленным на рис. 4.3. В тех случаях, когда рассматриваемая структура не входит в состав более сложной системы и функционирует самостоятельно, в граф удобно ввести один дополнительный (n + 1)-й узел высшего ранга. Если принять, что этот узел обладает абсолютной надежностью, то введение его, очевидно, не повлияет на надежность системы, отображаемой графом. 2 1 1' n+1 2 2' 1' 1 2 1 '' n 3' 3 Ф Ф 1 Ф 2 Ф Рис. 4.3 Рис. 4.4 Рис. 4.5 Двухфункциональная система. Система включает два элемента и выполняет две функции. Причем в выполнении одной из них участвуют оба элемента, а другой – только один. Эта система отображается графом (рис. 4.4), в котором одному элементу 1 соответствуют два узла: 1’ и 1”, причем только один из них 1’’ имеет высший ранг. При анализе надежности такой системы на основе этого графа следует иметь в виду, что узлы, соответствующие одному и тому же элементу, имеют одинаковые не только надежностные характеристики (распределения случайных величин), но и реализации этих случайных величин. Мажоритарная структура «2 из 3». Трехэлементная система, выполняющая одну функцию и сохраняющая работоспособность при работоспособности любых двух ее элементов. Введение дополнительных узлов позволяет довольно просто отобразить эту структуру графов (рис. 4.5). Аналогично могут отображаться любые мажоритарные структуры. 25 Мостиковые соединения легко вписываются в графы НФС. Однофункциональная мостиковая схема приведена на рис. 4.5. Ф Рис. 4.6 4.3. МЕТОД СУММИРОВАНИЯ ИНТЕНСИВНОСТЕЙ ОТКАЗОВ ЭЛЕМЕНТОВ Основные допущения и ограничения Метод суммирования интенсивностей отказов элементов (-метод) является наиболее простым из методов оценки надежности систем. Он позволяет рассчитать точные или приближенные значения показателей надежности. С помощью -метода можно исследовать системы практически с любым количеством элементов. Основные допущения, на которых основывается использование -метода: 1) закон распределения времени безотказной работы каждого элемента системы является экспоненциальным, то есть в течение срока службы элементы не стареют и не изнашиваются; 2) отказ любого элемента приводит к отказу всей системы и система не восстанавливается в процессе функционирования. НФС (надежностно-функциональная схема) представляет основное соединение элементов (рис. 4.7). Ф 1 2 3 … n Рис. 4.7 -метод позволяет рассчитать точные значения показателей надежности только в том случае, когда для исследуемой системы выполняются все перечисленные условия, и получить приближенные значения надежностных показателей: - для систем с произвольной структурой и произвольной системой обслуживания, элементы имеют экспоненциальный закон распределения времени безотказной работы; - для систем с произвольной структурой и с техническим обслуживанием, проводящимся через фиксированные интервалы времени, интенсивность отказов элементов – функция времени: (i(t)  const). Приближенные значения надежностных показателей используются в тех случаях, когда требуется быстро определить нижнюю границу надежности системы или когда требуется рассчитать надежность технического задания на систему с недостаточно полными исходными данными. -метод позволяет вычислить следующие показатели надежности системы:  P(t) – вероятность безотказной работы системы за время t;  T0 – средняя наработка до отказа. Для систем, восстанавливаемых полностью после отказа, средняя наработка до отказа T0 совпадает с наработкой на отказ T. Математические основы -метода 26 Вероятность безотказной работы системы с основным соединением элементов, отказы которых являются событиями случайными и независимыми, определяется на основании теоремы умножения вероятностей: вероятность безотказной работы системы в течение заданного времени равна произведению вероятностей безотказной работы элементов за это время: n (4.1) Pt   P1 t P2 t Pn t   П Pi t  , i 1 где Pi(t) – вероятность безотказной работы i-го элемента за заданное время. Выражая величину P(t) через интенсивности отказов элементов, получим n t    i t  . (4.2) i 1 В случае экспоненциального закона распределения времени безотказной работы элементов (i(t) = const) выражения (4.1) и (4.2) принимают вид (4.3) Pt   e t ; n (4.4)    i . i 1 Формулы (4.3) и (4.4) являются основными формулами для расчета систем -методом. В случае, когда t  0,1 для упрощения расчетов целесообразно пользоваться следующей приближенной формулой: Pt   1  t , (4.5) где (1 – t) являются первыми членами разложения функции (4.3) в ряде Тейлора. P(t) определяется с точностью до третьего знака. При использовании -метода для приближенной оценки надежности систем с элементами, имеющими неэкспоненциальный закон распределения, и с техническим обслуживанием, проводимым через фиксированные интервалы времени , следует в формуле (4.4) (i) заменить значением функции i(t) на интервале :  t dt i  iсс   i . (4.6)  Справедливость этой замены объясняется тем, что мгновенные значения интенсивностей отказов элементов i(t) через каждые  часов падают до нуля, т. е. значения интенсивностей все время колеблются возле некоторых средних значений iср. Чем больше рассматриваемый интервал времени работы системы по сравнению с интервалом , тем выше степень точности вычисления показателей надежности обслуживаемой системы. Инженерная методика вычисления показателей надежности Исходными данными для оценки надежности -методом являются: - надежностно-функциональная схема (НФС) или схема расчета надежности со словесным описанием; - интенсивности отказов элементов системы i(t) = i = const. Для систем с техническим обслуживанием, проводимым через фиксированные интервалы времени , следует брать вместо i среднее значение функции i(t) на интервале:   t dt . (4.7) i  icp   i  Расчет надежности системы проводится в следующей последовательности:  построение упрощенного варианта НФС из основных элементов системы (для систем с произвольной структурой); 27  вычисление интенсивностей отказов системы ;  вычисление вероятности безотказной работы системы за время t – P(t);  вычисление средней наработки до отказа T0. Построение упрощенного варианта НФС из основных элементов системы осуществляется следующим образом. Из НФС более сложной структуры, чем основное соединение элементов, выбираются только основные (рабочие) элементы и их необходимо соединить последовательно. Например, из резервированной группы элементов с целой кратностью резервирования следует выбрать только один рабочий элемент, из группы элементов с дробной кратностью резервирования (m1 = m / k) – выбрать k рабочих элементов. Интенсивность отказов системы определяется следующим образом: n (4.8)    i , i 1 где n – число основных элементов системы; i – интенсивность отказов i-го элемента. Если система имеет группы равнонадежных элементов, то формулу (4.8) можно записать в виде (4.9)   n   , z j 1 j j где z – количество групп равнонадежных элементов; nj – количество элементов в j-й группе; j – интенсивность отказов элементов в j-й группе. Вероятность безотказной работы системы за время t определяется по формуле (4.10) Pt   e t . Для вычисления значений P(t) необходимо использовать таблицу значений функции х е . В случае, когда t  0,1, для упрощения расчетов надежности рекомендуется пользоваться следующей приближенной формулой: (4.11) Pt  1    t . Средняя наработка до отказа Tо определяется следующим образом: 1 (4.13) T0  . 4.4.  ОЦЕНКА НАДЕЖНОСТИ МЕТОДОМ МАРКОВСКИХ ПРОЦЕССОВ Основные допущения и ограничения Методом марковских процессов (МП-методом) называется метод расчета характеристик и показателей надежности по линейным дифференциальным уравнениям типа массового обслуживания. Предполагается, что процессы отказов и восстановления систем являются марковскими случайными процессами. Основными допущениями МП-метода являются:  законы распределения времени безотказной работы и времени восстановления каждого элемента, входящего в системы, являются экспоненциальными;  функционирование системы контролируется непрерывно, т. е. момент отказа обнаруживается немедленно после его возникновения;  в процессе ремонта происходит полное восстановление отказавших элементов, т. е. интенсивности отказов элементов не зависят от числа восстановлений;  восстановление элемента начинается немедленно после его отказа при наличии свободной ремонтной бригады, обслуживающей данный элемент; при отсутствии свободной ремонтной бригады отказавший элемент становится в очередь на обслуживание. 28 МП – метод позволяет рассчитать надежность невосстанавливаемых и восстанавливаемых, нерезервированных и структурно-резервированных систем при любом состоянии резерва (ненагруженном, облегченном, нагруженном), при любом количестве ремонтных бригад и произвольной дисциплине обслуживания с учетом допущений. Данный метод позволяет вычислять следующие характеристики надежности системы:  вероятность безотказной работы P(t);  функцию готовности КГ(t);  такие показатели надёжности системы, как среднюю наработку до отказа T0, коэффициент готовности КГ, наработку на отказ Т, среднее время восстановления ТВ. Некоторые математические основы Однородный марковский процесс. Пусть X(t) (t  0) – дискретный случайный процесс с непрерывным временем. Случайный процесс X(t) называется марковским, если для любого n = 1, 2, 3, ..., любых моментов t1, t2,…, tn, tn+1, удовлетворяющих условиям 0  t1  t2 … tn,  tn+1 и любых возможных значений случайного процесса i1, i2,…, in, in+1 выполняется следующее равенство для условных вероятностей: P[X(tn+1) = in+1 / X(t1) = i1,…,X(tn) = in] = P[X(tn+1) = in+1 / X(tn) = in]. (4.14) Марковские процессы являются математической схемой, пригодной для описания эволюции физической системы, которая в любой момент времени может находиться лишь в одном из состояний i1, i2,… и для которой при заданном состоянии в данный момент времени дополнительная информация о поведении этой системы в предыдущий момент времени не влияет на условную вероятность этой системы, находится в состоянии in+1 в последующие моменты времени. Другими словами, процесс Маркова X(t) обладает следующим свойством: если известно X(tn), то течение процесса после момента tn в вероятностном смысле не зависит от его течения до момента tn (коротко: если известно настоящее, то будущее не зависит от прошедшего). Процесс Маркова называется однородным, если для любых возможных значений i и k и произвольного   0 вероятность события X(tn+) при условии X(t) = i не зависит от t . Условная вероятность Pik() = P[X(t + ) = k / X(t) = i] (4.15) называется вероятностью перехода из состояния i в состояние k за время . Для любых состояний i и k вероятности перехода обладают свойствами (4.16) Pik  0 ;  Pik  1; P       P    P   . ik 1 2 ij 1 ij 2 y Последнее соотношение, называемое иногда уравнением Чэпмена-Колмогорова, лежит в основании всех исследований о процессах Маркова. В теории надежности обычно исследуются случайные процессы (потоки) двух видов: моментов отказов и моментов окончания ремонтов системы. Если предположить, что все распределения времени безотказной работы и времени восстановления отдельных элементов системы являются экспоненциальными, то случайный процесс X(t), характеризующий число отказов или число произведенных ремонтов, является однородным марковским процессом. Инженерные расчеты характеристик и показателей надежности МП-методом без привлечения вычислительных машин могут быть выполнены лишь для сравнительно небольших структур системы; такие структуры будем называть типовыми. Для систем с большим числом состояний появляются вычислительные трудности, связанные с решением систем дифференциальных или алгебраических уравнений высокого порядка. 29 Преобразование Лапласа лежит в основе операционного метода решения линейных дифференциальных уравнений и систем. Оно позволяет преобразовать любую систему линейных дифференциальных уравнений в систему линейных алгебраических уравнений. Пусть функция f(t) кусочно-непрерывна при t  0 и имеет ограниченный рост, т. е. |f(t)| , Ce t, где С и  – некоторые постоянные. Тогда она называется оригиналом, а функция – ее изображением: f s     f t e  st dt . (4.17) Для обозначения оригинала и изображения можно пользоваться одним и тем же символом. Переход от оригинала к изображению называется преобразованием Лапласа, а переход от изображения к соответствующему оригиналу – обратным преобразованием Лапласа. - если f(t) = c1f1(t) + c2 f2(t), то f(s)=c1f1(s) + c2 f2(s), где c1 и c2 – любые постоянные числа; - изображением производной f’(t) является функция sf(s) – f(t)|t = 0. При вычислении финальных (предельных) значений функций можно использовать следующее равенство: (4.18) lim f t   lim Sf s  . t  s 0 Решением системы алгебраических уравнений является набор дробно-рациональных функций вида M s  s m  a1s m 1  ...  am (4.19) f s    n ,mn. M s  s  b1s n 1  ...  bn Если знаменатель дроби N(s) имеет только простые корни s1, s2,…sn, то оригинал f(t) функции f(s) определяется равенством n M si  s t . (4.20) f t    e N ' si  i 1 Если знаменатель дроби N(s) имеет кратные корни: s1 – кратности r1, s2 –кратности r2, sk – кратности rk (r1+r2+…+rk = n), то оригинал f(t) функции f(s) определяется равенством r k trj st ; (4.21) f t    Aij e i i i 1 j 1 i ri  j i где коэффициенты Aij находятся по формуле Aij  1 d j 1 ri lim j 1 s  si  f s  .  j 1!  ds i = 1, 2,…, k; j=1, 2,…r. (4.22) Инженерная методика расчета показателей надежности типовых структур Расчет характеристик и показателей надежности проводится в следующей последовательности: - формулировка понятия отказа системы и представление исходных данных; - построение графа состояний; - составление системы дифференциальных уравнений; - определение вероятностей состояний системы; - вычисление характеристик и показателей надежности системы. Отказ является понятием субъективным, поэтому его определение для конкретной системы согласуется с заказчиком. Исходными данными для расчета характеристик и показателей надежности являются:  надежностно-функциональная схема расчета надежности; 30  интенсивности отказов и восстановлений каждого элемента системы;  количество ремонтных бригад;  приоритет обслуживания;  начальное состояние процесса функционирования системы;  время непрерывной работы системы. Построение графа состояний Граф состояний необходимо строить в следующем порядке: 1) наметить в виде горизонтальных линий уровни графа и пронумеровать их сверху вниз, считая верхний уровень нулевым; 2) возможным состояниям системы поставить в соответствие узлы графа, располагаемые на определенных уровнях в виде точек (или кружков); на 0-м уровне помещаются узлы, соответствующие состояниям, когда все элементы системы исправны; на 1-м уровне помещаются узлы, соответствующие состояниям, когда отказал один любой элемент системы; на 2-м уровне помещаются узлы, соответствующие состояниям, когда отказали два любые элемента системы, и т. д.; 3) при наличии непосредственного перехода из состояния в состояние соответствующие узлы соединяются линиями–ветвями графа, в ветви ставятся интенсивности отказов или интенсивности восстановлений элементов, из-за которых осуществляются переходы из состояния в состояние; направления переходов указываются стрелками; в случае резервированных систем с одинаковыми интенсивностями отказов и восстановлений элементов узлы графа могут объединяться, отказовые состояния графа помечаются, например, крестами. Если вычисляются P(t) и T0, то в графе отсутствуют ветви переходов из всех отказовых состояний. Это отмечается пунктирной линией, называемой экраном, перечеркивающей соответствующую ветвь. Составление системы дифференциальных уравнений. По виду графа формально записывается система линейных дифференциальных уравнений для вероятностей pk(t) пребывания системы в момент времени t в состоянии k. В левую часть уравнения записывается производная по времени p’k(t), в правую часть – сумма произведений интенсивностей переходов из всех соседних состояний в состояние k, умноженных на соответствующие вероятности, минус сумма произведений интенсивностей переходов из состояния k во все соседние состояния, умноженных на вероятность pk(t). Для произвольного состояния k (k = 0, 1, 2, ..., n) уравнение имеет вид n n (4.23) Pk' t    ik pi t    ki pk t  , i 0 i 0 где ik, ki – интенсивности перехода из состояния i в состояние k и из состояния k в состояние i соответственно. Если в графе отсутствует переход из состояния i в состояние k или из состояния k в состояние i, то считается, что соответствующая интенсивность перехода (ik, или ki) равна нулю. Проверяется правильность составления системы дифференциальных уравнений: если сумма правых частей равна нулю, то считается, что система составлена правильно. Для определения вероятности безотказной работы следует ограничиться составлением уравнений только для исправных состояний системы. Определение вероятностей состояний системы. Вероятности pk(t) определяются путем решения системы любым из известных в математике методов. Наиболее целесообразно использовать метод преобразования Лапласа. Для этого в уравнениях вместо вероятностей pi(t) необходимо поставить их 31 изображения pi(s), а вместо производных p’k(t) – выражения spk(s) – pk(t)|t = 0, тогда система дифференциальных уравнений в преобразованиях Лапласа записывается в виде следующей системы алгебраических уравнений: n n (4.24) spk s   ak   ik pi s    ki pk s  , i 0 i 0 где ak= pk(t)|t = 0 – вероятность пребывания системы при t = 0 в состоянии k. Эти вероятности определяются начальными условиями функционирования системы. В большинстве случаев при t = 0 все элементы системы находятся в исправном состоянии, тогда a0 = 1; ak = 0, (k = 1, 2,…, n). В результате решения системы алгебраических уравнений определяются pk(s). Находятся оригиналы pk(t) функций pk(s) по любому известному методу. Определение вероятности безотказной работы. Вероятность безотказной работы P(t) вычисляется по формуле m (4.25) Pt    pk t  . k 0 Суммирование в формуле производится по всем m + 1 исправным состояниям системы. Определение средней наработки до отказа. Средняя наработка до отказа T0 вычисляется по формуле  (4.26) T0   Pt dt . Формулой целесообразно пользоваться в том случае, когда вероятность безотказной работы представлена в явном виде: (4.27) T0  Ps  s0 . Формулой целесообразно пользоваться, если вероятность безотказной работы вычислялась с помощью преобразования Лапласа. При неизвестном выражении для вероятности безотказной работы P(t) или P(s) средняя наработка до отказа вычисляется по формуле (4.28) T   , m k 0 k где k – среднее время пребывания системы в k-м исправном состоянии, определяемое из следующей системы алгебраических уравнений: m n i 0 i 0 ak   ik  i   ki k . k=0, 1,…, m. (4.29) Система записывается по виду графа, в котором поставлены экраны из всех отказовых состояний. Формально она может быть получена из системы (4.32) при s = 0. Функция готовности КГ(t) вычисляется по одному из следующих соотношений: K Г t    pk t  m k 0 (4.30) или K Г t   1   Pk t  , n k m 1 (4.31) где pk(t) – вероятность пребывания системы в момент времени t в состоянии k. Если число исправных состояний в графе меньше или равно числу отказовых состояний, то следует пользоваться соотношением (4.30), в противном случае целесообразно использовать соотношение (4.31). Определение коэффициента готовности. Коэффициент готовности Kг вычисляется по одному из следующих соотношений: 32 K Г  lim K r t  ; K Г  lim SK r t  . t  s 0 (4.32) Приведенными формулами целесообразно пользоваться, если известны функция готовности или ее преобразование Лапласа. Если функция готовности и ее изображение неизвестны, то KГ находится по формуле m K Г   Pk , где Pk  lim Pk t  t  (4.33) k 0 – финальное значение вероятности пребывания системы в состоянии k. Вероятности pk (k = 0, 1, …, n – 1) вычисляются путем решения следующей системы линейных уравнений:  P 1; n k k 0 n n i 0 i 0 0   ik pi   ki Pk . k  0, 1,..., n  1 . (4.34) Эта система формально получается из системы, если левые части всех уравнений положить равными нулю. Наработка на отказ Т вычисляется по одному из следующих соотношений: P (4.35) m T  k k 0 m n  P  k k 0 i m1 ki или n P ,  P  1 T  n k  m 1 m k  m 1 k i 0 kk (4.36) ki n где  ki – сумма интенсивностей переходов из состояния k во все отказовые состояния, k  m 1 а m  ki i 0 – сумма интенсивностей переходов из состояния k во все исправные состояния. Формулой (4.35) удобно пользоваться, если число исправных состояний меньше или равно числу отказовых состояний, в противном случае целесообразно пользоваться формулой (4.36). Предотказовым является состояние, соответствующее узлу графа, из которого есть переход хотя бы в одно отказовое состояние. Если граф имеет лишь одно предотказовое состояние, то наработка на отказ может быть вычислена по формуле m (4.37) T   k , k 0 где k определяются путем решения системы линейных уравнений при следующих начальных условиях: вероятность предотказового состояния равна единице, а все остальные вероятности равны нулю. Этот способ позволяет упростить вычисление наработки на отказ в связи с уменьшением размерности системы алгебраических уравнений. Если известно среднее время восстановления системы TВ и коэффициент готовности KГ, то наработка на отказ вычисляется по формуле KГ T  TВ . (4.38) 1 K Г Формулой удобно пользоваться, если в графе имеется лишь одно отказовое состояние 33 или интенсивности переходов из всех отказовых состояний одинаковы. Среднее время восстановления ТВ вычисляется по одному из следующих соотношений: m TВ  1   Pk k 0 n , (4.40)  Pk  ki k 0 i  m 1 или n  Pk Tв  n k  m 1 m  Pk  ki . (4.41) k  m 1 i 0 Если в графе имеется лишь одно отказовое состояние, то Тв вычисляется по формуле 1 , (4.42) TВ  m  ni n 0 где n – номер состояния отказа системы. Если интенсивности переходов из всех отказовых состояний одинаковы и равны, то 1 (4.43) TВ  .  Инженерная методика расчета показателей надежности системы Изложенная методика позволяет рассчитывать показатели надежности типовых структур (участков) системы, имеющих небольшое число состояний (не превышающих десяти для ручного счета). Нами рассматривались методики расчета коэффициента готовности, наработки на отказ и среднего времени восстановления системы, представляющие собой основное (последовательное) соединение типовых структур. Каждая типовая структура обслуживается своими ремонтными бригадами и имеет свою дисциплину обслуживания. НФС системы разбивается на отдельные независимые типовые структуры. Для каждой i-й типовой структуры (i = 1, 2, …, ) определяются следующие показатели надежности: - коэффициент готовности КГ; - наработка на отказ Ti; - вероятность poi . Коэффициент готовности КГi и наработка на отказ Ti вычисляются по формулам, изложенным выше. Вероятность p0i вычисляется по формуле  i  , i  1, 2, ...,  , (4.44) p0i  K ri    p j   j    j i где pj – финальная вероятность j-го предотказового состояния;  – суммарная интенсивность переходов из j-го предотказового состояния во все отказовые состояния; j – суммарная интенсивность переходов из j-го предотказового состояния во все исправные состояния. Суммирование в формуле (4.44) производится по всем предотказовым состояниям за исключением начального состояния. Нижняя и верхняя оценки коэффициента готовности КГ(н) и КГ(в) рассчитываются по формулам: 34 K ri  p0i i 1 P0i K ГB   r 1 p 0i 1  i 1 p0i r K ГH   1 1  K ri 1  i 1 K ri r 1  ; . (4.45) За истинное значение коэффициента готовности принимается KГ  КГ (Н)  КГ 2 В . (4.46) Относительная погрешность расчета определяется по коэффициенту простоя системы. Эта погрешность более достоверно по сравнению с погрешностью по КГ отражает физическую сущность расчетов. k  n ( В) (Н ) KГ  КГ  100 % . ( В) (Н ) 2  КГ  КГ   Определение наработки на отказ. За истинное значение наработки на отказ принимается: 1 . T H   (4.47) (4.48) r 1  i 1 Ti K ri  poi poi i 1 r K ri  i 1 poi r T B   1  . (4.49) Относительная погрешность расчета не превышает T  T B   T H   100 % . T H   T B  (4.50) Определение среднего времени восстановления. Среднее время восстановления вычисляется по формулам TB  1 K Г T KГ T ; T H   T B  2 (4.51) 4.5. ОЦЕНКА НАДЕЖНОСТИ МЕТОДОМ СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ Элементы статистического моделирования Известны методы моделирования, в основу которых положены математический, физический и геометрический принципы описания процессов функционирования систем. Однако существует широкий класс систем, работа которых не может быть описана математически, т. е. нельзя задать систему уравнений, позволяющую найти количественные зависимости между входными и выходными параметрами систем с учетом особенностей ее функционирования. При физическом моделировании нередко натурное воспроизведение процесса сопряжено с огромными материальными затратами. В таких случаях единственным способом исследования является, моделирование процесса функционирования на ЭВМ. При этом функционирование сложной системы декомпозируется на ряд элементарных процессов, каждый из которых формализуется (описывается аналитически, задается логическими условиями), а затем в заданной последовательности воспроизводится на ЭВМ. Применение метода статистического моделирования (метод Монте-Карло) оказывается в этих случаях весьма полезным. Сущность метода состоит в построении вероятностного аналога исследуемой задачи, реализации ее случайным образом и рассмотрения полученных результатов в качестве приближенного решения задачи. Построение вероятностной модели не всегда удается, однако задачи надежности вполне естественно аппроксимируются случайными 35 процессами, исследование которых статистическими методами дает наибольший эффект. Метод Монте-Карло является численным методом. При этом расчет включает случайную выборку различных случайных величин. Решение задачи моделирования можно разделить на два этапа: формализации описания процесса и построения моделирующего алгоритма. На основе тщательного изучения составляют перечень операций процесса и определяют числовые значения параметров, характеризующих процесс. Затем разрабатывают алгоритм, по которому в конечном итоге составляют программу решения на ЭВМ. Целесообразно рассмотреть некоторые стандартные приемы, используемые методом Монте-Карло, для формирования случайных объектов. Одна из принципиальных особенностей метода состоит в том, что влияние различных случайных факторов в процессе моделирования учитывается введением элементов случайности путем «бросания жребия». При этом наиболее часто возникают следующие задачи:  моделирование случайных событий;  получение случайных величин с заданным законом распределения. Для первой задачи случайные события появляются в процессе моделирования в соответствии с заданными вероятностями р1, р 2 ,…,рп для второй задачи – с учетом заданной функции распределения. При статистическом моделировании используют случайные числа, равномерно распределенные в интервале [0, 1]. На практике случайные числа вырабатываются либо самой ЭВМ по специальным алгоритмам (псевдослучайные числа), либо датчиком случайных чисел. Остановимся на программных методах формирования случайных чисел с равномерным законом распределения – методах получения псевдослучайных чисел (ПСЧ). В силу того, что разрядная сетка ЭВМ конечна и программа получения ПСЧ представляет строго фиксированную совокупность операций, получается периодическая последовательность чисел, поэтому числа называются псевдослучайными. Если разрядная сетка ЭВМ равна п двоичным разрядам, то период последовательности не может быть больше 2п. Если требуется получить большие массивы ПСЧ, то используется метод «монтажа» длинной последовательности из более коротких. Существует большое количество программных датчиков. Наиболее часто для получения ПСЧ используют метод вычетов. Каждое последующее число хn + 1 получается из предыдущего хn по рекуррентной формуле xn + 1 = kxn(mod m) (4.52) Из этого выражения получается, что (xn + 1 – kxn) / m – целое число, т. е. xn+1 и kхп несравнимы по модулю т. Если т = 2п, то kх(mod 2n) соответствует п младшим разрядам произведения kх. Если взять х0 = 1, k = 52k + 1, т = 2п, то период последовательности ПСЧ будет равен 2п – 2. Привлекательной является следующая модификация метода: xn+1= [kxn’] (mod m) (4.53) где 4k’ + 1 = k, что увеличивает период последовательности в четыре раза. Проверку получаемых ПСЧ на равномерность распределения и на случайность можно осуществить известными методами. Точность метода статистического моделирования Исходя из математической статистики процесс статистического моделирования сводится к получению выборки определенного «объема из генеральной совокупности». В результате моделирования на основе полученного статистического материала дается количественное описание исследуемых случайных величин, т. е. определяются основные числовые характеристики (математическое ожидание, дисперсия) и параметры законов 36 распределения. Иногда для более полной характеристики строятся статистические графики (гистограммы, статистические функции распределения). При этом ограниченность статистического материала не позволяет получить точных значений искомых параметров. Поэтому в результате моделирования так же, как и в случае натурных испытаний, получается приближенное значение параметра, называемое оценкой. В этом смысле разница состоит лишь в том, что статистическое моделирование позволяет получить значительно больший объем статистики, чем натурный эксперимент, следовательно, точность и достоверность результатов моделирования при прочих равных условиях будет более высокой. При неограниченном возрастании объема выборки п оценка должна сходиться по вероятности к оцениваемому параметру. Оценки числовых характеристик случайных величин будем обозначать теми же буквами, что и искомые величины, но со звездочкой (например, х*, σ*). Несмещенной оценкой для математического ожидания является среднее арифметическое результатов п опытов: 1 (4.54) x  x . n * n i 1 i Для вычисления оценки дисперсии необходимо знать математическое ожидание х. Однако при моделировании обычно значение х неизвестно, поэтому вместо х используется оценка х*. Тогда несмещенной оценкой дисперсии будет 1 n 1 n (4.55) Dx*   ( xi  x * ) 2   xi2  ( x * ) 2 . n 1 n i 1 i 1 Таким образом, к оценкам х*, σ*, Р* будем подходить, как к обычным случайным величинам. При этом следует, конечно, учитывать, что закон распределения оценки зависит как от распределения самой случайной величины X, так и от числа опытов N. При реализации метода Монте-Карло на ЭВМ число испытаний обычно бывает достаточно большим (порядка нескольких тысяч или десятков тысяч). Это позволяет на основании центральной предельной теоремы сделать предположение о нормальном законе распределения оценок дисперсии математического ожидания, которые представляют собой сумму N независимых, одинаково распределенных случайных величин. Что касается оценки для дисперсии, то слагаемые в формуле (4.63) не являются независимыми, однако при достаточно большом N закон распределения суммы также приближается к нормальному. Это обстоятельство существенно упрощает анализ точности результатов моделирования. На практике задача сводится к определению погрешности результатов по известному числу опытов или наоборот – к выбору такого значения N, которое обеспечивает получение результатов с заданной точностью ε. По существу это одна задача, решение которой основывается на взаимосвязи трех величин: количества опытов, точности и достоверности результатов. Под достоверностью понимается доверительная вероятность α = Р(а* – ε < а < а* + ε), т. е, вероятность того, что интервал со случайными концами (а* – ε, а* + ε) (доверительный интервал) накроет неизвестный параметр а. Поясним, что понимается под реализацией процесса. Понятие реализации может относиться к случайному событию, случайной величине, случайной функции или к их совокупности. Для случайного события реализацией будет конкретное событие, происходящее в данном опыте. Для случайной величины это будет конкретное значение, а для случайной функции – конкретный вид функции. В таком же понимании употребляется понятие реализации и при статистическом 37 моделировании, однако при этом следует учитывать одну особенность. Дело в том, что метод статистического моделирования применяется, как правило, для исследования сложных вероятностных процессов, представляющих собой совокупности различных случайных величин, случайных событий, случайных функций. Поэтому в общем случае здесь уже говорят о реализации процесса, подразумевая под этим конкретный набор случайных событий, величин и функций, полученных экспериментально. На примерах можно уяснить, как изменяется понятие реализации в зависимости от определяемого показателя и сложности изучаемого процесса. Для формирования показателей надежности в процессе моделирования поступают так же, как при обычных испытаниях: записываются (запоминаются в памяти машины) моменты и количество отказов элементов, затем вычисляются нужные характеристики по известным формулам. Если, например, мы хотим определить среднее время до первого отказа дублированной системы, то реализация будет оканчиваться в тот момент, когда оба элемента первый раз окажутся в состоянии отказа. Если для этой же системы требуется определить коэффициент готовности, то признаком окончания реализации может быть или получение заданного числа отказов, или воспроизведение заданного временного интервала. Таким образом, понятие реализации определяется, прежде всего, формируемым показателем и принятым критерием отказа. Так осуществляется текущий автоматический контроль точности решения и определяется момент остановки ЭВМ. Сегодня широко распространено мнение о трудностях моделирования высоконадежных систем ввиду больших затрат машинного времени. Это справедливо лишь в тех случаях, когда исследуется эффективность сложных систем с различными уровнями функционирования (модель реального функционирования). При этом на ЭВМ воспроизводятся два процесса: процесс изменения состояний системы вследствие отказов и восстановления ее элементов и процесс функционирования, траектория которого изменяется в соответствии с переходами системы из одного состояния в другое. Надежность системы при таком подходе оценивается степенью снижения эффективности вследствие отказов ее элементов. Проблема сокращения машинного времени для таких задач выдвигается на первое место, и в настоящее время разрабатываются и уже находят практическое применение специальные приемы, позволяющие преодолеть указанную трудность. В системах, для которых моделируется лишь процесс отказов и восстановления, процесс моделирования сводится к осуществлению случайной выборки и формированию результатов. При этом моделирование лишь сокращает объем эксперимента, но не исключает его полностью. Экспериментальным путем изучаются отдельные элементы и элементарные процессы, полученная информация является исходной для изучения процесса в целом. Аналитические методы позволяют устанавливать общие закономерности, справедливые при соблюдении определенных ограничений. Дальнейшее совершенствование технологии расчета надежности ИС должно основываться на разумном сочетании аналитических методов и натурных испытаний с методами моделирования на ЭВМ. 38 Тема 5 ПОВЫШЕНИЕ НАДЕЖНОСТИ ИНФОРМАЦИОННЫХ СИСТЕМ МЕТОДОМ РЕЗЕРВИРОВАНИЯ 5.1. КЛАССИФИКАЦИЯ РЕЗЕРВИРОВАНИЯ Резервирование является одним из основных методов повышения надежности систем. Выбор вида резервирования и определения рациональной совокупности различных видов резерва является весьма трудоемкой и слабо формализуемой задачей и в основном определяется структурой системы, выполняемых ею функций, требованиями к процессу функционирования, условиями объектной среды, требованиями к показателям надежности системы. В общем виде классификация резервирования приведена на рис. 5.1. Широко применяются следующие виды резервирования:  структурное – введение в структуру системы дополнительных элементов;  функциональное (алгоритмическое) – использование различных способов реализации функций системы;  информационное – введение обоснованного резерва информационных массивов, запоминание информации в контрольных точках, кодирование информации;  временное использование резерва времени. В основу классификации положено деление резервирования на следующие виды:  по типу вводимого резерва;  по схеме включения резерва;  по реакции на появления отказов;  по режиму работы резервных элементов;  по принципу обслуживания. Резервирование на уровне ЭВМ позволяет достигнуть высокая готовности и способности к преодолению перегрузок. Режимы включения подразделяются на дуальный и дуплексный. В дуальном режиме резервная ЭВМ не включается в контур управления системы. В этом случае, однако, возникает проблема восстановления информации при отказе рабочей ЭВМ. В дуплексном режиме обе ЭВМ включены в контур управления, получают одни и те же данные и параллельно выполняют одни и те же программы, но результаты в каналы связи выдает только одна машина. Результаты используются для контрольного сравнения. 39 Резервирование 1 По типу вводимого резерва 2 По схеме включения резерва 3 По реакции на появление отказов 4 По типу работы резервных элементов 2 1.1 1.2 Структурное 1.3 Функциональное 2.1 1.4 Информационное Временное 2.2 Общее Раздельное 3.1 3.2 Активное Пассивное 4.1 4.2 Постоянное 4.3 Замещение Скользящее 5 По режиму работы резервных элементов 5.1 5.2 Нагруженный 5.3 Облегченный Ненагруженный 6 По принципу обслуживания 7 По кратности резервирования 5.1 5.2 С периодической профилактикой 6.1 Без профилактики 6.2 Целое Дробное Рис. 5.1 В силу специфики задач при реализации динамического резервирования система должна удовлетворять следующим требованиям:  модульность построения;  высокая вероятность обнаружения нарушений работоспособности;  реализация процедур восстановления;  защита ядра системы в той части системы, которая не сможет быть проверена с помощью самой системы;  защита входных данных;  качественная сравнительная оценка системы с динамической и статистической избыточностью.  5.2. СТРУКТУРНОЕ РЕЗЕРВИРОВАНИЕ Понятие структурного резервирования в теории надежности носит двойственный характер. С одной стороны, смысл его совпадает с общепринятым и означающим наличие дополнительных элементов и связей в структуре системы, реализующих рабочие алгоритмы функционирования системы. С другой стороны, оно определяет некоторый положительный эффект, произведенный этим и дополнительным элементами, эффект, заключающийся в повышении безотказности функционирования системы по сравнению с нерезервированной. В настоящее время уже не вызывает сомнений тот факт, что любой достаточно 40 сложный живой организм длительностью своего существования обязан структурному резерву, т. е. наличию нужных с точки зрения функций организма дополнительных элементов. Единственной целью этих элементов, в качестве которых могут выступать как отдельные клетки, так и целые органы, является обеспечение срока жизни организма. В процессе его жизнедеятельности постоянно действует некоторый механизм, некоторый надежностный гомеостазис, который обеспечивает поддержание основных параметров безотказности резервированной структуры в заданных пределах. В арсенал методов гомеостазиса входят, например, восстановление и замена отказавших клеток, перестройка связей между клетками и органами, передача важнейших функций жизнедеятельности от поврежденного органа к другому и т. д. Модели резервированных систем имеют характерную особенность, отражающую одно из важных свойств надежностного гомеостазиса. Эта особенность состоит в том, что резервированная система содержит две составляющие: резервированную структуру, заложенную в систему в процессе проектирования и изготовления (статический резерв), и спланированные на этапе проектирования мероприятия, которые должны проводиться в течение всего времени эксплуатации и направлены на поддержание основных параметров резервированной структуры на заданном уровне (динамический резерв). Для обеспечения длительной безотказности систем на высоком уровне должны обязательно присутствовать как статический, так и динамический резервы. В исследовании надежности систем со структурным резервированием определилось два основных направления. Первое направление – это создание методов введения структурного резерва, носящее название надежностного проектирования или надежностного синтеза. Второе направление связано с созданием методов оценки эффективности введения структурного резерва, т. е. с анализом надежности систем со структурным резервом. Подавляющее большинство результатов посвящено вопросам надежностного синтеза. Рассмотрим некоторые вопросы надежностного синтеза систем. Важнейшим признаком, по которому классифицируют методы введения резерва, является способ его включения. Резервная аппаратура может находиться в полностью включенном (нагруженный резерв) и промежуточном (облегченный резерв) состояниях. Другими словами, интенсивность отказов резерва может быть равна (постоянное резервирование) либо меньше (резервирование замещением) интенсивности отказов основной аппаратуры. Существует много методов как постоянного резервирования, так и резервирования замещением. Универсальной надежностной моделью резервированной системы является так называемая модель d-безотказной системы. Гипотеза, на основе которой построена надежностная модель d-безотказной системы, может быть сформулирована следующим образом: d-безотказная система, содержащая d элементов, не отказывает при отказе d ее элементов и всегда отказывает при отказе любой совокупности из d + 1 элементов. При этом следует учитывать, что такая надежностная модель дает нижнюю (худшую) оценку безотказности реальной d-безотказной системы. Точная оценка может быть получена лишь для конкретной системы, но сложность получения этой оценки может свести на нет цену ее точности. Таким образом, моделируя некоторую оценку безотказности, мы должны помнить, что оценка реальной системы может быть либо равна ей (что сравнительно часто бывает для простых структур), либо выше ее. 41 Структурные методы резервирования включают аппаратное и программное резервирование. Аппаратное резервирование подразделяется на три категории: 1) статическое; 2) динамическое; 3) гибридное. Статическое резервирование применяется как против случайных, так и против систематических нарушений работоспособности, которые маскируются в этом случае исправно работающими элементами. Все дубликаты какого-либо элемента соединены между собой и принимают входные сигналы. Как правило, используются схемы с тройным резервированием, в которых три модуля имеют одинаковые входные сигналы, а выходной сигнал схемы определяется по большинству выходных сигналов модулей. В этом случае для анализа выходных сигналов используется специальное избирательное устройство. Среди методов статического резервирования широко распространены: мажоритарное резервирование, поэлементное резервирование электронных компонентов, переплетающаяся и адаптивная логика. Важно отметить, что статическое резервирование основано на допущении независимости неисправностей отдельных резервных схем. При возникновении взаимосвязанных неисправностей статическое резервирование не эффективно. Динамическое резервирование вводится исходя из положения, что неисправность, возникающая в блоке системы, проявляется на выходах блока. Используются два различных варианта введения динамического резервирования. В первом варианте в каждой схеме на один работающий модуль приходится несколько резервных, находящихся в нерабочем состоянии. В случае отказа работающего модуля устройство переключения выключает его и включает один из резервных. Во втором варианте используются два работающих модуля. Если выходные сигналы одинаковы, то выходом схемы является выход одного из модулей. При обнаружении устройством сравнения несовпадения выходных сигналов модулей идентифицируется отказавшее устройство, и выходом схемы назначается выход оставшегося модуля. Применение динамического резерва требует принятия ряда решений на функциональном этапе разработки. При этом необходимо учитывать:  уровень декомпозиии блоков на модули;  стандартные аппаратные средства обнаружения неисправности;  тип воздействия, направленного на восстановление;  виды связей между блоками;  оценку правильности входных данных. Программное резервирование характеризуется включением специальных программных средств (программ, сегментов, модулей, макрокоманд), обеспечивающих обнаружение аварийных ситуаций и восстановление работоспособности. Преимущество программного резервирования в том, что можно повысить эффективность функционирования системы при фиксированном аппаратном обеспечении. Однако необходимо учесть то, что программные дефекты весьма специфичны и носят более детерминированный характер, поскольку определяются сложностью программных модулей и не зависят от времени, простое дублирование программных элементов не может дать требуемых результатов. Введение программной избыточности осуществляется с помощью: 42  использования различных алгоритмов построения программных модулей;  применения разных языков программирования;  использования различных версий компилятора. Эффективность введения программного резервирования во многом определяется способом построения программных средств, обеспечивающих избыточность. Основным требованием, предъявляемым к программному резервированию, является минимизация вероятности появления одинакового дефекта в базовых и резервных средствах. 5.3. ФУНКЦИОНАЛЬНОЕ РЕЗЕРВИРОВАНИЕ Функциональное резервирование – это вид резервирования, при котором заданная функция может выполняться различными способами и средствами. Например, функция передачи информации в системе может выполняться с использованием радиоканалов и других средств связи. Функциональное резервирование предназначается для повышения функциональной надежности. При использовании функционального резерва эффективность работы системы в основном и резервных режимах работы, как правило, существенно различаются. Поэтому для оценки надежности системы с функциональным резервом усредненные оценки безотказности (наработка на отказ, коэффициент готовности, вероятность безотказной работы) становятся малоинформативными и недостаточно пригодными для использования. Наиболее подходящие показатели надежности в таком случае – коэффициент эффективности и набор показателей надежности для каждого из возможных работоспособных состояний системы. 5.4. ИНФОРМАЦИОННОЕ РЕЗЕРВИРОВАНИЕ Информационное резервирование представляет собой дублирование особо важных блоков информационного обеспечения и осуществляется записью в память резервных копий и регенерации поколений файлов. В случае обнаружения искажений в информационном потоке восстанавливается история файлов. Это достигается путем хранения и постоянной регенерации поколений информационного потока или посредством периодической разгрузки и хранения рабочих копий файла. Информационное резервирование дает возможность наиболее рациональным образом в соответствии с выбранным критерием качества обеспечить решение задач восстановления, существенно влияет на эксплуатационные характеристики средств восстановления и определяет эффективность функционирования системы. В любой реальной системе входная и выходная информация могут иметь определенный резерв. Обычно стремятся обеспечить безрезервное кодирование, поскольку при этом длина слов в файлах оказывается минимальной. Однако, если в словах есть резерв, он может быть использован для обнаружения и исправления (коррекции) возможных искажений. Коррекция искажений в конечном счете приводит к повышению надежности выполняемого системой преобразования, поэтому в целом ряде случаев в слова специально вводится резерв (т. е. применяются резервные коды представления информации), используемый в целях повышения надежности. Введение информационного резерва с целью коррекции искажений впервые было предложено для передачи информации. На примере системы, осуществляющей простую 43 передачу дискретной информации, рассмотрим основную идею метода. Схема построения системы передачи информации по каналу с помехами с использованием корректирующих кодов для коррекции возникающих при передаче ошибок представлена на рис 5.2. х1 хк X'1 КУ X'n Канал передачи Y '1 Y 'n ДКУ Рис 5.2 Сообщения, которые должны быть переданы, поступают на вход системы передачи в виде отдельных блоков Х, называемых кодовыми словами и содержащих k символов каждый: Х = х1·х2... ·хk. (5.1) Предполагается, что эти сообщения закодированы без резерва. Кодирующее устройство (КУ) преобразует безрезервные кодовые слова Х длины k в резервированные слова Х длины n (n  k). Это и есть процесс введения информационного резерва. Резервные кодовые слова Х = х1 · х2...· хn поступают в канал передачи. Канал подвержен влиянию помех, в результате чего кодовые слова Y длины n (Y = y1 · y2... · yn), принимаемые на выходе канала, могут отличаться от переданных. Для характеристики искажений, возникающих в процессе передачи информации по каналу, пользуются векторами искажений. Вектор искажений Е представляет собой двоичное слово длины n (Е = е1· е2... · еn), содержащее единицы в тех позициях, в которых символы переданы неправильно, и во всех остальных позициях – нули. Искаженное выходное слово Y представляется как сумма по модулю двух переданных слов Х и вектора искажения Е. Количество единиц в векторе искажения, равное количеству неверно переданных символов в данном кодовом слове, определяет краткость искажения. Декодирующее устройство (ДКУ) выполняет целый ряд функций. Оно обнаруживает и исправляет искажения в принятых кодовых словах, устраняет введенный резерв и формирует правильное выходное слово. Процесс обнаружения искажений в схеме рисунка можно представить следующим образом. Множество кодовых слов на входе системы имеет объем Nx = 2k. Множество резервных кодовых слов на входе канала имеет объем Nx = 2ⁿ (Nx  Nx). Операция кодирования устанавливает взаимнооднозначное соответствие между 2k кодовыми словами Х множества М и 2k кодовыми словами из множества Мх. Таким образом, не все слова, входящие в Мy, могут появиться на входе канала (аналогично не все слова Мy могут появиться на его выходе). Множество разбивается на подмножество кодовых слов, которые могут появиться на входе канала (разрешенные), и подмножество слов, которые не могут передаваться по каналу (запрещенные). Каждое принятое кодовое слово анализируется в ДКУ на принадлежность к одному из двух подмножеств. Если оно относится к подмножеству разрешенных слов, то оно считается правильным. В этом случае ДКУ выполняет операцию, обратную операции кодирования, в результате чего устраняется введенный резерв и восстанавливается оригинальный вид сообщения, поступившего на вход системы. Если кодовое слово оказывается запрещенным, то это принимается как свидетельство наличия искажений. Всегда может быть построен такой вектор искажения, который переведет 44 передаваемое разрешенное кодовое слово в другое, также разрешенное. В этом случае искажение не будет обнаружено. Поэтому при построении системы передачи с обнаружением искажений должен быть задан полный перечень возможных векторов искажений и код должен быть построен таким образом, чтобы ни один из заданных векторов искажений не мог перевести одно разрешенное кодовое слово в другое. Процесс исправления искажений сложнее. Подмножество запрещенных кодовых слов предварительно разбивается на группы («декодировочные») по числу разрешенных кодовых слов. После того, как искажение обнаружено, т. е. принятое кодовое слово является запрещенным, определяется его принадлежность к одной из декодировочных групп и оно заменяется тем разрешенным словом, которому соответствует эта группа. Условие правильного функционирования системы исправления искажений можно сформулировать следующим образом. Резервирование примененного кода должно быть выбрано таким образом и декодировочные группы должны быть организованы так, чтобы ни один из заданных векторов искажений не выводил разрешенное кодовое слово из области, ограниченной его декодировочной группой. Характерной чертой метода является то, что резервированность входных слов не является необходимым, а резервирование выходных слов, напротив, является необходимым условием коррекции искажений, т. к. именно на выходе автомата производится проверка принадлежности кодового слова к подмножеству разрешенных или запрещенных кодовых слов. Второй важной чертой метода информационного резервирования является то, что он безразличен к причине возникновения корректируемых искажений. Причиной искажения может явиться устойчивый отказ или сбой в работе какого-либо элемента структуры. Этот отказ может произойти в основном автомате – преобразователе или в КУ. Независимо от этого возникшее искажение будет скорректировано, если только вектор этого искажения не выходит за пределы списка, для которого построен корректирующий код. В то же время необходимо отметить, что метод информационного резервирования требует абсолютно надежной работы ДКУ. Нарушение в работе ДКУ может привести к выдаче неверного выходного слова даже в том случае, если процесс основного преобразования выполнен правильно. 5.5. ВРЕМЕННОЙ РЕЗЕРВ Временной резерв существует в тех случаях, когда системе в процессе функционирования предоставляется возможность израсходовать некоторое время для восстановления ее характеристик. Можно указать несколько основных источников резерва времени. Прежде всего он может создаваться за счет увеличения резерва времени, выделяемого в системе для выполнения порученного ей задания и называемого оперативным или рабочим временем. Вторым основным источником является запас производительности, который позволяет уменьшить минимальное время выполнения задания и создать резерв без увеличения оперативного времени системы. Запас производительности можно образовать, увеличивая быстродействие элементов системы или объединяя несколько устройств низкой производительности в единый комплекс. В системах, результат работы которых оценивается объемом производимого продукта, резерв времени можно создавать за счет внутренних запасов выходной продукции. Для систем обработки информации такой продукцией является обработанная информация 45 для систем энергоснабжения – электрическая энергия и т. п. Для хранения запасов следует предусмотреть специальные накопители. В указанных системах ими являются запоминающие устройства и т. д. Пока запас не исчерпан, продукция поступает на выход системы и смежные с ней системы «не замечают» частичного и даже полного прекращения ее функционирования. Четвертым источником резерва времени является функциональная инерционность. В работе многих технических систем допускаются незначительные перерывы без потери качества функционирования. Они могут использоваться, в частности, для устранения отказа. Под временной избыточностью будем понимать наличие определенной доли производительности объектной ЭВМ, которую возможно использовать для функционального контроля систем реального времени и реализации процедур восстановления. Временное резервирование позволяет осуществлять повторение и проверку машинных операций на уровне микроопераций, отдельных команд, программных модулей, программ. Обычно она применяется в совокупности с динамической и программной избыточностью и зачастую ориентирована на решение следующих задач:  обнаружение неисправностей путем повторного выполнения или подтверждения правильности выполнения;  восстановление путем повторного прогона программ или повторения операции после обнаружения нарушения работоспособности;  диагностику причин появления нарушений работоспособности. Резерв времени можно расходовать не только на ремонт и подключение аппаратного резерва, но и на обнаружение отказов, повторение работ, обесцененных отказом, ожидание нагрузки в работоспособном состоянии. Потери рабочего времени, обусловленные первыми тремя причинами, называют первичными, в отличие от вторичных, связанных с ожиданием загрузки и устранением последствий отказов путем повторения некоторых работ. Нетрудно заметить некоторую аналогию между аппаратным и временным резервированием. Она проявляется, в частности, в том, что на временное резервирование можно распространить до некоторой степени существующую классификацию аппаратного резервирования и выделить следующие способы резервирования: общее, групповое, раздельное, полное, частичное, целой и дробной кратности и т. д. При общем резервировании выделяемый резерв времени можно израсходовать на восстановление работоспособности любого элемента системы. Раздельное резервирование характерно для так называемых многофазных систем, состоящих из нескольких последовательно соединенных фаз с промежуточными накопителями. Создавая запас продукции в своем выходном накопителе, каждый элемент обеспечивает себя собственным резервом времени, который не может использовать ни один из последующих элементов. В том случае, когда устанавливается один накопитель на группу элементов, имеет место групповое резервирование. Если в многофазной системе с групповым резервированием нет своего выходного накопителя, последняя группа устройств остается без резерва времени. В такой системе временное резервирование следует считать частичным. По мере накопления потерь рабочего времени текущее значение резерва уменьшается, пока не достигнет нуля. Такой резерв времени tn будем называть непополняемым, а систему, им обладающую, – кумулятивной. 46 Существуют, однако, и такие системы, для которых резерв времени не устанавливается заранее. Для восстановления работоспособности после отказа любого элемента выделяется одно и то же время, не зависящее от количества предшествующих отказов и времени, не затраченного на их устранение. В отличие от кумулятивной системы, где ограничивается суммарное значение потерь рабочего времени, здесь существует ограничение лишь времени Qi каждого ремонта. В момент окончания ремонта резерв времени немедленно пополняется до первоначального уровня. К таким системам можно подходить как к кумулятивным, у которых на каждый ремонт резерв времени выделяется небольшими порциями tg. Возможен и другой подход. Можно считать, что резерв времени содержит две составляющие: непополняемую tn, которая по мере накопления простоев уменьшается до нуля, мгновенно пополняемую tg в момент восстановления работоспособности. Перечисленные случаи не охватывают всех условий использования и пополнения резерва времени, поэтому любую систему, которая не может быть отнесена ни к одному из упомянутых классов, будем считать системой со сложными ограничениями. Представителем этого класса является система с конечным временем пополнения резерва времени. Резерв времени следует рассматривать как один из многих видов резервирования, которые можно вводить совместно или порознь для повышения надежности системы. 5.6. ПОДХОДЫ К ВЫБОРУ РЕЗЕРВА При решении задачи ввода резерва при рациональном соотношении его видов и объемов с целью повышения надежности систем необходимо исходить, в первую очередь, из оценки функций, выполняемых системой в процессе функционирования. Комплексный подход к выбору и оптимальному сочетанию различных типов резерва для системы при определенных ограничениях можно реализовать, используя аппарат статистического моделирования процесса её функционирования системы либо моделирование структуры и функциональных ее особенностей. При этом необходимо разработать принципы оценки различных стратегий выбора рационального соотношения типа и объемов резерва. За основу можно взять методику, основанную на сравнении стоимости задержки в выполнении управляющих функций со стоимостью разработки и эксплуатации резерва. В этом случае необходимо учитывать задачи, ограничения и параметры управляющего процесса при построении математической модели для реальной системы. Указанную задачу можно решить исходя из оценки надежности элементов системы. В этом случае производится декомпозиция системы на отдельные блоки по заданной иерархии и определяется надежность этих блоков. В случае, если реальная надежность их ниже требуемой и вероятность отказа превышает заданную, рассчитывается необходимый объем резерва. Данное решение целесообразно при применении структурного резерва. Общая вероятность безотказной работы системы в случае между элементами m n e Р ис  П Р iАО  П P jРО  П PkИО . (5.2) i 1 j 1 k 1 где PiAO – вероятность безотказной работы аппаратного обеспечения; PjРО – вероятность безотказного функционирования программного обеспечения; PkИО – вероятность отсутствия искажения информации. 47 (5.3) где P – интегральный показатель; PБ – вероятность безотказного функционирования; Pс – вероятность своевременного функционирования. Вероятность безотказного функционирования программного обеспечения можно выразить следующим образом: PБ=PДП ·PДИ ·PБАО, (5.4) где PДП – вероятность внесения дефекта в процессе проектирования; PДИ – вероятность интерактивного дефекта ПО; PБАО – вероятность безотказной работы АО. В технологическом плане задачи рационального ввода различных типов резерва выглядят следующим образом. При вводе программного, информационного и аппаратного резерва необходимо определить возникающее время реакции системы. Если оно не выходит за рамки временного резерва, то изменяются объем и соотношение типов резерва. Весь процесс является итерационным. P = PБ ·Pс, Тема 6 ДОСТОВЕРНОСТЬ ИНФОРМАЦИИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ 6.1. ДОСТОВЕРНОСТЬ ОБРАБОТКИ ИНФОРМАЦИИ Важнейшей задачей, решаемой при создании и эксплуатации систем, является обеспечение достоверности переработки информации. Информация – одно из основных свойств предметов и явлений, процессов объективной действительности, человека и созданных им систем, заключающееся в способности воспринимать внутренние состояния или воздействия окружающей среды и сохранять определенное время его результаты, преобразовывать полученные данные и передавать результаты переработки другим предметам, явлениям, машинам, людям. Информация представляет собой сведения, сообщения, которые необходимы для решения поставленной задачи. С позиции переработки информации в системе она подразделяется на входную, получаемую от датчиков, регистраторов, и выходную (результат обработки данных). Переработка информации включает операции ввода, первичной обработки, контроля, передачи, хранения, обработки и отображения. Любая из перечисленных операций может быть представлена входом (входная информация – то, что поступает на обработку), процессом (собственно обработка) и выходом (выходная информация – результат обработки). Информационные системы делятся на системы организационного типа, ориентированные на управление организациями, где источники и потребители информации – люди, и системы управления технологическими процессами, в которых объекты управления – технические устройства. Соответственно, информация в одних случаях ориентирована на человека, в других – на технические устройства. В организационных системах в качестве носителя информации используются обычные документы на естественном или специализированном языке. В процессе обработки информации в системах выделяются следующие этапы: внесение исходных данных в документы и в ЭВМ (начальная фиксация информации), передача данных по каналам связи, регистрация данных; обработка информации, отображение результатов обработки. Операции обработки информации выполняют: люди, датчики и регистраторы информации, средства передачи данных по каналам связи, средства хранения и 48 обработки данных, а также средства отображения информации потребителям. Реализация операций переработки информации сопровождается искажениями. Искажение информации – событие, при котором разность между истинным и искаженным значением рассматриваемой величины превышает некоторое допустимое значение. В общем случае искажение в информации есть различие между реально существующим ее значением и истинным. Искажения в информации обуславливаются в основном недостаточной надежностью человека, сбоями в работе технических средств систем. Уровень искажений определяет собой достоверность информации, которая характеризуется вероятностным показателем искажения некоторой единицы информации. Таким показателем может быть вероятность искажения, например двоичного символа, реквизита. Использование вероятностного показателя обуславливается случайным характером ошибок – субъективных и аппаратных, причем в последнем случае целесообразно в дополнение к надежности, отражающей интенсивность отказов в аппарате, ввести новое понятие – достоверность функционирования комплекса технических средств. Это понятие характеризует интенсивность ошибок в информации. Достоверность информации является интегральной оценкой уровня искажений независимо от причин их возникновения и выступает как общая мера любых искажений. Больше всего искажений в информацию вносит человек, который считывает информацию с измерительных приборов, табло, экранов, выбирает шифры из классификаторов, записывает информацию и производит ее первичную обработку, регистрирует информацию на машинные носители, управляет процессами обработки данных, особенно при вводе информации, контролирует информацию, корректирует искажения. Отсюда характеристики человека оказывают большое влияние на достоверность. Влияние технических средств на достоверность информации по сравнению с влиянием человека значительно ниже, по мнению специалистов, по меньшей мере, на порядок, однако и это влияние уменьшается благодаря тому, что увеличивается объем этих средств за счет резерва. Значимость достоверной информации обуславливается не только тем, что из ошибочной информации может вытекать неверное решение, но и существенным увеличением сроков обработки – снижением оперативности. Практика автоматизированной обработки информации в информационных системах свидетельствует о том, что понятия «достоверность» и «оперативность» весьма тесно связаны. Проведенные специалистами исследования показали, что обеспечение достоверности данных на этапе заполнения первичных документов увеличивает длительность этой процедуры до 1,4 раза, при регистрации данных на машинные носители – до 3 раз, при передаче данных по каналам связи до 2 раз и более; на корректировку искажений затрачивается время, составляющее до 40 % времени подготовки. До 30 % времени обработки информации расходуется на проверку вводимой информации: для обеспечения достоверности вычислений часто необходимо двух кратное и даже трехкратное решение задачи либо части ее. С повышением требуемого уровня достоверности существенно возрастают и затраты. Обеспечение высокой достоверности приводит к увеличению длительности системной разработки на 50 %, времени программирования – на 50 %, объема памяти – на 70 %; в целом суммарные затраты по созданию информационной системы возрастают на 50–100 %. 49 Проблема достоверности переработки информации в системе обуславливается сложностью, а во многих случаях невозможностью проверки алгоритмов, реализуемых техническими средствами и человеком, вероятностным характером искажений, многообразием источников искажений (человек, сбои в работе устройств регистрации информации, аппарате передачи данных, блоках технических средств), существенной вариацией значения искажений в количественных реквизитах, наличием характерных искажений, свойственных только человеку (перестановка символов, пропуск либо повторение символов, реквизитов и даже целых сообщений), различной формой представления информации в документах, на носителях, в технических средствах; значительным уровнем искажений в информации при больших ее объемах; большой сложностью и трудоемкостью выявления искажений и их исправления, разнообразием искажений по видам. 6.2. ПРИНЦИПЫ ПОВЫШЕНИЯ ДОСТОВЕРНОСТИ ИНФОРМАЦИИ Сложные информационные системы содержат значительное количество источников и получателей информации, связанных между собой каналами ее передачи и обработки. Надежность таких систем во многом определяется достоверностью передачи, хранения и обработки информации. Методы борьбы с искажениями как при передаче, так и при переработке информации основаны на введении информационного, алгоритмического или аппаратного резерва: применении кодов с обнаружением и исправлением искажений, методов оптимального резервирования технических средств, методов функционального контроля, методов оценки достоверности входной информации. Комплексное исследование проблемы повышения достоверности обработки информации в сложных информационных системах возможно при использовании следующих принципов:  системности – для повышения достоверности должны быть учтены все основные причины ошибок в информации, выдаваемой системой, независимо от их причин возникновения в процессе переработки информации. Принцип системности требует рассмотрения и сравнения между собой способов повышения достоверности информации;  экономичности – способ повышения достоверности, применяемые в системе, должны сравниваться не только по вкладу в повышение результирующего показателя достоверности, но и по затратам, необходимым для реализации этих способов;  равнопрочности – затраты на повышение достоверности в системе должны распределяться так, чтобы максимально улучшать показатели достоверности выходной информации. Принцип равнопрочности не допускает завышения одних характеристик системы, влияющих на достоверность, по отношению к другим. Причинами снижения достоверности выходной информации могут быть:  воздействие помех при передаче, хранении и переработке информации;  отказы и сбои в работе аппаратуры;  структурные и алгоритмические ошибки;  использование недостоверных входных данных;  ошибки человека как звена системы. Одним из основных условий функционирования системы является достоверность переработки информации. Вот почему к числу первоочередных проблем, подлежащих 50 исследованию при оценке функционирования систем, относится проблема оценки достоверности обрабатываемой информации. 6.3. ОЦЕНКА ДОСТОВЕРНОСТИ ИНФОРМАЦИИ Для количественной оценки достоверности информации необходимо использовать метод, который указывал бы на удельный вес недостоверной или достоверной информации в ее общем объеме. Вместе с тем рассмотрение вида искажений и причины их возникновения в информации показывает, что они носят случайный характер. Поэтому для количественной оценки достоверности информации необходимо использовать теорию информации, теорию вероятности и методы математической статистики. Если абсолютную достоверность информации, не имеющую искажений, принять равной единице, а количество искажений в информации выразить через вероятность их появления Р, то для оценки степени достоверности информации D справедливо в общем виде выражение D = 1 – P. (6.1) Вычислить вероятность появления искажений Р вполне возможно с помощью традиционных статистических методов. Вероятность искажений определяется на основе статистического анализа частоты случаев появления их в информации, т. е. в общем виде вероятность искажений Р можно выразить уравнением (6.2) P  lim / Q , Q где  – число искажений; Q – объем информации. Частота искажений * =  / Q по мере их увеличения все больше приближается к вероятности Р, поэтому в практических целях вероятность появления искажений Р можно с известным приближением заменить *. В связи с этим для количественной оценки достоверности информации целесообразно пользоваться не величиной достоверности D, а обратной величиной – недостоверностью информации, измеряемой частотой искажений в ней *. Например, если частота искажений * составляет 2 на 10 000 знаков (* = 2·10-4), то достоверной информацией является 9 998 знаков из 10 000 знаков, т. е. D = 9 998 *10-4 = 0,9 998 или D = 1 – Р = 1 – 0,0 002 = 0,9 997. Оценка достоверности информации по частоте искажений, содержащихся в ней, должна способствовать выявлению «узких мест» в работе систем. В случае низких показателей достоверности обрабатываемой информации на основе анализа причин возникновения искажений и определения конкретных причин принимаются соответствующие действия, которые должны привести к повышению эффективности функционирования систем, о котором можно судить по отклонению фактической достоверности от нормативной. Поскольку надежность системы определяется как способность последних выполнять свои функции в течение определенного времени при заданных условиях, то центральным понятием считается отказ, когда один или несколько параметров систем выходят за заданные пределы, что вызывает необходимость замены отказавшего элемента либо его восстановления. Надежность характеризуется рядом показателей, в частности, вероятностью безотказной работы в течение заданного времени, средним временем 51 безотказной работы, интенсивностью отказов, коэффициентом готовности. Эти показатели, достаточно глубоко отражая безотказность и ремонтопригодность, не характеризуют достоверность функционирования последних с позиции появления сбоев. Поэтому надежность применительно к информационным системам можно трактовать как вероятность получения достоверного результата в заданные сроки, а именно: Р н = КГ  Р Б  Р т , (6.3) где КГ – коэффициент готовности; РБ – вероятность безотказной работы технических средств в течение времени t решения задачи; Рт – вероятность отсутствия сбоев, приводящих к ошибкам в выходной информации. Как правило, КГ ТС систем равен 0,9 – 0,95, а вероятность безотказной работы почти на порядок выше вероятности отсутствия сбоев. Поэтому надежность решения в основном определяется параметром Рт, т. е. достоверностью функционирования технических систем. Однако формула (6.3) не может быть использована для оценки надежности системы в целом, ибо не отражает надежности функционирования человека-оператора, являющегося важнейшим звеном системы. Надежность человека – понятие значительно более сложное, чем надежность технических средств. С учетом надежности человека достоверность переработки информации в информационной системе можно определить по следующей формуле, полагая, что часть искажений будет выявлена контрольными мероприятиями и своевременно исправлена: Рд = Р чР т + Р ч (1 – Р т) Ртоб Ртис + (1 – Р ч) Р т Рчоб Рчис+ (1 – Р ч) (1 – Р т) Рчтоб Рчтис, (6.4) т где Рт – вероятность достоверной переработки данных технических средств; Р об – вероятность обнаружения искажений, внесенных в информацию технических средств человеком-оператором; Рчис, Ртис, Рчтис – вероятности исправления искажений за счет человека, технических средств и человека и техники соответственно за время t, не превышающее допустимое tдоп; Рч –вероятность того, что при обработке данных человеком последний не внесет в информацию искажений. Конечным результатом обработки информации является вычисление по заданному алгоритму определенных показателей, которые сводятся в выходной документ, отображаемый на экране видеотерминальных устройств, или передаются по каналам связи с помощью ТС и представляются в алфавитно-цифровом виде. Следовательно, для пользователя входная и выходная информация в системе обработки – это документы, различающиеся по формам, числу реквизитов, искажения отражающих показатели, их значности. Соответственно, и ошибки в информации могут быть отнесены к совокупности документов одного вида, к отдельному документу по его строкам, реквизитам. Искажения информации в системе могут быть:  символьными (однократными и многократными);  форматными простыми (однократными и многократными);  форматными сложными (однократными и многократными). Символьные искажения (СИ) характеризуют искажение символов (слов) и выражаются в переходе истинного символа в ошибочный при этом разрядность (формат) слова не меняется. В реквизите одновременно могут быть искажены один и более символов, соответственно можно говорить об одно- и многократных ошибках. СИ могут появляться на любых этапах и операциях обработки: при заполнении первичных документов, кодировании информации, первичной обработке данных, передаче данных. СИ являются наиболее массовыми, ими в основном и определяется уровень достоверности 52 информации. Форматные искажения (ФИ) определяют собой искажение длины формата некоторой единицы информации. В отличие от СИ ФИ могут поражать один реквизит, в том числе и одноразрядный (например, изменение разрядности в реквизите – простая ФИ), либо группу реквизитов, строк документа, пачку документов – сложные ФИ. Однократная простая ФИ – увеличение (уменьшение) длины реквизита на один разряд, многократная – на два и более. Сложная однократная ФИ в группе реквизитов – пропуск или добавление одного реквизита, многократная ФИ – двух и более реквизитов. Для строки документа и пачки документов можно также говорить о сложных строчных документных однократных и многократных ФИ. При этом кратность определяется числом пропущенных или добавленных строк документа или документов определенного вида. В отличие от других видов искажений сложные ФИ приводят к изменению структуры документа и, как правило, вызывают наиболее тяжелые последствия. Основными источниками искажений в системе являются: человек-документалист, человек-оператор; технические средства; носители информации; инструктивные материалы по выполнению операций обработки. Проведенные исследования показывают, что подавляющее большинство (80–90 %) составляют символьные и простые форматные искажения с учетом искажения ими служебной информации. Сложные форматные искажения, как правило, не превышают 10 %. Распределение искажений по этапам технологического процесса обработки данных для различных задач может существенно отличаться, что определяется видом информации, сложностью первичных документов, объемом вносимой в них информации и источниками ее получения, качеством инструкций операторам (особенно по кодированию информации), психофизиологическими особенностями человекадокументалиста и человека-оператора, используемыми техническими средствами, достоверностью их функционирования. Известно несколько показателей достоверности обработки информации в системе. Выбор показателя оценки во всех случаях зависит от того, для каких целей данный показатель предполагается использовать. В этом плане показатель достоверности должен обеспечивать определение уровня искажений в информации, сравнение различных способов технологии обработки данных, определение числа искажений в заданном объеме информации (что необходимо для оценки длительности их исправления), оценку распределения искажений в некотором объеме информации. Поскольку искажения носят случайный характер, то наиболее распространенным для оценки достоверности является вероятность искажения двоичного символа: Р0 = n0 / N0 N0  , (6.5) где n0 – число искаженных двоичных символов; N0 – общее число переданных двоичных символов. На важнейших этапах обработки – при заполнении первичных документов, регистрации данных, а также при выпуске работ, – информация представляется, как правило, в алфавитно-цифровом виде, поэтому дополнительно используется показатель достоверности вероятности Ра искажения алфавитно-цифровых сигналов (АЦС) либо противоположного ему показателя Рба = 1 – Ра: Ра = nа / Nà, (6.6) где nа – число искаженных АЦС; Nà – общее число обработанных АЦС. 53 Также применяется показатель Кд = lg1 / P0, причем Кд = 1–9. Однако как Кд, так и Рба не получили широкого распространения: первый – из-за логарифмического характера и отсутствия наглядности в сравнении различных вариантов обработки, второй – из-за известного неудобства записи. Показатель Ра (либо Рба) не всегда отвечает сформулированным выше требованиям, а прямое перенесение разработанных для двоичной информации принципов оценки в область переработки алфавитно-цифровой информации оказывается невозможным по причинам наличия алфавита с гораздо большей длиной, неравновероятности появления различных искажений в цифровом разряде даже при равной вероятности любых символов, появления на подготовительных этапах обработки специфических ошибок человека. Для оценки достоверности обработки информации необходимы дополнительные показатели, а именно вероятность искажения реквизита РPK, вероятность искажения строки документа РСД и документа в целом РДК. Разумеется, при вероятностной оценке достоверности единиц информации крупнее АЦС необходимо указывать объем соответствующей информации, а сопоставление характеристик достоверности производить с учетом объема информации (длины реквизитов). На основе показателя РРК достаточно просто найти вероятность искажения строки документа, а также приближенно вычислить и вероятность искажения документа в целом. Для сравнительной оценки эффективности различных мероприятий по повышению достоверности, определения уровня искажений в некотором объеме Nа информации предлагается использовать вместо показателя Ра вероятность искажений Рош (любого вида) – число искажений всех видов в объеме информации, отнесенное к одному АЦС, т. е. Ри = nи / Nа Nа . (6.7) При оценке качества различных методов контроля иногда требуется введение и некоторых других показателей, характеризующих искажения определенных видов в реквизитах, строках документа (например, перестановка символов в реквизите, перестановка чисел в строке документа). В качестве показателя достоверности можно использовать вероятность Ре искажения некоторой единицы информации (ЕИ). Указанный параметр позволяет помимо оценки уровня искажений ЕИ сравнить различные варианты обработки, выявить узкие места, где значение Ре выше среднего, определить число nе искаженных ЕИ, которые потребуют корректировки (nе = NеРе), найти ориентировочное значение вероятности искажения объема данных из Nе единиц информации. В некоторых случаях показатель Ре целесообразно дополнять распределением R(N) длины неискаженного интервала, в частности для оценки вероятности искажения заданного объема Nе при использовании методов контроля, эффективность которых одинакова для всех видов искажений. Независимо от вида ЕИ показатель Ре определяется с учетом объема единицы информации. Доверительные границы для Ре могут быть найдены для большого числа наблюдений (несколько сотен и тысяч) по формулам: Pe1  P * e  t2  Pe* 1  Pe* Ne ; Pe1  P*e  t2  Pe* 1 Pe* Ne , (6.8) где Ре* – частность искажения ЕИ в эксперименте; t2 – постоянный параметр, который определяет (для нормального закона распределения) число среднеквадратичных отклонений вправо и влево от центра рассеивания; при этом вероятность Ре* попадания в 54 интервал Ре1 – Ре2 будет d . Формула (6.8) справедлива, когда NеРе и Nе(1 – Ре) > 9. Если число Nе наблюдений в эксперименте мало (не превосходит нескольких десятков), вероятность искажения ровно n ЕИ будет распределена по биномиальному закону, т. е. РnNе = CnN е Pnе (1 – Pе) N-n . (6.9) Поскольку биномиальное распределение – несимметричное относительно центра рассеивания, доверительные границы целесообразно определять из соотношений  РnNе = CnNе Pnе (1 – Pе) N-n =  / 2;  РnNе = CnNе Pnе (1 – Pе) N-n =  /2, (6.9.) где =1- – вероятность попадания частности искажения ЕИ левее и правее доверительных границ; n – число искаженных ЕИ при Ne опытах. Основной единицей экономической информации является показатель, состоящий из реквизитов-признаков и реквизитов-оснований. Реквизиты-признаки определяют показатель качественно (например, шифры, коды, обозначающие определенные понятия), а реквизиты-основания – количественно. Количественная характеристика показателя вычисляется по заданному алгоритму обработки с определенной точностью. Как известно, точность любой величины, в том числе и показателя, может быть охарактеризована абсолютной и относительной погрешностями, а именно:  = А – В;  =  / А. (6.11) Тема 7 НАДЕЖНОСТЬ ОПЕРАТОРА ИНФОРМАЦИОННЫХ СИСТЕМ На сегодняшний день особо остро стоит проблема разработки теории надёжности систем с учетом наличия в ней человека. По данным технического комитета ООН, в развитых промышленных странах за последние 15 лет доля ручного труда сократилась с 76 до 8%, доля полностью автоматизированных информационных систем возросла с 12 до 32 %, а доля тех производственных процессов, которые реализуются такими системами, возросла с 12 до 60 %. Проблема надежности таких систем требует комплексного, системного исследования, позволяющего охватить не только технические, но также биологические, психологические и социально-психологические аспекты проблемы. Проблема надежности связана с инженерной психологией, поскольку человек в контуре системы допускает в процессе своей деятельности ошибки различного характера. 7.1. ПОДХОДЫ К ИЗУЧЕНИЮ НАДЕЖНОСТИ ОПЕРАТОРА Человек, включенный в работу системы, рассматривается в инженерной психологии как одно из звеньев общего контура управления или регулирования. Это означает, что эффективность и надёжность целенаправленного функционирования любой системы с участием человека будет зависеть от того, насколько своевременно, точно и безошибочно, т. е., иными словами, надёжно, станет выполнять при заданных условиях возложенные на него функции человек-оператор. В связи с этим важно знать, сколько времени оператор может выполнять необходимые действия с заданной точностью, как изменяется его надёжность в течение рабочего дня, в каких условиях человек начинает работать ненадёжно, какова причина его ненадёжности. Обеспечить высокую надёжность системы без учёта особенностей деятельности 55 человека невозможно. Если применить существующие методы оценки надёжности к человеку, то он оказывается самым ненадёжным звеном системы «человек - машина», т.к. не способен длительное время безошибочно выполнять одну и ту же работу, легко отвлекается, его поведение трудно предсказать, так как оно подвержено влиянию очень многих факторов. Однако человек лучше, чем любая машина, может справиться с непредвиденной ситуацией, способен предвидеть ход событий, находить оптимальные решения в сложных ситуациях, перестраивать способ деятельности в новых условиях. Складывающееся противоречивое представление называется парадоксом о надёжности человека-оператора. С одной стороны, он менее надёжен, а с другой стороны – более надёжен, чем существующие машины. В инженерно-психологических исследованиях наметилось несколько подходов к изучению надёжности человека-оператора. Одни исследователи концентрируют своё внимание на причинах ошибок человека-оператора, т. е. на таких моментах его деятельности, которые определяют надёжность. Ошибки делятся на закономерные (так называемая «систематическая» ошибка человека) и случайные (которые не могут быть объяснены какой-либо видимой причиной). Изучение случайных ошибок заставляет обратить внимание на стохастический характер деятельности человека. В других исследованиях на первый план выдвигается вопрос о факторах, обеспечивающих надёжную работу оператора даже при неблагоприятных условиях. При этом рассматривается высокая пластичность поведения человека, его резерв и механизм компенсации нарушенных или затруднённых функций. Некоторые исследователи считают, что ядром проблемы надёжности человека является проблема работоспособности, поэтому изчается динамика работоспособности и характеристики основных фаз, их переходы и соотношения между продуктивностью работы, возможностями организма в данный момент и уровнем эмоционально-волевого напряжения на каждой фазе. Общеизвестен факт, что чередование различных видов деятельности (так называемый активный отдых) в определённых условиях является более мощным средством восстановления работоспособности, чем полный покой (пассивный отдых). Следующий подход к проблеме надёжности человека-оператора состоит в изучении специфики психической регуляции его деятельности. Утверждается, что регуляторами действий являются различные формы психических отражений: перцептивные образы представления, концептуальные модели. Ещё одним подходом к рассматриваемой проблеме является изучение индивидуальных топологических свойств людей. Как показали исследования, работоспособность человека и его «помехоустойчивость» (способность работать концентрированно в условиях отвлекающих воздействий) имеют общее основание в одном из капитальных свойств нервной системы, а именно в её силе. Надёжность выполнения оператором своих функций специалисты подразделяют на три вида: 1) психологическая надёжность – надёжность по отношению к неустойчивым ошибкам, связанным с неправильным или несвоевременным выполнением отдельных действий; 2) физиологическая надёжность – надёжность по отношению к временным устойчивым ошибкам ввиду дефицита времени или вследствие развития усталости, травмы, стресса; 56 3) демографическая надёжность – надёжность по отношению к окончательным ошибкам за счет старения, травм и инвалидности, смерти. Некоторые учёные надёжность оператора рассматривают вместе с индивидуальными характеристиками оператора в свете учения о типах высшей нервной деятельности. Из рабочих характеристик выделяются те, в основе которых лежат врождённые свойства нервной системы оператора: долговременная выносливость, выносливость к экстренному напряжению, помехоустойчивость, переключаемость и др. 7.2. СИСТЕМНОСТЬ ОБЕСПЕЧЕНИЯ НАДЕЖНОСТИ ОПЕРАТОРА Главной целью проблемы надёжности человека-оператора является обеспечение требуемого уровня надёжности работы оператора в конкретной системе. Надёжность работы человека-оператора закладываться в процессе проектирования системы через решение следующих основных вопросов: распределение функций с системой, учёт необходимых инженерно-психологических и эргономических требований к рабочему месту оператора, выбор оптимальных условий окружающей среды, организация трудового процесса (степень информационной загруженности оператора, продолжительность работы, характер работы). На стадии проектирования системы наряду с выбором методов обучения и тренировки операторов должен решаться и вопрос о профессиональном отборе, если речь идёт об «абсолютной профессиональной пригодности», или подборе необходимого контингента операторов, если предъявляемые к ним требования позволяют говорить об «относительной профессиональной пригодности». На этапе производства ТС проблема общей надёжности работы оператора подразумевают ответы на следующие вопросы: введение системы контроля за соблюдением требований, заложенных в проектной документации; разработка и внедрение в процесс производства психологических принципов бездефектного труда. На стадиях эксплуатации системы основное внимание сосредотачивается на контроле выполнения требований, предусмотренных проектом деятельности человека-оператора, например: соблюдение оптимальных условий и режимов работы оператора, решение вопросов профессионального отбора, обучения, поддержания и восстановления профессиональных навыков после длительного перерыва в работе. 7.3. ОЦЕНКА НАДЕЖНОСТИ ОПЕРАТОРА Необходимость разработки методов, которые позволяли бы осуществить количественную оценку надёжности работы оператора и системы в целом, настоятельно диктуется потребностями практики. В основе метода AIR DATA лежит «банк данных» по временным и надёжностным характеристикам выполнения человеком отдельных операций, которые могут входить в структуру его деятельности в системе. Метод преследует следующие цели:  прогнозирование надёжности деятельности оператора;  выявление ошибок, допущенных на этапе проектирования;  выдача указаний по отбору и обучению операторов. Данные экспериментов приведены в виде вероятностей безошибочного выполнения отдельных операций, минимально необходимого времени для их совершения, а также в виде временных поправок, обусловленных индивидуальными характеристиками. 57 Техника использования метода сводится к определению надёжности выполнения задачи путём последовательного перемножения вероятностей безошибочного выполнения входящих в него отдельных операций и расчёта суммарного времени выполнения задания по временным затратам на отдельные операции. Метод применим для задач дискретного типа и основан на предположении независимости входящих в структуру задания операций. Метод THERP предполагает анализ систем с помощью построения вероятностного дерева, каждой ветви которого приписывается соответствующая вероятность её реализации. Вероятностное дерево для всей системы становится исключительно сложным и труднообозримым, поэтому метод применяется обычно на уровне подсистемы приблизительно для 50 ветвей и при условии довольно четкого понимания связей в системе. Исходные надежностные характеристики могут браться из «банка данных», а сами расчеты возможно проводить с помощью ЭВМ. Эволюцию взглядов и идей в отечественной инженерной психологии относительно количественных методов оценки прогнозирования надежности человека-оператора можно проследить по работам Губинского, Лобова, Мансурова, Суходольского, Николаева и др. Обобщенно-структурный метод (ОСМ) А. И. Губинского и системный метод Ю. Г. Фокина наиболее полно обеспеченны математическими моделями и методиками для практического применения. В математических моделях обобщённо-структурного метода предусмотрена принципиальная возможность учёта самоконтроля оператора. Согласно принципу иерархического структурирования как одному из методических принципов ОСМ анализ конкретной деятельности человека-оператора осуществляется как бы «сверху вниз», с представлением её в виде структур на уровне совокупности решаемых задач (это высший уровень структурирования деятельности), затем на уровнях отдельной задачи, отдельного алгоритма, блока операций и, наконец, отдельной операции. При этом на каждом из перечисленных уровней рассмотрения применимы одни и те же критерии оценки: надёжность выполнения структуры и временные запреты на её выполнение. Количественная же оценка целостной структуры деятельности оператора осуществляется в обратной последовательности, т. е. «снизу вверх», и поэтому уровень отдельных операций является тем исходным уровнем, на котором необходимо располагать соответствующими надёжностными характеристиками. Численные значения выбранных критериев надёжности человека (вероятность безошибочного выполнения отдельных операций и временные затраты на их осуществление) могут определяться либо на основании уже известных экспериментально-психологических данных, приведённых в литературе, либо путём проведения специальных испытаний на пульте управления или его макете. Усреднённые временные и надёжностные характеристики могут быть получены из эксперимента, поставленного на представительной выборке из соответствующей совокупности испытуемых. Итак, исходные надёжностные данные получаются в специально организованных для этой цели экспериментах. Но практика психологических исследований повседневно обогащается обширным эмпирическим материалом, получаемым при изучении специальных задач. Однако, замечает Г. В. Суходольский, в этих экспериментах, к сожалению, не всегда используются общепринятые количественные меры. В итоге это приводит к утрате количественных данных, характеризующих психологические аспекты деятельности человека, которые могли бы найти полезное применение при решении 58 различных задач в области теории и практики проблемы надёжности оператора. При оценке надёжности человека специалисты предлагают учитывать следующие факторы:  долговременную выносливость – сохранение человеком работоспособности на заданном уровне в течение определённого времени; с нарастанием утомления надёжность снижается за счет увеличения неточностей, ошибок, снижения внимания;  устойчивость к воздействию факторов среды: температуры, влажности, давления, шума, ускорения, связанную с состоянием нервной системы оператора;  работоспособность в экстремальных условиях, т. е. способность принимать правильные решения при дефиците времени, в аварийных ситуациях;  помехоустойчивость – работоспособность оператора в условиях шумов, посторонней речи, движения посторонних предметов в поле зрения; она повышается за счёт приобретения опыта работы, тренировок, улучшения условий труда;  спонтанную отвлекаемость – отвлечение внимания в результате внутренних спонтанных колебаний внимания, в первую очередь, при длительном пассивном наблюдении;  переключаемость – время «вхождения» в новую деятельность (при этом стереотипные решения предшествующих задач могут переноситься на вновь решаемые), что определяется индивидуальными особенностями каждого человека. В ряде случаев человек способствует повышению надёжности системы, что объясняется, например, его способностью восстанавливать сигналы на фоне шумов и своевременно парировать отказы элементов КТС системы. Надёжность оператора характеризуется безошибочностью, готовностью, восстанавливаемостью и своевременностью. Основным показателем безошибочности является вероятность безошибочной работы, которую можно вычислять как на уровне отдельной операции, так и на уровне алгоритма в целом. Для типовых, часто повторяющихся операций в качестве показателя безошибочности можно использовать также интенсивность ошибок. Этот показатель определяют, как правило, в расчёте на одну выполненную операцию (алгоритм), по статистическим данным применительно к фазе устойчивости в работоспособности (7.1): nошj N  nошj , (7.1) Pj  j ; j  N j Tj Nj где Pj – вероятность безошибочного выполнения операций j-го вида; j –интенсивность ошибок, допущенных при выполнении операций j-го вида; Nj, nошj – общее число операций j-го вида и допущенное при этом число ошибок; Tj – среднее время выполнения операции j-го вида. Зная интенсивность ошибок j при выполнении различных операций и алгоритм работы человека-оператора, можно найти вероятность безошибочного выполнения этого алгоритма: (7.2)   ,  p   T k   P oш r kj j 1 j   e r j 1 j j j  e r 1 p j k j j 1 где kj – число выполненных операций j-го типа, r – число различных видов операций (j = 1, 2,…, r). Важным показателем надёжности является коэффициент готовности, представляющий собой вероятность включения человека-оператора в работу в любой произвольный момент времени, определяемый выражением 59 (7.3) где T0 – время, в течение которого человек-оператор по тем или иным причинам не может принять поступившую к нему информацию; T – общее время работы человекаоператора. В качестве показателя восстанавливаемости используют вероятность исправления оператором допущенной ошибки: Pисп = Pк · Pобн · Pи, (7.4) где Pк – вероятность выдачи сигнала схемой контроля; Pобн – вероятность обнаружения оператором сигнала контроля; Pи – вероятность исправления ошибочных действий при повторном выполнении алгоритма. Этот показатель позволяет оценить возможность самоконтроля оператором своих действий и исправления допущенных им ошибок. Показателем своевременности является вероятность выполнения задачи в течение времени   te, где te – лимит времени, превышение которого рассматривается как ошибка. Эта вероятность определяется формулой Kоп = I – T0 / T, te Pсб  P{  t e }   f  d , (7.5) где f() – функция распределения времени решения задачи человеком-оператором. Время te может быть как постоянной, так и случайной величиной. В первом случае вероятность Pсб определяется выражением, записанным выше. Во втором случае вычисление Pсб довольно сложно. Оно упрощается, если  и t подчинены нормальному распределению с параметрами  ,  и t e , te соответственно. Надёжность деятельности оператора не остаётся величиной постоянной, а меняется с течением времени. Это изменение обусловлено как изменением условий деятельности, так и колебаниями состояния оператора, поэтому при определении надёжности оператора в каждом конкретном случае приходится выбирать те или иные факторы, наиболее характерные для данного вида деятельности. Среднее значение вероятности безошибочной работы оператора (при условии независимости появления ошибок): m Pоп   Pi  Pоп / i , i 1 (7.6) где Pi – вероятность наступления i-го состояния системы; Pоп / i – условная вероятность безошибочной работы оператора в i-м состоянии; m – число рассматриваемых состояний системы. Вероятность Pi в ряде случаев может быть определена методами теории массового обслуживания. Вероятность Pоп / i может быть получена в результате анализа деятельности оператора по формуле (7.2) или экспериментально. Тема 8 ОЦЕНКА НАДЕЖНОСТИ ИНФОРМАЦИОННЫХ СИСТЕМ НА СТАДИЯХ СОЗДАНИЯ 8.1. ЗАВИСИМОСТЬ СТОИМОСТИ СОЗДАНИЯ СИСТЕМЫ ОТ НАДЕЖНОСТИ Чем выше надежность создаваемой системы, тем больше её эффективность. Исходные данные по надежности на начальной стадии проектирования весьма ограничены. 60 На рис. 8.1 приведены кривые, определяющие стоимость разработки в зависимости от своевременности организации работ по обеспечению надежности. Суммарная стоимость Сумма намеченных ассигнований С у м м а р н а я с т о м о с т ь 1 II I 2 3 4 III IV Стадии создания системы Рис. 8.1. I – техническое задание; II – техническое проектирование; III – рабочее проектирование; IV – передача в эксплуатацию. Малоэффективно использование контроля качества (IV – передача в эксплуатацию), который не может улучшить характеристики надежности, обусловленные неудачным проектом. Обеспечение надежности на стадии технического проектирования позволяет добиться значительного улучшения показателя стоимости (кривая 3). Рациональное решение может быть достигнуто тогда, когда необходимые работы по обеспечению надежности начнут производиться на начальной стадии проектирования (кривая 4), на стадии «техническое задание». В процессе создания системы все организационные мероприятия оформляютс в виде программы обеспечения надежности (ПОН), которая включает комплекс работ, проводимых на всех стадиях разработки и эксплуатации системы, и обеспечивает высокий уровень эксплуатационной надежности. Программы составляет разработчик системы и согласовывает ее с организациямисоисполнителями. Ее выполнение контролируется после завершения отдельных стадий и этапов разработки системы. ПОН составляется в виде отдельного документа при разработке ТЗ на систему и утверждается вместе с ним. В ней указываются перечень выполняемых работ, сроки их выполнения, результаты работы, исполнители. Под проектированием системы понимают процесс обоснованного выбора её характеристик и разработки документации, достаточной для утверждения намеченных затрат, доходов, дополнительной численности, дополнительных площадей и организационно-технических решений на первом и втором этапах – для заказа и комплектации технических средств, монтажа их и наладки, а также для организации работ по внедрению системы. Документы проекта должны также содержать задание проектировщикам смежных профессий, а при необходимости – задание на выполнение опытно-конструкторских и научно-исследовательских работ. В проектирование входит разработка рабочих программ и отладка, так как без этой операции программы нельзя считать законченной продукцией. 8.2. ОБЕСПЕЧЕНИЕ НАДЕЖНОСТИ НА СТАДИЯХ СОЗДАНИЯ Первой стадией проектирования является разработка ТЗ. Оно разрабатывается совместно с технико-экономическим обоснованием (ТЭО) с целью оценить целесообразность разработки системы с определенными функциями и техническими 61 характеристиками. На этапе предварительного обследования основной целью является выявление главных предполагаемых источников эффективности создаваемой системы и сбор необходимых данных для выбора комплекса технических средств. По надежности проводятся следующие работы: сбор данных об условиях и режимах работы объекта (дискретный или непрерывный характер производства, наличие и характер среды, характер помех, наличие и величина колебаний уровня напряжения питающего потока и т. п.); сбор данных о существующей системе технического обслуживания и ремонта оборудования, контрольно-измерительных приборов, средств автоматизации, средств вычислительной техники; сбор данных о составе и организации работы ремонтноэксплутационного персонала; сбор данных о надежности объекта; изучение видов и последствий отказов технических средств. На втором этапе – стадии проектирования (предпроектные научно-исследовательские работы) производится подготовка ТЗ на создание системы. К работам по надежности относятся анализ данных об объекте и определение предварительных требований к надежности системы, сбор и анализ данных о функциях надежности и условиях работы существующей системы и систем, аналогичных разрабатываемой, постановка и разработка методов решений новых прикладных задач по надежности системы. На этапе эскизной разработки системы производится сбор данных о надежности ТС, который предполагается использовать в системе; анализ его функций; определение конкретного содержания формулировки понятия отказа отдельных функций и системы в целом; определение функций системы и видов их отказов, для которых необходимо нормировать требования к надежности; предварительная оценка надежности КТС по основным функциям системы; определение целесообразности и возможности применения основных путей повышения надежности системы по рассмотренным функциям. На четвертом этапе – разработки ТЗ на создание системы – производятся определение требований к надежности функционирования системы, вносимых в ТЗ; выбор методов оценки (контроля) надежности системы на дальнейших стадиях создания системы; утверждение ПОН разрабатываемой системы. Кроме того, на стадии ТЗ обосновывается необходимость учета особенностей алгоритмов и программ, а также действий оператора при оценке надежности системы на различных стадиях создания. Второй стадией проектирования являются технический проект. Он состоит из нескольких этапов. Главное назначение технического проекта – утверждение основных направлений действия системы, затрат, экономической эффективности, требуемых рабочих площадей и штатов обслуживающего персонала. Технический проект системы оформляется в виде комплекса текстовых и графических материалов, дающих полное представление о составе и функционировании системы. Большое внимание в проекте уделяется вопросам надежности функционирования системы и технике безопасности во время эксплуатации. На этапе системотехнического синтеза системы с целью обеспечения её надежности производится анализ различных вариантов построения системы, предполагаемого состава используемых технических средств, структуры и содержания алгоритмов функционирования системы, а также оперативного персонала; ориентировочная проектная оценка надежности перспективных вариантов системы. На этапе аппаратурно-технического синтеза определяется возможность и пути повышения надежности по различным вариантам системы, сравниваются варианты и 62 выбирается предпочтительный вариант по критерию надежности, разрабатываются требования по надежности отдельных подсистем и локальных устройств системы, подготавливаются исходные данные и проводятся предварительные расчеты параметров технического обслуживания, утверждение одиночного комплекта запасных элементов, состава и квалификации ремонтно-эксплутационного персонала системы; производится проектная оценка надежности её функционирования системы с учетом КТС, алгоритмов управления и действия оперативного персонала по выбранному варианту системы. На последующих этапах технического проекта производится разработка требований к надежности модернизированных средств автоматизации, разработанных для данной системы; к надежности оперативно-диспетчерского оборудования, не выпускающегося серийно; уточнение ТС, в том числе средств технической диагностики и запасных элементов. Третья стадия проектирования системы – рабочий проект – включает разработки текстовой и графической документации, необходимой для внедрения и функционирования системы. Это пояснительные записки, различные инструкции и спецификации, схемы, чертежи и т. д. На этапе разработки рабочей документации на программное и информационное обеспечение проводится уточнение данных о надежности технических средств, выбранных для окончательного варианта системы, а также данных о надежности действий оперативного персонала; даётся уточнение проектной оценки надежности ТС системы по ее основным функциям для окончательного варианта. На этапе составления запасных модификаций производят уточненный расчет одиночного комплекта запасных элементов системы, включая оборотную и расходную части. На этапе разработки рабочей документации на программное и информационное обеспечение производится проектная оценка надежности программного обеспечения (ПО). Производится проектная оценка надежности системы с учетом ТС, алгоритмов и программ, уточненная проектная оценка надежности функционирования системы с учетом ТС, особенностей структуры алгоритмов и программ, действий оперативного персонала, режимов и параметров технической эксплуатации системы. На четвертой стадии проектирования системы – внедрения – производится исследование надежности создаваемой системы в условиях опытной эксплуатации. На стадии подготовки объекта к внедрению делают уточнение методик и форм сбора и обработки информации о надежности системы при проведении испытаний и в условиях эксплуатации системы; разрабатывают программы экспериментной оценки надежности системы на этапе опытной эксплуатации. При наладке системы производят сбор и анализ информации о неисправностях ТС, их наладку; отладку программ, реализующих общий алгоритм функционирования системы и т. д. На этапе приемо-сдаточного испытания системы на надежность (при необходимости) разрабатывают программы экспериментальной оценки (контроля надежности системы на этапе опытной эксплуатации). Кроме того, на стадии внедрения собирают и обрабатывают информацию о надежности системы в условиях опытной эксплуатации; уточняют (при необходимости) параметры технической эксплуатации, состав запасных элементов, состав функции и степени подготовленности оперативного (и эксплуатационного) персонала; производятся коррекцию эксплуатационной документации. На этой стадии определяют также частоту и глубину профилактических и регламентных проверок на основе всестороннего рассмотрения вопросов будущей 63 эксплуатации системы. На последней стадии проектирования системы – анализа функционирования – проводится анализ надежности системы в условиях промышленной эксплуатации, собирается статистическая информация по этому вопросу. На этапе исследования фактической технико-экономической эффективности системы собирается, обрабатывается и анализируется статистическая информация о надежности системы в целом и её отдельных функций, подсистем, локальных устройств и технических средств в условиях промышленной эксплуатации. На этой же стадии разрабатываются и реализуются рекомендации по совершенствованию системы с целью повышения её эксплуатационной надежности; разрабатываются рекомендации по повышению и обеспечению надежности последующих образцов системы, по разработке типовых проектных решений. Тема 9 МЕТОДЫ ИСПЫТАНИЯ СИСТЕМЫ НА НАДЕЖНОСТЬ 9.1. КРАТКАЯ ХАРАКТЕРИСТИКА МЕТОДОВ ИСПЫТАНИЙ Испытать систему означает поставить её в условия, которые позволят обнаружить её реальные особенности. Испытания представляют собой непрерывную операцию, при помощи которой получается информация на всех стадиях создания системы. На каждой стадии получаются различные виды информации, поэтому вполне естественно, что применяются различные методы испытания. Испытания могут служить разным целям. На начальном этапе в результате испытаний узнают, реализуем ли вариант системы, может ли быть использована определенная структура. При дальнейшем создании системы возникает вопрос о том, какой вариант является оптимальным в смысле эффективности, надежности, стоимости, поведения при различных возмущениях. Когда структура системы становится более определенной, интерес представляют вопросы, связанные с дальнейшим снижением стоимости функционирования. Далее начинается испытание различных качеств, целью которых является проверка системы на выполнение определенных требований по эффективности. На заключительной стадии создания производится полное испытание возможностей системы при жестких или более разнообразных условиях, чем первоначальные. Подобное испытание служит цели установить тот факт, что система достаточно устойчива по отношению к более жестким условиям и, стало быть, можно удешевить ее эксплуатацию, транспортировку и т. д. или же можно расширить круг решаемых задач. В теории надежности существует несколько методологий испытаний. Конкретный метод следует выбирать в зависимости от стадии, на которой находится создание системы, а также практического назначения испытаний. Следует рассматривать только два уровня сложности – элемент и систему. Эти понятия связаны: система представляет собой функционально-определенный объект, состоящий из взаимосвязанных элементов. Степень связности – это один из факторов, которые определяют методологию испытаний. Необходимо учитывать влияние на информацию, получаемую в результате испытаний, взаимодействия с внешней средой и видом использования элементов системы. Эти факторы, в свою очередь, оказывают влияние на подход к испытаниям. На метод испытаний также влияет стадия создания системы. Одна система может быть собрана из стандартных отработанных элементов, другая же требует специальной разработки каких-то особенных элементов. 64 В первом случае, когда поведение элементов хорошо изучено и не предполагается создавать для них необычные условия, большую часть испытаний составляют испытания системы. Если же элементы – нового типа, то для них необходимо организовать специальные испытания. Одним их важных требований к испытаниям элементов является правильное моделирование внешних условий системы. Одним из недостатков преждевременного перехода к испытаниям системы является большое количество необъяснимых отказов элементов, а это затруднит исследование статистики отказов. Другой недостаток заключается в том, что в условиях отказа большого числа элементов остальные элементы будут подвержены большому числу включений, что, очевидно, сделает их режим более жестким, чем в установившихся условиях. Испытания реакции системы на внешние условия представляют самостоятельное направление. Внешние условия, которые нельзя воспроизвести при испытаниях всей системы, следует компенсировать созданием подобных условий при испытаниях элементов. В этом случае можно усовершенствовать элементы, чувствительные к внешним воздействиям. Методы испытания должны быть эффективными в смысле выявления истинного поведения системы. Последним этапом испытаний должны быть натурные испытания. Однако очевидно также то, что если этот этап не подготовить, как следует, посредством соответствующих испытаний на более ранних этапах, то в конце концов может оказаться, что реальный характер системы не тот, который требовался. Чтобы исключить возможность подобной ситуации, систему следует подвергнуть всем возможным испытаниям. Эти испытания помогут выявить слабые места системы, характеристики её поведения и природу отказов. 9.2. РАЗНОВИДНОСТИ ИСПЫТАНИЙ Испытания на долговечность. При испытаниях на долговечность или на время безотказной работы интерес представляет природа отказов. Если критическим параметром изделия является время безотказной работы, то проводятся испытаниями на долговечность. Если технические средства ИС работают непрерывно или испытываются на протяжении большого количества циклов, то наработка на отказ распределена по экспоненциальному закону и испытания на долговечность покажут, насколько это время больше или меньше, чем требуется для его использования. Это, в свою очередь, определяет, где прежде всего нужно повысить надежность. Если время не является критическим, то для исключения отказов и раскрытия их природы и механизмов используют методы, рассмотренные ниже. Испытания на число циклов. Испытания этого вида аналогичны испытаниям на долговечность. Используют тогда, когда включения и выключения являются более разрушительными операциями, чем простое накопление времени работы. Для этого испытания важным показателем является среднее число циклов до отказа, которым можно пользоваться в тех случаях, когда длительность цикла испытаний равна длительности рабочего цикла системы или же время между включением и выключением оказывает пренебрежительно малое влияние на параметр потока отказов. Граничные испытания. При исследовании поведения системы и её надежности не всегда необходимо исследовать поведение характеристик во всем интервале, если в ходе 65 испытаний выяснится, что система действительно обладает высокой надежностью. Важно нахождение областей отказов и, стало быть, нужно, чтобы некоторые элементы отказывали. Следовательно, представляется естественным, чтобы самые крайние сочетания внешних условий брались в первую очередь. Это поясняется следующим: если не откажет ни одно техническое средство или откажут очень немного из них, то при крайних значениях внешних условий будет получена низкая интенсивность отказов и можно сделать вывод о низкой интенсивности отказов при нормальных и облегченных условиях. При дорогостоящей системе или испытании нецелесообразно тратить дополнительное время и средства на то, чтобы при раздельном испытании убедиться в её годности при наивысшем уровне. Все равно окончательное подтверждение надежности системы будет осуществлено после полной компоновки системы. Однако, если в результате испытаний при крайних условиях невозможен положительный вывод, то для подтверждения надежности необходимо исследовать поведение характеристик системы. Теория граничных испытаний здесь уже неприменима. Испытания на влияние окружающей среды. Испытания этого вида служат для определения реакции системы на различные внешние условия. Обычно подобные испытания организуют на заключительной стадии проектирования при меньшем числе параметров и при ослабленных требованиях к ней. Исследуя широкий диапазон внешних условий, можно получить большую уверенность в годности систем, чем при испытаниях их в одних условиях. Однако следует избегать необычных или нереальных условий, так как результаты таких испытаний трудно будет использовать. Испытания определяются не только условиями, в которые ставится система, но также последовательностью или порядком испытаний. 66 Элективные курсы по физической культуре

ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ

#Лекция

Надежность информационных систем

Тебе могут подойти лекции