АГРЕГИРОВАНИЕ МОДЕЛЕЙ АНАЛИЗА НАДЕЖНОСТИ И БЕЗОПАСНОСТИ ТЕХНИЧЕСКИХ СИСТЕМ СЛОЖНОЙ СТРУКТУРЫ 05.13.01 Системный анализ, управление и обработка информации (в технических системах) АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук Москва

Авторефераты по всем темам >> Авторефераты по техническим специальностям

УЧРЕЖДНИЕ РОССИЙСКОЙ АКАДЕМИИ НАУК

ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ

им. В.А.ТРАПЕЗНИКОВА РАН

На правах рукописи

ВИКТОРОВА ВАЛЕНТИНА СЕРГЕЕВНА

АГРЕГИРОВАНИЕ МОДЕЛЕЙ АНАЛИЗА

НАДЕЖНОСТИ И БЕЗОПАСНОСТИ

ТЕХНИЧЕСКИХ СИСТЕМ СЛОЖНОЙ СТРУКТУРЫ

05.13.01 Системный анализ, управление и обработка информации

(в технических системах)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

доктора технических наук

Москва - 2009

Работа выполнена в Учреждении Российской Академии Наук Институте проблем управления им.В.А.Трапезникова РАН

Официальные оппоненты:

доктор технических наук, профессор

Корноушенко Евгений Константинович

доктор технических наук, профессор

Можаев Александр Сергеевич

доктор технических наук

Швецова-Шиловская Татьяна Николаевна

Ведущая организация:

ФГУП УНИИ УСубмикронФ

Защита состоится 2009 г. в 14 час на заседании диссертационного совета Д.002.226.01 Института проблем управления им. В.А.Трапезникова РАН по адресу: 117997, г. Москва, ул. Профсоюзная, д. 65. Телефон/факс Совета (495) 334-93-29.

С диссертацией можно ознакомиться в библиотеке Института проблем управления РАН им. В.А. Трапезникова

Автореферат разослан 2009 года.

Ученый секретарь

диссертационного совета

доктор технических наук Акинфиев В.К.

Общая характеристика работы

Актуальность. Современный этап исследований в области надежности характеризуется тем, что основные теоретические разработки нашли свое воплощение в универсальных программных средствах, включающих в себя не только реализацию созданных в 60-х - 90-х годах моделей и методов, но и унифицированные процедуры обработки и расчета исходных данных. Универсальное программное обеспечение анализа надежности и безопасности, как правило, включает в себя блоки логико-вероятностного, марковского и статистического анализа, а также стандартизованные расчетные соотношения для вычисления интенсивностей отказов элементной базы, средних времен восстановления, модули поддержки качественных процедур выявления видов и последствий отказов. Структура, особенности функционирования, отказов и восстановления реальных технических систем столь разнообразны, специфичны и сложны, что моделирование и анализ их Унадежностного поведенияФ возможны лишь с применением подобного программного обеспечения. Однако даже самые мощные программные средства не в состоянии оказать полную поддержку при проведении анализа надежности и безопасности. Решение этой проблемы может быть осуществлено двумя путями. Первый путь это создание Ус нуляФ программного обеспечения, реализующего как основные классы моделей и методов анализа (логико-вероятностные, марковские, статистическое моделирование), так и модели и методы, учитывающие особенности, выходящие за рамки основных моделей. Второй - модификация и расширение универсальных программ анализа надежности с целью внедрения специальных моделей и методов. Второй путь более предпочтителен, он позволяет с меньшими трудозатратами, целенаправленно выполнить поставленные задачи, не отвлекаясь на уже решенные проблемы и используя программно реализованные разработки, созданные во всем мире почти за полувековой период развития теории надежности. Второй путь основывается на решении научной задачи декомпозиции исследуемой системы, разработке моделей и методов, адекватных структуре и особенностям функционирования, отказов и восстановления выделенных при декомпозиции частей, агрегировании полученных моделей и рассчитанных показателей в общесистемные модель и показатели.

В соответствии с выдвинутым принципом автоматизации анализа надежности и безопасности сложных систем актуальным является

создание общей методологии агрегирования статических моделей анализа надежности и безопасности на основе деревьев отказов, деревьев событий с динамическими моделями процессов возникновения отказов и восстановления
разработка новых методов представления и преобразования деревьев отказов, ориентированных на автоматизацию агрегирования динамических и статических моделей надежности
разработка динамических моделей надежности, направленных на решение конкретных задач, и автоматизация их сопряжения с результатами качественного анализа видов, последствий и критичности отказов и количественного анализа безотказности элементной базы

Актуальность работы определяется теоретическим и практическим решением перечисленных задач и их востребованностью в химико-технологических и нефте-газоперерабатывающих отраслях промышленности, в областях космического и авиационного приборостроения.

Целью работы является разработка концепции анализа надежности и безопасности сложных технических систем на основе агрегирования статических и динамических моделей надежности, создание агрегированных моделей анализа надежности и безопасности сложных систем с учетом характеристик средств встроенного контроля, специальных процедур обработки неисправностей, промежуточных накопителей, развитие методологии автоматизации агрегированных моделей и ее практическое внедрение при построении специализированных программных приложений, являющихся расширениями универсального программного обеспечения анализа надежности и безопасности.

Методами исследования, применяемыми в диссертационной работе, являются методы математического моделирования, используемые в теории надежности и основанные на методах и положениях теории вероятностей, алгебры логики, комбинаторного анализа, теории и численных методов решения дифференциальных и алгебраических систем уравнений. Программная реализация теоретических результатов работы основана на теории реляционных баз данных, объектно-ориентированном программировании и COM технологии.

Научная новизна

разработан метод агрегирования на модельном и программном уровнях статических логико-вероятностных моделей блок-схем надежности и деревьев отказов с марковскими моделями, учитывающими динамические особенности функционирования сложных систем; предложено эффективное бинарное представление логики возникновения вершинных событий деревьев отказов/успехов, позволяющее проводить количественный анализ без определения наборов минимальных сечений /путей
созданы динамические модели и машинно-ориентированные расчетные процедуры определения показателей надежности и производительности двухфазных систем с ненадежными накопителями, предложен метод анализа многофазных, многопоточных систем, структура которых описывается графом типа дерева, основанный на декомпозиции на двухфазные модели; доказано, что полученная агрегированная оценка коэффициента готовности и средней производительности многофазной системы является нижней
предложен основанный на COM технологии метод сопряжения программной реализации моделей многофазных многопоточных систем с логико-вероятностными модулями и библиотеками элементов универсального программного обеспечением анализа надежности, что позволило строить более адекватные модели технологических систем
созданы модели и методы исследования контролепригодности систем, предложен интегральный показатель достоверности контроля, позволяющий оценивать его качество с учетом полноты, глубины, отказов первого и второго рода; разработан и практически реализован метод сопряжения программного обеспечения анализа надежности и безопасности систем с встроенным контролем с универсальными программами; метод основан на разделении импортированной базы данных видов и последствий отказов
предложен подход к анализу надежности отказоустойчивых управляющих вычислительных систем на моделях деревьев отказов, основанный на выделении групп несовместных событий по состояниям основного процессорного блока, что позволяет декомпозировать задачу оценки показателей надежности и преодолевать проблему размерности модели, возникающую при учете двух видов неисправностей (отказов и сбоев), алгоритмов постепенной деградации работоспособности системы, высокой степени резервирования устройств связи с объектом управления
разработаны динамические модели надежности компонентов отказоустойчивых вычислительных систем на основе марковских случайных процессов и метода интегральных соотношений, позволяющие учитывать внедренные в систему процедуры обработки неисправностей, УпросеивающиеФ поток сбоев, и последовательности возникновения неисправностей, приводящие к различным последствиям на системном уровне

Полученные в работе результаты направлены на теоретическое развитие и обобщение важной практической задачи моделирования и оценки надежности и безопасности технических систем сложной структуры с различными особенностями функционирования, процессов возникновения отказов и восстановления работоспособности.

Практическая значимость и реализация результатов. Решение поставленных в диссертации задач позволяет осуществлять практическое внедрение программных реализаций предложенных теоретических моделей в проектные расчеты надежности, безопасности, производительности. Разработанные методы программного агрегирования позволяют внедрять модели в универсальные программные системы анализа надежности и использовать встроенные библиотеки элементов и видов отказов, что повышает точность моделирования и решает проблему обоснованного задания исходных данных.

Практическая ценность полученных результатов подтверждается их использованием при

анализе надежности, безопасности и контролепригодности проекта семейства российских региональных самолетов Sukhoi Superjet 100
оценке комплексных показателей надежности для различных концепций морского обустройства Штокмановского газоконденсатного месторождения
исследовании надежности и производительности российских объектов уничтожения химического оружия
анализе надежности управляющей бортовой вычислительной системы с программно-реализованной сбое-отказоустойчивостью.

Апробация работы. Основные результаты диссертационной работы докладывались на Всесоюзном совещании УНадежность, живучесть и безопасность автоматизированных комплексовФ, Суздаль, 1988, 1991; VII Всесоюзной научно-технической конференции УПроблемы комплексной автоматизации судовых технических системФ, Ленинград, 1989; Международной конференции по вычислительным системам и информационным технологиям, Сидней (Австралия), 1989; 6м Международном симпозиуме IMEKO TC 10 по технической диагностике, Прага (Чехословакия), 1989; научном семинаре УНадежность и качество функционирования системФ, Москва, МГУПС (МИИТ), 1990, 2006; Всесоюзном совещании УПроблемы построения перспективных бортовых управляющих системФ, Владивосток, 1991; Международной конференции по проблемам управления, Москва, ИПУ РАН, 1999, 2003, 2006; 5м Международном научно-техническом симпозиуме "Авиационные технологии 21-го века. Наука на МАКС-99", Жуковский, 1999; Международной конференции УПараллельные вычисления и задачи управления PACOТ 2001Ф, Москва, ИПУ РАН, 2001; XV Международной конференции УМатематические методы в технике и технологияхФ, Тамбов, 2002; Международном семинаре УRelex - программное обеспечение для анализа надежности, безопасности, рисковФ, Москва, ИПУ РАН/RSCE, 2003; 4й Научно-технической конференции УФункциональная БезопасностьФ, СНИИП, Москва, 2003; 6ом Международном семинаре ИКК МНТ - УНаука и Компьютерные технологии Ф, Москва, 2003; Международной научной конференции УМатематические Методы в Технике и Технологии - 16Ф, Санкт-Петербург, 2003; Международном семинаре УСистема Управления Качеством - FRACASФ, Москва, ИПУ РАН/RSCE, 2004; Научно-практической конференции УСовременное состояние процессов переработки нефтиФ, Уфа, 2004; 9м Научном семинаре УПромышленная Безопасность. Программные средства в области анализа техногенного рискаФ, Москва, 2005;а международной конференции Межгосударственного Авиационного Комитета УПрограммные продукты информационного обеспечения безопасности полетов, надежности и технической эксплуатации авиационной техникиФ, Москва, 2006; Международной школе-семинаре по программным продуктам и проектным решениям УRelex Reliability StudioФ, Salem (Germany), RSCE, 2006, 2007;. Международной научной школe "Моделирование и Анализ Безопасности и Риска в Сложных СистемахФ (МА БР), Санкт-Петербург, 2003, 2005, 2008;

Публикации. Основные результаты научных исследований по теме диссертации содержатся в 30 публикациях, в их числе 11 публикаций в изданиях перечня Высшей аттестационной комиссии. Список публикаций приведен в конце автореферата.

Структура и объем диссертации. Работа состоит из введения, 5-ти глав, заключения, содержит 223 страницы, 75 рис., 12 табл., список литературы из 128 названий.

Содержание работы

Во введение определена цель исследований, приведено обоснование актуальности темы и научной новизны диссертационной работы, описаны методы исследований и полученные практические результаты.

В первой главе с позиций анализа надежности рассмотрены особенности технических систем сложной структуры, выделены два класса моделей (статические и динамические), проведен сравнительный анализ отечественного и зарубежного программного обеспечения анализа надежности и безопасности (ПО АНБ), предложен новый подход к разработке программ анализа надежности.

К специфическим особенностям сложных систем относятся:

наличие нескольких уровней эффективности функционирования (например, производительности) и постепенная деградация по эффективности при возникновении неисправностей
реализация разнообразных способов резервирования (структурного, временного, алгоритмического), стратегий восстановления, технического обслуживания, например, различная нагруженность резерва, присутствие общих элементов в различных резервированных звеньях, контроль функционирования, ограничения на ЗИП, число ремонтных бригад
внедрение алгоритмических методов обработки неисправностей (в основном для вычислительных устройств) с классификацией на сбои и отказы
возможность возникновения нескольких несовместных видов отказов элементов, приводящих, при определенной кратности и последовательности возникновения, к различным последствиям на системном уровне; наличие скрытых и явных отказов.

В разделе 1.1 предложено разделение моделей анализа надежности на два класса: cтатические, в которых состояния системы определяются наборами работоспособных и неработоспособных элементов в момент времени t; динамические, когда происходящие события, отказы рассматриваются как процессы, развивающиеся во времени.

В рамках статических моделей анализ надежности проводится следующими методами:

метод, использующий основные формулы теории вероятностей (вероятность суммы и произведения событий, формула полной вероятности) и комбинаторики; применяется, главным образом, для последовательно-параллельных, параллельно-последовательных структурных надежностных схем и схем m из n
методы, основанные на записи логических условий, интересующих исследователя функций через состояния элементов системы с последующим применением теории алгебры логики (логико-вероятностные методы, используемые в деревьях отказов, схемах функциональной целостности (СФЦ), блок-схемах надежности).

Классические статические модели для восстанавливаемых систем позволяют рассчитывать лишь дифференциальные (мгновенные) показатели надежности, определяемые в момент времени t (коэффициент готовности, параметр потока отказов, средняя эффективность в момент времени t).

В рамках динамических моделей применяются:

моделирование систем марковскими процессами
методы теории восстановления, полумарковских и регенерирующих процессов (в основном, используются асимптотические результаты либо для системы в целом, либо для отдельных резервированных звеньев)
статистическое имитационное моделирование (Монте Карло)

Динамические модели позволяют вычислять все основные показатели надежности - мгновенные, интервальные (вероятность безотказной работы (отказа) на интервале времени), независящие от времени стационарные показатели (средняя наработка между отказами, среднее время простояЕ).

Задача адекватного моделирования надежности систем сложной структуры решается только с помощью декомпозиции системы (структурной, логической, по процессам) и применения различных расчетных методов к выделенным частям. Однако моделирование, даже выделенных частей сложных систем, порождает известные проблемы размерности (рост пространства состояний модели и связей между состояниями), и, как следствие, невозможность ручного входного описания модели, определения ее параметров, выполнения расчетов. Проблема может быть решена только с помощью автоматизации, причем, программное обеспечение анализа надежности и безопасности должно включать в себя всю совокупность методов как статических, так и динамических моделей.

В теоретических исследованиях и разработках как динамических, так и статических моделей наша страна находится на лидирующих позициях. Широко известными являются работы Рябинина И.А., Можаева А.С., Филина Б.П., Акуловой Л.Г. (логико-вероятностные методы), Половко А.М., Шубинского И.Б., Лубкова Н.В. (марковские, полумарковские случайные процессы), Ушакова И.А., Соловьева А.Д., Калашникова В.В. (асимптотические методы - полумарковские, регенерирующие процессы, теория восстановления), Ушакова И.А,, Калашникова В.В., Кузнецова Н.Ю., Буянова Б.Б., Акуловой Л.Г. (ускорение статистического моделирования), Волика Б.Г. (анализ эффективности и техногенной безопасности), Черкесова Г.Н. (системы с временной избыточностью)Е

Наиболее развитыми и известными отечественными программными средствами анализа надежности и безопасности являются: АРБИТР (ПК АСМ СЗМА) - программный комплекс автоматизированного структурно-логического моделирования и расчета надежности и безопасности систем; Автоматизированная система расчета надежности (АСРН-2000, 2002), реализующая стандартизованные модели безотказности радиоэлектронной элементной базы; АСОНИКА-К - программное обеспечение расчета надежности на основе методов статистического моделирования и аналитических формул для последовательно-параллельных систем; УНИВЕРСАЛ - программное обеспечение анализа надежности и безопасности, использующее полумарковское моделирование.

идерами зарубежных программных продуктов являются Isograph (Англия, США), ITEM iQRAS (Англия, США), RAM Commander (Израиль), Relex Reliability Studio (США). Это интегрированные программные средства, включающие различные методы анализа, реализующие разнообразные формы задания моделей (графы, деревья отказов, событий, блок-схемы надежности), содержащие обширные базы исходных данных, имеющие развитый графический интерфейс пользователя, исчерпывающе документированные, имеющие как локальную, так и сетевую конфигурации, сопрягаемые по импорту-экспорту с базами данных, текстовыми редакторами, электронными таблицами, логистическим ПО, САПР.

В разделах 1.2 - 1.10 первой главы проведен сравнительный анализ отечественного и зарубежного ПО АНБ по направлениям: количественные и качественные методы анализа, полнота моделей отказов, восстановлений, резервирования, рассчитываемые показатели надежности, обеспеченность исходными данными, нормативная база, способы задания моделей, сопрягаемость с внешним ПО, точность расчетов. В результате анализа сделан вывод о том, что отечественные программные средства анализа надежности и безопасности характеризуются высоким теоретическим уровнем и оригинальностью отдельных решений, например, представление моделей с помощь схем функциональной целостности в АРБИТРе, решения по автоматизации задания полумарковских моделей в УНИВЕРСАЛе. Однако они уступают их зарубежным аналогам в объеме реализованных методов и решаемых задач, развитости интерфейса пользователя, наличии модулей статистической обработки результатов эксплуатации и испытаний, соответствии международной нормативной документации, сопрягаемости с внешними источниками данных и исполняемыми программами.

У отечественных создателей ПО АНБ нет людских, временных, финансовых ресурсов, необходимых для создания интегрированных сред уровня Relex или Isograph, но есть высокий интеллектуальный потенциал, позволяющий создавать новые и совершенствовать имеющиеся модели и методы. Поэтому в работе предлагается подход к программной реализации новых моделей и методов анализа надежности, сопрягаемой с универсальными ПО. В разделе 1.11 первой главы описаны два возможных способа такого сопряжения. Первый способ основан на разделения внешних источников информации, в частности файлов баз данных. Второй использует принципы COM-технологии, что позволяет внешним программам использовать внутренние сервисы универсального ПО АНБ с помощью механизма интерфейсов. Основным достоинством предложенного подхода является то, что специалисты данной предметной области (как теоретики, так и Унадежностно-ориентированыеФ программисты) могут сосредоточиться на решении действительно актуальных и практически востребованных задач, минуя повторения созданного (интерфейс пользователя, библиотеки исходных данных по интенсивностям и видам отказов элементов, графические редакторы, утилиты импорта-экспорта и пр., включая основное - реализацию классических классов моделей и методов).

В главе 2 описана общая методология агрегирования различных моделей и методов при исследовании надежности и безопасности и приведен пример ее использования при анализе надежности управляющей отказоустойчивой вычислительной системы (УОВС). В качестве первичного описания систем предлагается логико-вероятностная модель деревьев отказов (успехов) (ДО), что обосновывается компактностью задания модели (например, по сравнению с марковскими графами) и ее широким практическим использованием (ДО являются международным стандартом де-факто для исследования надежности и безопасности в авиации и атомной энергетике). Предлагается выполнение следующих этапов исследования:

Выделение в процессе структурного анализа основного блока, отказы которого наиболее существенным образом влияют на надежностное поведение системы, переводя ее в состояния полного или частичного отказа (невозможности выполнения отдельных функций).
Определение полной группы несовместных событий (состояний основного блока) и анализ путей перехода в возможные системные состояния отказа при возникновении неисправностей остальных элементов системы для каждого события. Построение укрупненного ДО, имеющего n основных ветвей в соответствии с n выделенными несовместными событиями.
Построение моделей, учитывающих различные аспекты событий возникновения отказов компонентов системы (возможность возникновения как постоянных отказов, так и сбоев, специальные процедуры обработки сбоев, УпросеивающиеФ суммарный поток неисправностей). Здесь могут быть использованы Марковские модели (с непрерывным и дискретным временем), комбинаторные формулы.
Построение марковского графа переходов в пространстве состояний основного блока и определение соответствующих вероятностей пребывания в состояниях. Марковская модель выбрана для учета характеристик контроля, различных способов резервирования, нескольких видов отказов. Интенсивности переходов марковской модели определяются с учетом расчетов по сбоям, проведенным в п.3.
Построение УвложенныхФ деревьев, детализирующих переход в отказ (отказы) системы для каждого несовместного события (состояния основного блока). Расчет вероятностей реализации соответствующих вершинных событий. Исходные надежностные параметры для базовых событий определяются с учетом расчетов по сбоям, проведенным в п.3.
Задание исходных надежностных параметров базовых событий укрупненного дерева (п.2) на основе расчетов по марковской модели (п.4) и вложенным деревьям (п.5). Вычисление показателей надежности системы в целом.

Отметим, что агрегирование статических и динамических моделей можно проводить на общесистемной статической модели, в частности, на деревьях отказов, схемах функциональной целостности, вводя новые динамические вершины-операторы и не проводя декомпозицию системы

В разделах 2.1 - 2.3 приводится описание качественных и количественных методов анализа деревьев отказов и способов их реализации в современном программном обеспечении. В рамках качественного анализа определяются наборы минимальных сечений. Результатом проведения количественного анализа являются численные значения следующих показателей надежности:

коэффициент готовности/неготовности (вероятность реализации вершинного события в заданный момент времени) (К(t))
вероятность отказа/безотказной работы (вероятность реализации вершинного события на заданном интервале времени) (P(t))
параметр потока отказов (w(t))
средняя наработка между отказами
среднее время восстановления
среднее число отказов за заданный интервал времени

В зарубежном ПО, как правило, реализованы методы расчета показателей, основанные на теореме о вероятности суммы совместных событий (в данном случае под событием понимается реализация минимального сечения):

, (1)

где Q(t) - вероятность наступления вершинного события дерева, Сi - i-ое минимальное сечение, n - число минимальных сечений. Для дерева отказов вероятность Q(t) является коэффициентом неготовности, а для дерева успехов - коэффициентом готовности. Трудности возникают при вычислении интервального показателя вероятности безотказной работы для восстанавливаемых систем. В этом случае обычно используют прием, когда система искусственно делается невосстанавливаемой, и получают нижнюю оценку показателя. В работе предложена приближенная формула для вычисления вероятности безотказной работы восстанавливаемых систем, численное решение по которой хорошо автоматизируется и выдает результаты предписанной точности при использовании адаптивных квадратурных алгоритмов

. (2)

В разделе 2.4 рассмотрены вопросы создания динамических деревьев отказов с помощью внедрения динамических вершин (операторов), определен набор вершин (динамических и статических), позволяющих строить адекватные модели УОВС. Предложена реализация n-входового динамического оператора PAND, учитывающего последовательность возникновения входных событий на интервале (0,T) c помощью рекуррентного интегрального соотношения:

, (3)

где Qn(T) - вероятность последовательного возникновения n входных событий оператора (слева - направо); Fi(t) и fi(t) соответственно функция распределения и плотность распределения случайного времени наступления i-го входного события. Использование интегральной модели (3) вместо марковской позволило снять ограничения на экспоненциальный характер функции распределения.

В разделе 2.5 предложено решение задачи представления деревьев отказов структурами данных, обеспечивающими быстроту обхода дерева и получение отображаемой деревом логической функции отказа (работоспособности) в дизъюнктивной ортогональной форме: f = Y1 ∨ Y2 ∨ Е ∨ Ym, где Yi ∧Yj =0 для i≠j; Yi - бесповторная форма в базисе конъюнкция-отрицание.

Программная реализация количественного анализа деревьев отказов является сложной программисткой задачей, так как требует разработки быстрых алгоритмов генерации наборов минимальных сечений и сложных процедур кодирования выражения (1). Новейшей тенденцией в автоматизации представления и преобразования функций алгебры логики является привлечение современных эффективных методов дискретной математики. В качестве искомого представления логики дерева предлагается применять диаграммы двоичных решений (ДДР). В терминах ДДР логические функции представляются в виде направленного ациклического графа (бинарного дерева), у которого внутренние вершины представляют аргументы функции. Кроме того, выделены два типа терминальных вершин, обозначенные как 0 и 1. Каждая нетерминальная вершина графа имеет двух потомков. Ветви графа упорядочены - проход по левой означает, что аргументу присвоено значение 1, а по правой - значение 0. Значение логической функции определяется спуском по дереву от корня к терминалам.

При автоматизации задач надежности важными преимуществом ДДР являются

представление логических функций в ортогональной форме перехода к замещению, допускающих замещение логических переменных вероятностями, а логических операций арифметическими. Это достигается за счет того, что сам принцип построения ДДР обеспечивает разложение логической функции на ортогональные слагаемые.
при машинной реализации ДДР воплощается нелинейной динамической структурой данных - двоичным деревом, для которого разработаны эффективные алгоритмы обхода узлов, сложность которых зависит от количества уровней дерева, т.е. приблизительно от log2n (n - количество узлов).

Использование диаграмм двоичных решений и описанный в первой главе принцип агрегирования на программном уровне позволяют предложить следующую процедуру количественного анализа деревьев отказов, содержащих динамические вершины, моделирующие специфические особенности Унадежностного поведенияФ, которые не охватываются моделями универсальных программ:

задать структуру дерева в графическом редакторе универсального программного обеспечения и с использованием COM-технологии или импорта данных сделать доступной программам, реализующим специфические модели
выполнить анализ каждого объекта переданной структуры на принадлежность группам: базовые события, сложные события (вложенные деревья), статические вершины (И, ИЛИ, НЕ), простые динамические вершины со входами, состоящими только из базовых событий, динамические вершины, все или часть входов которых являются другими вершинами дерева (сложные динамические вершины)
рассчитать стационарные коэффициенты неготовности (готовности Kг) и параметр потока отказов ω для простых динамических вершин. Далее определить средние наработки между отказами Тм и времена восстановления в из соотношений Тм = Kг/ω; в = ((1-Kг)Тм)/Kг и заменить каждую динамическую вершину эквивалентным базовым событием, время возникновения которого распределено асимптотически экспоненциально (доказано в работах Соловьева А.Д., Ушакова И.А) с интенсивностями отказов =1/Тм и восстановлений μ =1/в.
осуществить аналогичную редукцию сложных динамических вершин, последовательно заменяя простые динамические вершины и вложенные деревья эквивалентными базовыми событиями, и получить результирующее дерево, состоящее из УклассическихФ вершин (И, ИЛИ, НЕ)
полученное дерево преобразовать в диаграмму двоичных решений и провести необходимый качественный и количественный анализ

В диссертации предложен алгоритм преобразования ДО в ДДР:

Упорядочить базовые события дерева: x1<x2<Еxn
Каждому i-му базовому событию поставить в соответствие тройку (xi,1,0)
Каждой вершине дерева отказов соотнести оператор Fi(xj,fi1,fi0), определяемый по правилам:

(4)

Последовательно применяя правила, получить Уалгоритмическую сверткуФ операторов для вершинного события дерева отказов

(5)

Последовательно раскрывая УединичныеФ и УнулевыеФ составляющие, сформировать двоичное дерево
Вычислить вероятность реализации вершинного события исходного дерева отказов как сумму вероятностей путей, ведущих от корня двоичного дерева до терминальной вершины У1Ф

В разделе 2.6 в соответствии с изложенной методологией проведен анализ надежности управляющей вычислительной системы с программно реализуемой сбое- отказоустойчивостью, разработанной в НИИ УСубмикронФ. Основным блоком системы являются три параллельно работающие вычислительные машины (ВМ), имеющие по две тройки устройств связи (УС). Система обеспечивает прием информации из внешней среды и выдачу управляющих воздействий. В процессе функционирования системы при возникновении неисправностей (отказов элементов) она деградирует. Деградация происходит по сложной УтраекторииФ, начальным состоянием которой является трехмашинная конфигурация, а конечным - состояния, соответствующие отказам системы. В процессе деградации система может принимать двухмашинную конфигурацию с блокировкой третьей ВМ и одномашинную, при которой одна ВМ осуществляет обмен с внешней средой, другая работает в режиме УподслушиванияФ (контроля) работающей, а третья заблокирована. Возможны два вида отказа системы в целом - отказ, при котором система выдает во внешнюю среду приоритетную команду безопасного останова (БО), и опасный отказ (ОО), при котором не обеспечена выдача команды БО, и внешняя среда либо не воспринимает управляющих команд от системы, либо система выдает неверные команды.

Реакция системы на возникшую неисправность организована следующим образом. При нарушении нормального хода работы системы в результате отказа или сбоя ее структурного элемента (УС, ВМ) этот элемент программным путем исключается из рабочей конфигурации. Решение о возможности дальнейшего использования исключенного элемента принимается на основе двух критериев. Первый критерий (УчастотныйФ): элемент признается отказавшим, если до конца заданного интервала t будет дополнительно зафиксировано (mкр-1) нарушений функционирования у данного элемента. Второй критерий (УпоследовательностныйФ): элемент признается отказавшим, если после первого нарушения его функционирования нарушения будут происходить еще (mкр-1) раз подряд.

Использование пуассоновского приближения к биномиальному распределению позволило получить выражение для вероятности признания по частотному критерию неисправности элемента сбоем на интервале (0,T):

(6)

Здесь сб - интенсивность потока сбоев.

Вероятность признания неисправности элемента сбоем по последовательностному критерию была получена с использованием аппарата конечных цепей Маркова:

(7)

где - среднее время до первого попадания из начального исправного состояния в поглощающее состояние цепи, соответствующее неудавшимся попыткам выполнения заданной функции. - среднее число шагов.

Вероятность Q(t) признания элемента вычислительной системы на интервале (0,T) отказавшим определяется как

Q(T) = 1 - Ротк(T) Рсб(T), (8)

где Ротк(T) - вероятность безотказной работы элемента по постоянным отказам; Рсб(Т) - вероятность признания того, что неисправность элемента обусловлена сбоем. Рсб(Т) вычисляется по (6) или (7) в зависимости от критерия признания.

Для трехмашинной отказоустойчивой вычислительной системы с частотным и последовательностным критериями признания сбоящих компонентов отказавшими построена иерархия вложенных динамических деревьев отказов; марковская модель надежности троированного блока ВМ с учетом неполноты контроля и разделением состояний отказа на опасные и безопасные; проведена коррекция вероятностей реализации базовых событий в моделях деревьях отказов, отражающая факт УпросеиванияФ потока сбоев специальными программно-реализованными процедурами обработки неисправностей (см. рис.1).

Разработанная модель позволила провести расчеты показателей надежности УОВС и выдать рекомендации по выбору параметров процедур восстановления вычислительного процесса, нарушенного возникновением сбоев при различных соотношениях интенсивностей сбоев и постоянных отказов ВМ и устройств сетей связи с объектом и межмашинного согласования.

График вероятности отказа ОУВС на интервале (0,10000ч) в зависимости от числа попыток программного восстановления для λcб = 10 1/ч и λcб = 50 1/ч при фиксированной интенсивности отказов, равной 2,3410-6 , представлен на рис.2. Из графика видно, что при малом числе попыток восстановления (<4) сбои определяют низкую надежность системы. При увеличении числа попыток восстановления (>5) сбои практически не влияют на надежность системы, которая в этом случае полностью определяется потоком постоянных отказов.

Рис.2. График зависимости вероятности отказа ОУВС от числа попыток восстановления.

Рис.1. Фрагмент агрегированной модели анализа надежности УОВС

Глава 3 посвящена исследованиям надежности и производительности технологических систем, в рамках которых решаются задачи создания динамической модели надежности двухфазных технологических участков с промежуточными накопителями, построения и декомпозиции модели многофазных участков, программной агрегации динамических моделей с логико-вероятностной моделью надежности системы.

Многофазными называют системы, в которых технологический процесс и обеспечивающее оборудование разделен на участки, называемые фазами. Работа многофазной системы организована так, что на вход ее первого участка с производительностью q1 на каждом отрезке времени Δt поступает столько единиц продукции, сколько он сможет обработать за это время при безотказной работе. После обработки на первом участке продукция поступает на вход второго участка, затем третьего и т.д. Вся система считается работоспособной в данный момент времени, если она может выдавать продукцию на выход своего последнего участка. Отказы устройств любого из участков, если не приняты специальные меры обеспечения отказоустойчивости, приводят к вынужденному простою системы и снижают ее производительность. Один из способов улучшения показателей надежности и эффективности заключается во введении в многофазную систему промежуточных накопителей, позволяющих при отказах не останавливать работу смежных с отказавшим участков, реализовав, таким образом, раздельный резерв времени.

В разделе 3.1 проведена классификация многофазных систем по признакам: количества потоков перерабатываемой продукции (однопоточные, многопоточные); типов накопителей (транзитные, тупиковые, смешанные); особенностям функционирования, отказов, обслуживания; уровням производительности; соотношения номинальных производительностей в фазах; необходимости опустошения накопителя при ремонте.

В работах Черкесова Г.Н. проведено исследование надежности многофазных однопоточных систем с абсолютно надежными накопителями. Диссертационная работа расширяет и дополняет эти исследования учетом ненадежности накопителей и многопоточности.

Раздел 3.2 посвящен методическим аспектам построения математической модели (двухпараметрического марковского процесса) двухфазных систем с накопителями.

Схема однопоточной двухфазной системы с транзитным накопителем показана на рис.3.

Рис.3. Однопоточная двухфазная система с транзитным накопителем

Здесь 1 и 2 - обрабатывающие устройства, 3 - накопитель.

Каждое устройство характеризуется производительностью qi, интенсивностью отказов λi, интенсивностью восстановлений μi; накопитель характеризуется емкостью z (0 z zM), интенсивностью отказов λн, интенсивностью восстановлений μн . Состояния двухфазной системы будем обозначать трехразрядным двоичным цифровым кодом. Первые два разряда обозначают, соответственно, состояния каждого из двух устройств, а третья - состояние накопителя. Цифра 1 означает работоспособное состояние, 0 - неработоспособное.

Каждое устройство характеризуется тремя уровнями запаса в накопителе:

нулевой уровень (z = 0); подмножество состояний марковской модели, соответствующее нулевому уровню будем обозначать G
максимальный уровень (z = zM); подмножество состояний марковской модели, соответствующее максимальному уровню будем обозначать V
промежуточный уровень (0 < z < zM); подмножество состояний марковской модели, соответствующее промежуточному уровню будем обозначать W

Определим порядок построения пространства состояний и графа переходов:

Выписываются все возможные состояния для подмножеств G, V, W
Анализируются состояния в соответствии с учитываемыми особенностями функционирования и отказов и вычеркиваются те из них, которые невозможны для рассматриваемого подмножества и к которым нет перехода
Определяются те состояния системы, к которым осуществляются предельные переходы (это переходы из подмножества W в подмножества V и G, связанные с переходами запаса накопителя на предельные уровни; на графе обозначаются пунктиром).
Определяются граничные переходы из подмножества V и G в подмножество W (эти переходы осуществляются для тех состояний подмножества V и G, для которых отказ или восстановление какого-либо элемента приводят к изменению уровня запаса, начиная с предельного уровня; на графе также изображаются пунктиром с соответствующей интенсивностью).

После построения ориентированного графа состояний составляется математическая модель системы. Обозначим вероятности состояний для подмножества W как P(z,t), а для подмножества V и G - F(zM,t) и F(0,t) соответственно.

В работе изложен методика составления разностного уравнения для характерных состояний системы. В качестве характерных берутся следующие:

Состояния, в которые и из которых осуществляются переходы в пределах одного подмножества
Состояния, в которые осуществляется предельный переход
Состояния, из которых осуществляются граничные переходы (уравнения для этих состояний определяют граничные условия).

На рис.4 приведены графы, для состояния i которых описана методика составления разностных уравнений и получения по ним дифференциальных уравнений в частных производных.

Рис.4. Графы переходов в пределах одного подмножества и предельными переходами

Разностное уравнение для случая 1 (переходы в пределах одного подмножества) имеет вид

(9)

Дифференциальное уравнение в частных производных:

(10)

Рассматривая стационарный участок при t→∞, получим (т.к. )

(11)

На основании полученного уравнения (11) можно сформулировать следующее правило для составления дифференциального уравнения для любого состояния системы в пределах одного подмножества состояний.

Правило 1. Производная вероятности состояния по уровню запаса накопителя (z), умноженная на скорость изменения уровня запаса, равна произведению вероятности этого состояния на сумму интенсивностей перехода из этого состояния, взятая со знаком минус, плюс сумма произведений интенсивностей перехода в это состояние на вероятность тех состояний, откуда осуществляется переход.

Аналогичные рассуждения использовались при составлении дифференциального уравнения и формулировки правила для случая 2. Здесь состояние i. характерно тем, что помимо обычных переходов, в пределах рассматриваемого подмножества с интенсивностями φi и ψi, есть предельный переход из подмножества W (рис.4).

ЕЕ(12)

Для стационарного участка (t→∞) получаем алгебраическое уравнение

ЕЕ(13)

и формулируем правило составления уравнения для состояния, в которое существует предельный переход.

Правило 2. Вероятность рассматриваемого состояния, умноженная на суммарную интенсивность выхода из него, равна сумме вероятностей перехода из других состояний в данное и вероятности предельного перехода. Вероятность предельного состояния равна вероятности состояния, из которого совершен предельный переход, умноженной на абсолютную величину скорости изменения уровня запаса в данном состоянии.

Рассмотрение случая 3 позволило вывести граничные условия, появляющиеся при переходе из состояний, принадлежащих подмножествам V и G, в состояния подмножества W:

(14)

Граничные условия на стационарном участке:

(15)

Исходя из положений и правил, выведенных в разделе 3.2, в разделе 3.3 построена модель надежности однопоточной двухфазной системы (рис.3) для трех вариантов соотношений производительности обрабатывающих устройств1,2 (q1=q2=q; q1 > q2; q1 < q2). Для всех трех случаев построены графы переходов в пространстве состояний, составлены системы дифференциальных уравнений в частных производных (по времени и уровню запаса в накопителе), получены системы дифференциально-алгебраических уравнений для стационарного случая (t → ∞).

Так, например, графовая модель при равенстве производительностей входного (1) и выходного (2) обрабатывающих устройств приведена на рис.5.

Рис.5 Граф переходов в пространстве состояний однопоточной двухфазной системы при равенстве производительности обрабатывающих устройств (q1=q2=q)

Система дифференциальных уравнений в частных производных для модели с одинаковыми производительностями имеет вид

Граничные условия:

(17)

Для стационарного случая (t → ∞) система (16) преобразуется в следующую систему дифференциально-алгебраических уравнений:

(18)

Система решается с учетом граничных и нормировочных условий

(19)

В диссертации разработана машинно-ориентированная процедура решения стационарной системы (18), основанная на получении выражения для плотности вероятности P101(z):

, (20)

где

Далее определяется вероятность F101(z) через плотность

. (21)

А затем каждое i-е неизвестное Fijk(z) представляется в виде произведения постоянного и переменного сомножителей: C1⋅Hi, где Hi рекурсивно вычисляется на основе Hi-1 , а постоянный множитель С1 определяется из условия нормировки (19).

Стационарный коэффициент готовности Kг(z) и математическое ожидание производительности С(z) двухфазной системы равны

Kг(z)=F111(z)+F011(z)+F111(0)+F111(zm); С(z)=Кг(z)⋅q. (22)

В разделе 3.4 разработан алгоритм получения нижней оценки коэффициента готовности многофазных однопоточных и многопоточных систем с двухуровневым функционированием во всех фазах (рис.6).

однопоточная двухпоточная

Рис.6. Примеры многофазных систем

Для коэффициента готовности Kг 1,2,3 исходной многофазной системы показано, что

, (23)

где Кпр.i, Кгi - коэффициенты простоя и готовности i-го устройства, δi,j - коэффициент простоя системы при условии, что устройство j работоспособно, а устройство i - нет (коэффициент наложения потерь), - коэффициент простоя при замене 1-го и 2-го устройства с накопителем между ними одним устройством.

Полученный результат позволяет сформулировать алгоритм расчета нижней оценки коэффициента готовности однопоточных и многопоточных систем с двухуровневым функционированием, основанный на следующей декомпозиции. Из всей структуры выделяются подструктуры из двух устройств и накопителя между ними. Эти подструктуры заменяются одним элементом с рассчитанными по математическим моделям раздела 3.3 коэффициентом готовности и производительностью. Действуя последовательно, таким образом, приходим в конце работы алгоритма к одному эквивалентному устройству с вычисленным коэффициентом готовности и средней производительностью, что и является показателями системы. Производить выделение подструктур для УсверткиФ необходимо в направлении потока, двигаясь от менее вместимых накопителей к более вместимым, что уменьшает погрешность оценки.

В разделе 3.5 описано программное обеспечение (Bunker), реализующее предложенные модели и метод декомпозиции. Исходные надежностные характеристики (интенсивности отказов и восстановления обрабатывающих устройств и накопителей) могут задаваться пользователем вручную или извлекаться из библиотек универсального ПО АНБ Relex, а рассчитанные значения показателей надежности и производительности передаваться в модуль блок-схем надежности Relex и использоваться в качестве входных параметров блоков для общесистемных расчетов на логико-вероятностных моделях.

Сопряжение ПО Bunker с Relex осуществляется на основе подхода с использованием COM технологии. Основным используемым объектом автоматизации является объект Relex.Project, доступ к методам и свойствам которого осуществляется через диспетчерский интерфейс IPrjDoc.

Раздел 3.6 посвящен практическому использованию результатов главы 3 на этапе обоснования инвестиций в проект портово-транспортного технологического комплекса Штокмановского газоконденсатного месторождения, что позволило рассчитать и обосновать экономически выгодное проектное решение на основе использования промежуточных накопителей для установки регенерации ингибитора гидратообразования (моноэтиленгликоля (МЭГ)).

Статическая модель надежности установки регенерации МЭГ, набранная в модуле блок-схем надежности Relex, представлена на рис.7. Из входных устройств основного производства и установки регенерации насыщенный МЭГ поступает в промежуточную буферную емкость E1. Процесс регенерации МЭГ реализуется оборудованием специальных фильтров, холодильников и выпарных и дистилляционных колонн. Обеднённый МЭГ подается в ёмкость Е2, из которой и закачивается обратно в трубы, доставляющие к береговым входным устройствам многокомпонентный поток.

При выполнении проекта необходимо было выдать рекомендации по выбору параметров структуры установки регенерации МЭГ, а именно объемов емкостей E1,E2 и производительности оборудования, обеспечивающих бесперебойную подачу регенерированного МЭГ в подводный трубопровод. Решение поставленной задачи при использовании только ПО Relex оказалось невозможным ввиду отсутствия в нем моделей анализа надежности и производительности с учетом накопителей. Поэтому была организована совместная работа двух программных средств (Bunker и Relex). Итерационный расчет c помощью Bunker позволил решить задачу выбора рациональных значений параметров структуры (емкостей, производительности), обеспечивающих требуемые значения показателей готовности системы (Кг ≥.0.99). Расчет проводился для удельных значений производительности, а именно, номинальная производительность выходного оборудования E2 была принята за единицу. Результаты расчета сведены в таблицу 1.

Полученное значение коэффициента готовности могло бы быть достигнуто введением резервирования обрабатывающего оборудования, однако затраты на реализацию резервированного варианта намного превышают затраты на введение накопителей (емкости являются наиболее дешевым оборудованием).

Рис.7. Блок-схема надежности установки регенерации МЭГ

Таблица 1. Расчетные значения структурных параметров установки регенерации МЭГ

Коэффициент готовности

Установки

Производительность входного оборудования емкости Е1 (1/ч)

Емкость накопителя Е1 (ч)

Производительность промежуточного оборудования между емкостями Е1 и Е2 (1/ч)

Емкость накопителя Е2 (ч)

Производительность выходного оборудования емкости Е2 (1/ч)

0.998273

1.8

240

1.5

360

В главе 4 решаются задачи агрегирования марковских моделей при анализе надежности отказоустойчивых вычислительных систем. Рассматриваются однородные ОВС, т.е. системы, состоящие из резервированных подсистем с одинаковой технической структурой и с однотипной реакцией элементов на возникшую неисправность. Однородность поведения и технической структуры системы снижает размерность моделей и позволяет решить задачу анализа надежности, оставаясь в рамках марковских моделей без привлечения логико-вероятностного моделирования.

Общий подход к моделированию надежности однородных ОВС был предложен в работах Альгирдаса Авижиениса и заключался в раздельном построении марковских моделей обработки неисправностей и моделей деградации технической структуры ОВС. Приемы агрегирования марковских моделей, предложенные Авижиенисом и в последствии часто используемые в работах других авторов, основываются на укрупнении состояний сбой и отказ в одно состояние и корректировки интенсивностей выхода из укрупненного состояния с учетом успешности завершения процедур парирования сбоев. В разделе 4.1 проводится анализ результатов расчетов показателей надежности на моделях с укрупнением и показывается, что укрупнение существенно различных состояний (сбой, из которого есть возврат в исходное состояние; отказ, из которого принципиально отсутствует возврат в исходное состояние) порождает значительную относительную погрешность вычисления. Некорректность использования подобного укрупнения усугубляется тем, что при вычислении такого показателя как вероятность отказа оно дает оценку снизу.

Для дублированной ОВС, для которой возможно получение аналитического решения марковской модели надежности, рассмотрены следующие случаи: (1) укрупнение проводится при моделировании быстрых процессов обработки неисправностей; (2) укрупнение проводится при моделировании медленных процессов деградации технической структуры ОВС. Сравнение значений показателя вероятности отказа, полученных на точной модели без укрупнения состояний сбой и отказ и на моделях (1) и (2), позволило выявить два параметра, в наибольшей степени влияющих на погрешность вычисления - доля сбоев и средняя длительность сбоя. В зависимости от изменения параметра доля сбоев относительная ошибка вычисления вероятности отказа в модели (1) изменялась от 0 до 25%. При уменьшении средней длительности сбоя модель (1) порождала ошибки от 0 до 80%. Верхняя граница относительной ошибки, порождаемой моделью (2), приближалась к 100%.

В разделе 4.2 предложена агрегированная модель надежности ОВС, в которой медленный процесс деградации технической структуры описывается марковским процессом с непрерывным временем, а быстрый процесс обработки неисправностей - дискретной марковской цепью. Описана техника интеграции модели обработки неисправностей в общесистемную модель надежности, основанная на раздельном рассмотрении событий возникновения постоянных отказов и сбоев. Сбой трактуется как самоустраняющаяся неисправность, присутствующая в системе как физическое явление случайное время. Последствия сбоя могут привести к искажению нормального хода выполнения вычислительного процесса и требуют запуска внедренных в систему процедур восстановления, очередность и длительность которых определяется специальными протоколами.

Работа агрегированной модели продемонстрирована на примере анализа отказоустойчивой вычислительной системы, состоящей из трех машин, связанных между собой (полносвязный граф, т.е. каждая вычислительная машина связана с двумя другими). Отдельная машина состоит из базовой части (БЧ), адаптера связи с абонентом (А), приемо-передатчика межмашинного обмена (П/П). Критерием отказа ОВС является невозможность правильной работы не менее, чем по двум (из трех) каналам связи с абонентом внешней среды.

Факторами, учитываемыми при построении модели надежности, явились:

возможность возникновения двух типов неисправностей - постоянных отказов и сбоев
отсутствие восстановления работоспособности ОВС, нарушенной возникновением постоянных отказов
наличие резервирования (троирование) базовых и периферийных частей
введение специальных процедур обработки сбоев базовых частей машин
наличие видов отказов (например, пробой по питанию) элементов небазовой части ОВС (адаптер, приемо-передатчик), которые могут привести к неисправности базовой части

Модель обработки неисправностей описывала k последовательных программных попыток восстановления нормального хода вычислительного процесса ((перезапись памяти, повторы сегментов программ, откаты на контрольные точкиЕ)). Предполагалось, что неуспех i-ой попытки восстановления мог быть вызван тремя факторам

длительность сбоя (как физического явления) превышает длительность i-ой попытки восстановления
за время выполнения i-ой попытки восстановления произошел повторный сбой восстанавливаемой базовой части ОВС
за время выполнения i-ой попытки восстановления произошел сбой или отказ других частей ОВС

Кроме того, предполагалось, что часть отказов и сбоев может носить катастрофический характер (система переходит в отказ, минуя деградацию).

Дискретная марковская модель процесса обработки неисправностей приведена на рис.8

Рис. 8. Марковский граф процесса обработки неисправностей ОВС (k=3)

Состояния 2 и 5 графа соответствуют неуспешному завершению первой попытки программного восстановления по сбоям. Состояния 3 и 6 - неуспеху второй попытки. Всего в системе реализовано три попытки восстановления.

Переходные вероятности находятся из следующих соотношений:

(23)

Вероятность успешного восстановления по сбоям:

, (24)

где - вероятность отсутствия сбоя или отказа с двумя другими машинами, б - интенсивность отказов базовой части ОВС, нб интенсивность отказов небазовой части ОВС;

-условная вероятность возникновения некатастрофического сбоя;

-условная вероятность возникновения некатастрофического отказа;

- вероятность того, что длительность сбоя () превышает время одной попытки восстановления ();

- вероятность повторного сбоя машины во время ее восстановления;

- вероятность отказа машины во время ее восстановления.

Вероятность неуспеха восстановления по сбоям:

(25)

Вероятность перехода в отказ во время восстановления:

(26)

Вероятность перехода в отказ системы во время бессмысленного восстановления по сбоям машины, в которой на самом деле произошел постоянный отказ

(27)

Переходная матрица P и вектор начальных условий p(0) позволяют вычислить распределение финальных вероятностей за n шагов, как [0, 0, 0, 0, 0, 0, p7(n), p8(n), p9(n)] = p(0)Pn. Причем, если p(0) = [1, 0, 0, 0, 0, 0, 0, 0, 0], т.е.моделируется событие возникновения постоянного отказа, то при n ≥ 3 p7(n) = 0, p8(n) = PF, p9(n) = PD. Если рассматривается возникновение сбоя, то p(0) = [0, 0, 0, 1, 0, 0, 0, 0, 0] и при n ≥ 3 p7(n) = Pr, p8(n) = Pf, p9(n) = Pd. Таким образом, минуя укрупнения состояний сбой и отказ, получены коэффициенты, корректирующие интенсивности переходов непрерывной марковской модели надежности ОВС.

Анализ отказоустойчивого трехмашинного вычислительного комплекса на предложенной агрегированной модели подтверждает факт существенной зависимости надежности ОВС от сбоев. Неучет в моделях надежности ОВС сбоев приводит к получению необоснованно завышенных оценок показателей надежности. В тоже время, если в моделях надежности будут учитываться сбои, но не будет отражен факт просеивания потока сбоев введением специальных процедур восстановления, то полученные оценки недопустимо исказят реальность (см. таблица.2).

Таблица 2. Расчет показателей надежности ОВС

а	Вид Расчета
показатели	расчет по постоянным отказам без учета сбоев	расчет по сбоям и постоянным отказам без учета специальных процедур обработки неисправностей	расчет по сбоям и постоянным отказам с учетом специальных процедур обработки неисправностей
Вероятность Безотказной Работы	0,992122	4,137050E-03	0,848385
Вероятность Отказа	7,878300E-03	0,995863	0,151615

Глава 5 посвящена вопросам анализа контролепригодности систем, а именно, конструированию показателей и созданию моделей оценки средств встроенного контроля (СВК), разработке методики проектного анализа контролепригодности, организации сбора исходных данных, автоматизации.

Оценка технического состояния системы обеспечивается наличием в системе функции и средств встроенного контроля технического состояния, которые определяют контролепригодность системы - ее приспособленность к обнаружению отказов и выявлению причин (места) их возникновения. Оперативный встроенный контроль технического состояния элементов и систем, контроль правильности выполнения функций (при его идеальной работе) позволяет в полной мере реализовать возможности резервирования, своевременно принимать меры по реконфигурации систем и изменению режимов функционирования, обеспечивая, тем самым, свойство отказобезопасности системы в целом. Однако контроль не является идеальным - во-первых, он сам отказывает, а, во-вторых, не абсолютно все отказы и события им распознаются. Поэтому для обеспечения высоких показателей надежности и безопасности требуется проведение тщательного надежностного анализа систем и объекта в целом с учетом многих факторов, одним из которых являются характеристики контроля.

В разделах 5.1-5.2 сконструирован интегральный показатель оценки качества СВК - достоверность контроля. Для этого рассматриваются следующие события: - объект контроля работоспособен (неработоспособен); - состояние объекта признаётся работоспособным (неработоспособным) средствами контроля. Тогда формально можно определить следующие результаты взаимодействия объекта и средств контроля:

работоспособное состояние объекта признается контролем как работоспособное
работоспособное состояние объекта признается контролем как неработоспособное
неработоспособное состояние объекта признается контролем как работоспособное
неработоспособное состояние объекта признается контролем как неработоспособное

Правильная оценка состояния объекта контроля происходит, когда результат взаимодействия объекта и СВК имеет вид или . Определим достоверность контроля как

, (28)

а недостоверность как

. (29)

Составляющие недостоверности контроля можно записать

и , (30)

где , - вероятности работоспособного состояния и отказа объекта контроля, , - условные вероятности признания контролем отказа объекта, при условии его работоспособности, и работоспособности объекта, при условии его отказа, соответственно.

Для вычисления условных вероятностей использовался аппарат деревьев событий, введя в качестве учитываемых факторов полноту контроля и состояния контроля (работоспособность, и два вида отказа). Деревья событий, в принципе, являясь переборным методом, удобны для вычисления условных вероятностей тем, что позволяют декомпозировать всю задачу, помещая условие в корень дерева и рассматривая его как исходное событие. Причем условие может состоять не из одного события, а из любой их логической комбинации. Агрегирование показателей, вычисленных для выделенных при декомпозиции частей, в данном случае, проводится по формулам условной вероятности (в частности, (30)). Обозначим, η - полнота контроля, - события работоспособности и отказов типа ложного срабатывания и несрабатывания контроля. На рис 9,10 представлены соответствующие деревья событий.

Рис.9. Дерево событий для вычисления условной вероятности признания контролем отказа объекта, при условии его работоспособности

Рис.10. Дерево событий для вычисления условной вероятности признания контролем работоспособности объекта, при условии его отказа.

Учет не только полноты η, но и глубины контроля позволяет записать

, (32)

Глубина контроля представляется рядом распределения, членами которого являются стационарные вероятности снятия одного, двух Е, n элементов объекта контроля, при условии возникновения отказа одного элемента:

, (33)

Gk - подмножество контролируемых элементов, при отказе любого из которых снимается k элементов.

Полнота контроля определяется как условная вероятность контролируемого отказа, при условии, что отказ произошел:

Т (34)

где Λ - суммарная интенсивность отказов объекта контроля (контролируемые + неконтролируемые); Λк - суммарная интенсивность контролируемых отказов.

Проведя усреднение интенсивностей отказов на интервале (0,t), получаем:

Т (35)

где и для реальных высоконадежных систем λусрt << 1.

При экспоненциальных распределениях наработки до отказа элементов:

, (36)

где n Цколичество элементов объекта контроля; К - подмножество контролируемых элементов; i - интенсивность отказа элемента.

Исследование зависимости интегрального показателя достоверности контроля от времени

подтверждают выявленную ранее тенденцию о малой чувствительности показателя недостоверности к коэффициенту несрабатывания при t << средней наработки до отказа объекта контроля (рис.11).

Рис.11. График зависимости недостоверности контроля от времени

В разделе 5.3 изложена общая методика анализа контролепригодности систем на стадии проектирования, заключающаяся в проведении взаимосвязанных и единообразных (с точки зрения принятых модельных предположений) вычислений, как составляющих, так и интегральной достоверности контроля. Проводимый таким образом анализ позволяет корректно сравнивать требования с полученными результатами. На этапе формирования требований задаются некоторые желаемые показатели для анализируемой системы (агрегата, функции), например, средняя наработка между отказами самой системы, полнота, глубина контроля, требования по надежности контроля. Эти данные затем используются для вычисления DI (требуемой достоверности контроля). Далее проводятся расчеты показателей надежности и характеристик средств контроля по моделям прогнозирования безотказности и качественному предварительному анализу видов и последствий отказов. Расчетные значения показателей надежности, полноты и глубины контроля используются в свою очередь для вычисления DII (расчетной достоверности контроля). Как требуемое по ТЗ (ТУ) значение показателя DI, так и расчетное DII вычисляются по формуле (32). При выполнении неравенства DII ≥ DI проектные решения по организации контролепригодности признаются удовлетворительными. В противном случае необходим пересмотр проектных решений.

Разделы 5.4 - 5.5 посвящены решению задач сбора и подготовки исходных данных для различных направлений УнадежностныхФ исследований, в частности, анализа контролепригодности. Показано, что при проектировании уникальных технических объектов, в условиях отсутствия адекватных моделей безотказности и информации по объектам-аналогам, результаты проведения качественного анализа видов и последствий отказов (АВОП) являются одним из основных источников исходных данных. Предложена структура таблиц АВОП, позволяющая в процессе проведения анализа видов и последствий отказов собрать информацию о количестве и интенсивности выявляемых контролем отказов, определить средние наработки до отказа средств контроля и соотношение отказов типа несрабатывания и ложного срабатывания, а также выявить отказы, идентифицируемые контролем с точностью до одного съемного элемента.

В разделе 5.6 описано специализированное программное обеспечение анализа контролепригодности агрегатов и подсистем отечественного регионального самолета RRJ (SuperJet 100), проектируемого в ЗАО УГражданские Самолеты СухогоФ. ПО реализует следующие функции: расчет показателей надежности и контролепригодности на основе данных проектирования и технического задания; построение распределения полноты контроля по агрегатам функциональных подсистем для заданного уровня критичности видов отказов; оценку эффективности различных средств контроля, применяемых как в полете, так и при наземном обслуживании. Сопряжение с программой анализа надежности и безопасности Relex, используемой в группах надежности и контролепригодности ЗАО ГСС и его партнеров по проекту RRJ - Goodrich, Boeing, была организована с помощью механизмов импорта-экспорта информации базы данных Relex.

Основные результаты диссертации

Проведено исследование моделей анализа надежности и безопасности сложных технических систем, выделены два основных класса моделей (статические и динамические); разработана концепция анализа надежности и безопасности на основе агрегирования статических и динамических моделей, основанная на проведении декомпозиции системы, составлении моделей выделенных частей, агрегировании полученных моделей, либо уже вычисленных показателей для частей системы, в общесистемную модель или показатели.
Разработана и практически внедрена методология автоматизации анализа надежности, основанная на создании специализированных программных приложений, сопрягаемых с универсальным программным обеспечением расчета надежности и безопасности по принципам COM-технологии и разделения внешних источников данных.
Предложен метод получения логического выражения реализации вершинного события в форме замещения за счет преобразования дерева отказов в диаграмму двоичных решений. Метод позволяет избежать сложных и трудно программируемых алгоритмов определения минимальных сечений и вычисления вероятности событий реализации сечений, заменяя их эффективными алгоритмами прохода бинарных деревьев. Метод значительно упрощает выделение динамических операторов и реализацию агрегирования моделей и показателей
Создана модель надежности управляющей вычислительной системы с программно-реализуемой сбое-отказоустойчивостью, основанная на использовании динамических деревьев отказов с вершинами, учитывающими последовательность возникновения отказов, и комплексными базовыми событиями, раскрываемыми вложенными деревьями и марковскими моделями обработки неисправностей
Разработана дискретная марковская модель обработки неисправностей в отказоустойчивой вычислительной системе, характерными особенностями которой являются раздельное моделирование процессов обработки постоянных отказов и сбоев, учет конечной длительности сбоя и возможности возникновения вторичных неисправностей в процессе восстановления. Описана техника интеграции модели обработки неисправностей в общую модель деградации технической структуры системы.
Создана модель надежности однопоточной двухфазной системы, учитывающая неабсолютную надежность накопителя, и получены аналитические стационарные решения для трех вариантов соотношений производительности обрабатывающих устройств. Предложена декомпозиция модели однопоточных и многопоточных многофазных систем, на основе которой разработан алгоритм расчета нижней оценки коэффициента готовности и средней производительности технологических систем.
Разработан метод проектной оценки контролепригодности систем по интегральному показателю достоверности контроля, включающему как составляющие характеристики полноты и глубины контроля, вероятности возникновения отказов типа несрабатывания и ложного срабатывания. Решена проблема получения исходных данных для оценки контролепригодности с использованием анализа видов и последствий отказов.

Список публикаций

Викторова В.С. Элементарные механизмы обеспечения отказоустойчивости и их влияние на готовность вычислительных систем. - Качество и надежность, Вып.7, М.: 1988, с.5-8.
Викторова В.С. Анализ эффективности стратегий восстановления вычислительного процесса ЭВМ при сбоях. - Качество и надежность, Вып.11, М.: 1989, с.11-13.
Victorova, V.S., Shagaev, I.V. Recovery strategies in supercomputers. - Proceedings of the 6th Symposium on Technical Diagnostics, Prague, 1989, Czechoslovakia, No.31 May, pp.413-421.
Victorova V., Shagaev I. Analysis of recovery procedures for supercomputers. - Conference on computing systems and information technology, August, 1989, Sydney. Australia/ Digest of Papers.
Викторова В.С. Анализ стратегий восстановления в вычислительных системах со слабым контролем. - Проблемы комплексной автоматизации судовых технических средств/ Тезисы докладов VII Всесоюзной научно-технической конференции, Л.: 1989, c.195-196.
Викторова В.С., Шагаев И.В. Сравнительный анализ эффективности алгоритмов восстановления вычислительного процесса. - Автоматика и телемеханика, 1990, № 1, с.125-136.
Викторова В.С. Неэкспоненциальная модель длительности сбоя. Качество и надежность, Вып.9, М.: 1990, с.7-8.
Викторова В.С. Оптимизация стратегий обработки неисправностей в отказоустойчивой бортовой управляющей системе. - Проблемы построения перспективных бортовых управляющих комплексов/ Тезисы докладов Всесоюзного совещания, Владивосток, 1991.
Викторова В.С. , Степанянц А.С. Исследование надежности вычислительной системы с программно-управляемой отказоустойчивостью. - Приборы и системы управления, 1993, №7, с.13-17.
Викторова В.С. Выбор параметров процедуры обработки неисправностей в вычислительной системе с программно-управляемой сбое- и отказоустойчивостью. - Приборы и системы управления, 1993, №7, с.18-21.
Викторова В.С. , Степанянц А.С. Комплекс программ для анализа надежности, безопасности и эффективности технических систем. - Приборы и системы управления, 1998, № 6. стр.11-17.
Викторова В.С., Злобинский В.И., Степанянц А.С. Модель надежности управляющей ВС с программным управлением отказоустойчивостью. - Надежность, живучесть и безопасность автоматизированных комплексов/ Тезисы докладов 5 Всесоюзного совещания, Суздаль, 1991.
Антонов А.В., Викторова В.С., Степанянц А.С., Ядыкин И.Б. Надежностный анализ автоматизированных технологических комплексов. - Информационные технологии в проектировании и производстве. 1998. № 2. С.31-38.
Викторова В.С., Степанянц А.С., Ядыкин И.Б. Обоснование технических требований и надежностный анализ систем противоаварийной защиты. - Информационные технологии в проектировании и производстве. 1998. Вып.4. С.67-71.
Викторова В.С. Обеспечение сбоеустойчивости бортовой картографической системы. - Труды Международной Академии Информатизации. Вып.4, 1999, изд. НИИНЦ, стр.158-166.
Викторова В.С., Камышев Д.В., Степанянц А.С. Моделирование и исследование надежности бортовых отказосбоеустойчивых систем. - Труды V Международного научно-технического симпозиума "Авиационные технологии 21-го века". Наука на МАКС-99, Жуковский, 17-22 авг.1999, ЦАГИ, стр.120-128.
Викторова В.С., Степанянц А.С. Модели, методы и программное обеспечение для анализа надежности. - Труды Международной конференции по проблемам управления. М.: 1999, ИПУ РАН, с.144-146.
Викторова В.С. , Кунтшер Х.П., Петрухин Б.П., Степанянц А.С. Relex - программа анализа надежности, безопасности, рисков. - Надежность, 2003, №4 (7), с. 42-64.
Викторова В.С., Степанянц А.С. Надежностный анализ и обоснование требований систем с защитой. - Тезисы докладов 2 Международной конференции по проблемам управления. М.: 2003, ИПУ РАН, т.2, с.123.
Викторова В.С. Средства автоматизации анализа надежности и безопасности. - Тезисы докладов 4 Научно-техническая конференции Функциональная безопасность, М.,2003.
Викторова В.С., Кунтшер Х.П. Система анализа надежности и безопасности RELEX. / Пленарный доклад. Международная научная школа МАБР 2003 Моделирование и анализ безопасности и риска, СПб, 2003.
Викторова В.С. , Степанянц А.С. Использование модулей Relex при анализе надежности и безопасности систем. - Надежность, 2004, №2 (9), c. 64-71.
Викторова В.С., Степанянц А.С. Логико-вероятностные методы оценки надежности и безопасности систем. - Труды 5 Международной научной школы "Моделирование и Анализ Безопасности и Риска в Сложных СистемахФ (МА БР 2005), СПб, 2005, с.126-128.
Викторова В.С. , Кунтшер Х.П., Степанянц А.С. Анализ программного обеспечения моделирования надежности и безопасности систем. - Надежность, 2006, №4 (19), c. 46-57.
Викторова В.С. , Кунтшер Х.П., Степанянц А.С. Обзор программных разработок по анализу надежности и безопасности систем. - Труды международной конференции УПрограммные продукты информационного обеспечения безопасности полетов, надежности и технической эксплуатации авиационной техникиФ, Москва, 14-16 марта 2006, с.17-26.
Викторова В.С., Волик Б.Г., Степанянц А.С. Анализ надежности вычислительного управляющего комплекса методом комбинации расчетных моделей. - Надежность. №2 (17), 2006, с. 53-59.
Викторова В.С., Степанянц А.С. Программные комплексы по анализу надежности, безопасности и эффективности систем. - 3 Международная конференция по проблемам управления/ Пленарные доклады и избранные труды. М.: 2006, ИПУ РАН, с.738-740.
Викторова В.С., Ведерников Б.И., Спиридонов И.Б., Степанянц А.С. Моделирование и анализ контролепригодности бортовых систем самолетов.- Надежность. №3 (22), 2007, с.62-71.
Викторова В.С., Степанянц А.С. О вычислениях параметра потока отказов, восстановления в логико-вероятностных моделях. - Труды 8 Международной научной школы "Моделирование и Анализ Безопасности и Риска в Сложных СистемахФ (МА БР 2008), СПб, 2008, с.354-356.
Викторова В.С., Степанянц А.С. Оценка достоверности контроля в задачах анализа надежности и безопасности бортовых систем. - Труды 8 Международной научной школы "Моделирование и Анализ Безопасности и Риска в Сложных СистемахФ (МА БР 2008), СПб, 2008, с.357-362.

Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно. В работах, опубликованных в соавторстве, личный вклад автора состоит в следующем.

В [3,4,6] автором разработаны модели оценки эффективности восстановления вычислительного процесса, нарушенного возникновением сбоев.

В [11,23,29] автором разработаны и программно реализованы модели анализа надежности и производительности многофазных, многопоточных технологических систем и методы расчета показателей безотказности на логико-вероятностные моделях

В [12,16,22,26] автором разработана модель анализа надежности вычислительной системы с программно реализуемой отказоустойчивостью

В [13,14,19] автором представлена модель надежностного поведения технической системы, особенностью которой являются наличие несовместных видов отказов и учет последовательности отказов.

В [17,18,20,21,24,25] автором проведен сравнительный анализ моделей и методов, реализованных в современном универсальном программном обеспечении; предложен подход к разработке сопрягаемых с универсальным ПО специализированных программ.

В [28,30] автором сконструирован интегрированный показатель оценки качества встроенных систем контроля, разработана идеология построения специализированного ПО анализа контролепригодности.

Авторефераты по всем темам >> Авторефераты по техническим специальностям