| Как ломаются сложные системы |
How Complex Systems Fail
1) Опасность – неотъемлемый атрибут сложных системВсе интересные системы (транспорт, здравоохранение, энергетика…) естественно и неминуемо опасны по своей природе. На частоту опасных явлений в ряде случаев можно влиять, но процессы, входящие в состав этих систем, сами по себе являются источником неотвратимой опасности. И именно присутствие этой опасности приводит к созданию многочисленных средств защиты, столь характерных для этих систем. 2) Сложные системы тщательно и успешно защищаются от сбоевЧем опаснее возможные сбои, тем более сложной становится со временем система защиты от них. Системы защиты включают в себя как очевидные технические решения (резервирование, автоматизированные средства обеспечения техники безопасности и т. п.) и «человеческие» решения (обучение, тренировки), так и разнообразные организационные, институциональные, нормативные способы защиты (политики и процедуры, сертификацию, правила…). Все они фокусируются на построении линий обороны, обычно направляющих работу системы в безаварийное русло. 3) Катастрофа подразумевает множество сбоев – одиночных нарушений недостаточноОборонительные сооружения работают. Работа систем, как правило, успешна. Заметные глобальные сбои возникают, когда несколько мелких, безобидных в сущности сбоев объединяются, создавая возможность глобальной системной аварии. Каждый из этих сбоев необходим для создания аварии, но только вместе они добиваются результата. Иными словами, возможностей для возникновения системных аварий гораздо больше, чем проявившихся аварий. Большая часть этих возможностей блокируется на ранней стадии развития созданными для этого средствами защиты. Большинство дошедших до уровня эксплуатации блокируется специалистами. 4) Сложные системы содержат постоянно меняющуюся комбинацию скрытых сбоевСложность рассматриваемых систем делает невозможной работу без множественных внутренних ошибок. Поскольку каждая из них неспособна привести к аварии, на операционном уровне они рассматриваются как несущественные. Устранение всех этих ошибок признается экономически нерациональным; кроме того, проактивная оценка их влияния на возможность возникновения системной аварии затруднена. Набор ошибок в составе системы постоянно меняется вместе со сменой технологий, организации работ, а также вследствие усилий по их устранению. 5) Сложные системы работают в режиме ограниченной производительностиИз сказанного выше следует, что сложные системы всегда работают как поврежденные системы. Система продолжает функционировать, поскольку содержит множество дополнительных средств обеспечения устойчивости, а также поскольку люди заставляют ее работать, несмотря на наличие множества ошибок. В ходе разбора случившихся аварий почти всегда отмечается, что в системе накоплена история 6) Катастрофа всегда рядомСложные системы склонны к катастрофам. Работающие с ними специалисты почти всегда находятся в непосредственной близости – как в пространстве, так и во времени – от возможной аварии: она может случиться в любой момент и почти в любом месте. Способность к катастрофе – фамильное свойство сложных систем. Устранить это свойство невозможно, оно присуще самой природе сложных систем. 7) Попытки найти «корневую причину» аварии – в корне ошибочныПоскольку системные аварии происходят как следствие сочетания множества ошибок, не существует единственной «причины аварии». Всегда действует множество факторов, несущественных поодиночке, но совместно ведущих к аварии. Поэтому невозможно определить «корневую причину» аварии. Расследования, направленные на выявление такой причины, основываются не на техническом понимании природы сбоя, но лишь на социальной потребности возложения 8) Необъективность ретроспективной оценки работы специалистовЗнание последствий заставляет нас преувеличивать очевидность приведших к нему событий для специалистов. Это означает, что анализ работы людей, проводимый ex post facto, дает неточные результаты. Знание случившегося впоследствии мешает проводящему анализ объективно оценить поведение специалистов в прошлом. Ему кажется, что люди «должны были знать», что те или иные события «неминуемо» привели бы к аварии2. Необъективность ретроспективного анализа остается основным препятствием для расследования катастроф, в особенности – при экспертной оценке работы персонала. 9) Люди играют двойную роль: создают сбои и защищают от нихСпециалисты управляют системой для того, чтобы получить продукт, ради которого она создана, и предотвратить аварии. Это неизбежная динамическая характеристика работы системы – постоянный поиск баланса между спросом на продукцию и возможностью начала аварии. Сторонние наблюдатели редко осознают двойственность этой роли. Во время стабильной работы основной является производственная роль; при возникновении сбоев – защитная. В обоих случаях сторонний наблюдатель не осознает постоянной и одновременной вовлеченности специалистов в исполнение обеих ролей. 10) Все действия специалистов – авантюрыПосле аварий, когда случившиеся сбои выглядят единственно возможным следствием прошлых событий, действия специалистов воспринимаются как ошибки или как намеренное грубое пренебрежение этими событиями. На самом деле все их действия – это рискованные авантюры, попытки угадать будущие неопределенные события. Степень неопределенности может меняться от случая к случаю. То, что это именно угадывание, становится ясным вскоре после аварии – последующий разбор полетов собственно и показывает, что они не угадали. 11) Работа на переднем крае устраняет колебанияОрганизации колеблются, часто ненамеренно, между достижением целей, рациональным использованием ресурсов, экономией и снижением затрат и контролем рисков аварий. Все эти противоречия устраняются за счет работы специалистов на переднем крае систем. После аварии действия специалистов могут трактоваться как «ошибки» или «отклонения», но такие оценки находятся под влиянием ретроспективной необъективности и не учитывают другие движущие силы, в особенности – требования к производительности. 12) Специалисты – адаптивный элемент сложных системСпециалисты и линейные руководители первого уровня активно адаптируют системы для получения максимальной производительности при минимуме аварий. Эта адаптация часто производится несистемно, от случая к случаю. Вот некоторые примеры такой адаптации:
13) Уровень экспертизы специалистов в сложных системах постоянно меняетсяСложные системы требуют серьезной экспертизы для управления и эксплуатации. Эта экспертиза меняется при изменении технологий, но она также меняется и при смене сотрудников. В любом случае, обучение и обновление знаний – необходимая часть работы системы. Следовательно, в любой момент времени всякая система включает в себя специалистов с разным уровнем экспертизы. Серьезные сложности, связанные с экспертизой, возникают (1) при необходимости использования редкой экспертизы для наиболее сложных или важных производственных задач и (2) при необходимости развивать экспертизу для использования в будущем. 14) Изменения создают новые виды сбоевНизкий уровень видимых нарушений в надежных системах может стимулировать изменения, в особенности – применение новых технологий, для устранения несущественных, но частых сбоев. Эти изменения могут привести к появлению возможностей для новых сбоев – редких, но существенных. Когда новые технологии используются для устранения известных мелких ошибок или повышения производительности, они часто становятся источником масштабных, катастрофических аварий. Нередко эти новые аварии имеют даже большее влияние, чем те, что были предотвращены внедрением новых технологий. Новые виды сбоев трудно опознать заранее; внимание уделяется в основном предполагаемым преимуществам от внедрения изменения. Поскольку новые крупные аварии возникают нечасто, до их первого проявления может пройти несколько изменений системы, что затрудняет определение связи аварий с новыми технологиями. 15) Поиск «причины» снижает эффективность мер защиты от будущих сбоевПост-аварийные меры в отношении «человеческих ошибок» основаны на пресечении или предотвращении действий, которые могут стать причиной аварии. Такие действия в отношении крайнего звена цепи мало способствуют снижению вероятности аварии в будущем. На самом деле вероятность повторения в точности такой же аварии и без того исчезающее мала, так как сочетание лежащих в ее основе многочисленных ошибок постоянно меняется. Вместо повышения уровня безопасности меры, принимаемые по результатам расследования аварий, только повышают сложность системы. Вместе с ней повышается вероятное число скрытых ошибок и затрудняется работа по их отслеживанию и устранению. 16) Безопасность – характеристика системы, а не ее компонентовБезопасность – это общее свойство системы; она не может быть сведена к личности, устройству или отделу. Ее нельзя купить или произвести; она неотделима от других компонентов системы. Это значит, что безопасностью нельзя управлять как ресурсом. Состояние безопасности любой системы всегда динамично, непрерывные изменения системы ведут к непрерывным изменениям угроз и управления ими. 17) Люди непрерывно создают безопасностьБесперебойная работа – это результат деятельности людей, удерживающих систему в приемлемых рамках производительности. По большей части эта деятельность – часть обычной ежедневной деятельности и внешне очень проста. Но поскольку работа системы никогда не бывает полностью свободной от ошибок, именно способность специалистов адаптироваться к меняющимся условиям обеспечивает безопасность системы в каждый момент времени. Эта способность часто предполагает лишь способность выбрать один из стандартных вариантов поведения; однако в отдельных случаях она требует создания новых комбинаций или даже принципиально новых подходов к работе системы. 18) Работа без сбоев требует опыта работы со сбоямиВыявление опасности и успешное управление системой с целью сохранить производительность в приемлемых рамках требуют тесного контакта с ошибками. Добиться высокой производительности удается в тех системах, где специалисты могут почувствовать грань, когда работа системы становится менее стабильной, менее предсказуемой или не может быть уверенно диагностирована. В системах, которые по определению опасны, это значит – вычислять и контролировать опасности так, чтобы общая производительность системы оставалась в согласованных рамках. Улучшения безопасности зависят от наличия у специалистов масштабируемого подхода к угрозам и от их способности прогнозировать влияние корректирующих действий на положение системы относительно границы между максимальной производительностью и неуправляемым разгоном. Сноски:
Оригинальный текст: Copyright © 1998, 1999, 2000 by R. I. Cook, MD, for CtL Revision D (00.04.21). Ричард Кук, доктор медицины. Лаборатория когнитивных технологий, университет Чикаго. Краткий реферат других работ автора:
Другие материалы:
Комментарии к статье
Эту и другие статьи вы можете загрузить в формате Acrobat Reader PDF в файловом архиве. |
Обсуждение и комментирование этой и других статей разделов "Точка зрения", "Новости и анонсы", "OMNITRACKER", "Доклады и презентации", "Плакаты и постеры"
проводится на портале Real ITSM.






