Как показывает опыт, во многих организациях сегодня отсутствует план непрерывности бизнеса, либо в нем не учтены многие из вопросов, которые сегодня все чаще задает жизнь. Многие со мной не согласятся, но это факт!
Согласно аналитическому исследованию «Непрерывность бизнеса в России», проведенному в марте 2019 года компанией PWC, компании, развивая свои процессы, не планируют проводить сертификацию на соответствие требованиям международного стандарта ISO 22301 «Система управления непрерывностью бизнеса». Только 20% заявили о наличии соответствующих планов.
Что такое план непрерывности бизнеса?
План непрерывности бизнеса (Business Continuity Plan — BCP) – набор документов, позволяющих создать план непрерывности бизнеса вашей компании при возникновении различных происшествий и инцидентов. Результат – достижение такого состояния, при котором не происходит прерывания деятельности в случае наступления события «Ч» работоспособности информационных систем или их компонент в конечные временные рамки.
Бизнес 24х7: обеспечение непрерывности деятельности
Выделяют основные составляющие данного процесса:
- Управление инцидентами (IncidentManagement) . Это оперативный уровень. На данном уровне рассматривается комплекс управления внутренними и внешними происшествиями высокой и средней вероятности возникновения, например, мошенничество, человеческий фактор, сбой в работе оборудования. Задача управления инцидентами – восстановление минимального функционала в минимальный срок; а еще — своевременная идентификация и классификация инцидента.
- Управление непрерывностью бизнеса и аварийным восстановлением (Business continuity emergency management) – на данном уровне рассматривается как задействовать планы во время кризиса, и оперативно принимать решения до окончания критической ситуации.
- Восстановление бизнеса (Businessrecovery). Возвращение к нормальному функционированию, выполнение задач, отложенных во время кризиса. Компенсация потерь, анализ произошедшего, меры по предотвращению
Результат опроса показывает, что как минимум 40% компаний столкнулись в своей деятельности со значительным инцидентом. Среди причин длительного простоя респонденты в основном отметили сбой в информационной системе, прекращение подачи электроэнергии, обрыв канала связи.
% Причина 22% Сбой в информационной системе 14% Прекращение подачи электроэнергии 9% Обрыв канала связи 6% Сбой со стороны третьих сторон (подрядчики, поставщики и т. д.) 6% Хакерская атака 3% Аварийные ситуации с оборудованием 3% Аномальные погодные условия 1.5% Ложные сигналы о минировании офисов 1.5% Ошибки персонала 1.5% Пожар
Цели и задачи плана BCP
Основными целями BCP являются:
- поддержание способности компании выполнять принятые на себя обязательства перед клиентами и партнерами, предупреждение и предотвращение возможного нарушения режима повседневного функционирования компании;
- обеспечение соответствия всех механизмов BCP требованиям государственных органов, а также требованиям нормативно-правовых актов и принятым в компании политикам, процедурам и планам;
- снижение тяжести последствий нарушения режима повседневного функционирования компании (в том числе размера материальных потерь, потерь информации, потери деловой репутации);
- сохранение уровня управления компании, позволяющего обеспечить условия для принятия обоснованных и оптимальных управленческих решений, их своевременную и полную реализацию;
- обеспечение благоприятных условий труда и безопасности работников, безопасности посетителей, находящихся в помещениях компании;
- определение перечня критичных процессов компании и перечня сценариев негативного развития событий, способных привести к остановке бизнес-процессов;
- обеспечение непрерывности деятельности критичных бизнес-процессов за счет определения, внедрения и документирования механизмов контроля.
Кроме того, в компании могут устанавливаться дополнительные требования, процедуры, регламенты BCP. Они могут быть более детализированы, предусматривать дополнительные ограничения.
Бизнес-форум IBM 2013: Обеспечение непрерывности бизнес-процессов
План непрерывности бизнеса включает в себя:
- определение областей, в рамках которых организация может быть подвержена рискам непрерывности;
- определение рисков, которые могут повлиять на функционирование организации;
- рассмотрение и анализ риска возникновения природных, техногенных катастроф, равно, как и других непредвиденных обстоятельств, применимых к офисам местонахождения компании;
- рассмотрение рисков, реализация которых наносит существенный ущерб материальным и нематериальным активам компании;
- анализ факторов, влияющих на вероятность наступления чрезвычайной ситуации (ЧС);
- анализ степени влияния ЧС на:работников;
инфраструктуру;
информационные активы.
С целью обеспечения полноценного анализа факторов влияния, анализ должен проводиться для каждого бизнес-процесса во всех структурных подразделениях.
К задачам обеспечения нормальной деятельности в условиях ЧС относятся:
- определение перечня процессов и операций, подлежащих дополнительной защите;
- обеспечение создания на ежедневной основе резервных копий информации;
- разработка и доведение до сведения работников компании плана мероприятий на случай возникновения ЧС, а также проведение периодического обучения работников по вопросам их действий в условиях ЧС;
- доведение до сведения всех партнеров информацию о порядке действий в случае возникновения ЧС.
Вместе с тем я ни разу не видел включение в такие планы таких событий как массовые беспорядки, эпидемии с возможностью заключения в карантин целых городов, а, возможно, и областей.
Если еще 10 лет назад такие события считались маловероятными, то сегодня нет. Стоит вспомнить события 2014 года в Донбассе или эпидемию COVID 19 2019-2020 года, распространившуюся по всему миру.
Эпидемия (коронавирус) и ИБ.
- влияние на доступность ресурса «ЧЕЛОВЕК»;
- деградация (вплоть до краха) инфраструктуры и СЗИ в связи с попытками их трансформации для удаленного доступа и других мероприятий в режиме паники;
- запрет массовых мероприятий (для компаний-организаторов мероприятий это может означать банкротство);
- Командировки (сотрудники не могут вернуться из зон карантина либо, наоборот, не могут не могут въехать в страну, которая закрыла свои границы в связи с режимом чрезвычайной ситуации. Это может нести дополнительные расходы.
- Угрозы туристическим и транспортным компаниям в данной статье не рассматриваются.
Основным решением в данном случае является работа с помощью удаленного доступа и здесь возникает сразу несколько вопросов:
- Есть ли у вас инструменты удаленной работы, настроены ли и отлажены ли они?
- Знаете ли вы, есть ли компьютерное оборудование у ваших сотрудников дома?
- Какое это оборудование?
- Разрешат ли ваши сотрудники установку дополнительного программного обеспечения для работы из дома?
- Удовлетворяют ли их компьютеры требованиям информационной безопасности и лицензионной чистоты?
- Как быть с тем, что на персональном компьютере сотрудника есть и его домашняя информация и корпоративная? Как отследить утечки?
Как видите, вопросов масса. Но подготовиться заранее вы просто обязаны. Что посоветовать?
- Заранее провести опрос и определить готовность сотрудников к работе из дома.
- Определить готовность аппаратных средств к работе.
- Там, где компьютеры поддерживают Windows 10, заранее подготовить флешки (внешние SSD) с Windows To Go и возможностью подключения по USB 3.0. Подробнее этот процесс описан в журнале CIS (Выпуск #4 (10) 2019) https://cismag.ru/ . Статья «Работаем из дома?».
- Для других ОС решение будет, безусловно, иным. Основная задача, подготовить ОС на сменном носителе таким образом, чтобы фактически домашний компьютер не имел доступа к своему жесткому диску, а работал как удаленный терминал.
- Возможно и другое решение на базе Citrix. Достаточно подключиться к терминальным сервисам и с помощью политик заблокировать доступ к локальным устройствам и проброс их в сессию. В частности, дополнительное решение App Protections это анти-кейлоггер и анти-скринграббер для клиентского рабочего места при установке на него клиентского ПО Citrix. Правда для такого решения необходимо чтобы сотрудник согласился на установку на его домашнем ПК дополнительного ПО. А соглашаются, увы, далеко не все.
Правда стоит отметить, что сделать это нужно заранее , тем более что введение карантина может быть внезапным.
Однако кроме карантина у нас есть масса других вопросов.
Электропитание
Итак, на вашем предприятии предусмотрены действия при отключении электропитания. Попробуйте ответить себе на следующие вопросы:
- Как давно вы проверяли свои источники питания (имеются в виду не только ваши ИБП, а и дизель-генераторы, вводы электропитания, возможность автоматического переключения между источниками)?
- Существует ли у вас график их проверки?
- Ваша компания имеет два входа по электропитанию? С двух питающих ТП?
- Есть ли у вас дизель-генератор?
Итак, у вас все есть. И формально все хорошо. А фактически? В моей практике было несколько очень неприятных случаев.
- На заводе было заведено две линии электроэнергии. Однако при попытке автоматического переключения переключение не удалось. При более тщательной проверке выяснилось, что две линии подачи электроэнергии подавали электричество в противофазе, в результате автоматическое переключение не срабатывало. Если спросить, является ли это проблемой ИТ? Нет, конечно. Но заодно выяснилось, что за все время такого подключения, а это более 10 лет, никто ни разу этого не проверял.
- Второй случай был куда хуже. Если в первом через месяц все же удалось «победить», то во втором победить не удалось, пришлось искать другую подстанцию. Проблема была в том, что подаваемое электричество было различным по частоте. Как и почему? Ответить я не смогу. Одна линия была с частотой 49.5 Гц, а вторая 49.8 Гц. Естественно переключение невозможно. Однако самым страшным был случай третий.
- Внезапное отключение электричества сразу на двух входящих линиях потребовало включения резервного дизель-генератора. К несчастью, оказалось, что это невозможно, так как уже два года как уволен дизелист по сокращению штатов, в генераторе нет дизтоплива и вообще, его два года никто не включал.
Ну и как это назвать? Естественно, никакого графика проверки источников питания не было. Более того, никто и никогда не поднимал этот вопрос.
Восстановление после аварии
В компании произошло ЧП, атака шифровальщика. В ночное время. Ситуация типичная? Вполне.
НО! В компании один системный администратор и тот болеет. Как быть? Не знаю.
Хорошо, администратор не один. И тут возникают вопросы:
- Знает ли охранник кого вызывать?
- Есть ли у него номера телефонов кого вызывать?
- Есть ли журнал, в который он должен записать:Время аварии
Кто заявил про аварию?
Кто принял заявку?
Кого вызвали? - Кто заплатит за такси? Вопрос не праздный. Сотрудник не должен сам оплачивать. В идеале должен быть договор со службой такси, а оплата проводится компанией по факту.
- Увы, но, как правило, первым всегда приезжает наименее подготовленный сотрудник. Более того, ведь мы не в армии, следовательно, более подготовленный может и не приехать вообще (болезнь, ночует не дома, не может приехать и т.д.). Существует ли инструкция по восстановлению после аварии, причем написанная в виде комикса. Сотрудник не должен задумываться что ему делать. Увы, но в данном случае автоматические действия гарантируют меньшее количество ошибок.
- Должен сказать, что чаще всего подобной инструкции просто нет!
Каналы связи
Я надеюсь, в вашей компании минимум два канала связи от двух провайдеров? Как давно проводились учения по переключению? А то не было бы как в одной компании из моей практики. Компания относится к агропромышленному сектору и находится в сельской местности. Однажды у них пропадает интернет по вполне банальной причине.
Сельский тракторист копает яму и банально рвет кабель. Тут же идет команда – переключаемся. Однако все хорошо только на бумаге. В сво время с целью экономии оба кабеля от обоих провайдеров уложили под землю … в одной трубе! Вывод?
Порвали оба!
Другая история была куда интереснее. Было два кабеля, к двум провайдерам, как положено. Но проблемой оказалось, что они оба были подключены к одному и тому же провайдеру более верхнего уровня и в результате разорвали именно связь между ними и верхним провайдером! При подключении компании этого никто не проверял!
И последнее.
Как давно у вас в компании проводились «действия по тревоге»? А ведь эти операции должны проводиться регулярно, в разное время суток. Безусловно, мы не в армии и не стоит уподобляться нашему командиру полка, проводившему подобные тревоги на следующее утро после зарплаты. Но люди должны понимать, что вызвать их могут в любое время. Естественно, и платить такой тревожной группе нужно дополнительно.
А как давно вы поводили у себя в компании подобные учения и проводили ли вообще?
Другими причинами аварийных ситуаций могут быть:
- действия правоохранительных органов (маски-шоу);
- действия Роскомнадзора и администраций облачных сервисов;
- борьба между собственниками организации (собственниками сервис-провайдера).
Снизить расходы на собственную инфраструктуру, на мой взгляд, позволяет:
- размещение оборудования в публичных дата центрах (colocation);
- использование облачных сервисов.
Необходимо признать, правда, что в таком случае узким местом является наличие устойчивых каналов Интернет. Вполне возможно, что их потребуется не два, а больше. И тестировать придется их всех и регулярно!
Увы, даже наличие резервных копий с восстановлением в течение рабочего дня может привести к краху финансовой организации.
Сегодня не редкость ситуация когда в банк с численностью персонала (и компьютеров) 60 человек приходят 30 аудиторов (реальная ситуация) с требованием разместить их, выдать компьютеры, подключить их к инф. системам в течение 24 часов. Это ли не аварийная ситуация?
Вместе с тем хотелось бы, чтобы вы понимали, что далеко не все события, описываемые в Плане непрерывности бизнеса будут относиться к информационной безопасности. Но тем не менее, служба ИБ должна подключаться к составлению плана наравне с другими.
Безусловно, это не единственный вопрос. Но начинать с чего-то надо!
Как видите, планы восстановления вашего бизнеса нуждаются не просто в создании, а и в постоянном пересмотре. Ведь угрозы в окружающем мире меняются на глазах. Более того, созданные вами планы нуждаются в регулярной проверке. Ведь план, написанный на бумаге, но не проверенный – это абсолютно бесполезное мероприятие.
Источник: dzen.ru
Антикризисное управление в IT. Часть 2 — IT BCP. Обеспечение непрерывности бизнеса
В одной из предыдущих статей, посвященной кризисным ситуациям мы коснулись вопросов написания антикризисного плана компании (в международной классификации — BCP) и, в частности, его IT-части — IT BCP. Там же были рассмотрены вопросы актуальности наличия антикризисного плана в каждой компании.
Основной темой настоящей статьи будет более глубокое погружение в данный документ. Мы детально рассмотрим структуру IT BCP, коснемся организационных и технических вопросов, а также разберем рабочий IT BCP на примере типового вероятного риска. Статья будет полезна собственникам бизнеса, риск-менеджерам, ИТ-директорам и другим руководителям, ответственным за непрерывность бизнеса.
Зачем бизнесу планы катастроф и как они устроены?
Разные компании в процессе своей работы решают множество стратегических и тактических задач Но все, так или иначе, стремятся к одному и тому же – улучшению своих показателей на рынке, минимизации расходов и увеличению прибыли. На разных этапах своей жизни бизнесы сталкиваются с аварийными ситуациями, которые могут кардинально поменять течение нормальной операционной деятельности компании или даже выбросить ее с рынка. Ненадолго, надолго или навсегда. В круг обязательных задач любой компании, независимо от размера и направления деятельности, входит превентивная работа с аварийными ситуациями — подготовка к ним, отработка в случае наступления, выход с минимальными потерями и дальнейшее совершенствование в этом направлении.
В общем случае в компании должен существовать единый документ BCP (business continuity plan – план обеспечения непрерывности бизнеса), регламентирующий и описывающий действия компании в типовых кризисных ситуациях и, самое главное, — действия при подготовке к ним.
Как правило, BCP пишется, внедряется и совершенствуется старшим офицером по безопасности или IT-директором при непосредственном участии руководителя организации. На этих лиц также возложены задачи по формированию антикризисной команды из числа сотрудников или путем привлечения внешних специалистов.
Разберем детально, как устроен IT BCP в общем случае, а также коснемся некоторых особенностей.
Обязательные разделы BCP
Раздел 1 — Каталог сценариев рисков
Это основной раздел антикризисного плана, включающий в себя описание всевозможных кризисных сценариев, путей их развития и максимально безболезненного закрытия.
Для каждого сценария указываются в обязательном порядке следующие параметры:
- Вероятность наступления.
Здесь по различным параметрам оценивается возможность реализации данного кризисного сценария. Может быть – совершенно незначительная, незначительная, вероятная, очень вероятная и ожидаемая. В основном, все зависит от страны и региона, в котором размещается офисное здание. Например, вероятность землетрясения в Центральной части России будет совершенно незначительная, а вот вероятность пожара или отключения электричества вполне может иметь статус вероятной. - Возможный урон для бизнеса.
Данный параметр описывает различные последствия, которые насыпают для бизнеса в случае реализации кризисного сценария. Последствия бывают незначительными, минимальными, ощутимыми, значительными, критическими и ведущими к потере бизнеса. Очень важным является то, что последствия для бизнеса могут меняться с течением времени и определенный кризисный сценарий, незначительный на коротком интервале, может стать критическим по прошествии определенного времени. - Перечень затронутых подразделений.
Здесь указываются подразделения, деятельность которых затрагивается при реализации кризисного сценария. Может быть одно или несколько подразделений, а может быть и вся компания в целом (как это бывает при реализации глобальных кризисных сценариев – пожар, землетрясение и тд.) - Триггеры риска.
Содержит список всех превентивных мер, которые были приняты до наступления риска, и либо снижают вероятность наступления данного риска, либо минимизируют потери при наступлении. Сюда можно отнести автоматическое включение дизель-генератора при падении напряжение или автоматический перевод звонков на резервные линии в случае отказа телефонии. - Перечень мер противодействия, которые должны быть предприняты незамедлительно при наступлении кризисной ситуации.
Здесь детально описываются все меры, которые должны быть предприняты при наступлении риска. Как административного, так и технического характера. Также указываются контакты третьих лиц и организаций, которые должны быть привлечены к разрешению инцидента. - Перечень ответственных лиц.
Содержит перечень лиц, ответственных за закрытие данного конкретного риска. Список может меняться в зависимости от конкретного риска. Как правило, тут указываются генеральный директор, IT-директор, старший офицер по безопасности, руководитель АХО. - Перечень заместителей ответственных лиц, на случай их отсутствия.
- Ссылки на дополнительную документацию, которая может понадобиться для противодействия данной кризисной ситуации.
Содержит ссылки на всю дополнительную документацию. Которая потребуется для закрытия данного риска. Может включать в себя специфичные для данного риска операционные процедуры и регламенты компании, а также регламенты взаимодействия с третьими лицами, привлекаемыми для закрытия данного риска.
Раздел 2 — Роли и ответственность ключевых игроков команды IT BCP
Данные раздел детально описывает роли всех участников процесса по закрытию риска. В общем случае включает в себя следующие роли:
Роль: Ответственный за разрешение инцидента.
Как правило, это топ-менеджер компании или IT-директор.
В небольших компаниях довольно часто за BCP (при его наличии) отвечает один человек – генеральный директор. На него возлагается вся полнота ответственности за продолжение бизнеса в различных ситуациях.
Раздел 3 – Решение типовых задач
В данном разделе указываются все принятые в компании превентивные меры, направленные на продолжение ее функционирования в различных кризисных ситуациях с детальным описанием возможности и срока применения. Тезисно содержатся регламенты взаимодействия с внешними подрядчиками (телефонии, интернета, электричества) в части работы в критических ситуациях. Описываются режимы и сроки работы источников бесперебойного питания, дизель-генераторов, порядок переключения на резервные каналы связи (при их наличии).
Кроме того, данный раздел содержит инструкции по восстановлению типовых сервисов, пострадавших в результате реализации различных кризисных сценариев. Типичным примером подобной инструкции будет регламент восстановления работы сервера баз данных после полной гибели дискового хранилища, включающий в себя — порядок замены жестких дисков и, при необходимости, их закупки, порядок развертывания баз данных из резервных копий, порядок взаимодействия с заинтересованными пользователями во время и после восстановления работы сервиса.
Другие возможные разделы
Помимо описанных выше основных разделов для компаний, работающих в различных отраслях, в BCP могут быть введены специализированные разделы, характерные для конкретного бизнеса. Например, BCP крупных логистических компаний содержит детальные протоколы изменения маршрутов при отказе одного или нескольких логистических центров, складов. BCP компаний, работающих в сфере скоропортящихся продуктов питания, ориентирован в первую очередь на непрерывность работы рефрижераторов и возможность их гарантированной замены в установленные сроки.
Пример IT BCP для одного типового риска
Теперь, обладая необходимыми теоретическими знаниями и методикой построения IT BCP, в качестве примера разберем типовой риск, который также будет актуальный практически для любого бизнеса – долговременное отключение электричества. Данный риск является тяжёлым, в ряде случаев может привести к долгосрочной остановке или даже потере бизнеса в регионе. Имеет типовые сценарии наступления и развития, в зависимости от инфраструктуры предприятия. Имеет также типовые сценарии полного или частичного закрытия (устранения), в зависимости от того, какая сумма будет на это затрачена.
Итак, выдержка из реального IT BCP одной сервисной компании (публикуется с согласия автора):
Сценарии рисков
- Устройства бесперебойного питания обеспечивают работу серверного помещения и 10 компьютеров колл-центра в течении 1 часа
- Запуск дизель-генератора в течение 1 часа и обеспечение регулярного подвоза дизельного топлива с интервалом в 12 часов
- Контакт с провайдером телефонии и перевод входящих звонков в резервный колл-центр (согласно антикризисному протоколу работы колл-центра)
- Перемещение сотрудников колл-центра в резервную локацию (согласно антикризисному протоколу работы колл-центра)
- COO (CEO его замещающий)
Роль: Ответственный за разрешение инцидента
- Работа офиса от источников бесперебойного питания.
- Работа офиса от дизель-генератора.
- Перемещение персонала компании на резервную локацию.
- инициирует перевод телефонных линий на номера резервной локации в течение 24 часов;
- непосредственно руководит расконсервацией резервной локации;
- организует перемещение персонала на резервную локацию;
Компания им имеет механизмы защиты, предназначенные для обеспечения непрерывности бизнеса в случае отключения электричества, в том числе:
— 24×7 соглашения о поддержке / техническом обслуживании с ключевыми поставщиками;
— Резервные батареи телефонной станции, рассчитанные на 3 часа работы;
— Устройства ИБП (источники бесперебойного питания), питающие ключевые серверы, АТС и 10 персональных компьютеров пользователей, рассчитанные на 1 час работы;
— Две независимые системы кондиционирования;
— Системы газового пожаротушения;
— Законсервированную резервную площадку с гарантированным временем развертывания в течение 24 часов. Протокол развертывания доступен по ссылке и инициируется COO или CEO;
— Дизель-генератор с гарантированным временем старта в течение 15 минут.
Итого
Обеспечение непрерывности бизнеса – BCM / BCP / DRP
Есть замечательное исследование о том, как влияют аварийные ситуации в компании на стоимость акций и вообще на стоимость бизнеса. Основными причинами, которые приводят к таким потерям является недооценка вероятности рисков или отсутствие в компании ресурсов на разработку планов действий в случае наступления аварийных и форс-мажорных ситуаций.
BCM – (англ. Business Continuity Management) управление непрерывностью бизнеса
BCP – (англ. Business Continuity Planning) план обеспечения непрерывности бизнеса
DRP – (англ. Disaster Recovery Planning) план восстановления после сбоев
DRP отличается от BCP тем, что он должен включать исключительно инструкции для оптимального пути восстановления работоспособности компании, а BCP — это глобальная инструкция по недопущению наступления аварийных случаев.
Цель создания плана обеспечения непрерывности бизнеса заключается в том, чтобы предусмотреть выход из строя и координировать восстановление основных бизнес-функций в случае выхода из строя ключевых систем, которые непосредственно влияют на качество предоставления услуг. К ним относятся кратковременные или долгосрочные чрезвычайные события, которые препятствуют процессам предоставления услуг – выход из строя ключевых систем, отключение электропитания, потеря связи и другое (иногда план может включать восстановление в случае наступления глобальных стихийных бедствий, такие как пожары, наводнения, землетрясения и другие природные или техногенные катастрофы).
Чрезвычайным событием будет считаться любое событие, в результате которого бизнес-объект становится поврежденным или непригодным для использования, и это не позволяет организации предоставлять важные коммерческие услуги.
Приоритеты в условиях чрезвычайного происшествия – это:
- Обеспечить безопасность работников и посетителей офисных зданий
- Минимизировать угрозы или уменьшить вред, который могут нанести угрозы.
- Иметь предварительную подготовку для продолжения основных функций компании.
- Иметь документированные планы и инструкции для обеспечения быстрого и эффективного выполнения стратегий восстановления.
Документ плана обеспечения непрерывности бизнеса Компании должен включать инструкции для мониторинга деятельности и для всех этапов восстановления. Эффективность базируется на следующих допущениях:
- Все важные объекты компании регулярно мониторятся и проверяются.
- Существует эффективный и проверенный план восстановления ИТ-организации в аварийных ситуациях, который будет введен в действие сразу после классификации аварийной ситуации.
- План был должным образом обновлен и проверен.
- Каждое подразделение имеет полный перечень действий в случае наступления критической ситуации для обеспечения непрерывности бизнеса.
- Предназначены функции и роли одному или нескольким лицам, которые несут ответственность за соблюдение плана в актуальном состоянии.
Аудит систем и ответственные лица
Обязательным является учет всех активных систем, которые используются в процессе предоставления услуг. В первую очередь должен быть составлен список всех услуг всех подразделений, которые предоставляются. Если продавец продает, то именно так и надо отметить, что и как он продает, если инженер выполняет сервисные услуги – где он получает наряд, куда сдает отчет о выполненных работах и т.д. Каждый бизнес-процесс должен включать перечень функций, которые выполняют работники и в каких системах.
Пример аудиту услуг подразделений:
Подразделение | Функция | Система | Нагрузка | Время для восстановления |
Отдел продаж | Получение заявок от клиентов | Веб сервер | 12 ч/сутки | 30 мин |
Обработка заявок | ERP система | 24 ч/сутки | 15 мин | |
Бухгалтерия | Формирование отчетности | 1С | 9 ч/сутки | 2 ч |
Контроль оплаты | Клиент-банк | 9 ч/сутки | 1 ч | |
Сервис | Работа с нарядами и отчетами | ERP система | 9 ч/сутки | 15 мин |
Консолидированный перечень всех процессов должен быть отражен на схеме взаимодействия всех систем. Оптимально – отметить все особенности систем на диаграмме или сформировать отдельный список, где будет зафиксировано конфигурацию каждого элемента и его важность в системе.
Каждая система должна быть проанализирована на предмет – какое время восстановления необходимо для уменьшения причиненного ущерба и время для полного восстановления работоспособности и какая другая система может замещать или выполнять функцию основной системы.
Кроме того, необходимо предусмотреть возможные риски в процессе использования тех или иных систем – потеря связи, выход из строя питания или определенной платы и прочее.
Обязательным является формализация ответственных лиц. Если есть системный администратор, то какие системы он мониторит и как именно если ответственный за оплату доступа в Интернет – бухгалтер, то обязательно надо зафиксировать, как и когда он должен выполнять оплату. Таким образом – чем прозрачнее будет отражено все субъекты и объекты компании, тем больше шансов предусмотреть все угрозы и риски.
Мониторинг и резервирования
Для обеспечения безотказной работы системы мониторинга должно выполняться резервирование каналов связи, оборудования и программного обеспечения и постоянный контроль работоспособности всех систем. Система мониторинга состоит из:
- поддержки и резервирования сетевого канала
- поддержки и резервирования аппаратного обеспечения
- поддержки и резервирования программного обеспечения
- мероприятий по систематическому контролю и проверке работоспособности всех узлов системы на регулярной основе
Для уверенной работы системы и страхования от потери данных основной и резервный серверы должны быть оборудованы уровнем не ниже RAID-1 массивами жестких дисков, которые обеспечивают зеркальное хранения данных.
Чтобы обеспечить безотказную работоспособность на оборудовании в автоматическом режиме должен выполняться мониторинг основных физических параметров, например:
- Состояние жестких дисков через SMART мониторинг
- Состояние оперативной памяти через мониторинг объема занятой памяти процессами
- Состояние технических датчиков системы (температура и частота вращения вентиляторов)
- Уровень заряда аккумуляторов
- Контроль журналов на предмет критических записей об оборудовании
Все эти параметры ежедневно снимаются и формируется тренд, который указывает на ухудшение соответствующих параметров. В случае наличия критических показателей, принимаются превентивные меры по устранению недостатков. Устранение недостатков выполняется исходя из экономической целесообразности:
- при разовом выходе из строя или исчерпании планового ресурса – замена аппаратного обеспечения (замена HDD, замена вентиляторов, БП и тд.)
- при систематическом достижении критических параметров – модернизация аппаратного обеспечения (увеличение оперативной памяти, замена процессора или материнской платы на более мощные)
- при непредсказуемых изменениях в физических параметрах – переключение на резервное оборудование
- увеличение количества резервных систем
Мониторинг программного обеспечения выполняется на периодической основе. Все обновления программного обеспечения выполняются синхронно на резервном оборудовании для поддержки совместимости резервной системы с основной. К мониторинга программного обеспечения относятся:
- регулярная проверка запущенных процессов соответствующих приложений и сервисов.
- проверка наличия свободного пространства на жестком диске и в разделе для логирования операций.
- проверка наличия сигнальных записей в логах программного обеспечения и операционной системы.
- проверка выполнения репликации базы данных.
- проверка актуальности лицензий и других предоплаченных сущностей (хостинг, доменные имена, сертификаты).
В задачи мониторинга физических серверов входят следующие функции:
- Контроль состояния аппаратного обеспечения (например, доступная оперативная память, память на жестких дисках, показы температурных датчиков)
- Контроль программного обеспечения (запущенные процессы в памяти, запущенные потоки баз данных и их ограничения по времени выполнения, запуск запланированных задач и watchdog-ов, синхронизация времени, настройки фаервола)
- Контроль сетевых соединений (время ping-м, количество активных ESTABLISHED, количество неактивных TIMEOUT / SYN_SENT)
- Контроль наличия резервных копий на резервных хранилищах
- Ежегодная плановая проверка переключение на резервное оборудование
- Регулярная смена паролей
- Удаление неактивных пользователей
- Проверка актуальности лицензий на ПО
- Проверка актуальности сроков доменных имен
- Проверка актуальности сертификатов SSL / TLS
- Ежеквартальная проверка сканером на наличие уязвимостей
- Экспорт журналов и логов
- Экспорт данных об авторизованном входе пользователей
- Проверка оплаченных услуг за хостинг
В задачи мониторинга сетевого оборудования входят следующие функции:
- Проверка доступности по адресам
- Актуальность сетевых адресов и маршрутов
- Наличие каналов шифрования
Все эти функции мониторинга должны быть возложены на ответственных лиц, и обязательно должен быть перечень в какой системе, каким образом и какие параметры мониторятся.
Система | Тип проверки | Функция | Операция |
Система резервного питания | Мониторинг состояния | Проверка доступности | Используется интерфейс от APC с информированием на Email |
Почтовый сервер | Мониторинг состояния | Проверка доступности, статуса сервисов и дискового пространства | Используется система мониторинга Nagios и информирование администраторов, дополнительно используется gsm-модем для отправки SMS сообщений в случае недоступности почтового сервера |
Сеть Интернет | Мониторинг доступности | Проверка доступности | Ежедневная проверка доступности через GSM-watchdog к google.com |
В случае наступления аварийной ситуации
Все ситуации классифицируются следующим образом:
- Нормальный приоритет – известная проблема и описана. «Порядок восстановления систем». Решение проблем выполняется ответственным за систему без эскалации и в рамках рабочих обязанностей и имеет точное время на решение. То есть, ответственный открывает инструкцию, где написано что надо сделать и за сколько времени. Например, пропал доступ в Интернет, в инструкции написано «Позвонить в колл-центр провайдера по такому телефону», системный администратор делает звонок и связь восстанавливается в течение 15 мин.
- Высокий приоритет – проблема, которая возникает впервые или через сторонних участников, или нормальная проблема, которая не решается в рамках установленного порядка и за указанное время. Обязательно регистрируется, выполняется локализация и классификация. Ответственный за систему обязательно должен известить руководителя группы восстановления для оценки всех рисков и принятия дальнейшего решения. Например, при отсутствии Интернета системный администратор получает ответ, что экскаватор повредил линию и связь восстановится за 1 час. В таком случае руководитель группы восстановления должен уведомить всех работников, а возможно и клиентов и проверить возможны другие варианты решения.
- Максимальный приоритет, критическая проблема – любая проблема, которая приводит к нарушению выполнения функций подразделениями и имеет неопределенное время решения. Например, к провайдеру Интернет заложили взрывчатку и теперь они не могут оказывать услуги в принципе, вот в такой ситуации, если бизнес зависит напрямую от наличия доступа в Интернет, необходимо срочно выделять средства и быстро решать проблему.
В случае наступления аварийной ситуации обязательной является немедленная реакция:
- Исходя из имеющегося плана восстановления, ответственное лицо за мониторинг и контроль выполняет мероприятия по решению проблемы. Ответственный регистрирует инцидент.
- В случае невозможности решения проблемы согласно определенного порядка ответственный за мониторинг и контроль регистрирует инцидент и оповещает руководителя группы реагирования. Руководитель группы реагирования берет на себя ответственность за решение проблемы с привлечением работников других подразделений.
- В случае невозможности решения проблемы в рамках работников Компании, руководитель группы восстановления сообщает о проблеме руководство Компании для оценки рисков, дополнительных расходов, сторонних ресурсов. Составляется план восстановления, с определением функций ответственных и планированием дедлайнов.
Организационный состав группы восстановления:
- Руководитель группы восстановления – планирует и руководит процессом восстановления
- Инженеры – выполняют функции восстановления
- Специалисты задействованы в группе восстановления – выполняют функции экспертов или выполняют непосредственные обязанности согласно плану восстановления
В случае чрезвычайного происшествия Руководитель группы реагирования несет ответственность за то, чтобы успешно выполнить следующие мероприятия:
- Активацию плана восстановления.
- Оповещает высшее руководство Компании о наступлении чрезвычайного происшествия.
- Ежедневно контролирует работу Группы восстановления при наступлении чрезвычайных ситуаций.
- Ежедневно подает высшему руководству отчеты о процессе восстановления согласно плана обеспечения непрерывности бизнеса при наступлении чрезвычайных ситуаций.
- В течение процесса восстановления чрезвычайных ситуаций сотрудничает с руководством.
- Ежедневно проверяет и сообщает о критических графики процесса и отставание в работе.
- Доводит до сведения участников группы обеспечения непрерывности бизнеса и группы управления аварийными ситуациями указания, полученные от руководства Компании.
- Оказывает постоянную поддержку и наставничество командам и персонала обеспечения непрерывности бизнеса.
- Контролирует наличие персонала и в случае необходимости предоставляет предложения по привлечению в группу дополнительных специалистов.
- Гарантирует ведения учета всей деятельности непрерывности бизнеса и аварийного восстановления, а также расходов, понесенных Компанией.
Источник: www.servicedesk.site