Disaster Recovery (DR) буквально означает «восстановление после катастрофы». Обычно под катастрофой принято понимать незапланированное прекращение работы дата-центра, на базе которого функционирует ИТ-инфраструктура предприятия. Конечно, ЦОД имеет резервирование всех необходимых инженерных систем, но от полной остановки он все равно не защищен.
Прекращение работы дата-центра может быть вызвано его повреждением или разрушением из-за масштабных происшествий: пожара, наводнения, техногенной аварии и т. д. Процесс восстановления работы после катастрофы занимает не один месяц: начиная с ремонта здания и заканчивая повторной закупкой и наладкой инженерных систем, ИТ-оборудования. В современном мире длительный простой ИТ-инфраструктуры с одновременной потерей данных приводит к неминуемой гибели предприятия. Поэтому для снижения влияния катастрофы на жизнедеятельность компании внедряют различные инструменты и механизмы. Один из них рассмотрим в этой статье.
Что организации ожидают от Disaster Recovery и чего ждать не следует
Чтобы устранить негативные последствия от неожиданной остановки дата-центра и обеспечить эффективную работу предприятия, применяют механизм Disaster Recovery. По сути, DR — это совокупность организационных мер и технических средств, направленных на снижение последствий катастрофы и предотвращения полной потери данных. Эта технология применима к предприятиям любого масштаба: от небольших узкопрофильных организаций, до крупнейших международных корпораций.
Зачем нужно кастомное recovery?
Безусловно, у компаний есть собственные ожидания от использования подобного инструмента реагирования на критические сбои в ИТ-инфраструктуре. Предприятия хотят получить конкретные показатели доступности сервисов, работающих в дата-центре: RPO (Recovery Point Objective) и RTO (Recovery Time Objective).
Однако, чтобы внедрение DR принесло ожидаемые преимущества, необходим определенный уровень ИТ-зрелости самой организации. Если, к примеру, в компании нет практики документирования ИТ-систем и бизнес-процессов, четкого следования персонала внедренным регламентам, то механизм не принесет никакой практической пользы, а в некоторых случаях он может даже навредить.
DR в определенной степени похож на информационную безопасность, которая достигается целым комплексом мер организационного и технического характера. То есть это не «волшебная коробка», приобретение которой решит все задачи. Это процесс тестирования и контроля, требующий постоянного внимания. Его нужно регулярно выполнять.
Основные этапы реализации DR. На что следует обращать внимание
Как и любой проект, внедрение механизма Disaster Recovery на предприятии имеет определенную последовательность. Она включает в себя несколько основных этапов.
1. Инвентаризация и анализ ресурсов, подлежащих DR
Руководству компании важно понимать, сколько и какого оборудования необходимо приобрести или арендовать, какой объем облачных ресурсов нужно зарезервировать у провайдера. Не стоит пренебрегать анализом имеющихся ресурсов. Нередко бывает так, что для определенных активов внедрить инструмент технически невозможно.
Что такое Recovery?
Например, в основном облачном дата-центре в качестве межсетевого экрана используется виртуальная система Checkpoint, а в резервном — Fortigate. Оба решения эффективно выполняют свои задачи. Однако потребуется не только умение пользоваться обоими, но и переводить настройки между ними.
2. Определение требований к DR
Технология аварийного восстановления данных предполагает конкретные показатели RPO и RTO. Но для различных информационных систем (ИС) эти требования могут отличаться в зависимости от назначения и критичности.
Представим, что в агропромышленном комплексе работает ИС, которая учитывает собранный урожай. Если в период уборочных работ она остановится, то посчитать результаты уборки будет практически невозможно. Однако в остальное время года ИС может простаивать месяцы без каких-либо последствий. Понятно, что критически важно, чтобы система была максимально готова к возможной потере данных именно во время уборочной кампании.
Таким образом, формируются индивидуальные требования для каждой информационной системы. На их основе разрабатывают подходящие технические решения DR по следующим моделям.
- On-prem—on-prem— когда при отказе собственного или арендованного дата-центра восстановление работы ИТ-инфраструктуры произойдет на дублирующей площадке.
- Cloud — cloud — эта модель похожа на предыдущую, однако подразумевает наличие у предприятия виртуального дата-центра на базе облачных провайдеров. Техническая реализация такого решения содержит свои нюансы: необходимо уметь пользоваться двумя облаками и транслировать конфигурацию между ними. Также важно учитывать связанность облаков друг с другом для своих ресурсов и при необходимости вносить коррективы.
- On-prem — cloud — эта вариация подразумевает наличие одного или нескольких дата-центров, которые резервируются на виртуальных ЦОДах в одном облачном провайдере.
- Cloud — on-prem — редкий, но возможный сценарий. Представим, что заказчику принадлежит дата-центр, из которого часть ИС перенесена в облако для быстрого масштабирования в случае необходимости. В результате ИС работают в облаке, но резервируются в собственном ЦОДе.
При выборе конкретной топологии для Disaster Recovery важно учитывать и анализировать массу факторов: наличие своих площадок, каналов связи между ними и интернетом, стоимости облачных ресурсов, допустимости размещения данных в облаке, требований к безопасности, стоимости всех компонентов решения и т.д.
Обучение участников DR-процесса
Начиная внедрение инструмента критического реагирования, предприятие должно позаботиться об обучении сотрудников. Его суть — в приобретении навыков по выполнению плана DR.
Основными участниками процесса станут:
- Ответственный за запуск процесса DR — это может быть, например, руководитель департамента эксплуатации ИС. Он должен уметь своевременно и обоснованно принимать решения о необходимости запуска механизма и осуществлять общий контроль за процессом;
- Администраторы различных компонентов ИС — специалисты, которым необходимо знать, какие конкретные действия необходимо предпринять; эксперты должны быть способны выполнить процедуру за требуемое время;
- ИТ-менеджеры должны уметь координировать выполнение процесса сотрудниками, которые задействованы в DR;
- Пользователи ИС — персонал, который обладает навыками оперативного оценивания работоспособности информационной системы по запросам администраторов или ИТ-менеджеров.
Современные тенденции организации Disaster Recovery
Потребность предприятий в организации Disaster Recovery объективно растет, поскольку постоянно повышается вовлеченность ИТ-систем в работу бизнеса. Но создание собственного резервного дата-центра — длительный и затратный процесс. Поэтому появляется все больше коммерческих дата-центров, которые можно использовать в виде основных или резервных площадок.
Активно развивается функционал облачных провайдеров, которые предлагают Disaster Recovery в качестве сервиса. С одной стороны, широко используются автоматизация, контейнерные среды, CI/CD (Continuous Integration/Continuous Delivery), а с другой — продолжают работать старые программы под управлением Windows Server 2003, сохраняя свою важность для компаний. Производители решений для организации Disaster Recovery стараются идти в ногу со временем и активно внедряют новый функционал.
Вполне вероятно, что текущая ситуация в мире послужит новым драйвером для развития систем резервного копирования, а также отечественных продуктов и сервисов Disaster Recovery. Это поможет повысить конкурентоспособность отечественных решений на мировом рынке — им есть куда расти и развиваться.
Источник: Кирилл Шмаков, руководитель направления ЦОД компании «ЛАНИТ-Интеграция» (входит в группу ЛАНИТ)
Источник: www.novostiitkanala.ru
High Availability и Disaster Recovery — как связаны эти понятия и за что они отвечают
Ни одна система не может работать безотказно со стопроцентной надежностью. Всегда есть вероятность выхода из строя всей системы или нескольких ее компонентов. Чтобы свести вероятность простоя к минимуму, IT-инженеры используют несколько стратегий, обеспечивающих максимально возможное время безотказной работы. Одна из них — High Availability или отказоустойчивость, другая — Disaster Recovery или аварийное восстановление.
High Availability — отказоустойчивость
High Availability означает, что IT-система, ее компоненты или приложения продолжат работу даже при выходе из строя некоторых элементов. При этом время простоя окажется минимальным или его не будет вовсе.
High Availability важна для систем, где длительный простой может привести к финансовым или репутационным потерям. Например, для онлайн-магазинов или банковских приложений. Представим, что онлайн-магазин крупного ритейлера во время новогодних распродаж сутки будет недоступен. Это приведет к огромным убыткам.
А если на сутки недоступным окажется банковское приложение, то это чревато серьезным репутационным ущербом для банка. Цель High Availability не в том, чтобы на 100% гарантировать, что сбоев не будет, а свести их к минимуму. В идеале, чтобы пользователи даже ничего не заметили.
Другими словами, отказоустойчивость означает, что из-за сбоя одного компонента системы не произойдет отказа в работе всей IT-инфраструктуры. Ведь все её компоненты: серверы, маршрутизаторы, виртуальные машины и балансировщики нагрузки избыточны как на уровне сети, так и на уровне приложений. Именно это и обеспечивает высочайший уровень отказоустойчивости.
Как оценивается High Availabilit
Отказоустойчивость измеряется в процентах от времени безотказной работы за год. Большинство провайдеров услуг со сложными системами обеспечивают время безотказной работы от 99% до 99,999%.
Доступность | Суммарное время простоя в году |
99% | 3,65 дней |
99,9% | 8,77 часа |
99,99% | 52,60 минуты |
99,999% | 5,26 минуты |
Из таблицы видно, что уровень 99,9% предполагает почти девять часов простоя в год. В некоторых отраслях, например, банковской сфере, такой простой недопустим. Соответственно, необходим более высокий уровень отказоустойчивости.
Способы достижения High Availability
Есть несколько ключевых параметров, обеспечивающих высокую отказоустойчивость IT-инфраструктуры.
Географическая избыточность
Самый надежный способ достичь отказоустойчивости после аварии или стихийного бедствия — обеспечить географическую избыточность IT-инфраструктуры. Это достигается за счет развертывания серверов в разных регионах. Именно так делают компании, которым нужна повышенная отказоустойчивость и доступность их сервисов. Они размещают свои дата-центры в нескольких регионах и даже в разных странах и реплицируют в них свои сервисы, чтобы снизить зависимость от одной точки отказа. Поэтому в случае сбоя одного удаленного сервера или даже дата-центра работа продолжится.
Использование отказоустойчивых решений
Архитектура отказоустойчивой инфраструктуры обычно состоит из кластеров — нескольких связанных серверов с возможностью аварийного переключения между ними. Аварийное переключение — это передача нагрузки с вышедших из строя рабочих мощностей на резервные.
Балансировка сетевой нагрузки
Балансировка улучшает доступность ключевых веб-приложений. В случае отказа одного сервера экземпляры приложений заменяются, а трафик автоматически перенаправляется на работающие серверы. Балансировка нагрузки обеспечивает не только отказоустойчивость, но и дополнительную масштабируемость инфраструктуры.
Настройка синхронизации данных в соответствии с RPO организации
RPO — это объем данных, которые могут быть потеряны из-за сбоя без ущерба для бизнеса. RTO устанавливается в секундах, минутах или часах, в зависимости от количества изменяемых данных в системе. Для разных сервисов параметры RTO могут отличаться.
Disaster Recovery — аварийное восстановление
В отличие от High Availability, аварийное восстановление нужно на случай события с катастрофическими последствиями для IT-инфраструктуры. Причиной могут быть события природного происхождения: пожар, наводнение, землетрясение. А также технологического: авария сервера или сетевой инфраструктуры. Назначение DR — быстрое восстановление работоспособности после катастрофы.
Что нужно для аварийного восстановления
Для этого создается резервная инфраструктура, например, дата-центр где хранятся копии всех критически важных систем. В случае аварии резервный ЦОД возьмет на себя нагрузку, и работа организации продолжится.
Что такое Disaster Recovery Plan (DRP)
Исходя из задач бизнеса, каждая компания самостоятельно определяет стратегию и параметры аварийного восстановления. Для это разрабатывается Disaster Recovery Plan, где указывается максимально допустимое время для восстановления работоспособности — RTO (целевое время восстановления) и упомянутый выше RPO. В плане прописывается место для сохранения резервных копий и как они должны быть восстановлены после аварии.
Так как IT-инфраструктура со временем меняется, DRP необходимо периодически обновлять. Кроме того, регулярно нужно выполнять тесты-проверки работоспособности DRP. О том, что такое DRP мы писали в статье.
Сравнение отказоустойчивости с аварийным восстановлением
High Availability часто путают с аварийным восстановлением — Disaster Recovery. Попробуем разобраться.
High Availability позволяет продолжить работу при сбое одного компонента инфраструктуры, например, отказе сервера.
Аварийное восстановление позволяет продолжить работу при выходе из строя корпоративного или облачного дата-центра, например, из-за пожара.
Другими словами, High Availability — это стратегия устранения сбоев одного или нескольких компонентов IT-инфраструктуры. Disaster Recovery — это способ справиться с катастрофическими событиями, способными уничтожить всю IT-инфраструктуру организации.
Упрощенно говоря, High Availability отвечает за живучесть IT-инфраструктуры, а Disaster Recovery — за возможность восстановить ее после катастрофы. Эти стратегии дополняют друг друга и помогают предприятию справиться с отказами инфраструктуры. Можно сравнить это с кораблём, который вышел в океан.
Во время плавания команда справляется с текущими поломками и продолжает движение в порт назначения. Но однажды корабль сталкивается с айсбергом. Команда быстро понимает, что спасти его нельзя. Она забирает всё самое ценное и пересаживается в резервную инфраструктуру — шлюпки.
High Availability и Disaster Recovery в облаке провайдера
Важно понимать, что поддержка отказоустойчивости корпоративной инфраструктуры и развертывание локальных резервных мощностей для аварийного восстановления доступны лишь очень крупным корпорациям. Причина — высокая стоимость таких решений.
С другой стороны, масштабируемость, географическая избыточность, а также SLA на уровне 99,99 и выше — это стандартные характеристики публичных облаков. Клиентам облачного провайдера не нужно ломать голову, где взять мощности для обеспечения отказоустойчивости. Масштабируемые ресурсы предоставляются по запросу в нужное время и в нужном объеме, а избыточность инфраструктуры заложена еще на стадии проектирования. Кроме того, облачные провайдеры предоставляют свои мощности и готовые решения (DRaaS) для аварийного восстановления. Поэтому для большинства организаций миграция в облако — это недорогое и подходящее решение для повышения отказоустойчивости своей IT-инфраструктуры.
Источник: www.corpsoft24.ru
Стратегии восстановления компании
Стратегии, предпринимаемые для сохранения компании и предотвращения ее закрытия.
Что такое стратегии восстановления компании?
Стратегии восстановления компании — это стратегии, предпринимаемые для сохранения компании и предотвращения ее закрытия. Основная цель стратегий восстановления компании — быстро определить и устранить источники ее проблем, которые могут привести к ее краху.
Основная задача, связанная со стратегиями восстановления компании, заключается в диагностике причин плохой работы. Руководители должны задать себе такие вопросы, как:
- Является ли ситуация результатом неожиданного падения продаж в связи с ухудшением экономической ситуации?
- Имеет ли место неудачно выбранная конкурентная стратегия?
- Плохо ли реализована хорошо продуманная стратегия?
- Имеет ли компания слишком большой долг?
Вышеперечисленные вопросы необходимы для того, чтобы определить, можно ли спасти бизнес или ситуацию нельзя исправить. Выявив первопричину проблемы, можно реализовать стратегии восстановления компании, которые могут привести к улучшению ситуации.
Резюме
- Усилия по восстановлению компании — это действия с высоким риском, которые часто заканчиваются неудачей. Однако при правильном подходе они могут привести к оживлению компании и выходу из кризиса.
- Многие компании слишком долго ждут, прежде чем приступить к восстановлению. Другим не хватает средств и предпринимательского таланта, необходимых для конкуренции в медленно развивающихся отраслях, характеризующихся жесткой борьбой за долю рынка.
- Наиболее эффективные действия по решению проблем включают пересмотр текущей бизнес-стратегии, увеличение доходов, последовательное сокращение расходов и продажу активов.
Каковы типы стратегий восстановления?
Двумя основными типами стратегий восстановления являются:
1. Стратегии сокращения
Стратегии сокращения расходов в основном ориентированы на затраты. Одна из ключевых стратегий сокращения — назначение нового руководства, которое будет стремиться внести изменения в бизнес. Другая стратегия заключается в сокращении активов, требующих места для хранения, таких как товарно-материальные запасы, с целью получения денежных средств. Стратегии сокращения, как правило, ориентированы на краткосрочную перспективу, чтобы исправить кризисную ситуацию.
2. Стратегии разворота
Стратегии разворота в большей степени ориентированы на получение прибыли. Эти стратегии направлены на повышение жизнеспособности компании в долгосрочной перспективе. В качестве примера можно привести внедрение новых моделей ценообразования или разработку новых продуктов.
Каковы наиболее распространенные причины кризисных ситуаций?
Существует множество факторов, которые могут привести к тому, что компания попадет в кризисную ситуацию. Некоторые из них следующие:
- Слишком большой леверидж (долг);
- Переоценка перспектив роста продаж;
- Игнорирование негативного влияния на прибыль агрессивных попыток масштабирования доли рынка путем значительного снижения цен;
- Высокий уровень постоянных затрат из-за неспособности эффективно использовать производственные мощности;
- Зависимость от технологического прорыва в долгосрочной перспективе;
- Выделение дополнительного капитала на научно-исследовательские и опытно-конструкторские работы (НИОКР) для укрепления конкурентной позиции, но неспособность разработать эффективные новые продукты;
- Частые изменения стратегии.
Каковы возможные решения и стратегии восстановления компании?
Стратегии сокращения и разворота направлены на достижение одной из четырех целей, приведенных ниже, для решения проблем, которые тянут компанию вниз:
1. Продажа активов
Наличие денежных средств в распоряжении компании может значительно улучшить ее положение в краткосрочной перспективе при условии эффективного распределения капитала. Чтобы генерировать денежные средства, компания может выполнять:
- Отчуждение актива;
- Сокращение деятельности (вывод из эксплуатации части производства, продажа старых предприятий, сокращение числа сотрудников, уход с удаленных рынков, сокращение объема услуг).
Иногда компании, находящиеся в кризисном состоянии, продают активы не для того, чтобы избавиться от части операций и остановить отток денежных средств, а чтобы накопить средства для сохранения и укрепления оставшейся деятельности. В таких случаях активы, связанные с непрофильной деятельностью компании, обычно продаются для поддержки стратегического обновления в ключевых видах деятельности.
2. Сокращение расходов
Стратегии оздоровления компании, направленные на снижение затрат, наиболее эффективны в следующих ситуациях:
- Когда цепочка создания стоимости компании несовершенна, а ее структура затрат достаточно гибкая, чтобы принять радикальные меры по ее исправлению;
- Когда неэффективность действий может быть оценена и исправлена;
- Когда затраты компании завышены и существует множество источников экономии;
- Когда компания близка к безубыточности.
Снижение затрат также связано с сокращением административных расходов, исключением непрофильных и низкорентабельных направлений из цепочки создания стоимости компании, модернизацией оборудования для повышения производительности, реструктуризацией долгов для улучшения условий их погашения и снижением процентных расходов.
3. Пересмотр текущей бизнес-стратегии
Пересмотр стратегии может быть осуществлен путем:
- Переход к новому конкурентному подходу для восстановления позиции компании на рынке;
- Пересмотра внутренних операций и функциональных стратегий для лучшей поддержки общей стратегии бизнеса;
- Слияния с другой компанией в отрасли и следования пересмотренной стратегии, основанной на созданной синергии;
- Сокращение количества продуктов и клиентов до уровня, идеально соответствующего текущим возможностям компании.
Наиболее подходящий курс действий зависит от контекста отрасли, сильных и слабых сторон компании, ее конкурентных возможностей относительно соперников, а также от тяжести кризиса. Как правило, пересмотр стратегии должен быть связан с сильными сторонами компании и ее конкурентными возможностями, и направлен на укрепление рыночной позиции.
4. Увеличение доходов
Стратегии оздоровления компании могут быть направлены на увеличение доходов за счет роста объема продаж. Существует несколько стратегий увеличения доходов, в том числе:
- Снижение цен;
- Проникновение на рынок;
- Увеличение объема продаж;
- Расширение потребительской базы;
- Быстрое улучшение продукта.
Компания должна увеличить доход и объем продаж, когда сокращение затрат невозможно. Самый быстрый способ увеличить краткосрочный доход в случае низкой ценовой эластичности спроса — повысить цены.
Дополнительные ресурсы:
Спасибо, что прочитали статью Finansistem про стратегии восстановления компании. Статьи Finansistem помогут каждому стать финансовым аналитиком мирового класса. Чтобы продолжать учиться и продвигаться по карьерной лестнице, вам будут полезны дополнительные ресурсы, приведенные ниже:
- Положение о реорганизации компании
- Замораживание найма
- Специалист по оценке бизнеса
- Рекапитализация дивидендов
Источник: finansistem.com