Что такое Failover и Failback и как они работают при аварийном восстановлении?

В наше время компании иногда сталкиваются с повреждением данных и прерыванием бизнеса; тем не менее, незначительный перерыв в обслуживании может привести к подрыву доверия клиентов, потускнению бренда и экономическим потерям. Чтобы поддерживать высокую доступность данных и продолжать бизнес, компания, разместившая свои системы и данные на виртуальных машинах, должна разработать комплексный план DR (Disaster Recovery). При разработке плана DR вы можете часто встречать термины failover и failback и задаваться вопросом, что это такое и как они работают при аварийном восстановлении. Вот они.

Но сначало давайте разберемся, что такое аварийное восстановление. Только когда мы поймем, насколько оно важно и необходимо, мы сможем двигаться дальше и глубже рассмотреть failover и failback.

Определение Аварийного Восстановления

Аварийное восстановление - это набор процедур для восстановления виртуализированной инфраструктуры и системы и поддержания их работоспособности в случае природных катастроф или катастроф, выванных деятельностью человека, таких как человеческие ошибки, отказ оборудования, системные ошибки и кибератаки.

Полное аварийное восстановление включает в себя аудит ИТ-ресурсов, определение критически важных данных, роли и обязанности персонала в плане, а также регулярные тесты DR. Это привносит в план DR failover и failback. Что же это такое?

Что такое Failover?

Процесс Failover включает в себя перемещение критически важных рабочих нагрузок из поврежденной основной производственной системы в назначенное место восстановления для возобновления работы производственной системы. Поддерживая работу в условиях потенциально опасного сбоя системы или прерывания услуги, Failover уменьшает влияние перерыва на клиентов и коммерческие услуги.

Как работает Failover?

Failover осуществляется различными способами с помощью двух технологий: active-active and active-passive/ active-standby, которые являются наиболее типичными настройками для обеспечения высокой производительности (HA).

Кластер Активный/активный состоит как минимум из двух узлов, которые активно и одновременно работают с одним и тем же типом сервиса, распределяя рабочие нагрузки между всеми узлами для балансировки нагрузки. Индивидуальные настройки и параметры узлов должны быть совпадающими, чтобы кластер HA функционировал успешно и обеспечивал избыточность.

Кластер Активный/пассивный - это обратная ситуация. Хотя в нем должно быть как минимум два узла, только некоторые из них активны. Второй узел, который служит failover в двухузловой системе с работающим первым узлом, остается неактивным или находится в режиме ожидания. Когда он работает в режиме ожидания, его можно держать в готовности к работе в качестве резервного сервера, если активный, основной сервер станет неработоспособным. Оба сервера должны быть сконфигурированы с одиноковыми настройками для незаметного приема управления.

Что такое кластер Failover?

Кластер Failover - это набор отдельных компьютеров, которые взаимодействуют, чтобы поддержать отказоустойчивость (FT) и высокую доступность (HA) для служб и приложений. В сетях кластеров Failover могут использоваться виртуальные машины (ВМ), физическое оборудование или их комбинация.

Процедура failover в кластере failover запускается при отказе одного из серверов. Это позволяет избежать простоя за счет немедленного переноса нагрузки с отказавшего компонента на другой узел кластера.

Что такое Failback?

Операция failback - процедура возврата производственных данных в исходное местоположение.

Всегда происходит после операции failover.

Однако возможно, что после failover в механизм восстановления будут внесены некоторое регулирование. Поэтому, чтобы предотвратить потерю важной для бизнеса информации, необходимо синхронизировать восстановленную/новую производственную систему с клонированной системой перед failback. Только измененные данные, хранящиеся в системе восстановления, переносятся в новую производственную систему при выполнении failback.

Операции Failover и Failback в DR

Failover и Failback запускаются при DR, которое проходит по следующим процедурам:

1. Копирование системы производственного сайта на выбранный сайт DR. Во время копии данные на копируемой системе зеркально отражают данные на исходной системе. При возникновении триггерного инцидента запускается автоматический обход отказа на систему восстановления.

2. Производственные рабочие нагрузки перемещаются в место восстановления во время события failover, хотя по мере выполнения операций могут вноситься некоторые изменения. Любые изменения, внесенные во время сбоя, записываются на виртуальное хранилище, подключенное к системе восстановления.

3. После устранения любых нарушений, вызванных сбоями, потерей данных и выявленными угрозами, основное производство может проходить в нормальном режиме. Производственные рабочие нагрузки вместе с обновленными данными передаются обратно в основную систему с сайта восстановления. Затем система восстановления и новая производственная система могут быть синхронизированы.

Обобшение

В статье представлены определения failoverи и failback, их взаимосвязь и то, как они работают в аварийном восстановлении. Они работают вместе для сокращения RTO и RPO как часть плана DR.

RTO и RPO - это ключевые факторы для квалифицированного решения для резервного копирования. Решение Vinchin Backup & Recovery автоматизирует частое резервное копирование с помощью множества передовых и эффективных функций и предлагает удаленную резервную копию, чтобы помочь вам создать удаленный DR-центр и сделать вас готовыми к любым катастрофам. В то время как мгновенное восстановление возобновляет работу виртуальной машины практически без проблем за 15 секунд. Вы можете загрузить 60-дневную бесплатную пробную версию с полными функциями прямо сейчас.

Download Free TrialFor Multi Hypervisors

Secure Download