Disaster Recovery Plan (DRP)

v2.03



Índice

Introdução    1

Lista de Siglas Relacionadas    2

Equipas & Pessoas    3

Contatos Externos    3

Contatos Internos    3

Visões Globais das Função e Responsabilidades dos Líderes e Equipas de DR    4

Servidores    8

Localizações Físicas    8

Lista    9

Sistema de Virtualização - Hypervisor    9

Backups    10

Acesso ao Software Proxmox    10

Procedimentos de backup e recuperação de desastres    12

Conetividade/Rede    12

Servidor Físico    12

Cenário: Máquina está acessível remotamente    12

Cenário: Máquina não está acessível remotamente    12

Máquina Virtual    13

Cenário: VM com Total Data Loss    13

Cenário: VM com Partial Data Loss    14

Backups    14

Migração da operação    15

Provider de colocation    16

Incidentes e resolução    17

Procedimentos de teste    18

Visão Geral    18



  1. Introdução

Este documento tem como objetivo descrever e documentar os vários procedimentos associados ao Plano de Recuperação em caso de Desastre (Disaster Recovery Plan - DRP) a nível do TI da Amplitude Net, de forma a que, no caso de acontecer um incidente grave, seja possível:

  • Restaurar de forma muito ágil os dados e processos perdidos;

  • Minimizar a duração de uma paralisação das operações de negócio associadas ao TI;

  • Assegurar que as operações críticas possam recomeçar o processamento normal dentro de um espaço de tempo razoável;

  • Reduzir as perdas financeiras em casos de desastres;

  • Facilitar a coordenação eficaz de tarefas da recuperação;

  • Reduzir a complexidade do esforço de recuperação.


As duas métricas mais relevantes associadas à eficácia da DRP são:

  • RTO – Recovery Time Objective (Objetivo de Tempo de Recuperação): Período necessário para executar a restauração do sistema críticos, sem comprometer a execução das operações e negócios, definido a partir de uma análise de impacto de negócios (BIA – Business Impact Analysis);

  • RPO – Recovery Point Objective (Objetivo do Ponto de Recuperação): Período máximo para perda de dados tolerado em um desastre, sem a possibilidade de recuperação através de um backup de dados.


Complementarmente são também regularmente usadas as duas seguintes métricas:

  • WRT – Work Recovery Time: determina o tempo máxima aceitável para verificar os sistemas e a integridade dos dados;

  • MTD – Maximum Tolerable Downtime: determina o tempo máximo de uma disrupção sem consequências para o negócio.


Para melhor perceção destes indicadores, a seguinte figura representa a linha temporal para recuperação de um processo em caso de disrupção.







  1. Lista de Siglas Relacionadas

Neste capítulo é apresentada a lista de termos relacionados com o DRP. Embora alguns dos mesmos não se encontrem no presente documento, poderão vir a aparecer em comunicações ou análises efetuadas no decorrer das ações previstas, pelo que também são apresentadas.


  • DR – Disaster Recovery (Recuperação de Desastre)

  • DRP – Disaster Recovery Plan (Plano de Recuperação de Desastre)

  • BC – Business Continuity (Continuidade de Negócio)

  • BCP – Business Continuity Plan (Plano de Continuidade de Negócio)

  • BCM – Business Continuity Management

  • RTO – Recovery Time Objective

  • RPO – Recovery Point Objective

  • IT – Information Technology

  • TI – Tecnologias de Informação

  • PMP – Project Management Professional

  • DRL – Disaster Recovery Lead

  • DMT – Disaster Management Team

  • SAN – Storage Area Network

  • SGSI – Sistema de Gestão da Segurança da Informação

  • SI – Sistemas de Informação

  • SLA – Service Level Agreement

  • TIC – Tecnologias de Informação e Comunicação

  • WRT – Work Recovery Time

  • BIA – Business Impact Analysis (Análise de Impacto nos Negócios)

  • VMs – Virtual Machines (Máquinas Virtuais)






  1. Equipas & Pessoas

    1. Contatos Externos

Contatos externos que poderão ser relevantes no contexto das ações a serem levadas a cabo pelo DRP.

NOME

EMPRESA

FUNÇÃO

TELF.

EMAIL

OBS.


ONI

Responsável Data Center





ONI

Assistente do Data Center Porto





ONI

Assistente do Data Center Maia





ONI

Gestora Clientes





Independente

Consultor de Segurança





  1. Contatos Internos

Contatos internos dos colaboradores chave nos processos de DRP, bem como dos que poderão ser indiretamente afetados.


NOME

FUNÇÃO

TELF.

EMAIL

OBS.


CFO





Responsável Servidores/ Líder da Recuperação de Desastre





Equipa Servidores





Líder Aplicação/

Gestão Equipa Desastre





Applications Team





Applications Team





Applications Team





Applications Team





Administrativo





Líder Pós-Venda





Líder Marketing





Líder Suporte





CEO







  1. Visões Globais das Função e Responsabilidades dos Líderes e Equipas de DR

    1. Disaster Recovery Lead (Líder de Recuperação de Desastre)

Nota: O Líder de Recuperação de Desastres é responsável por tomar todas as decisões relacionadas aos esforços de recuperação de desastres. A função principal dessa pessoa será orientar o processo de recuperação de desastres, e todas as outras pessoas envolvidas no processo de recuperação de desastres se reportarão a esta pessoa no caso de ocorrer um desastre, independentemente de seu departamento e gestores/líderes existentes. 


Funções:

  • Efetuar a determinação de que a organização declara que ocorreu um desastre e acione o Plano de DR bem como os processos relacionados.

  • Iniciar a Rede de Notificação de DR.

  • Ser o único ponto de contato e supervisionar todas as equipes de DR.

  • Organizar e presidir reuniões regulares dos líderes da Equipe de DR durante todo o desastre.

  • Apresentar à Equipe de Gestão o estado do desastre e as decisões que precisam ser tomadas.

  • Organizar, supervisionar e gerir todos os testes do Plano de DR e criar todas as atualizações do Plano de DR.



  1. Disaster Management Team (Gestão Equipa Desastre)

Nota: A Equipa de Gestão de Desastres supervisionará todo o processo de recuperação de desastres e será a primeira equipe necessária para agir em caso de desastre. Essa equipe avaliará o desastre e determinará as etapas necessárias para que a organização volte aos negócios e processos como de costume.

 

Funções:

  • Colocar o Plano de DR em ação após o líder de recuperação de desastres declarar um desastre

  • Determinar a magnitude e a classe do desastre

  • Determinar quais sistemas e processos foram afetados pelo desastre

  • Comunicar o desastre para as outras equipas

  • Determinar quais os primeiros passos que precisam ser dados pelas equipas de recuperação de desastres

  • Mantenha as equipas de recuperação de desastres no caminho certo com expectativas e metas pré-determinadas

  • Mantenha um registro do dinheiro gasto durante o processo de recuperação de desastres

  • Garantir que todas as decisões tomadas respeitem o Plano de DR e as políticas definidas pela Amplitude Net

  • Preparar o(s) site(s) secundário(s) para restaurar as operações de negócios

  • Certificar que o site secundário esteja totalmente funcional e seguro

  • Criar um relatório detalhado de todas as etapas realizadas no processo de recuperação de desastres

  • Notificar as partes relevantes assim que o desastre terminar e a funcionalidade normal dos negócios for restaurada

  • Depois que a Amplitude Net voltar aos negócios como de costume, esta equipa deverá resumir todos e quaisquer custos e fornecerá um relatório ao Líder de Recuperação de Desastres resumindo suas atividades durante o desastre



  1. Server Team (Equipa dos Servidores)

Nota: A Equipa dos Servidores será responsável por fornecer a infraestrutura de servidor física necessária para que a organização execute suas operações e aplicativos de TI no caso de e durante um desastre. Eles serão os principais responsáveis por fornecer a funcionalidade básica do servidor e poderão auxiliar outras equipes de DR de TI conforme necessário.


Funções:

  • No caso de um desastre que não exija migração de/para zonas de disponibilidade do Evolve IP, a equipa determinará quais servidores não estão a funcionar na zona de disponibilidade primária

  • Se vários servidores forem afetados, a equipa priorizará a recuperação de servidores da maneira e na ordem que tiver o menor impacto nos negócios. A recuperação incluirá as seguintes tarefas:

    • Avaliar os danos a quaisquer servidores

    • Reiniciar e atualizar os servidores, se necessário

  • Garantir que os servidores secundários localizados nas zonas de disponibilidade da Amplitude Net sejam mantidos atualizados com os patches do sistema

  • Garantir que os servidores secundários localizados nas zonas de disponibilidade da Amplitude Net sejam mantidos atualizados com os patches de aplicativos

  • Garantir que os servidores secundários localizados nas zonas de disponibilidade da Amplitude Net sejam mantidos atualizados com cópias de dados

  • Certificar-se de que o backup dos servidores secundários localizados nas zonas de disponibilidade em espera seja feito adequadamente

  • Instalar e implementar quaisquer ferramentas, hardware e sistemas necessários nas zonas de disponibilidade;

  • Depois da Amplitude Net voltar aos negócios como de costume, esta equipa resumirá todos e quaisquer custos e fornecerá um relatório ao líder de recuperação de desastres resumindo suas atividades durante o desastre



  1. Applications Team (Equipa de Aplicações)

A Equipa de Aplicações será responsável por garantir que todos os aplicativos da organização funcionem conforme necessário para atender aos objetivos de negócios no caso de e durante um desastre. Eles serão os principais responsáveis por garantir e validar o desempenho apropriado do aplicativo e podem ajudar outras equipas de DR de TI conforme necessário.


Funções:

  • No caso de um desastre que não exija migração de/para zonas de disponibilidade do da Amplitude Net, a equipe determinará quais aplicativos não estão funcionando nas zonas de disponibilidade primárias;

  • Se vários aplicativos forem afetados, a equipa priorizará a recuperação de aplicativos da maneira e ordem que tenham o menor impacto nos negócios. A recuperação incluirá as seguintes tarefas:

    • Avaliar o impacto nos processos de inscrição;

    • Reiniciar as aplicações conforme necessário;

    • Corrigir, re-codificar ou reescrever aplicações conforme necessário.

  • Garantir que os servidores secundários localizados nas zonas de disponibilidade da Amplitude Net sejam mantidos atualizados com os patches de aplicativos;

  • Garantir que os servidores secundários localizados nas zonas de disponibilidade da Amplitude Net sejam mantidos atualizados com cópias de dados;

  • Instalar e implementar quaisquer ferramentas, softwares e patches necessários nas zonas de disponibilidade;

  • Depois que a Amplitude Net voltar aos negócios como de costume, esta equipe resumirá todos e quaisquer custos e fornecerá um relatório ao Líder de Recuperação de Desastres resumindo suas atividades durante o desastre.

  1. Servidores

    1. Localizações Físicas

As localizações dos 2 Data Centers usados pela Amplitude Net, que estão fisicamente separados por cerca de 17 Km (aproximadamente 17 minutos por viatura):

  1. Data Center 1: ONI - Centro do Porto 

  • Localização: R. Dr. Alfredo Magalhães, 46 |  4000-061 Porto

  1. Data Center 2: ONI - Maia

  • Localização: Rua das Cardosas, Complexo Brisa, Maia | 4425-510 Maia


  1. Sede da Empresa no Porto

  • Localização: Avenida da França 803-811, 4250-241 Porto


  1. Lista

Servidor

Marca

U's

CPU's

Cores

Threads

Ram GB

Armazenamento

HW Raid

Role

Location

Cartman

SuperMicro 1U

1





4TB

LSI MegaSAS 9260

Hypervisor Server

ONI - Porto

Spark

SuperMicro 2U

2





16TB

LSI MegaRAID SAS 2208

Hypervisor Server

ONI - Porto

Kyle

SuperMicro 1U

1





8TB

MegaRaid 9361-8i

Hypervisor Server

ONI - Porto

Kenny

SuperMicro 1U

1





4TB

Adaptec 5405

Hypervisor Server

ONI - Porto

Backups

SuperMicro 2U

2





10TB

LSI MegaRAID SAS 9240

Backup Server

ONI - Porto

Hawk

SuperMicro 2U

2





10TB

MegaRaid 9361-8i

Backup Server

ONI - Porto

Stan

SuperMicro 1U

1





10T

MegaRaid 9361-8i

Backup Hypervisor Server

ONI - Maia

Chef

SuperMicro 2U

2





16T

MegaRaid 9361-8i

Backup Hypervisor Server

ONI - Maia

Ike

SuperMicro 1U

1





8TB

Adaptec 5405

Backup Server

Sede - Porto


  1. Sistema de Virtualização - Hypervisor 

  • O sistema de virtualização usado nos servidores listados Hypervisor é o Software Proxmox VE 7.

  • Nos servidores de BackUps é o Software Proxmox Backup Server 2.


É de notar que todas as VMs correm sobre o SO Linux, predominantemente Red Hat/CentOS/Alma Linux. 


  1. Backups

#

Data

Data Type

Backup Frequency

Backup Location

1

VN Snapshoot 3

All (SO, Logs, BD, Scripts, …) 

3h 


2

VN Snapshoot 6

All

6h


3

VN Snapshoot 12

All

12h


4

VN Snapshoot 24

All

24h


5

Extra: Dump de BD 

BD

24h


6

Extra: Rsync

Scripts & Files

24h (incremental)



Nota: Todos os backups associados aos Snapshoots (que existem em 2 locais físicos distintos), permitem um acesso:

  • Global à imagem da VM

  • Individualizado à nível de um mero ficheiro que se deseje aceder de forma muito fácil através do Proxmox Backup Server


  1. Acesso ao Software Proxmox 

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

  1. Procedimentos de backup e recuperação de desastres

    1. Conetividade/Rede

Em caso de connectividade/rede/energia e restante infraestrutura do DataCenter, deverá haver um contato direto com a ONI, pela ordem das pessoas indicadas nos contatos externos.


  1. Servidor Físico 

    1. Cenário: Máquina está acessível remotamente   

  • Transferir VMs para outro hypervisor

  • Arrancar cada uma das VRs.

  • Resolver problema no hypervisor original, re-transferir máquinas para esse hypervisor 


Nota: Caso o servidor em causa seja um servidor de Backups (que está inoperacional), deverá se ter em conta:

  • Caso seja o servidor de Backups Primário e este não seja resolvido em 24h, deve ser substituído pelo secundário existente na sede;

  • Caso seja o servidor de Backups Secundário, deverá ser resolvido sem urgência máxíma.


Comandos e passos chave do processo:

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX


  1. Cenário: Máquina não está acessível remotamente

  • Deslocação ao datacenter para avaliar causa do downtime

  • Se necessário, restaurar a partir de backups para outro hypervisor, no datacenter da Maia. Mudar DNS e restaurar o serviço.


Comandos e passos chave do processo:

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX


  1. Máquina Virtual  

    1. Cenário: VM com Total Data Loss

Independentemente do cenário que exista (dados encriptados/Ransomware, Falha de um disco, ….):

  • Restaurar snapshot mais recente.


Comandos e passos chave do processo:

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX


  1. Cenário: VM com Partial Data Loss

  2. Corrupção de Base de dados. Em caso de impossibilidade de reparação de uma base de dados pode ser restaurado um backup ao nível de tabela no servidor de Backups.

  3. Corrupção / destruição de scripts / files. Restaurar os ficheiros necessários a partir do servidor de backups. Se for necessária uma versão mais recente, os ficheiros podem ser recuperados através dos snapshots da VM. 


Comandos e passos chave do processo:

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

  1. Backups

O procedimento atual contempla:

  • Backup diário de dados, scripts  e bases de dados, para servidor de backups onsite:

    • Rotinas automáticas de rsync e msqldump agendadas no cron do servidor de backups.


  • Proxmox backup Server - Snapshots de máquinas virtuais de 4 em 4 horas para servidor de backups primário, com verificação após o backup, offsite.

    • Utilização das rotinas de backup nativas do Proxmox VE / Proxmox bps para automatizar todo o processo de backup. Todos os backups são verificados automaticamente ao terminarem.

  • Cópia diária dos snapshots para servidor de backups secundário, offsite


Se a perda de dados for total, deverá restaurar-se o último snapshot disponível.


Se a perda de dados for parcial, deverá ser avaliada a extensão da perda. A data e a quantidade de dados a serem recuperados dependem da extensão dos danos. Poderá ser necessário fazer-se um restauro total, ou parcial.

Se o dano for nos ficheiros de backup, dever-se-á tentar recuperar os snapshots incrementais ou o RSync.


Comandos e passos chave do processo:

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

  1. Migração da operação

O procedimento para migrar totalmente a operação do módulo servidor da solução passa por:

  1. Ir buscar os snapshots no servidor de backups;

  2. Restaurar máquinas virtuais a partir dos backups no servidor do segundo datacenter;

  3. Mudar DNSs para os IPs do novo servidor;

  4. Comunicar aos clientes afetados.


Comandos e passos chave do processo:

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

  1. Provider de colocation  

Em caso de falha no fornecimento de eletricidade, o provider de colocation deverá ser contatado - a Oni Telecom, pois sai do âmbito do serviço da AmplitudeNet.



  1. Incidentes e resolução

Incidente

Procedimento de resolução

Ataque informático

7.1

Falha nos backups

7.4

Incêndio ou terramoto

7.5

Sem acesso de internet

7.1

Falha física de hardware

7.2

Falha humana

7.2.2

Falha no Fornecimento de electricidade

7.6