Feriados 2017

Checklist para não deixar a infraestrutura de TI atrapalhar seus Feriados Prolongados em 2017

2016 chegando ao fim e 2017 chegando com 07 feriados prolongados nacionais (fora os estaduais e municipais)… Para que nós de TI possamos descansar, mesmo estando de plantão, preparei este checklist pré e pós feriadão.

PRÉ-FERIADO:
01. INFRAESTRUTURA BÁSICA

[_] Certifique-se que seus links estão com as contingências e redundâncias funcionando. Crie um plano de testes para simular “quedas” e “panes”.
[_] O mesmo aplica-se para roteadores e firewalls. Crie um plano de testes para garantir o funcionamento em caso de problemas.
[_] Validar os processos de contingência e mesurar os tempos de recuperação.
[_] Manter cópias de segurança dos ativos de rede para restauração rápida. Se possível, usar processos automatizados.
[_] Monitorar e criar linhas de base (baselines) de todos os serviços e ativos de rede. “Não se gerencia o que não se mede, não se mede o que não se define, não se define o que não se entende, ou seja, não há sucesso no que não se gerencia(adaptado de W. Edwards Deming).”
[_] Possuir ferramentas de monitoramento com alertas em caso de Warning (limite “perigoso”) e Critical.

02. SERVIÇOS e APLICATIVOS

[_] Monitorar de forma automatizada os principais serviços de missão crítica, como e-mail, banco de dados, aplicações WEB, JOBs e afins
[_] Aqui vale também a criação de linhas de base (baselines) para todos os serviços: número de conexões simultâneas, erros (200, 40x e 50x) e picos de utilização
[_] Vale também para banco de dados: carga de cpu, eficiência da buffer cache, tráfego de dados pela rede, tempo de resposta médio dos SQLs, média de sessões ativas entre outras
[_] Preparar alternativas para alto consumo, como balanceamento de carga, escalonamento horizontal e etc.

PÓS-FERIADO:
Levando em conta que não ocorreram problemas no seu feriado, convém o post-mortem do feriado:

[_] Análise dos LOGs de segurança: Os feriados e os fim de semana são os horários preferidos pelos hackers para tentativas de invasão. Analise seus logs para identificar comportamento incomum e – worst case scenario – identificar a brecha usada e reverter a invasão.
[_] Análise dos baselines do ambiente: identificar os comportamentos anormais, “outliers”, realizar uma correlação de logs e entender estes desvios.
e, por último,
[_] Criar Relatório de Liçções Aprendidas para cada evento, contendo a “Situação Encontrada – Sintoma”, “Causa do Problema” e “Plano de mitigação – O que fazer para resolver na raiz”.

Este checklist é somente um overview dos principais pontos; Não tem como objetivo ser a palavra final. Recomendo que ele seja expandido e aprimorado no dia-a-dia de suas operações!