SRE: Monitoração

  • por

“Sem monitoração, você não terá nenhuma maneira de dizer se o serviço está sequer funcionando; sem uma infraestrutura de monitoramento cuidadosamente planejada, você estará voando às cegas. Talvez todos que tentam usar o site obtenham um erro, talvez não – mas você vai querer estar ciente dos problemas antes que seus usuários percebam.” – Assim começa a descrição da monitoração descrita no livro “”.

O Google, criador do conceito SRE, criou uma hierarquia para analisar os elementos que deixam um serviço confiável, dos mais básicos aos mais avançados. Baseada na classificação das necessidades humanas criada por Abraham Maslow, esta hierarquia criada é base de todo o processo de SRE no Google.

Na Nasajon, estamos adotando os dois conceitos de monitoria descritos pelo Google: Coleta de Séries Temporais e Probes.

Não temos os recursos que o Google possui, nem uma equipe tão especializada quanto. Porém, podemos utilizar softwares OpenSource já existentes no mercado para aplicar estes dois conceitos.

Para a coleta de séries temporais, estamos adotando o Prometheus. Nosso objetivo inicial é conseguir implementar métricas baseadas no Padrão RED: Rate, Errors e Duration.

Para cada endpoint chave, devemos ter indicadores de Disponibilidade e taxa de erros;
Quantidade de Requisições acima dos SLOs;

Já para o Probe dos endpoints chave, estamos adotando o Nagios (o bom e velho Nagios) para monitorar, a cada 30 segundos, todos os nossos principais endpoints e serviços internos de suporte às aplicações.

A adoção do Prometheus é complexa, pois para atingirmos um estado de “Nirvana”, precisamos trabalhar com os desenvolvedores para a inclusão em suas aplicações. De resto, na infraestrutura, a adoção é mais fácil, dado o número de soluções possíveis.

No próximo artigo, vamos falar um pouco mais sobre monitoração e SRE.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *