A Engenharia de Confiabilidade de Sites (Site Reliability Engineering, ou SRE) estabelece conceitos e práticas para que os times aprendam a lidar com eventos inesperados, identificando prioridades e entidades envolvidas, bem como quantificando o impacto no negócio. SREs ajudam toda a organização com a melhoria de processos através do gerenciamento de incidentes: contribuem com o desenvolvimento, testes, releases e análise da infraestrutura, pois detêm um entendimento profundo de observabilidade e ajudam a mitigar danos ao abraçar o caos da imprevisibilidade. Neste livro, Marcelo Costa se aprofunda no mundo de SRE e no gerenciamento de incidentes. Você vai aprender a identificar quando um determinado serviço não se comporta como o esperado, a severidade de sua interrupção e como observar seus principais indicadores. Com este material, você saberá os pontos de atenção para onde olhar na infraestrutura que abriga os sistemas, com foco em Escalabilidade, Disponibilidade e Resiliência, como são observados, aplicar tecnologias de monitoramento como Métricas, Logs, Traces, e frameworks de performance como SLOs (Objetivos de Nível de Serviço), automação de tarefas e Engenharia do Caos.
Dieser Download kann aus rechtlichen Gründen nur mit Rechnungsadresse in A, B, BG, CY, CZ, D, DK, EW, E, FIN, F, GR, H, IRL, I, LT, L, LR, M, NL, PL, P, R, S, SLO, SK ausgeliefert werden.