LivePix incident

Indisponibilidade total dos serviços

LivePix experienced a critical incident on May 16, 2023 affecting Profile and Account and 1 more component, lasting —. The incident has been resolved; the full update timeline is below.

Started: May 16, 2023, 06:00 AM UTC
Resolved: May 16, 2023, 06:00 AM UTC
Duration: —
Detected by Pingoru: May 16, 2023, 06:00 AM UTC

Affected components

ProfileAccountDashboardCore Internal APIAuthentication Service

Update timeline

resolved May 16, 2023, 03:28 PM UTC

A solução do problema foi alcançada com a correção da imagem Docker do Memcached. Depois de identificar a causa do problema e aplicar a solução, o sistema voltou a operar normalmente por volta das 2:50 do dia 16 de maio.
postmortem May 16, 2023, 03:28 PM UTC

No dia 15 de maio de 2023, às 19:00 \(horário de Brasília\), registramos uma falha crítica em nosso serviço Core Internal API. Essa falha resultou em uma interrupção total dos principais serviços da LivePix. ### **Contexto** Na manhã do mesmo dia, realizamos uma atualização no nosso cluster de produção do Kubernetes, visando integrar nodes com processadores ARM. Esses novos servidores têm a função de executar serviços que demandam pouco uso de CPU, uma medida estratégica para reduzir custos. Nessa atualização, as imagens Docker dos serviços foram segmentadas por arquitetura \(AMD64 e ARM\). ### Causa do Problema A falha foi desencadeada pela imagem do Memcached, que opera como um "sidecar" no serviço Core Internal API, oferecendo cache de dados de baixa latência. Essa imagem não foi atualizada para a nova configuração segmentada, e quando o sistema iniciou novos Pods para atender à demanda de requisições do horário de pico, a imagem não foi localizada. Como resultado, o serviço Core Internal API foi interrompido completamente, afetando outros serviços que dependem dele. ### Resolução A solução do problema foi alcançada com a correção da imagem Docker do Memcached. Depois de identificar a causa do problema e aplicar a solução, o sistema voltou a operar normalmente por volta das 2:50 do dia 16 de maio. ### Medidas Preventivas Dado que o problema foi desencadeado por uma atualização do sistema, implementamos uma nova política para esse tipo de modificação. Agora, temos procedimentos mais rigorosos em vigor para garantir que situações semelhantes não voltem a ocorrer. Agradecemos a compreensão de todos e reforçamos o nosso compromisso com a confiabilidade e a qualidade dos nossos serviços.