Hiper incident

Degradação de performance do Hiper Gestão

Hiper experienced a minor incident on December 19, 2024 affecting Hiper Gestão, lasting 6h 44m. The incident has been resolved; the full update timeline is below.

Started: Dec 19, 2024, 01:52 PM UTC
Resolved: Dec 19, 2024, 08:37 PM UTC
Duration: 6h 44m
Detected by Pingoru: Dec 19, 2024, 01:52 PM UTC

Affected components

Hiper Gestão

Update timeline

investigating Dec 19, 2024, 01:52 PM UTC

Descrição do caso: nossos times identificaram uma degradação de performance através do monitoramento do Hiper Gestão. A causa raiz do problema está sendo avaliada, estamos tomando todas as ações necessárias para mitigar o impacto do incidente no menor tempo possível. A degradação foi identificada às 10h10 e está sendo tratada com máxima prioridade. Impacto: lentidão ao utilizar o Hiper Gestão.
monitoring Dec 19, 2024, 02:52 PM UTC

Atualização do caso: o impacto do incidente foi mitigado e estamos acompanhando os indicadores do ambiente para garantir que nenhum impacto residual seja evidenciado pelos usuários. Em paralelo, estamos atuando na análise de causa raiz à fim de garantir que o incidente não ocorra novamente pela mesma causa. Impacto: sem impactos no momento.
resolved Dec 19, 2024, 08:37 PM UTC

Atualização do caso: após o monitoramento contínuo do ambiente, identificamos que o ambiente estabilizou às 11h20. Identificamos duas possíveis causas raiz para o incidente, relacionadas à comunicação de rede entre a aplicação responsável pelo faturamento do Hiper Gestão e o banco de dados principal, além de uma possível consulta não performática que onerou o processamento do banco de dados. Para ambas as causas, nossos times atuarão com o objetivo de implementar controles que mitiguem a probabilidade desta falha ocorrer novamente. A linha do tempo dos eventos relacionados ao incidente, segue abaixo: - 09h37: primeiros indícios de degradação da performance da aplicação; - 09h44: identificação de bloqueios no banco de dados principal; - 09h57: liberação dos bloqueios do banco de dados e restabelecimento da performance da aplicação; - 10h00: novos bloqueios identificados no banco de dados principal, onerando a performance da aplicação; - 10h17: escalada do impacto do incidente, afetando uma base significativa de clientes; - 10h35: reciclagem dos pods de aplicação que apresentavam anomalia de rede; - 10h36: encerramento manual de bloqueios do banco de dados; - 10h37: a degradação de performance foi atenuada; - 11h20: restabelecimento total da performance da aplicação.