Hiper incident

Lentidão no acesso ao Hiper Gestão

Hiper experienced a minor incident on October 31, 2025 affecting Hiper Gestão, lasting 2h 48m. The incident has been resolved; the full update timeline is below.

Started: Oct 31, 2025, 06:55 PM UTC
Resolved: Oct 31, 2025, 09:43 PM UTC
Duration: 2h 48m
Detected by Pingoru: Oct 31, 2025, 06:55 PM UTC

Affected components

Hiper Gestão

Update timeline

identified Oct 31, 2025, 06:55 PM UTC

Descrição do caso: identificamos um alto consumo de CPU nos servidores de hospedagem do Hiper Gestão à partir das 15h25 de hoje, estamos neste momento atuando para mitigar os impactos deste problema. Identificamos também uma falha na região da Azure onde os recursos estão hospedados que está impedindo a alocação de mais recursos. Impacto: lentidão no acesso ao Hiper Gestão.
monitoring Oct 31, 2025, 07:29 PM UTC

Atualização do caso: após adotar as ações de contingência, foi possível normalizar os indicadores de CPU e tempo de resposta do produto. Seguimos atuando com o objetivo de identificar a causa raiz. Impacto: lentidão no acesso ao Hiper Gestão.
monitoring Oct 31, 2025, 08:27 PM UTC

Atualização do caso: o Hiper Gestão é hospedado em uma infraestrutura distribuída. São 14 clusters no total, cada cluster possui uma quantidade variável de servidores que escalam sob demanda. Para garantir a disponibilidade do produto, cada cluster conta com uma capacidade reservada e minimamente alocada que atende com folga o uso normal que temos. Se for necessário atender mais requisições, temos automações que garantem a escalabilidade de recursos. O evento de agora à tarde impactou o cluster principal, por volta das 15h25, todos os servidores tiveram um consumo abrupto de CPU. Fato que é este consumo não veio acompanhado de um aumento de tráfego, evidenciando uma possível falha interna na Azure, que está sob análise neste momento. Como o cluster apresentou falha, mesmo escalando mais servidores, os mesmos não atendiam adequadamente o tráfego. Para mitigar o impacto, utilizamos o cluster de redundância, ao alocar novos servidores e migrar o tráfego para o cluster de redundância, os indicadores começaram a normalizar por volta das 16h20. Estamos atuando ainda para confirmar a causa raiz e tratar qualquer impacto residual deste incidente, tendo em vista que ao restabelecer o acesso ao produto, todo o tráfego que ficou "represado" passou a ser processado. Vamos seguir atuando, mantendo a página de status atualizada. Sabemos o impacto que essas situações geram e estamos empenhados em garantir que essas situações não ocorram, e que se ocorram, que estejamos preparados para lidar com elas. Impacto: sem impacto no momento.
resolved Oct 31, 2025, 09:43 PM UTC

Incidente resolvido. Após monitoramento do produto foi possível constatar que todos os indicadores normalizaram e os relatos de lentidão cessaram completamente. Como próximos passos, vamos elaborar um relatório de post-mortem e atuar em ações para mitigar os riscos de recorrência de incidentes como o de hoje. Até o momento, a causa raiz provável é uma instabilidade interna na Azure.