Hiper incident

Lentidão no acesso ao Hiper Gestão

Minor Resolved View vendor source →

Hiper experienced a minor incident on October 31, 2025 affecting Hiper Gestão, lasting 2h 48m. The incident has been resolved; the full update timeline is below.

Started
Oct 31, 2025, 06:55 PM UTC
Resolved
Oct 31, 2025, 09:43 PM UTC
Duration
2h 48m
Detected by Pingoru
Oct 31, 2025, 06:55 PM UTC

Affected components

Hiper Gestão

Update timeline

  1. identified Oct 31, 2025, 06:55 PM UTC

    Descrição do caso: identificamos um alto consumo de CPU nos servidores de hospedagem do Hiper Gestão à partir das 15h25 de hoje, estamos neste momento atuando para mitigar os impactos deste problema. Identificamos também uma falha na região da Azure onde os recursos estão hospedados que está impedindo a alocação de mais recursos. Impacto: lentidão no acesso ao Hiper Gestão.

  2. monitoring Oct 31, 2025, 07:29 PM UTC

    Atualização do caso: após adotar as ações de contingência, foi possível normalizar os indicadores de CPU e tempo de resposta do produto. Seguimos atuando com o objetivo de identificar a causa raiz. Impacto: lentidão no acesso ao Hiper Gestão.

  3. monitoring Oct 31, 2025, 08:27 PM UTC

    Atualização do caso: o Hiper Gestão é hospedado em uma infraestrutura distribuída. São 14 clusters no total, cada cluster possui uma quantidade variável de servidores que escalam sob demanda. Para garantir a disponibilidade do produto, cada cluster conta com uma capacidade reservada e minimamente alocada que atende com folga o uso normal que temos. Se for necessário atender mais requisições, temos automações que garantem a escalabilidade de recursos. O evento de agora à tarde impactou o cluster principal, por volta das 15h25, todos os servidores tiveram um consumo abrupto de CPU. Fato que é este consumo não veio acompanhado de um aumento de tráfego, evidenciando uma possível falha interna na Azure, que está sob análise neste momento. Como o cluster apresentou falha, mesmo escalando mais servidores, os mesmos não atendiam adequadamente o tráfego. Para mitigar o impacto, utilizamos o cluster de redundância, ao alocar novos servidores e migrar o tráfego para o cluster de redundância, os indicadores começaram a normalizar por volta das 16h20. Estamos atuando ainda para confirmar a causa raiz e tratar qualquer impacto residual deste incidente, tendo em vista que ao restabelecer o acesso ao produto, todo o tráfego que ficou "represado" passou a ser processado. Vamos seguir atuando, mantendo a página de status atualizada. Sabemos o impacto que essas situações geram e estamos empenhados em garantir que essas situações não ocorram, e que se ocorram, que estejamos preparados para lidar com elas. Impacto: sem impacto no momento.

  4. resolved Oct 31, 2025, 09:43 PM UTC

    Incidente resolvido. Após monitoramento do produto foi possível constatar que todos os indicadores normalizaram e os relatos de lentidão cessaram completamente. Como próximos passos, vamos elaborar um relatório de post-mortem e atuar em ações para mitigar os riscos de recorrência de incidentes como o de hoje. Até o momento, a causa raiz provável é uma instabilidade interna na Azure.