Hiper incident

Intermitência em operações no cadastro de produto do Hiper Gestão

Hiper experienced a major incident on September 15, 2025 affecting Hiper Gestão, lasting 6h 7m. The incident has been resolved; the full update timeline is below.

Started: Sep 15, 2025, 01:05 PM UTC
Resolved: Sep 15, 2025, 07:12 PM UTC
Duration: 6h 7m
Detected by Pingoru: Sep 15, 2025, 01:05 PM UTC

Affected components

Hiper Gestão

Update timeline

identified Sep 15, 2025, 01:05 PM UTC

Descrição do caso: identificamos por volta das 09h28 uma falha em uma das réplicas de banco de dados que armazenam informações relacionadas ao cadastro de produto, a falha está sendo originada na infraestrutura de nuvem que hospeda este banco de dados. Nossos times estão atuando para mitigar os impactos do problema. Impacto: intermitência em operações que utilizem as informações de produtos cadastrados no Hiper Gestão.
identified Sep 15, 2025, 01:58 PM UTC

Descrição do caso: nossos times seguem atuando para mitigar os impactos do problema, a origem do incidente está relacionada a infraestrutura em nuvem que hospeda uma das réplicas de leitura do banco de dados do novo cadastro de produto. Impacto: intermitência em operações que utilizem as informações de produtos cadastrados no Hiper Gestão.
monitoring Sep 15, 2025, 02:39 PM UTC

Descrição do caso: após executar as ações de ajuste de capacidade na infraestrutura do banco de dados, foi possível mitigar os impactos do problema. Neste momento, os indicadores apresentam estabilidade e nossos times segue atuando para identificar a causa raiz junto ao provedor de nuvem. Impacto: sem impacto.
resolved Sep 15, 2025, 07:12 PM UTC

Descrição do caso: após acompanhar a carga do ambiente evidenciamos que nenhum impacto residual foi identificado após às 11h39, horário do último comunicado. A causa raiz do incidente está relacionada à uma falha de escalabilidade na infraestrutura do banco de dados que armazena as informações relacionadas ao cadastro de produto. Apesar da infraestrutura possuir requisitos de alta disponibilidade, um dos servidores que recebe a carga de leitura apresentou problemas durante o processo de aumento de sua capacidade computacional, culminando em intermitências no acesso às informações do cadastro de produtos para as requisições que eram enviadas até este servidor.
postmortem Sep 15, 2025, 07:25 PM UTC

Esta publicação tem por objetivo detalhar os eventos que envolveram o incidente do dia 15/09 ocasionando intermitências em operações que dependem do cadastro de produtos do Hiper Gestão. No decorrer do relatório será apresentado a descrição do incidente, causas, linha do tempo e próximos passos. **Código:** 2025091501 **Data:** 15/04/2022, segunda-feira **Horário de início:** 09h19 \(horário de Brasília\) **Horário de resolução:** 11h26 \(horário de Brasília\) **Tempo total de impacto:** 02 horas e 07 minutos **Impacto:** intermitência em operações que utilizam dados do cadastro de produtos do Hiper Gestão. **O quê e por que o incidente aconteceu?** Foi identificada uma falha de escalabilidade na infraestrutura do banco de dados que armazena as informações relacionadas ao cadastro de produto. A infraestrutura de banco de dados que hospeda essas informações opera em um _cluster_ de alta disponibilidade, ao analisar o problema, identificamos que uma das instâncias de _replica_ utilizada para operações de leitura apresentou falhas durante seu processo de _upgrade_. O processo de _upgrade_ é uma operação natural deste _cluster_ que tem como objetivo garantir a performance das requisições, independente do volume transacionado. O _cluster_ de banco de dados é hospedado em nuvem e a falha foi originada na infraestrutura deste servidor. Durante o incidente, requisições enviadas para o servidor que apresentava a falha possuíam um tempo de resposta muito alto ou resultavam em erros. Devido ao fato de o serviço de armazenamento rodar em cluster, o incidente não foi identificado por todos os clientes, pois dois terços das requisições foram direcionadas para os servidores que estavam saudáveis naquele momento.` ` **Linha do tempo** A seguir vamos apresentar uma linha do tempo de tudo o que aconteceu, desde o início do incidente, passando por todas as ações executadas para conter o impacto, até a solução definitiva do problema. * 09h36: foi identificado que operações no faturamento do Hiper Gestão que utilizam o contexto de produto apresentavam lentidão * 09h38: foi iniciada a tratativa do incidente para mitigar o impacto e identificar a causa raiz * 09h49: foi identificado que uma das instâncias de réplica do _cluster_ de banco de dados que hospeda as informações do cadastro de produto estava apresentando falha * 10h34: nossos times realizaram a distribuição da carga de leitura que apresentava falhas para os servidores que estavam saudáveis, com o objetivo de mitigar os impactos do incidente. Ao finalizar este processo, foi identificado que os dois servidores não seriam suficientes para acomodar toda a carga de requisições * 10h45: nossos times iniciaram um segundo processo de _upgrade_ do _cluster_ com o objetivo de garantir que com duas instâncias saudáveis todas as requisições fossem respondidas corretamente * 11h26: a instância que apresentava falha voltou a responder corretamente e o tempo de resposta das requisições normalizou * 11h30: o segundo processo de _upgrade_ foi concluído e nenhum impacto residual foi identificado **Próximos passos** Após a solução do incidente e coleta de todos os eventos realizados para contenção e identificação das causas, foi realizado o processo de revisão e _post-mortem_ com o objetivo de identificar ações que possam eliminar a recorrência deste incidente originado pela mesma causa. Considerando que a causa do incidente foi uma falha interna com o provedor de serviços, junto ao terceiro, vamos avaliar oportunidades de melhoria na gestão de capacidade ou realocação do _cluster_ para regiões que não estejam enfrentando problemas de disponibilidade.