Hiper incident
Falhas no processo de sincronização e intermitência no funcionamento do Hiper Gestão
Hiper experienced a major incident on October 9, 2024 affecting Hiper Gestão and Serviço de Sincronização, lasting 1d 3h. The incident has been resolved; the full update timeline is below.
Affected components
Update timeline
- investigating Oct 09, 2024, 06:55 PM UTC
Descrição: nossos times identificaram um aumento no tempo de resposta da API principal do produto e uma anomalia no monitoramento do serviço de sincronização que está acusando falhas eventuais na sincronização com o Hiper Loja e Hiper Caixa. Neste momento, estamos analisando o problema com o objetivo de identificar a causa raiz. Impacto: falha no processo de sincronização com o Hiper Gestão.
- investigating Oct 09, 2024, 07:40 PM UTC
Descrição: nossos times seguem atuando na análise e mitigação do problema. Ao longo da análise, identificamos também uma sobrecarga no banco de dados principal que passou a impactar a experiência de uso do Hiper Gestão. Neste momento, estamos totalmente empenhados em identificar e corrigir o problema no menor tempo possível. Impacto: falhas no processo de sincronização e intermitência no funcionamento do Hiper Gestão
- monitoring Oct 09, 2024, 10:35 PM UTC
Descrição: nossos times atuaram ostensivamente durante a tarde de hoje com o objetivo de diagnosticar a causa raiz e conter o problema. Realizamos diversas ações com o objetivo de minimizar o impacto, mas apesar delas, a causa raiz ainda não foi confirmada. Neste momento, o ambiente apresenta total normalidade, principalmente motivado pela redução da carga em nossas aplicações. Seguiremos atuando com o objetivo de solucionar de forma definitiva este incidente. Impacto: sem impactos no momento.
- investigating Oct 10, 2024, 11:47 AM UTC
Descrição: nossos times seguem trabalhando na análise do problema, neste momento, estamos realizando ações de contenção para mitigar os impactos na usabilidade do Hiper Gestão. Impacto: lentidão no processo de sincronização com o Hiper Gestão.
- monitoring Oct 10, 2024, 01:58 PM UTC
Descrição: nossos times executaram ações de mitigação do incidente que estabilizaram completamente o produto. Neste momento, estamos monitorando os indicadores e acompanhando a situação de perto junto ao time de Atendimento para garantir que nenhum impacto seja sentido na usabilidade ou em funcionalidades do produto. Em paralelo à isso, seguimos atuando na análise da causa raiz com o objetivo de resolver de forma definitiva o problema. Impacto: sem impactos no momento.
- monitoring Oct 10, 2024, 07:28 PM UTC
Descrição: nossos times seguem trabalhando na análise de causa raiz do incidente. Identificamos duas rotas ofensoras de performance que podem ser a origem do problema e estamos trabalhando na validação desta hipótese, bem como, em sua correção. Neste momento, o produto segue funcionando com plena estabilidade. Impacto: sem impactos no momento.
- resolved Oct 11, 2024, 08:15 PM UTC
Atualização: após monitorar ostensivamente o ambiente, validamos que o incidente foi completamente mitigado e nenhum impacto adicional foi gerado. Nos próximos dias, faremos a publicação aqui nesta página do relatório de post-mortem do incidente.