Instabilidade nas conversas do Whizz
Timeline · 4 updates
- monitoring Apr 28, 2026, 09:43 PM UTC
Encontramos um problema no Whizz em que as conversas ficaram confusas ou trouxeram informações não pertinentes ao escopo de atuação. A ocorrência durou poucos minutos, pois foi resolvida prontamente. No momento, estamos monitorando o serviço.
- monitoring Apr 28, 2026, 09:47 PM UTC
We are continuing to monitor for any further issues.
- resolved Apr 29, 2026, 02:06 AM UTC
Informamos que, após o período de monitoramento, não identificamos novos comportamentos atípicos e o sistema está estável. Lamentamos o transtorno e agradecemos sua compreensão. A confiabilidade de nossa plataforma é a prioridade máxima da OmniChat, por isso, seguimos trabalhando em melhorias contínuas para oferecer a melhor experiência possível. Um postmortem com o detalhamento técnico do incidente será publicado nos próximos dias.
- postmortem Apr 29, 2026, 01:44 PM UTC
**O que aconteceu?** Entre 17:02 e 17:31 do dia 28 de abril, houve um problema na plataforma em que uma degradação no funcionamento do Whizz resultou em falhas no processamento de mensagens. Como consequência, algumas conversas apresentaram respostas confusas ou com informações não aderentes ao escopo esperado, impactando a experiência dos clientes. A ocorrência teve curta duração e foi rapidamente identificada e corrigida pelo time. **Causa Raiz:** Às 17:02, foi realizada uma atualização na plataforma. Essa atualização visava melhorar o tempo de resposta do agente através da execução simultânea do processamento de mensagens. Entretanto, esse cenário levou a uma condição de concorrência, na qual múltiplas mensagens foram processadas fora da ordem esperada. Como resultado, houve inconsistência no contexto das conversas, fazendo com que algumas respostas fossem geradas com informações incorretas ou não relacionadas ao fluxo esperado. **Resolução e prevenção:** O time de Engenharia acompanhou a atualização em tempo real e, ao identificar a inconsistência no processamento das mensagens, iniciou imediatamente a atuação para mitigação. Após a identificação do comportamento incorreto, foi realizada a reversão para a versão anterior, cuja conclusão aconteceu às 17:31, normalizando o funcionamento da plataforma. Para evitar a recorrência do problema e aumentar a confiabilidade do processo, serão adotadas as seguintes ações: * Evolução do processo de testes automatizados, com maior cobertura para cenários de concorrência e processamento simultâneo, incluindo paridade de carga em ambiente de _staging_; * Implementação de mecanismos de controle na troca de mensagens, garantindo a ordenação e a consistência no processamento, com travas de segurança para evitar cenários semelhantes; * Revisão do processo de implantação de atualizações críticas visando mitigar impactos na operação.