Unico incident

Instabilidade no Serviço de Captura e Reaproveitamento de Documentos (ID DOCS)

Unico experienced a major incident on April 29, 2026 affecting Documentos (API), lasting 40m. The incident has been resolved; the full update timeline is below.

Started: Apr 29, 2026, 09:10 PM UTC
Resolved: Apr 29, 2026, 09:51 PM UTC
Duration: 40m
Detected by Pingoru: Apr 29, 2026, 09:10 PM UTC

Affected components

Documentos (API)

Update timeline

investigating Apr 29, 2026, 09:29 PM UTC

Prezado Cliente, Nossa monitoração identificou um impacto na capacidade de Captura e Reaproveitamento de Documentos(IDDocs), podendo afetar os processos integrados a essa capacidade. Nosso time de tecnologia está analisando o ambiente e em breve retornaremos com novas atualizações.
resolved Apr 29, 2026, 09:51 PM UTC

Prezados, Gostaríamos de informar que o incidente relacionado ao produto ID Docs foi integralmente resolvido. Nossa infraestrutura está operando com estabilidade e todos os indicadores de performance retornaram aos níveis de normalidade. Abaixo, apresentamos o resumo executivo detalhado sobre o evento: 1. Resumo Executivo e Impacto No intervalo compreendido entre 18:09 e 18:23 (Horário de Brasília), identificamos uma oscilação na disponibilidade dos fluxos de processamento de documentos. O impacto deu-se para uma parcela mínima de clientes, resultando em uma degradação temporária dos níveis de serviço (SLO) especificamente neste período. Caso sua operação não tenha registrado uma elevação no volume de erros dentro desta janela de 14 minutos, sua conta não foi afetada pelo evento. 2. Causa Raiz e Resolução A indisponibilidade foi originada por um evento técnico inesperado em nossa infraestrutura dedicado ao produto ID Docs. Assim que a anomalia foi detectada pelos nossos sistemas de monitoramento, o time de engenharia atuou prontamente para isolar o componente afetado e estabilizar o serviço. A correção foi implementada com sucesso, restabelecendo a plena funcionalidade de todas as camadas do produto. 3. Compromisso e Próximos Passos A Unico preza pela transparência e pela excelência operacional. Como parte de nossos protocolos de governança, nosso time de tecnologia já iniciou a elaboração de um Postmortem detalhado, que será compartilhado em breve. Pedimos sinceras desculpas pelo inconveniente causado. Seguimos à disposição para quaisquer esclarecimentos adicionais. Equipe Unico.
postmortem May 21, 2026, 02:04 PM UTC

### Resumo No dia 29 de abril de 2026, enfrentamos uma degradação temporária na disponibilidade dos nossos serviços de autenticação e processamento de documentos. A disponibilidade da plataforma caiu para menos de 95%, atingindo cerca de 40% de conformidade durante uma janela de aproximadamente 12 minutos. O incidente foi detectado rapidamente pelos nossos sistemas de monitoramento automatizados, e a estabilidade foi totalmente restaurada logo em seguida. ### Impacto * O período de impacto ativo ocorreu entre 18:09 e 18:21 \(Horário de Brasília\). * Diversos clientes parceiros experimentaram falhas ao tentar realizar fluxos de autenticação. * Identificamos um pico anômalo de solicitações, saltando de aproximadamente 100 para 5.900 transações por minuto. * Registramos cerca de 6.100 erros nos nossos sistemas de entrada de rede durante a janela do incidente. ### Causa Raiz * O incidente foi desencadeado indiretamente por uma atualização recente no sistema. * Essa nova versão introduziu uma falha de software relacionada à gestão de atributos de cache de comunicação. * Devido a essa falha, a biblioteca responsável pelo cache perdeu suas referências e não conseguiu gerar novas sessões, resultando na devolução de tokens de autenticação \(JWT\) expirados. * Ao receberem tokens expirados de forma contínua, os sistemas de nossos clientes iniciaram múltiplas tentativas de repetição \(retries\) automáticas. * Esse volume excessivo e repentino de repetições sobrecarregou a capacidade de processamento do nosso banco de dados, elevando o uso de CPU de 20% para 60% e causando erros em cascata. ### Resolução * Nossos alertas de conformidade foram acionados em poucos minutos, mobilizando nossa equipe de resposta de forma imediata. * A equipe iniciou uma sala de crise virtual cerca de quatro minutos após o primeiro alerta. * O sistema conseguiu se recuperar de forma autônoma assim que a saturação temporária e os picos de tentativas de repetição dos clientes diminuíram. * A recuperação dos indicadores de disponibilidade começou às 18:21 e a resolução completa do incidente foi confirmada às 19:00. ### Ações Corretivas e Preventivas * Revisão e ajuste nas configurações de limite de tempo \(timeouts\) e de repetição \(retries\) para evitar amplificação de carga e sobrecarga em cascata. * Implementação de processos mais rigorosos para lançamentos de software, incluindo testes de carga e implementações graduais, mesmo para atualizações menores ou correções rápidas. * Avaliação de capacidade e implementação de métricas de autoscalonamento em nossa infraestrutura de banco de dados para suportar picos de tráfego repentinos. ### Lições Aprendidas * **Monitoramento Eficaz:** Nossa cobertura de alertas funcionou excepcionalmente bem, fornecendo detecção rápida e visibilidade abrangente em múltiplos níveis do sistema. * **Resposta Rápida:** A estruturação da nossa equipe de crise e a comunicação interna ocorreram em tempo recorde, facilitando a contenção do evento. * **Rigor em Atualizações:** Entendemos que implementações geradas a partir de correções de incidentes anteriores precisam passar pelo mesmo rigor de validação que as atualizações regulares, garantindo que não introduzam novos impactos no ambiente de produção. * **Análise de Correlação:** Identificamos que a automação na correlação entre falhas do sistema e implementações recentes de código pode acelerar ainda mais o diagnóstico de incidentes futuros.