Unico incident
Instabilidade no Serviço de Captura e reaproveitamento de documentos (IDDocs) com potencial impacto nas capacidades do ID Cloud
Unico experienced a major incident on April 8, 2026 affecting Documentos (API), lasting 2h 6m. The incident has been resolved; the full update timeline is below.
Affected components
Update timeline
- investigating Apr 08, 2026, 03:13 AM UTC
Prezado Cliente, Identificamos uma instabilidade na capacidade de captura e reaproveiramento de documentos, que tem impactado fluxos específicos de envio. Nossa engenharia já está totalmente mobilizada e atuando no diagnóstico para normalizar a operação o mais breve possível. Até o momento, o cenário afeta uma parcela mínima de clientes. Caso sua operação não tenha apresentado elevação no número de erros no último intervalo, você possivelmente não foi impactado. Reforçamos nosso compromisso com a transparência e enviaremos novas atualizações em breve. Equipe Unico.
- identified Apr 08, 2026, 03:15 AM UTC
Prezado Cliente, Informamos que a origem da instabilidade na capacidade de captura e reaproveiramento de documentos foi devidamente mapeada por nosso time de especialistas. Identificamos que o comportamento observado decorreu de uma inconsistência técnica após a implementação de uma melhoria em nossa plataforma. Nossa engenharia já iniciou as medidas corretivas para o restabelecimento da estabilidade total do ambiente. Reiteramos que o impacto atinge uma parcela mínima de requisições; portanto, caso sua operação não tenha apresentado elevação na taxa de erros no último intervalo, você possivelmente não foi afetado. Este cenário segue sendo tratado com prioridade máxima por nossas equipes de operações. Equipe Unico.
- monitoring Apr 08, 2026, 03:19 AM UTC
Prezado Cliente, Informamos que as ações corretivas para a instabilidade na capacidade de captura e reaproveiramento de documentos foram executadas com sucesso e o ambiente já apresenta estabilidade. O comportamento foi mitigado através do rollback de uma configuração feita em nossa plataforma, restabelecendo o fluxo normal das operações. Neste momento, iniciamos um período de monitoramento rigoroso e acompanhamento assistido para garantir a consistência da performance. Os serviços já podem ser utilizados normalmente, mas nossa equipe permanece atenta a qualquer oscilação residual. Reiteramos que o impacto atingiu apenas uma parcela mínima de clientes; portanto, caso sua operação não tenha apresentado elevação no número de erros no último intervalo, você possivelmente não foi afetado. Seguiremos acompanhando o comportamento do ambiente e enviaremos novas atualizações em breve. Equipe Unico.
- resolved Apr 08, 2026, 03:22 AM UTC
Prezado Cliente, Informamos que o incidente relacionado à instabilidade na capacidade de captura e reaproveitamento de documentos foi totalmente resolvido. Segue o resumo executivo das ações tomadas: 1. Resumo Executivo e Impacto No dia 07/04/2026, entre 21h30 e 23h37, identificamos um aumento na taxa de erros para o envio de documentos em fluxos específicos. O impacto deu-se para uma parcela mínima de clientes e, caso sua operação não tenha apresentado elevação no número de erros no intervalo mencionado, você não foi afetado. 2. Causa Raiz e Resolução A causa do problema foi identificada como uma inconsistência técnica originada por um ajuste realizado em nossa plataforma. Assim que a origem foi mapeada, nossa engenharia realizou o rollback imediato do ajuste, restabelecendo o pleno funcionamento de todos os serviços às 23h37. 3. Compromisso e Próximos Passos Reforçamos nosso compromisso com a estabilidade de nossa plataforma e informamos que um Postmortem detalhado será compartilhado em breve com as equipes responsáveis. Nossos times seguem revisando os processos de homologação para evitar a reincidência de cenários similares. Lamentamos sinceramente o transtorno causado e permanecemos à disposição. Equipe Unico.
- postmortem May 07, 2026, 01:23 PM UTC
## Relatório de Incidente \(Postmortem\) ### Resumo Em 7 de abril de 2026, nossa plataforma experimentou uma instabilidade na infraestrutura que reduziu a disponibilidade das operações de criação e validação de processos. Uma falha na sincronização de nossa malha de serviços causou atualizações incorretas em algumas instâncias de aplicativos, resultando em degradação de desempenho, alta latência e falhas sistêmicas em solicitações de usuários. ### Impacto * **Duração:** O impacto sistêmico teve início por volta das 19:41 e a indisponibilidade foi solucionada às 21:20 \(horário local\). * **Severidade:** Entre 1% e 3% das transações na plataforma falharam intermitentemente durante o período. * **Experiência do Cliente:** Múltiplos clientes corporativos foram afetados simultaneamente. Os usuários finais que acessaram os serviços impactados enfrentaram mensagens de erro como "A operação foi cancelada" e falhas por esgotamento de tempo limite da requisição \(timeouts\). ### Causa Raiz * O incidente foi originado por uma saturação no controlador da malha de serviços e um consequente atraso na sincronização de arquivos de dados entre as instâncias de aplicativos e o controlador. * Eventos intensos de escalonamento da infraestrutura, como reduções agressivas de capacidade e a perda de servidores temporários \(spot instances\), sobrecarregaram a rede interna de comunicação e causaram a instabilidade. * Essa falha de comunicação fez com que as instâncias dos aplicativos entrassem em um estado severo de degradação, elevando o tempo de resposta \(latência\) dos processos em até 13 vezes acima da média. * Como essas instâncias com baixo desempenho mantiveram-se ativas e não reiniciaram automaticamente, os alertas existentes de saúde da infraestrutura \(baseados em falhas graves e reinicializações\) não foram acionados, mascarando o problema até que os alertas de erro mais amplos disparassem. ### Resolução * A equipe de engenharia conteve o incidente atuando com a reinicialização manual de todas as instâncias de aplicativos que apresentavam indicadores de latência elevada. * A estabilidade total das operações da plataforma foi confirmada e restabelecida por volta das 21:25. * Como ação paliativa imediata, as configurações de todos os aplicativos foram atualizadas para forçar uma melhor distribuição das cargas de trabalho entre os servidores físicos disponíveis, prevenindo a concentração de múltiplos processos críticos no mesmo servidor. ### Lições Aprendidas * **Pontos Cegos no Monitoramento:** O incidente destacou uma lacuna em nossos alertas operacionais, pois a degradação contínua da latência \(sem a falha completa que leva ao reinício do aplicativo\) permitiu que a instabilidade persistisse sem detecção automatizada e prolongou a resposta técnica. * **Riscos da Infraestrutura:** O uso de instâncias de infraestrutura temporária para cargas de trabalho críticas em produção, sem o atendimento a todos os pré-requisitos de segurança para este modelo, aumenta a exposição a falhas em cascata. * **Padronização de Implantação:** Práticas recomendadas para a distribuição equitativa de recursos computacionais não haviam sido implementadas uniformemente em todos os serviços, o que amplificou o raio de impacto quando servidores individuais ficaram sobrecarregados. * **Isolamento de Diagnóstico:** Pelo fato da falha atingir diversos serviços independentes simultaneamente, a equipe de resposta inicialmente priorizou hipóteses mais amplas focadas na infraestrutura \(zonas, componentes globais, etc.\), o que atrasou a identificação de que a correção poderia ser alcançada por meio do reinício direto das instâncias degradadas. ### Próximos Passos * Implementação de novos limiares e alertas de monitoramento com foco na latência individual dos serviços, garantindo a rápida identificação de degradação prolongada. * Revisão das políticas atuais de escalonamento de servidores, incluindo avaliações para o uso de infraestruturas sob demanda como modelo padrão, com o objetivo de mitigar as instabilidades nos controladores de rede.