Unico incident

Degradação de Performance nas Integrações ID

Unico experienced a minor incident on January 26, 2026 affecting Score de Risco (API) and Verificação Identidade (API) and 1 more component, lasting 1h 57m. The incident has been resolved; the full update timeline is below.

Started: Jan 26, 2026, 06:45 PM UTC
Resolved: Jan 26, 2026, 08:43 PM UTC
Duration: 1h 57m
Detected by Pingoru: Jan 26, 2026, 06:45 PM UTC

Affected components

Score de Risco (API)Verificação Identidade (API)IDTrust | Alerta de Comportamento (API)IDCloud - By Unico (API)

Update timeline

identified Jan 26, 2026, 06:45 PM UTC

Em investigação: Nossa equipe de monitoramento identificou um aumento de latência a com impacto em todas as capacidades IDcloud. Em breve voltamos com mais atualizações. Atenciosamente, Equipe Unico
identified Jan 26, 2026, 07:19 PM UTC

Atualização do Incidente: Identificamos uma sobrecarga na camada de dados que está causando latência e erros intermitentes nas funcionalidades de detalhes dos processos. Como medida imediata, redirecionamos o tráfego para uma infraestrutura de banco de dados secundária e reiniciamos os serviços afetados. O sistema ainda apresenta sinais de instabilidade e nossa engenharia segue em análise de causas e medidas corretivas. Voltaremos em breve com atualizações.
monitoring Jan 26, 2026, 07:56 PM UTC

Incidente sendo monitorado em fase de normalização Resumo e Impacto: Informamos que o acesso à visualização de detalhes de processos passou por uma breve instabilidade, resultando em respostas mais lentas do que o habitual para alguns usuários. Nossa equipe identificou o comportamento rapidamente e trabalhou para restabelecer a fluidez da plataforma. Desde as 16:15, o sistema opera com estabilidade e o desempenho já retornou aos padrões de normalidade, garantindo uma experiência de uso adequada a todos os nossos clientes. Causa e Resolução: A oscilação ocorreu devido à implementação de uma atualização que demandou um esforço de processamento acima do esperado em nossa base de dados. Como medida imediata, pausamos a nova função e ajustamos a distribuição de carga entre nossos servidores para aliviar o sistema. Com essas ações, a navegação foi normalizada. Seguimos monitorando o ambiente para assegurar a continuidade do serviço e a melhor performance em todas as funcionalidades.
resolved Jan 26, 2026, 08:43 PM UTC

Resumo Executivo Pós Incidente Este incidente resultou em alta latência e erros intermitentes na funcionalidade de visualização de detalhes de processos, afetando a experiência de uso de uma parcela de nossos clientes. A instabilidade foi detectada via monitoramento automático, que apontou uma degradação severa na performance das consultas ao banco de dados. Durante o período de ocorrência entre 15h22 e 16h15, os usuários enfrentaram lentidão significativa ou falhas ao tentar acessar informações específicas em nossa plataforma, embora as demais funcionalidades tenham permanecido operacionais. Causa Raiz e Resolução: A investigação identificou que a causa raiz foi a ativação de uma nova configuração de funcionalidade (feature flag) para um cenário de alto volume de dados. Esta configuração acionou uma consulta ao banco de dados que não utilizava os filtros de partição adequados, forçando o sistema a realizar varreduras completas em todas as tabelas a cada requisição, o que sobrecarregou a memória das réplicas de leitura. A situação foi mitigada através do redirecionamento do tráfego para réplicas secundárias e, definitivamente, resolvida com a desativação da configuração ofensora. O serviço foi totalmente estabilizado e o desempenho das consultas normalizado após a correção da lógica de busca.
postmortem Jan 30, 2026, 11:58 AM UTC

# Postmortem: Degradação de Performance nas Integrações ID ## **Resumo** No dia 26 de janeiro de 2026, entre **15:10 e 16:10**, nosso serviço de autenticação e processamento \(TCA\) apresentou degradação significativa, resultando em alta latência e erros de conexão para diversos clientes. O incidente foi desencadeado por uma saturação no pool de recursos do banco de dados, causada por consultas ineficientes durante um processo de migração de dados e agravada por uma configuração de funcionalidade específica. ## **Impacto** * **Duração:** 1 hora. * **Serviços Afetados:** O portal de gerenciamento e as APIs de consulta de detalhes de processos e selfies. * **Experiência do Usuário:** Clientes enfrentaram erros de timeout \(500\) e falhas na conclusão de jornadas que dependiam da visualização de dados de biometria. * **Escopo:** Inicialmente limitado a consultas específicas, o problema evoluiu para uma degradação generalizada de todas as jornadas do serviço devido ao esgotamento de conexões do banco de dados. ## **Causa Raiz** A causa raiz foi a **saturação de recursos no banco de dados**. ‌ 1. **Consultas Ineficientes:** Durante uma migração de dados, o volume de requisições aumentou, executando consultas em tabelas particionadas sem a identificação do índice de partição. 2. **Full Scans:** Sem o índice, o banco realizava varreduras completas em mais de 300 partições para cada busca, consumindo rapidamente o pool de "locks" disponíveis. 3. **Efeito Cascata:** O esgotamento desses recursos causou lentidão generalizada. Em resposta, o sistema tentou escalar automaticamente, o que abriu ainda mais conexões, limpando o cache de memória do banco e degradando a performance global. 4. **Configuração de Feature:** Uma funcionalidade ativada recentemente também realizava consultas sem índices, contribuindo para a carga excessiva. ## **Resolução** Para restaurar a estabilidade, a equipe técnica adotou as seguintes medidas: * **Suspensão da Migração:** O processo de importação de dados foi interrompido imediatamente para reduzir a carga. * **Desativação de Funcionalidade:** A configuração de consulta de selfies foi desabilitada globalmente, o que permitiu a recuperação imediata da performance do banco de dados. * **Troca de Réplica:** Tentou-se o redirecionamento do tráfego para diferentes instâncias de leitura para mitigar o gargalo. * **Hotfix:** Foi aplicado um ajuste emergencial no código para garantir que todas as consultas utilizassem obrigatoriamente os índices de partição corretos. ## **Lições Aprendidas** * **Visibilidade de Recursos:** Identificamos a necessidade de monitorar métricas específicas de exaustão de recursos de banco de dados \(como locks\) que não estavam em nosso monitoramento padrão. * **Validação de Índices:** Reforçamos a importância de garantir que novos endpoints ou processos de migração nunca realizem buscas em tabelas particionadas sem os filtros adequados. * **Gestão de Configurações:** Melhorar a correlação entre a ativação de funcionalidades \(flags\) e métricas de performance para reduzir o tempo de identificação de problemas \(MTTR\). ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. ‌ Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.