Unico incident

Instabilidade parcial no liveness

Major Resolved View vendor source →

Unico experienced a major incident on May 12, 2026 affecting Prova de Vida (API) and IDCloud - By Unico (API), lasting 1h 57m. The incident has been resolved; the full update timeline is below.

Started
May 12, 2026, 12:11 AM UTC
Resolved
May 12, 2026, 02:09 AM UTC
Duration
1h 57m
Detected by Pingoru
May 12, 2026, 12:11 AM UTC

Affected components

Prova de Vida (API)IDCloud - By Unico (API)

Update timeline

  1. investigating May 12, 2026, 12:51 AM UTC

    Nossa monitoração identificou um impacto parcial em um fornecedor externo de liveness, podendo gerar impacto nos retornos das capacidades do ID Cloud e ID Pay

  2. identified May 12, 2026, 01:50 AM UTC

    Identificamos a causa da instabilidade no serviço de Liveness integrada às capacidades da Unico. Nosso time de tecnologia está atuando para reestabelecer o ambiente. Em breve retornamos com atualizações.

  3. monitoring May 12, 2026, 01:53 AM UTC

    Prezado Cliente, Nossa equipe identificou as causas do problema e realizou as ações para que este incidente fosse solucionado. Dentro de alguns dias compartilharemos maiores detalhes através de um Postmortem. Pedimos desculpas pelo transtorno e nos colocamos à disposição para sanar dúvidas através dos nossos canais de atendimento. Atenciosamente, Equipe Unico!

  4. resolved May 12, 2026, 02:09 AM UTC

    Incidente resolvido. Nossa equipe identificou as causas do problema e realizou as ações para que este incidente fosse solucionado. O impacto ocorreu entre às 21:11 e 22:25. Dentro de alguns dias compartilharemos maiores detalhes através de um Postmortem. Pedimos desculpas pelo transtorno e nos colocamos à disposição para sanar dúvidas através dos nossos canais de atendimento.

  5. postmortem Jun 09, 2026, 07:10 PM UTC

    **Resumo** Em 11 de maio de 2026, a partir das 21h32 \(horário de Brasília\), os fluxos de autenticação e captura de dados que dependem de um componente de validação de vivacidade de terceiros ficaram indisponíveis por aproximadamente 74 minutos, encerrando às 22h25. O incidente foi causado pela expiração de determinados componentes do serviço, resultando em falhas de autenticação e na indisponibilidade de múltiplos serviços. Aproximadamente 67.500 tentativas de captura de dados foram travadas durante o período. **Impacto** Usuários que utilizavam fluxos de autenticação dependentes do componente de validação de vivacidade afetado não conseguiram concluir suas jornadas. O impacto se estendeu além dos fluxos diretamente dependentes: o alto volume de erros ativou mecanismos de proteção da malha de serviço \(circuit breaker\), que ejetaram componentes de orquestração em uma das regiões de infraestrutura, deslocando o tráfego de forma instável para outra região e causando degradação adicional em serviços que estavam saudáveis. No total, mais de 40 alertas de indicadores de qualidade do serviço foram disparados. Clientes que utilizavam outro motor de validação de vivacidade não foram afetados. **Causa Raiz** A causa raiz foi devido a um erro em determinado componente de atualização de credenciais: O processo de renovação dependia de um passo manual — o agendamento de uma chamada de renovação 10 dias antes da expiração — que não foi executado na última rotação. Adicionalmente, o fornecedor havia reduzido o ciclo de validade das credenciais de 3 meses para 1 mês sem que os controles internos fossem ajustados, fazendo com que a expiração ocorresse antes do prazo esperado pela equipe. Não havia monitoramento automatizado para detectar a aproximação da expiração. **Resolução** Após identificar a mensagem de erro do SDK indicando a expiração do componente, a equipe realizou a rotação e reiniciou todos os serviços relevantes. Uma autenticação bem-sucedida foi confirmada após a atualização, e a recuperação dos indicadores de saúde foi observada nos painéis de monitoramento. O serviço voltou ao normal às 22h25. **Lições Aprendidas** * O processo de gestão de credenciais de SDKs externos dependia exclusivamente de um passo manual sujeito a falha humana, sem nenhum mecanismo automatizado de backup. A criação de um agente de monitoramento de expiração de credenciais externas é a melhoria mais crítica identificada neste incidente. * Mudanças nos ciclos de validade impostas por fornecedores externos precisam ser capturadas e refletidas nos controles internos imediatamente, para evitar que expectativas desatualizadas levem a renovações fora do prazo. * O comportamento do circuit breaker da malha de serviço amplificou o impacto: ao ser ativado por erros de conexão com uma dependência específica, ele afetou serviços que estavam completamente saudáveis. Restringir o circuit breaker para atuar apenas em falhas de conexão — em vez de todos os erros 5xx — reduziria significativamente o raio de impacto em incidentes semelhantes. * Este incidente reforça a necessidade de uma auditoria ampla sobre outras credenciais, tokens e certificados externos que possam estar sem monitoramento automatizado de expiração.