Unico incident

Instabilidade no Serviço de Integração IDunico e liveness

Major Resolved View vendor source →
Started
Apr 07, 2026, 11:24 PM UTC
Resolved
Apr 08, 2026, 12:55 AM UTC
Duration
1h 30m
Detected by Pingoru
Apr 07, 2026, 11:24 PM UTC

Affected components

Verificação Identidade (API)Prova de Vida (API)

Update timeline

  1. investigating Apr 08, 2026, 12:08 AM UTC

    Prezado Cliente, Identificamos uma instabilidade em nossa infraestrutura que pode estar impactando a disponibilidade de uma parcela mínima de nossas requisições em nossos serviços do IDCloud. Nossa engenharia já está totalmente mobilizada e atuando no diagnóstico e isolamento da causa raiz para normalizar o ambiente o mais breve possível. Até o momento, o cenário apresenta intermitência e atinge aproximadamente 1% das transações; portanto, caso não tenha identificado uma elevação na sua taxa de erros no último intervalo, sua operação possivelmente não foi afetada. Reforçamos nosso compromisso com a transparência e enviaremos novas atualizações assim que houver novidades sobre a resolução. Equipe Unico.

  2. identified Apr 08, 2026, 12:11 AM UTC

    Prezado Cliente, Informamos que a origem da instabilidade foi devidamente mapeada por nosso time de especialistas. Identificamos que o comportamento observado decorreu de uma inconsistência técnica em componentes de conectividade e orquestração do cluster que suporta o IDCloud. Nossa engenharia já iniciou as medidas corretivas e o escalonamento de recursos para restabelecer a estabilidade total do ambiente. Reiteramos que o impacto observado é intermitente e atinge uma parcela mínima das transações (aproximadamente 1%). Este cenário segue sendo tratado com prioridade máxima por nossas equipes de operações e infraestrutura. Equipe Unico.

  3. identified Apr 08, 2026, 12:41 AM UTC

    Prezado Cliente, Informamos que as ações corretivas foram executadas com sucesso e o ambiente já apresenta estabilidade. Neste momento, nossas equipes de engenharia e operações iniciaram um período de monitoramento rigoroso e acompanhamento assistido de indicadores para garantir a consistência da performance em toda a nossa malha de serviços. Os serviços já podem ser utilizados normalmente, mas permaneceremos atentos a qualquer oscilação residual. Reiteramos que o impacto atingiu apenas uma parcela mínima de requisições de forma intermitente (aproximadamente 1% das transações). Seguiremos acompanhando o comportamento do ambiente e enviaremos novas atualizações em breve. Equipe Unico.

  4. resolved Apr 08, 2026, 12:55 AM UTC

    Prezado Cliente, Informamos que o incidente de instabilidade em nossa infraestrutura foi totalmente resolvido. Segue o resumo executivo das ações tomadas: 1. Resumo Executivo e Impacto No dia 07/04/2026, entre 20h23 e 21h25, identificamos uma instabilidade que afetou a disponibilidade de serviços da plataforma IDCloud. O incidente causou erros intermitentes em uma parcela de aproximadamente 1% das transações globais. 2. Causa Raiz e Resolução A investigação técnica identificou uma interrupção em componentes de monitoramento e orquestração no nível da infraestrutura, o que gerou uma distribuição ineficiente de carga entre os servidores. Como medida de resolução, nossa engenharia realizou o reinício escalonado dos serviços afetados e aplicou novas políticas de distribuição de recursos para garantir que o processamento seja isolado e resiliente a falhas de nós individuais. Após essas intervenções, o ambiente apresentou estabilidade total a partir das 21h25. 3. Compromisso e Próximos Passos Nossas equipes permanecem monitorando os indicadores de performance para garantir a consistência do ambiente. Um Postmortem detalhado, com o plano de ações preventivas para evitar a reincidência deste cenário, será elaborado e compartilhado em breve. Lamentamos o transtorno e reafirmamos nosso compromisso com a transparência e a qualidade de nossos serviços. Equipe Unico.

  5. postmortem Apr 27, 2026, 03:12 PM UTC

    **Postmortem: Instabilidade no Serviço de Integração IDunico e liveness** ‌ **Resumo** Em 7 de abril de 2026, uma instabilidade na infraestrutura causou erros intermitentes e alta latência em nossa plataforma. Aproximadamente 3% das transações foram afetadas durante o período do incidente. A equipe de engenharia diagnosticou e mitigou o problema, restabelecendo a estabilidade normal dos serviços. ‌ **Impacto** O problema impactou principalmente as etapas de criação de processos e validações do sistema. Diversos clientes relataram erros HTTP 500, recebendo mensagens de tempo limite de requisição e operações canceladas. O impacto na disponibilidade teve início às 19:41 e a plataforma foi totalmente estabilizada às 21:25 do horário local. ‌ **Causa Raiz** A causa principal do incidente foi a saturação no controlador da malha de serviços \(service mesh\) e o consequente atraso na sincronização de configurações com as aplicações. ‌ * Esse cenário foi desencadeado por eventos de escalonamento \(aumentos e reduções\) da infraestrutura. * A falha na sincronização fez com que as aplicações entrassem em um estado de degradação, resultando em uma latência até 13 vezes maior que o normal. * Como essas instâncias degradadas não chegaram a falhar completamente ou a reiniciar sozinhas, os alertas padrões de saúde do sistema, que monitoram falhas totais, não foram acionados. **Resolução** A estabilidade foi restaurada após a equipe técnica identificar a causa e reiniciar manualmente as instâncias que apresentavam alta latência. Como medida adicional imediata, foi aplicada uma atualização nas configurações para forçar uma melhor distribuição das aplicações entre os servidores da infraestrutura, evitando a concentração de carga em um único nó. ‌ **Lições Aprendidas** * **Monitoramento e Alertas:** A ausência de alertas específicos para degradação prolongada de latência atrasou o diagnóstico. A implementação de alertas baseados em aumentos sustentados de tempo de resposta é necessária para reduzir drasticamente o tempo de detecção de problemas semelhantes no futuro. * **Distribuição de Carga:** A prática recomendada de evitar a alocação de múltiplas aplicações no mesmo servidor não estava sendo aplicada de forma universal. Isso acabou amplificando o impacto do incidente quando os recursos da infraestrutura foram saturados. * **Escalonamento e Resiliência:** A análise revelou que eventos agressivos de redução de escala em ambientes de infraestrutura dinâmica podem causar sobrecarga na malha de serviços e gerar falhas em cascata. É essencial revisar as políticas de escalonamento e as regras de rede dos serviços virtuais para garantir uma operação mais resiliente e segura.

Looking to track Unico downtime and outages?

Pingoru polls Unico's status page every 5 minutes and alerts you the moment it reports an issue — before your customers do.

  • Real-time alerts when Unico reports an incident
  • Email, Slack, Discord, Microsoft Teams, and webhook notifications
  • Track Unico alongside 5,000+ providers in one dashboard
  • Component-level filtering
  • Notification groups + maintenance calendar
Start monitoring Unico for free

5 free monitors · No credit card required