Unico Outage History

Unico is up right now

There were 31 Unico outages since February 10, 2026 totaling 54h 14m of downtime. Each is summarised below — incident details, duration, and resolution information.

Source: https://status.acesso.io

Major April 29, 2026

Instabilidade no Serviço de Captura e Reaproveitamento de Documentos (ID DOCS)

Detected by Pingoru
Apr 29, 2026, 09:10 PM UTC
Resolved
Apr 29, 2026, 09:51 PM UTC
Duration
40m
Affected: Documentos (API)
Timeline · 2 updates
  1. investigating Apr 29, 2026, 09:29 PM UTC

    Prezado Cliente, Nossa monitoração identificou um impacto na capacidade de Captura e Reaproveitamento de Documentos(IDDocs), podendo afetar os processos integrados a essa capacidade. Nosso time de tecnologia está analisando o ambiente e em breve retornaremos com novas atualizações.

  2. resolved Apr 29, 2026, 09:51 PM UTC

    Prezados, Gostaríamos de informar que o incidente relacionado ao produto ID Docs foi integralmente resolvido. Nossa infraestrutura está operando com estabilidade e todos os indicadores de performance retornaram aos níveis de normalidade. Abaixo, apresentamos o resumo executivo detalhado sobre o evento: 1. Resumo Executivo e Impacto No intervalo compreendido entre 18:09 e 18:23 (Horário de Brasília), identificamos uma oscilação na disponibilidade dos fluxos de processamento de documentos. O impacto deu-se para uma parcela mínima de clientes, resultando em uma degradação temporária dos níveis de serviço (SLO) especificamente neste período. Caso sua operação não tenha registrado uma elevação no volume de erros dentro desta janela de 14 minutos, sua conta não foi afetada pelo evento. 2. Causa Raiz e Resolução A indisponibilidade foi originada por um evento técnico inesperado em nossa infraestrutura dedicado ao produto ID Docs. Assim que a anomalia foi detectada pelos nossos sistemas de monitoramento, o time de engenharia atuou prontamente para isolar o componente afetado e estabilizar o serviço. A correção foi implementada com sucesso, restabelecendo a plena funcionalidade de todas as camadas do produto. 3. Compromisso e Próximos Passos A Unico preza pela transparência e pela excelência operacional. Como parte de nossos protocolos de governança, nosso time de tecnologia já iniciou a elaboração de um Postmortem detalhado, que será compartilhado em breve. Pedimos sinceras desculpas pelo inconveniente causado. Seguimos à disposição para quaisquer esclarecimentos adicionais. Equipe Unico.

Read the full incident report →

Major April 29, 2026

Instabilidade na criação de processos - IDCloud

Detected by Pingoru
Apr 29, 2026, 03:05 PM UTC
Resolved
Apr 29, 2026, 03:35 PM UTC
Duration
30m
Affected: Verificação Identidade (API)Prova de Vida (API)IDCloud - By Unico (API)SDK
Timeline · 3 updates
  1. investigating Apr 29, 2026, 03:23 PM UTC

    Prezado Cliente, Identificamos uma instabilidade em nossos serviços que pode ter impactado a disponibilidade de uma parcela mínima de nossas requisições para os fluxos do IDCloud(ByUnico e ByClient) Nossa engenharia já está totalmente mobilizada para identificar o motivador do incidente e monitorando o ambiente. Os picos de erros iniciaram por volta das 12:00BRT e foram resolvidos as 12:09BRT pelo nosso time de engenharia. Reforçamos nosso compromisso com a transparência e enviaremos novas atualizações assim que houver novidades sobre a resolução. Equipe Unico.

  2. monitoring Apr 29, 2026, 03:27 PM UTC

    Prezado Cliente, Informamos que as ações corretivas foram executadas com sucesso e o ambiente já apresenta estabilidade. Neste momento, nossas equipes de engenharia e operações iniciaram um período de monitoramento rigoroso e acompanhamento assistido de indicadores para garantir a consistência da performance em toda a nossa malha de serviços. Os serviços já podem ser utilizados normalmente, mas permaneceremos atentos a qualquer oscilação residual. Reiteramos que o impacto atingiu apenas uma parcela mínima de requisições. Seguiremos acompanhando o comportamento do ambiente e enviaremos novas atualizações em breve. Equipe Unico.

  3. resolved Apr 29, 2026, 03:42 PM UTC

    Prezado Cliente, Incidente resolvido. Informamos que as ações corretivas foram executadas com sucesso e o ambiente já apresenta estabilidade. Neste momento, nossas equipes de engenharia e operações iniciaram um período de monitoramento rigoroso e acompanhamento assistido de indicadores para garantir a consistência da performance em toda a nossa malha de serviços. Os serviços já podem ser utilizados normalmente. Pedimos desculpas pelo transtorno e em breve compartilharemos mais detalhes do ocorrido através de um PostMortem. Atenciosamente, Equipe Unico

Read the full incident report →

Minor April 27, 2026

Instabilidade e Degradação de Performance - IDLive

Detected by Pingoru
Apr 27, 2026, 01:30 AM UTC
Resolved
Apr 27, 2026, 02:20 AM UTC
Duration
50m
Affected: Prova de Vida (API)
Timeline · 3 updates
  1. identified Apr 27, 2026, 02:08 AM UTC

    Identificamos a causa raiz da instabilidade. A degradação e o aumento de latência ocorreram devido a um pico atípico e massivo de requisições, que acabou impactando uma parcela de nossos clientes. Gostaríamos de tranquilizá-los informando que nossa equipe de engenharia já mapeou a origem do problema e iniciou imediatamente a implementação das medidas corretivas. O escalonamento de recursos e os ajustes de tráfego já estão em curso para estabilizar totalmente o produto e garantir que a volumetria seja absorvida sem novos impactos. Enviaremos uma nova atualização em breve. Equipe Unico.

  2. monitoring Apr 27, 2026, 02:09 AM UTC

    Gostaríamos de informar que as ações corretivas foram executadas com sucesso. Realizamos o escalonamento de recursos necessários para a absorção da volumetria atípica de requisições e o ambiente já apresenta estabilidade. Vale ressaltar que o impacto sistêmico ocorreu apenas para uma parcela mínima de clientes. Portanto, caso a sua operação não tenha registrado um aumento no número de erros durante o período de instabilidade, ela não foi afetada. O motor sistema já pode ser utilizado normalmente em suas operações. No entanto, por precaução, manteremos o ambiente sob acompanhamento assistido. Nossa equipe de engenharia segue realizando um monitoramento rigoroso das métricas para garantir a consistência da performance e atuará imediatamente diante de qualquer oscilação. Agradecemos a compreensão de todos durante as tratativas. Equipe Unico.

  3. resolved Apr 27, 2026, 02:20 AM UTC

    Resumo Executivo e Impacto: Informamos que o incidente que afetou a disponibilidade do IDLive foi totalmente mitigado e o serviço encontra-se operando com estabilidade e dentro dos parâmetros normais. A instabilidade ocorreu hoje, das 22:30 às 22:46, resultando em elevação de latência e degradação temporária do nosso motor de liveness. Reforçamos que o impacto sistêmico ocorreu apenas para uma parcela mínima de clientes. Caso a sua operação não tenha registrado um aumento no número de erros durante este curto intervalo, ela consequentemente não foi afetada. Além disso, destacamos de forma categórica que este evento não resultou em qualquer tipo de comprometimento ou perda de dados. Nossa equipe de engenharia atuou rapidamente para realizar a normalização do ambiente. O sistema voltou à estabilidade às 22:46 e, após um período de monitoramento rigoroso e acompanhamento assistido, confirmamos a normalização total da performance. Um documento de Postmortem detalhado será compartilhado em breve, contendo análises aprofundadas e o mapeamento completo das ações preventivas que serão implementadas em nossa infraestrutura. Pedimos sinceras desculpas por qualquer inconveniente que este evento possa ter causado às suas operações e agradecemos a confiança e a parceria de sempre. Equipe Unico.

Read the full incident report →

Minor April 15, 2026

Instabilidade no Serviço de Integração By Unico, IDTtrust, IDunico e liveness

Detected by Pingoru
Apr 15, 2026, 07:49 PM UTC
Resolved
Apr 15, 2026, 09:23 PM UTC
Duration
1h 34m
Affected: Verificação Identidade (API)Prova de Vida (API)IDCloud - By Unico (API)
Timeline · 4 updates
  1. identified Apr 15, 2026, 07:49 PM UTC

    Prezado Cliente, Identificamos uma instabilidade na capacidade de criação de processos em nossa plataforma, o que pode impactar a disponibilidade e a performance do produto IDCloud (Create Process). Nossa engenharia já está mobilizada para o diagnóstico e identificação da causa raiz. No momento, observamos um aumento na latência e interrupções pontuais na jornada de processamento. Estamos tratando o caso com prioridade máxima para restabelecer a normalidade o mais breve possível. Novas atualizações serão enviadas em breve. Equipe Unico.

  2. identified Apr 15, 2026, 08:31 PM UTC

    Prezado Cliente, Status: Em correção Confirmamos que a origem do problema foi mapeada. Identificamos uma latência elevada em serviços internos de processamento, o que gerou um efeito cascata de timeouts na criação de processos do IDCloud. Nossa equipe já iniciou medidas corretivas, incluindo a reinicialização de componentes específicos. O time de engenharia permanece atuando com urgência para garantir que o fluxo de requisições seja normalizado imediatamente. Equipe Unico.

  3. monitoring Apr 15, 2026, 08:32 PM UTC

    Prezado Cliente, Informamos que as ações corretivas, como o restart de serviços e a contenção de processos auxiliares, foram executadas e o ambiente já apresenta sinais de recuperação e estabilidade. O serviço já pode ser utilizado, porém manteremos um acompanhamento assistido e um monitoramento rigoroso dos indicadores de latência e disponibilidade pelos próximos minutos. Nossa equipe permanece em prontidão para atuar diante de qualquer nova oscilação na performance. Equipe Unico.

  4. resolved Apr 15, 2026, 09:23 PM UTC

    Prezado Cliente, Informamos o encerramento do incidente relacionado ao IDCloud. Resumo Executivo e Impacto Entre 16:25 e 17:33, observamos uma queda na disponibilidade e alta latência no fluxo de criação de processos (IDUnico Sync). O impacto manifestou-se através de erros de timeout e falhas pontuais na jornada de autenticação e no motor de liveness. O serviço foi totalmente restabelecido e as métricas de performance retornaram aos níveis operacionais. Ressaltamos que não houve perda ou comprometimento de dados. Causa Raiz e Resolução A instabilidade foi causada por um conflito na atualização de configurações interna durante um processo de escalonamento automático. Isso gerou uma sobrecarga nos componentes de comunicação em um pool de recursos que apresentava baixa folga de processamento. A resolução envolveu a reinicialização dos componentes travados, o isolamento de nós de infraestrutura degradados e o aumento planejado de capacidade em zonas de redundância. Compromisso e Próximos Passos Como medida preventiva, estamos revisando as políticas de escalonamento automático e a compatibilidade de versões dos componentes de rede para evitar novos conflitos de configuração. Um Postmortem detalhado será compartilhado em breve com o detalhamento das ações de longo prazo. Pedimos desculpas pelo impacto e agradecemos a compreensão. Equipe Unico.

Read the full incident report →

Major April 15, 2026

IDLive - Instabilidade na capacidade de Prova de Vida

Detected by Pingoru
Apr 15, 2026, 01:07 PM UTC
Resolved
Apr 15, 2026, 05:44 PM UTC
Duration
4h 37m
Affected: Prova de Vida (API)
Timeline · 3 updates
  1. identified Apr 15, 2026, 01:19 PM UTC

    Prezado Cliente, Nossa monitoração identificou um impacto no retorno das requisições da capacidade de Prova de Vida (IDLive). Afetando uma pequena porcentagem de requisições. Nossa equipe de engenharia já foi mobilizada e está atuando com prioridade máxima no diagnóstico da causa raiz para restabelecer a normalidade o quanto antes. Reforçamos nosso compromisso com a estabilidade de sua operação e enviaremos novas atualizações assim que tivermos mais detalhes sobre a evolução do caso. Atenciosamente, Equipe Unico.

  2. monitoring Apr 15, 2026, 01:24 PM UTC

    Prezado Cliente, Informamos que as ações corretivas necessárias foram executadas com sucesso por nossa equipe técnica e o motor de liveness já apresenta estabilidade em sua operação. O ajuste foi implementado e o ambiente encontra-se normalizado. Iniciamos agora uma fase de monitoramento rigoroso e acompanhamento assistido para garantir a consistência da performance em todas as transações. O serviço já pode ser utilizado normalmente, e nossa equipe permanece em alerta para assegurar a continuidade da estabilidade. Manteremos a observação ativa para confirmar a total integridade do ecossistema. Atenciosamente, Equipe Unico.

  3. resolved Apr 15, 2026, 05:44 PM UTC

    Prezado Cliente, Informamos o encerramento do incidente relacionado ao IDCloud (IDLive). Resumo Executivo e Impacto Entre 09:27 e 10:15, identificamos uma degradação na disponibilidade do motor de liveness. Durante este intervalo, uma pequena porcentagem das requisições recebeu respostas de erro (rate limiting), ocasionando falhas pontuais de processamento. O serviço foi totalmente restabelecido e opera dentro dos padrões de normalidade. Ressaltamos que não houve qualquer perda ou comprometimento de dados. Causa Raiz e Resolução A instabilidade foi causada por um comportamento atípico durante a fase de implantação (canary deploy) de uma nova versão, que gerou um desbalanceamento na distribuição de carga entre os servidores. A resolução foi alcançada através da promoção total da versão e do rebalanceamento das instâncias na camada de processamento, garantindo a equalização do tráfego. Compromisso e Próximos Passos Nossa equipe de engenharia já está trabalhando em melhorias estruturais no processo de deploy para mitigar este tipo de comportamento em atualizações futuras. Um Postmortem detalhado será compartilhado em breve com os detalhes técnicos e as ações preventivas adotadas. Pedimos desculpas pelos transtornos causados e reforçamos nosso compromisso com a transparência e a excelência de nossos serviços. Equipe Unico.

Read the full incident report →

Major April 8, 2026

Instabilidade no Serviço de Captura e reaproveitamento de documentos (IDDocs) com potencial impacto nas capacidades do ID Cloud

Detected by Pingoru
Apr 08, 2026, 12:30 AM UTC
Resolved
Apr 08, 2026, 02:37 AM UTC
Duration
2h 6m
Affected: Documentos (API)
Timeline · 4 updates
  1. investigating Apr 08, 2026, 03:13 AM UTC

    Prezado Cliente, Identificamos uma instabilidade na capacidade de captura e reaproveiramento de documentos, que tem impactado fluxos específicos de envio. Nossa engenharia já está totalmente mobilizada e atuando no diagnóstico para normalizar a operação o mais breve possível. Até o momento, o cenário afeta uma parcela mínima de clientes. Caso sua operação não tenha apresentado elevação no número de erros no último intervalo, você possivelmente não foi impactado. Reforçamos nosso compromisso com a transparência e enviaremos novas atualizações em breve. Equipe Unico.

  2. identified Apr 08, 2026, 03:15 AM UTC

    Prezado Cliente, Informamos que a origem da instabilidade na capacidade de captura e reaproveiramento de documentos foi devidamente mapeada por nosso time de especialistas. Identificamos que o comportamento observado decorreu de uma inconsistência técnica após a implementação de uma melhoria em nossa plataforma. Nossa engenharia já iniciou as medidas corretivas para o restabelecimento da estabilidade total do ambiente. Reiteramos que o impacto atinge uma parcela mínima de requisições; portanto, caso sua operação não tenha apresentado elevação na taxa de erros no último intervalo, você possivelmente não foi afetado. Este cenário segue sendo tratado com prioridade máxima por nossas equipes de operações. Equipe Unico.

  3. monitoring Apr 08, 2026, 03:19 AM UTC

    Prezado Cliente, Informamos que as ações corretivas para a instabilidade na capacidade de captura e reaproveiramento de documentos foram executadas com sucesso e o ambiente já apresenta estabilidade. O comportamento foi mitigado através do rollback de uma configuração feita em nossa plataforma, restabelecendo o fluxo normal das operações. Neste momento, iniciamos um período de monitoramento rigoroso e acompanhamento assistido para garantir a consistência da performance. Os serviços já podem ser utilizados normalmente, mas nossa equipe permanece atenta a qualquer oscilação residual. Reiteramos que o impacto atingiu apenas uma parcela mínima de clientes; portanto, caso sua operação não tenha apresentado elevação no número de erros no último intervalo, você possivelmente não foi afetado. Seguiremos acompanhando o comportamento do ambiente e enviaremos novas atualizações em breve. Equipe Unico.

  4. resolved Apr 08, 2026, 03:22 AM UTC

    Prezado Cliente, Informamos que o incidente relacionado à instabilidade na capacidade de captura e reaproveitamento de documentos foi totalmente resolvido. Segue o resumo executivo das ações tomadas: 1. Resumo Executivo e Impacto No dia 07/04/2026, entre 21h30 e 23h37, identificamos um aumento na taxa de erros para o envio de documentos em fluxos específicos. O impacto deu-se para uma parcela mínima de clientes e, caso sua operação não tenha apresentado elevação no número de erros no intervalo mencionado, você não foi afetado. 2. Causa Raiz e Resolução A causa do problema foi identificada como uma inconsistência técnica originada por um ajuste realizado em nossa plataforma. Assim que a origem foi mapeada, nossa engenharia realizou o rollback imediato do ajuste, restabelecendo o pleno funcionamento de todos os serviços às 23h37. 3. Compromisso e Próximos Passos Reforçamos nosso compromisso com a estabilidade de nossa plataforma e informamos que um Postmortem detalhado será compartilhado em breve com as equipes responsáveis. Nossos times seguem revisando os processos de homologação para evitar a reincidência de cenários similares. Lamentamos sinceramente o transtorno causado e permanecemos à disposição. Equipe Unico.

Read the full incident report →

Major April 7, 2026

Instabilidade no Serviço de Integração IDunico e liveness

Detected by Pingoru
Apr 07, 2026, 11:24 PM UTC
Resolved
Apr 08, 2026, 12:55 AM UTC
Duration
1h 30m
Affected: Verificação Identidade (API)Prova de Vida (API)
Timeline · 5 updates
  1. investigating Apr 08, 2026, 12:08 AM UTC

    Prezado Cliente, Identificamos uma instabilidade em nossa infraestrutura que pode estar impactando a disponibilidade de uma parcela mínima de nossas requisições em nossos serviços do IDCloud. Nossa engenharia já está totalmente mobilizada e atuando no diagnóstico e isolamento da causa raiz para normalizar o ambiente o mais breve possível. Até o momento, o cenário apresenta intermitência e atinge aproximadamente 1% das transações; portanto, caso não tenha identificado uma elevação na sua taxa de erros no último intervalo, sua operação possivelmente não foi afetada. Reforçamos nosso compromisso com a transparência e enviaremos novas atualizações assim que houver novidades sobre a resolução. Equipe Unico.

  2. identified Apr 08, 2026, 12:11 AM UTC

    Prezado Cliente, Informamos que a origem da instabilidade foi devidamente mapeada por nosso time de especialistas. Identificamos que o comportamento observado decorreu de uma inconsistência técnica em componentes de conectividade e orquestração do cluster que suporta o IDCloud. Nossa engenharia já iniciou as medidas corretivas e o escalonamento de recursos para restabelecer a estabilidade total do ambiente. Reiteramos que o impacto observado é intermitente e atinge uma parcela mínima das transações (aproximadamente 1%). Este cenário segue sendo tratado com prioridade máxima por nossas equipes de operações e infraestrutura. Equipe Unico.

  3. identified Apr 08, 2026, 12:41 AM UTC

    Prezado Cliente, Informamos que as ações corretivas foram executadas com sucesso e o ambiente já apresenta estabilidade. Neste momento, nossas equipes de engenharia e operações iniciaram um período de monitoramento rigoroso e acompanhamento assistido de indicadores para garantir a consistência da performance em toda a nossa malha de serviços. Os serviços já podem ser utilizados normalmente, mas permaneceremos atentos a qualquer oscilação residual. Reiteramos que o impacto atingiu apenas uma parcela mínima de requisições de forma intermitente (aproximadamente 1% das transações). Seguiremos acompanhando o comportamento do ambiente e enviaremos novas atualizações em breve. Equipe Unico.

  4. resolved Apr 08, 2026, 12:55 AM UTC

    Prezado Cliente, Informamos que o incidente de instabilidade em nossa infraestrutura foi totalmente resolvido. Segue o resumo executivo das ações tomadas: 1. Resumo Executivo e Impacto No dia 07/04/2026, entre 20h23 e 21h25, identificamos uma instabilidade que afetou a disponibilidade de serviços da plataforma IDCloud. O incidente causou erros intermitentes em uma parcela de aproximadamente 1% das transações globais. 2. Causa Raiz e Resolução A investigação técnica identificou uma interrupção em componentes de monitoramento e orquestração no nível da infraestrutura, o que gerou uma distribuição ineficiente de carga entre os servidores. Como medida de resolução, nossa engenharia realizou o reinício escalonado dos serviços afetados e aplicou novas políticas de distribuição de recursos para garantir que o processamento seja isolado e resiliente a falhas de nós individuais. Após essas intervenções, o ambiente apresentou estabilidade total a partir das 21h25. 3. Compromisso e Próximos Passos Nossas equipes permanecem monitorando os indicadores de performance para garantir a consistência do ambiente. Um Postmortem detalhado, com o plano de ações preventivas para evitar a reincidência deste cenário, será elaborado e compartilhado em breve. Lamentamos o transtorno e reafirmamos nosso compromisso com a transparência e a qualidade de nossos serviços. Equipe Unico.

  5. postmortem Apr 27, 2026, 03:12 PM UTC

    **Postmortem: Instabilidade no Serviço de Integração IDunico e liveness** ‌ **Resumo** Em 7 de abril de 2026, uma instabilidade na infraestrutura causou erros intermitentes e alta latência em nossa plataforma. Aproximadamente 3% das transações foram afetadas durante o período do incidente. A equipe de engenharia diagnosticou e mitigou o problema, restabelecendo a estabilidade normal dos serviços. ‌ **Impacto** O problema impactou principalmente as etapas de criação de processos e validações do sistema. Diversos clientes relataram erros HTTP 500, recebendo mensagens de tempo limite de requisição e operações canceladas. O impacto na disponibilidade teve início às 19:41 e a plataforma foi totalmente estabilizada às 21:25 do horário local. ‌ **Causa Raiz** A causa principal do incidente foi a saturação no controlador da malha de serviços \(service mesh\) e o consequente atraso na sincronização de configurações com as aplicações. ‌ * Esse cenário foi desencadeado por eventos de escalonamento \(aumentos e reduções\) da infraestrutura. * A falha na sincronização fez com que as aplicações entrassem em um estado de degradação, resultando em uma latência até 13 vezes maior que o normal. * Como essas instâncias degradadas não chegaram a falhar completamente ou a reiniciar sozinhas, os alertas padrões de saúde do sistema, que monitoram falhas totais, não foram acionados. **Resolução** A estabilidade foi restaurada após a equipe técnica identificar a causa e reiniciar manualmente as instâncias que apresentavam alta latência. Como medida adicional imediata, foi aplicada uma atualização nas configurações para forçar uma melhor distribuição das aplicações entre os servidores da infraestrutura, evitando a concentração de carga em um único nó. ‌ **Lições Aprendidas** * **Monitoramento e Alertas:** A ausência de alertas específicos para degradação prolongada de latência atrasou o diagnóstico. A implementação de alertas baseados em aumentos sustentados de tempo de resposta é necessária para reduzir drasticamente o tempo de detecção de problemas semelhantes no futuro. * **Distribuição de Carga:** A prática recomendada de evitar a alocação de múltiplas aplicações no mesmo servidor não estava sendo aplicada de forma universal. Isso acabou amplificando o impacto do incidente quando os recursos da infraestrutura foram saturados. * **Escalonamento e Resiliência:** A análise revelou que eventos agressivos de redução de escala em ambientes de infraestrutura dinâmica podem causar sobrecarga na malha de serviços e gerar falhas em cascata. É essencial revisar as políticas de escalonamento e as regras de rede dos serviços virtuais para garantir uma operação mais resiliente e segura.

Read the full incident report →

Minor April 4, 2026

Instabilidade na Integração das capacidades que utilizam IdScore

Detected by Pingoru
Apr 04, 2026, 04:44 PM UTC
Resolved
Apr 04, 2026, 05:18 PM UTC
Duration
33m
Affected: Score de Risco (API)
Timeline · 4 updates
  1. investigating Apr 04, 2026, 04:44 PM UTC

    Prezado Cliente, Identificamos uma instabilidade na capacidade de geração do Score de Autenticação, que está apresentando lentidão no processamento de fluxos assíncronos. Essa oscilação pode impactar o tempo de recebimento das respostas de análise e, em alguns casos, resultar no cancelamento de processos em aberto. Nossa engenharia já está mobilizada para o diagnóstico e trabalhando na identificação da causa raiz para normalizar o serviço o mais breve possível. No momento, o time técnico realiza análises detalhadas em nossa camada de dados para mitigar o impacto. Reforçamos que novas atualizações serão enviadas em breve. Equipe Unico.

  2. identified Apr 04, 2026, 04:45 PM UTC

    Prezado Cliente, Confirmamos que a origem da lentidão no Score de Autenticação foi mapeada. Identificamos uma contenção de recursos em nossa camada de banco de dados, causada por uma consulta específica que está gerando bloqueios e impedindo o processamento fluido das informações. O time de operações já iniciou a implementação de medidas corretivas, incluindo a interrupção das sessões problemáticas e o reescalonamento de recursos para escoar o volume de processos acumulados. Estamos tratando este cenário com prioridade máxima e senso de urgência para restabelecer a performance padrão. Status: Em correção. Equipe Unico.

  3. monitoring Apr 04, 2026, 05:07 PM UTC

    Prezado Cliente, Informamos que as ações corretivas para eliminar os bloqueios na camada de dados foram executadas e o ambiente já apresenta estabilidade. O volume de processos acumulados está sendo processado e os índices de latência do Score de Autenticação retornaram aos níveis esperados. Iniciamos agora um período de acompanhamento assistido e monitoramento rigoroso para garantir a consistência da performance e evitar novas oscilações. O serviço já pode ser utilizado normalmente, mas nossa equipe permanece atenta a qualquer comportamento atípico. Equipe Unico.

  4. resolved Apr 04, 2026, 05:18 PM UTC

    Prezado Cliente, Comunicamos o encerramento do incidente relacionado à latência no Score de Autenticação onde impactou IDscore e IDunico(apenas fluxo que derivaram para o Check). Resumo Executivo e Impacto No dia 04/04/2026, entre 12h13 e 14h01 (horário local), identificamos uma degradação na performance do processamento assíncrono do Score. O impacto manifestou-se através de uma lentidão sistêmica na entrega de resultados de análise, afetando a experiência de verificação em tempo real e o tempo de resposta das capacidades integradas ao IdScore. Causa Raiz e Resolução A causa raiz foi identificada como uma contenção de escrita (locks) em nossa camada de banco de dados, originada por uma rotina de consulta que não utilizava parâmetros de leitura otimizados. Isso gerou um efeito em cadeia que travou atualizações e inserções de novos dados, resultando em um acúmulo de processos pendentes. A resolução consistiu na terminação das sessões causadoras do bloqueio e na aplicação de ajustes emergenciais para liberar o fluxo de processamento e escoar o volume represado. Ressaltamos que não houve perda de dados durante o evento. Compromisso e Próximos Passos Para evitar recorrências, nossa equipe de engenharia aplicará uma correção definitiva no código das consultas identificadas e revisará os índices de performance da camada de dados. Um Postmortem detalhado será compartilhado em breve com as lições aprendidas e as melhorias estruturais implementadas. Pedimos sinceras desculpas pelo impacto causado em sua operação e agradecemos a compreensão. Equipe Unico.

Read the full incident report →

Minor April 2, 2026

Instabilidade no Serviço de Integração IDunico, IDtoken e IDTrust

Detected by Pingoru
Apr 02, 2026, 11:25 PM UTC
Resolved
Apr 02, 2026, 11:31 PM UTC
Duration
5m
Affected: Verificação Identidade (API)Token Biométrico (API)
Timeline · 4 updates
  1. investigating Apr 02, 2026, 11:25 PM UTC

    Identificamos uma instabilidade na capacidade de criação de processos em nossa plataforma, o que pode impactar a disponibilidade de serviços como o IdUnico, Idtoken e IDTrust. Nossa equipe de engenharia já está mobilizada para o diagnóstico e trabalhando com prioridade máxima para entender a origem dessa oscilação. Nosso foco inicial é a restauração da plena estabilidade das funcionalidades afetadas. Reforçamos que novas atualizações serão enviadas em breve assim que tivermos mais detalhes sobre a evolução do cenário. Equipe Unico.

  2. identified Apr 02, 2026, 11:27 PM UTC

    Informamos que a origem da instabilidade no produto IDunico e IDToken foi mapeada. Identificamos uma queda abrupta na disponibilidade de instâncias de processamento na nossa camada de orquestração, o que gerou erros intermitentes e latência nos serviços de criação de processos. O time de operações já iniciou a implementação das medidas corretivas, incluindo o escalonamento de recursos e ajuste de réplicas para garantir a resiliência do ambiente. O incidente está sendo tratado com prioridade máxima. Status: Em correção. Equipe Unico.

  3. monitoring Apr 02, 2026, 11:28 PM UTC

    Informamos que as ações corretivas na camada de orquestração e nos serviços de processamento foram executadas com sucesso. No momento, o ambiente apresenta estabilidade e os indicadores de disponibilidade retornaram aos níveis normais. Iniciamos agora um período de acompanhamento assistido e monitoramento rigoroso para garantir a consistência da performance em todos os fluxos impactados O serviço já pode ser utilizado normalmente. Nossa equipe permanece atenta a qualquer oscilação para garantir a continuidade da operação. Equipe Unico.

  4. resolved Apr 02, 2026, 11:31 PM UTC

    Comunicamos o encerramento do incidente relacionado à disponibilidade do serviço Create Process. Resumo Executivo e Impacto No dia 02/04/2026, entre 19:30 e 19:32 (-03), observamos uma degradação severa na criação de processos e serviços síncronos. O impacto teve duração de aproximadamente 2 minutos, resultando em erros de resposta e indisponibilidade momentânea em fluxos que utilizam o motor biométrico. Causa Raiz e Resolução A instabilidade foi causada por uma queda crítica no número de réplicas ativas na nossa camada de orquestração de serviços, reduzindo drasticamente a capacidade de processamento. A rápida atuação da engenharia permitiu o reestabelecimento automático e manual dos recursos, normalizando o tráfego em poucos minutos. Confirmamos que não houve qualquer perda de dados ou comprometimento da integridade das informações. Compromisso e Próximos Passos Como medida preventiva para evitar reincidências, revisamos e ajustamos as configurações de réplicas mínimas para garantir maior resiliência em períodos de alta demanda. Um Postmortem detalhado com os planos de ação de longo prazo será compartilhado com os interessados em breve. Pedimos sinceras desculpas pelo transtorno causado e reafirmamos nosso compromisso com a transparência e excelência de nossos serviços. Equipe Unico.

Read the full incident report →

Minor April 2, 2026

Instabilidade no Serviço de Integração IDToken e IDTrust

Detected by Pingoru
Apr 02, 2026, 09:45 AM UTC
Resolved
Apr 02, 2026, 09:51 AM UTC
Duration
5m
Affected: Verificação Identidade (API)IDTrust | Alerta de Comportamento (API)
Timeline · 4 updates
  1. investigating Apr 02, 2026, 09:45 AM UTC

    Prezado Cliente, Identificamos uma instabilidade que afeta a disponibilidade e a latência em nossos serviços de processamento de fluxos. No momento, nossa engenharia já está mobilizada para o diagnóstico técnico e a identificação da causa raiz. Pedimos desculpas pelo transtorno e reforçamos que novas atualizações serão enviadas em breve assim que tivermos mais detalhes sobre a normalização. Equipe Unico.

  2. identified Apr 02, 2026, 09:46 AM UTC

    Prezado Cliente, Confirmamos que a origem da instabilidade foi mapeada. Identificamos um pico atípico de requisições que gerou uma degradação momentânea na latência na disponibilidade da API de criação de processos. Neste momento, o time técnico já iniciou o escalonamento de recursos para absorver a demanda e restabelecer a performance ideal do ambiente. O incidente é tratado com prioridade máxima. Equipe Unico.

  3. monitoring Apr 02, 2026, 09:46 AM UTC

    Prezado Cliente, Informamos que as ações corretivas de escalonamento foram executadas com sucesso e o ambiente já apresenta estabilidade. Os serviços de biometria e processamento voltaram a operar dentro dos parâmetros de normalidade. Entramos agora em fase de acompanhamento assistido e monitoramento rigoroso para garantir a consistência da performance. O serviço já pode ser utilizado normalmente, enquanto nossa equipe permanece atenta a qualquer oscilação. Equipe Unico.

  4. resolved Apr 02, 2026, 09:51 AM UTC

    Status: Resolvido Prezado Cliente, Informamos o encerramento do incidente relacionado à instabilidade no processamento de fluxos (Idtoken e IDtrust). Abaixo, apresentamos o resumo executivo: Resumo Executivo e Impacto No dia 02/04/2026, entre 05:41 e 05:47, nossos sistemas apresentaram uma degradação de performance que impactou a latência e a disponibilidade da API de criação de processos (erros 500). O impacto foi breve (aproximadamente 6 minutos) e a estabilização completa ocorreu às 05:48. Causa Raiz e Resolução A causa foi identificada como um pico súbito e concentrado de requisições que excedeu a capacidade momentânea das instâncias. A resolução ocorreu de forma automática e assistida através do escalonamento de novos nós (nodes) no cluster, permitindo que as camadas de processamento e servidores de modelos absorvessem a carga. Compromisso e Próximos Passos Ressaltamos que não houve perda ou comprometimento de dados. Nossa equipe de engenharia já está trabalhando em um Postmortem detalhado para revisar os gatilhos de escalonamento automático e evitar que picos similares impactem a experiência dos usuários no futuro. Lamentamos sinceramente qualquer inconveniente causado. Equipe Unico.

Read the full incident report →

Minor March 31, 2026

Instabilidade no Webhook Validação via Open Finance - IDPay

Detected by Pingoru
Mar 31, 2026, 04:22 PM UTC
Resolved
Mar 31, 2026, 06:27 PM UTC
Duration
2h 4m
Affected: Notificações
Timeline · 5 updates
  1. investigating Mar 31, 2026, 04:22 PM UTC

    Prezado Cliente, Identificamos uma instabilidade em nossa funcionalidade de validação via Open Finance. Esse comportamento teve início no dia 25/03, às 23:05, fazendo com que o status das transações afetadas ficasse como pendente. Informamos que a causa principal dessa interrupção foi corrigida às 13:10 de hoje. Neste momento, nossa engenharia já está mobilizada e trabalhando intensamente para reprocessar todos os casos retroativos que ainda estão com a validação pendente. Compreendemos o impacto que esse cenário pode causar em suas operações e lamentamos qualquer transtorno. Estamos dedicando total prioridade para que todas as transações sejam normalizadas o mais rápido possível. Novas atualizações serão enviadas em breve. Equipe Unico.

  2. identified Mar 31, 2026, 04:24 PM UTC

    Prezado Cliente, Informamos que a origem da instabilidade na funcionalidade de validação via Open Finance (IDPay) foi devidamente mapeada por nossa equipe técnica. O comportamento sistêmico, que teve início no dia 25/03 às 23:05 e manteve o status das transações como pendente, teve sua causa raiz tratada com sucesso às 13:10 de hoje. Status das Ações: Medidas Corretivas: Com o problema principal sanado, escalonamos nossos recursos operacionais e já iniciamos a execução das medidas corretivas para reprocessar todos os casos retroativos afetados. Prioridade Máxima: Nossa engenharia está atuando com senso de urgência absoluto e dedicação total para garantir a conclusão e a integridade de todas as validações pendentes no menor tempo possível. Reiteramos nosso compromisso com a estabilidade e a segurança de nossas operações. Manteremos você informado sobre a evolução deste cenário e a conclusão do reprocessamento. Equipe Unico.

  3. monitoring Mar 31, 2026, 04:29 PM UTC

    Prezado Cliente, Informamos que as ações corretivas referentes à instabilidade na validação via Open Finance (IDPay) foram executadas com sucesso. A falha técnica, que gerava pendências nas transações desde o dia 25/03 às 23:05, foi contornada às 13:10 de hoje, e nosso ambiente de produção já apresenta estabilidade. Neste momento, o serviço já pode ser utilizado normalmente para novas requisições. Paralelamente, nossa engenharia segue focada no reprocessamento de todos os casos retroativos que ficaram com o status de validação pendente. Entramos agora em uma fase de monitoramento rigoroso e acompanhamento assistido. Nossa equipe permanece dedicada e atenta a qualquer oscilação, a fim de garantir a consistência da performance e assegurar que a operação flua sem novos impactos. Agradecemos a paciência e a confiança enquanto garantimos a estabilização completa da plataforma. Novas atualizações serão enviadas conforme a evolução do reprocessamento. Equipe Unico.

  4. resolved Mar 31, 2026, 06:27 PM UTC

    Prezado Cliente, Informamos que o incidente relacionado à instabilidade na validação via Open Finance foi mitigado com sucesso, o reprocessamento dos dados foi concluído e o sistema já se encontra totalmente disponível e operando dentro da normalidade. Abaixo, compartilhamos o relatório de fechamento com os detalhes do ocorrido e as ações tomadas por nossa equipe. Resumo Executivo e Impacto A partir das 23:05 do dia 25/03, identificamos uma falha no processamento das validações via Open Finance. Esse comportamento impediu a atualização de status no nosso sistema, fazendo com que as transações de nossos clientes ficassem retidas no status "pendente". A correção principal foi aplicada às 13:10 de hoje e, desde então, nossa engenharia atuou no reprocessamento de 100% dos casos retroativos afetados, normalizando integralmente a operação. Causa Raiz e Resolução A causa raiz do incidente esteve associada a uma atualização recente em nosso gerenciador central de APIs. Essa implementação introduziu uma política de rede que adicionava automaticamente um prefixo aos cabeçalhos de autenticação que não estivessem em um formato padrão predefinido. Como as notificações sistêmicas de atualização de status do nosso provedor parceiro de Open Finance utilizam um formato de token específico e sem prefixo, essa modificação fez com que nossa camada de segurança rejeitasse as conexões por falha de autenticação. A resolução imediata consistiu na reversão dessa atualização (rollback), removendo a política conflitante e restabelecendo o fluxo de comunicação e o processamento correto das validações. Reconhecemos o impacto que instabilidades geram em sua operação e agradecemos a confiança e a parceria durante a resolução deste evento. Continuamos à disposição para quaisquer esclarecimentos adicionais. Equipe Unico.

  5. postmortem Apr 27, 2026, 02:34 PM UTC

    **Postmortem: Instabilidade no Webhook Validação via Open Finance - IDPay** ### Resumo Entre os dias 25 e 31 de março de 2026, ocorreu um incidente que afetou nossa integração com o provedor de Open Finance, onde os _webhooks_ recebidos passaram a ser bloqueados com um erro de autorização \(erro 401\). Essa interrupção impediu a conclusão de pagamentos, fazendo com que as transações de nossos clientes ficassem presas no status "aguardando". ### Impacto O impacto direto aos clientes ocorreu entre às 23:05 do dia 25 de março de 2026 e às 13:08 do dia 31 de março de 2026. Durante esse período de aproximadamente cinco dias, um total de 7.101 transações não puderam ser concluídas automaticamente e permaneceram no status "aguardando". Nenhum evento de _webhook_ do nosso provedor parceiro foi processado com sucesso ao longo dessa janela de tempo. ### Causa Raiz A origem do problema foi devido a uma atualização de sistema em nossa camada de _Gateway_ de API, realizada no dia 25 de março por volta das 23:00, que tinha o objetivo de implementar limites de taxa \(_rate limiting_\) para um de nossos clientes corporativos. O _design_ dessa atualização utilizou um caminho de roteamento genérico, o que fez com que a nova política HTTP fosse aplicada a todos os _endpoints_, incluindo a rota específica de recebimento de _webhooks_ do nosso provedor de Open Finance. Essa nova política modificava os cabeçalhos de requisição automaticamente, adicionando o prefixo "Bearer" a qualquer cabeçalho de Autorização que não o possuísse. ‌ Como nosso provedor de integração utiliza um _token_ de acesso opaco e sem prefixo, o sistema modificou a requisição e a camada de segurança tentou validar esse novo formato como se fosse um _token_ JWT padrão. A validação falhou, resultando no erro de acesso negado \(401\). O erro não foi identificado na fase de testes \(ambiente de homologação/UAT\) porque existia uma divergência de configuração: o ambiente de testes possuía tratamentos de exceção para esse caminho específico, configurações estas que estavam ausentes no ambiente de produção. ### Resolução Ao identificar a causa raiz do problema no dia 31 de março, nossa equipe de engenharia executou uma reversão \(_rollback_\) imediata da atualização do _Gateway_ de API para a sua versão anterior. Essa ação removeu a política que alterava os cabeçalhos HTTP, restaurando o processamento normal dos _webhooks_. Logo após a confirmação da estabilidade sistêmica, todas as 7.101 transações afetadas que estavam presas foram reprocessadas e normalizadas com sucesso. ‌ ### Lições Aprendidas Durante a investigação e resolução deste incidente, identificamos oportunidades importantes de melhoria em nossa infraestrutura e processos operacionais: * **Necessidade de Alertas Específicos:** O problema durou dias de forma silenciosa pois não havia uma monitoria sistêmica ou alarmes configurados especificamente para a queda abrupta no volume de recebimento de _webhooks_. Fluxos dependentes de processos assíncronos precisam de mecanismos independentes de detecção de falhas. * **Paridade entre Ambientes:** A diferença de configuração entre os ambientes de teste e produção permitiu que a atualização fosse considerada segura erroneamente. É essencial garantir a paridade estrita entre os ambientes para evitar falsos positivos na validação de implantações. * **Gestão de Políticas Globais:** A utilização de roteamento amplo \(caminhos genéricos\) na aplicação de políticas de segurança introduz o risco de afetar rotas com requisitos de autenticação não padronizados. Exceções sistêmicas devem ser validadas e mapeadas explicitamente em todas as camadas de configuração.

Read the full incident report →

Minor March 30, 2026

Instabilidade Unico People

Detected by Pingoru
Mar 30, 2026, 01:55 PM UTC
Resolved
Mar 30, 2026, 03:14 PM UTC
Duration
1h 18m
Affected: Portal Cliente (Dashboard)
Timeline · 3 updates
  1. identified Mar 30, 2026, 01:55 PM UTC

    Prezados clientes, Identificamos uma instabilidade técnica no Unico People que afeta a visualização da listagem de posições. No momento, alguns usuários podem encontrar dificuldades ou erros ao tentar carregar a lista de vagas e posições abertas na plataforma. Nossa equipe de engenharia já está ciente e atuando com prioridade para identificar a causa e restabelecer o serviço o mais breve possível. Manteremos todos informados sobre o progresso da correção. Atenciosamente,

  2. monitoring Mar 30, 2026, 03:05 PM UTC

    Prezados clientes, Gostaríamos de informar que a instabilidade na visualização da listagem de posições no Unico People foi estabilizada. A plataforma já apresenta sinais de recuperação e o carregamento das vagas está sendo restabelecido. Nossa equipe de engenharia segue monitorando rigorosamente o ambiente para garantir a estabilidade completa do serviço. Agradecemos a paciência e manteremos todos informados até o encerramento do incidente. Atenciosamente,

  3. resolved Mar 30, 2026, 03:14 PM UTC

    Prezados clientes, Informamos que o incidente relacionado à listagem de posições no Unico People foi oficialmente resolvido. Após o período de monitoramento, confirmamos que a funcionalidade está operando com estabilidade total e o carregamento das vagas foi restabelecido para todos os usuários. Agradecemos a sua compreensão e paciência durante o período de instabilidade. Atenciosamente,

Read the full incident report →

Major March 30, 2026

Instabilidade no serviço de liveness

Detected by Pingoru
Mar 30, 2026, 12:26 PM UTC
Resolved
Mar 30, 2026, 12:37 PM UTC
Duration
11m
Affected: Prova de Vida (API)
Timeline · 5 updates
  1. investigating Mar 30, 2026, 12:26 PM UTC

    Prezado Cliente, Identificamos uma instabilidade pontual que afeta o funcionamento do nosso motor de liveness para um grupo de parceiros. Esse comportamento pode impactar a etapa de prova de vida durante a jornada de captura de seus usuários. Nossa equipe de engenharia já foi mobilizada e está atuando com prioridade máxima no diagnóstico da causa raiz para restabelecer a normalidade o quanto antes. Reforçamos nosso compromisso com a estabilidade de sua operação e enviaremos novas atualizações assim que tivermos mais detalhes sobre a evolução do caso. Atenciosamente, Equipe Unico.

  2. identified Mar 30, 2026, 12:28 PM UTC

    Prezado Cliente, Informamos que a origem da instabilidade relatada no motor de liveness foi devidamente mapeada por nossa equipe de especialistas. A causa está relacionada à implementação de uma nova versão do componente de captura Web, que introduz camadas críticas de segurança para o fortalecimento da plataforma. Identificamos que essa atualização gerou comportamentos inesperados em cenários específicos de uso. Nossas frentes de engenharia já iniciaram a implementação das medidas corretivas e o escalonamento de recursos técnicos para mitigar o impacto. Estamos tratando este caso com prioridade máxima e senso de urgência, monitorando individualmente a performance de cada operação para garantir a estabilidade do ecossistema. Seguimos em acompanhamento contínuo e enviaremos novas atualizações sobre a evolução da correção em breve. Atenciosamente, Equipe Unico.

  3. monitoring Mar 30, 2026, 12:34 PM UTC

    Prezado Cliente, Informamos que as ações corretivas necessárias foram executadas com sucesso por nossa equipe técnica e o motor de liveness já apresenta estabilidade em sua operação. O ajuste foi implementado e o ambiente encontra-se normalizado. Iniciamos agora uma fase de monitoramento rigoroso e acompanhamento assistido para garantir a consistência da performance em todas as transações. O serviço já pode ser utilizado normalmente, e nossa equipe permanece em alerta para assegurar a continuidade da estabilidade. Manteremos a observação ativa para confirmar a total integridade do ecossistema. Atenciosamente, Equipe Unico.

  4. resolved Mar 30, 2026, 12:37 PM UTC

    Prezado Cliente, Informamos que o incidente relacionado à instabilidade no motor de liveness foi devidamente resolvido e o serviço encontra-se totalmente normalizado. Abaixo, apresentamos o resumo executivo das ações tomadas: Resumo Executivo e Impacto O incidente teve início às 09:03 e foi encerrado às 09:13 (horário de Brasília). Durante este intervalo de 10 minutos, uma parcela de nossos parceiros enfrentou dificuldades na inicialização da captura de prova de vida em plataformas Web. Confirmamos que não houve qualquer perda de dados ou comprometimento de informações durante o período de instabilidade. Causa Raiz e Resolução A instabilidade foi originada por um comportamento inesperado em uma nova atualização de segurança aplicada ao componente de captura Web. Esta atualização visava fortalecer as defesas da plataforma, porém gerou um conflito técnico que impediu o carregamento correto do motor de liveness em cenários específicos. A resolução foi alcançada através de um ajuste técnico imediato na configuração dessa camada de segurança, restabelecendo a comunicação entre o SDK e nossos servidores de processamento. Compromisso e Próximos Passos Nossa equipe de engenharia já iniciou a elaboração de um Postmortem detalhado, que será compartilhado em breve com as análises técnicas aprofundadas e o plano de ações preventivas para evitar recorrências. Reiteramos nosso compromisso com a resiliência e a segurança de sua operação. Pedimos sinceras desculpas pelo transtorno causado e permanecemos à disposição para qualquer suporte adicional. Atenciosamente, Equipe Unico.

  5. postmortem Apr 01, 2026, 12:59 PM UTC

    # Postmortem: Instabilidade no serviço de liveness ## Sumário Entre as **09:01** e **09:13 BRT** do dia **30 de março de 2026**, identificamos uma instabilidade que afetou a disponibilidade dos plugins do SDK Web para um grupo específico de clientes. O incidente resultou em falhas de carregamento de recursos essenciais, impactando a execução de fluxos de biometria e liveness. ‌ ## Impacto O incidente causou a indisponibilidade total dos serviços de SDK para três clientes específicos que utilizavam uma configuração regional de exceção. ‌ * **Duração:** 12 minutos. * **Escopo:** Clientes operando em um ambiente regional específico, resultando em uma queda do indicador de disponibilidade \(SLO\) para abaixo de 95% durante o período. ## Causa Raiz A falha foi originada por um erro de automação durante a atualização de rotas de tráfego. ‌ Após a migração de versões do SDK, foi necessário realizar um ajuste de configuração para um grupo de clientes. No entanto, a ferramenta de automação \(GitHub Action\) utilizou uma versão obsoleta e com erros que estava armazenada em cache, em vez de carregar a versão corrigida mais recente. ‌ Como consequência, o processo de automação gerou um endereço de destino inexistente para as requisições, tornando o serviço inacessível para os clientes afetados. ‌ ## Resolução O incidente foi detectado via alertas automáticos de monitoramento às **09:09**. A equipe técnica identificou rapidamente a inconsistência no cache da automação e aplicou uma correção manual nas rotas de tráfego, restabelecendo a normalidade dos serviços às **09:13**. ‌ ## Lições Aprendidas * **Gerenciamento de Cache em CI/CD:** Identificamos a necessidade de implementar mecanismos mais rígidos de invalidação de cache para automações críticas que gerenciam infraestrutura de produção. * **Validação de Alvos de Roteamento:** Implementaremos etapas de validação \(health checks\) para garantir que qualquer novo endereço de destino seja verificado antes que as alterações de tráfego sejam aplicadas. * **Critérios de Comunicação:** Revisamos nossos processos de transparência para garantir que a comunicação em páginas de status siga critérios objetivos de impacto e jornada do usuário. ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.‌ Atenciosamente, Equipe Unico.

Read the full incident report →

Major March 28, 2026

Instabilidade no Serviço de Alerta de comportamento ID Trust

Detected by Pingoru
Mar 28, 2026, 09:55 AM UTC
Resolved
Mar 28, 2026, 10:25 AM UTC
Duration
29m
Affected: IDTrust | Alerta de Comportamento (API)
Timeline · 5 updates
  1. investigating Mar 28, 2026, 10:03 AM UTC

    Prezado Cliente, Identificamos uma instabilidade nas requisições do produto Alerta de Comportamento (ID Trust), gerando aumento no tempo de resposta ou erros nas requisições. Nossa equipe técnica está trabalhando para identificar as causas e solucionar brevemente. Em breve retornamos com atualizações. Em breve retornaremos com a atualização final. Equipe Unico.

  2. identified Mar 28, 2026, 10:20 AM UTC

    Prezado Cliente, Identificamos a causa da instabilidade nas requisições do produto Alerta de Comportamento (ID Trust), gerando aumento no tempo de resposta ou erros nas requisições. Nossa equipe técnica está trabalhando para solucionar brevemente. Em breve retornaremos com a atualização final. Equipe Unico.

  3. monitoring Mar 28, 2026, 10:28 AM UTC

    Prezado Cliente, Informamos que nossa equipe técnica executou as ações corretivas necessárias e o ambiente do produto Alerta de Comportamento (ID Trust) já apresenta estabilidade. O serviço já pode ser utilizado normalmente em suas operações. Contudo, iniciamos agora uma fase de monitoramento rigoroso e acompanhamento assistido para garantir a consistência da performance e a estabilidade das taxas de latência. Nossa equipe permanece dedicada e atenta a qualquer oscilação antes de declararmos o incidente como totalmente encerrado. Em breve retornaremos com a atualização final. Equipe Unico

  4. resolved Mar 28, 2026, 10:34 AM UTC

    Prezado Cliente, Informamos que o período de monitoramento assistido foi concluído com sucesso e o incidente no produto Alerta de Comportamento (ID Trust) encontra-se oficialmente Resolvido. A performance do sistema está totalmente estabilizada e operando dentro dos nossos padrões de excelência. Resumo Executivo e Impacto: Na manhã do incidente, registramos um aumento abrupto e anormal no volume de requisições originadas por um cliente específico, atingindo seu pico por volta das 06h55. Esse pico de tráfego inesperado resultou em uma elevação significativa na latência do sistema e na degradação temporária dos nossos indicadores de nível de serviço (SLO) relacionados aos processos de avaliação de risco, impactando a performance durante o período de sobrecarga. Causa Raiz e Resolução: A instabilidade foi causada por um padrão de tráfego excessivo que se assemelhava a varreduras automatizadas, sobrecarregando a capacidade de resposta da aplicação. Para resolver o problema de forma imediata, aplicamos controles de limitação de taxa (rate limiting) e regras de segurança de firewall em nuvem para bloquear as requisições anômalas de forma proativa. Essa rápida intervenção zerou os erros de servidor (502) e neutralizou a carga excessiva, estabilizando a plataforma com sucesso e restabelecendo o funcionamento regular e seguro de todos os nossos serviços.

  5. postmortem Mar 31, 2026, 05:39 PM UTC

    # Postmortem: Instabilidade no Serviço de Alerta de comportamento ID Trust ## Sumário No dia **28 de março de 2026**, o serviço de Avaliação de Risco apresentou uma degradação significativa de performance, resultando em tempos de resposta elevados e falhas pontuais. O incidente foi desencadeado por um aumento repentino e massivo de tráfego proveniente de um único cliente, o que sobrecarregou nossos provedores de serviços externos \(APIs de terceiros\) localizados no México. ‌ ## Impacto O incidente teve início aproximadamente às **06:07 BRT**. Durante o período de pico, observamos os seguintes efeitos: ‌ * **Latência:** O tempo de resposta \(p99\) do processo de avaliação saltou de valores próximos de zero para um intervalo entre **8 e 9 segundos**. * **Conformidade de SLO:** A disponibilidade do serviço caiu para cerca de **97%**, ficando abaixo da meta estabelecida de 98,5%. * **Erros de Terceiros:** Nossos provedores externos começaram a retornar erros de _timeout_ \(HTTP 504\) e cancelamento de contexto devido à incapacidade de processar o volume de requisições recebido. ## Causa Raiz A causa principal foi a **saturação de recursos de terceiros** devido à falta de mecanismos de controle de tráfego por cliente no nível da nossa API Gateway. ‌ Um cliente específico iniciou um lote de requisições legítimas com um volume agressivo, atingindo cerca de **7-8 RPS** \(Requisições por Segundo\), o que representa mais de dez vezes o volume do segundo maior cliente e supera em quatro vezes o pico histórico de tráfego da região afetada. Além disso, a configuração de retentativas \(_retries_\) do sistema amplificou a carga sobre os provedores externos, agravando o cenário de saturação. ‌ ## Resolução O incidente foi mitigado através de duas frentes: 1. **Limitação de Taxa \(Rate Limiting\):** A engenharia aplicou uma regra de controle de tráfego específica para o cliente em questão, limitando o volume a 300 RPM \(Requisições por Minuto\). 2. **Segurança de Borda:** Coincidentemente, regras automatizadas de segurança da camada de rede identificaram o padrão de tráfego como anômalo e bloquearam as requisições excedentes \(HTTP 403\). Com essas medidas, o tráfego foi normalizado e a latência do sistema retornou aos níveis operacionais esperados por volta das **07:00 BRT**. ‌ ## Lições Aprendidas * **Proatividade no Controle de Tráfego:** A ausência de limites de taxa pré-configurados por cliente permitiu que um único usuário impactasse a infraestrutura compartilhada e outros clientes. * **Visibilidade de Erros:** Identificamos que certos erros de provedores externos estavam sendo suprimidos internamente, o que mascarou inicialmente a gravidade da falha nas métricas de aderência. * **Amplificação de Carga:** O uso de políticas de retentativa agressivas \(4 tentativas\) pode ser prejudicial durante incidentes de saturação; reduzir esse número ajuda a aliviar a carga em sistemas degradados. * **Ajuste de Políticas de Segurança:** Embora o bloqueio automático por segurança tenha ajudado na mitigação, ele não foi uma ação deliberada de infraestrutura, ressaltando a necessidade de revisar regras para evitar que tráfego legítimo de alta densidade seja confundido com ataques. Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.‌ Atenciosamente, Equipe Unico.

Read the full incident report →

Major March 27, 2026

Instabilidade no Serviço de Integração By Unico

Detected by Pingoru
Mar 27, 2026, 02:05 AM UTC
Resolved
Mar 28, 2026, 02:30 AM UTC
Duration
1d
Affected: IDCloud - By Unico (API)
Timeline · 4 updates
  1. identified Mar 27, 2026, 02:46 AM UTC

    Prezado Cliente, Detectamos um impacto nos retornos do ByUnico, podendo causar instabilidade aos clientes. A equipe de tecnologia está ativamente analisando o ambiente e as métricas para determinar a causa e a solução. Retornamos em breve com atualizações. Atenciosamente, Equipe Unico

  2. monitoring Mar 27, 2026, 02:47 AM UTC

    Prezado Cliente, Nossa equipe identificou as causas do problema e realizou as ações para que este incidente fosse solucionado. Dentro de alguns dias compartilharemos maiores detalhes através de um Postmortem. Pedimos desculpas pelo transtorno e nos colocamos à disposição para sanar dúvidas através dos nossos canais de atendimento. Atenciosamente, Equipe Unico!

  3. resolved Mar 27, 2026, 03:13 AM UTC

    Prezado Cliente, Incidente resolvido. Nossa equipe identificou as causas do problema e realizou as ações para que este incidente fosse solucionado. Dentro de alguns dias compartilharemos maiores detalhes através de um Postmortem. Pedimos desculpas pelo transtorno e nos colocamos à disposição para sanar dúvidas através dos nossos canais de atendimento. Atenciosamente, Equipe Unico!

  4. postmortem Apr 27, 2026, 02:45 PM UTC

    **Postmortem: Instabilidade no Serviço de Integração By Unico** ‌ **Resumo** No dia 26 de março de 2026, um de nossos serviços de processamento de documentos sofreu uma degradação temporária. A disponibilidade global da operação afetada caiu para 93,89%, ficando abaixo da nossa meta estabelecida de 97%. ‌ **Impacto** Durante o pico do incidente, a operação apresentou uma taxa de erro de 15,6%. Aproximadamente 2.000 requisições de clientes falharam ao longo de uma janela concentrada de quatro minutos, especificamente entre 23:03 e 23:07 \(horário de Brasília\). Serviços dependentes relataram erros de instabilidade e conexões recusadas durante esse período de indisponibilidade. O impacto foi encerrado e a estabilidade restaurada por volta das 23:38. ‌ **Causa Raiz** A análise detalhada confirmou que a interrupção foi causada pela saturação de recursos no nosso banco de dados, que atingiu 100% de utilização de CPU. Esse esgotamento foi desencadeado por um aumento substancial e não previsto no volume de tráfego de um cliente específico durante um evento de grande visibilidade ao público. O pico de acessos coincidiu com um processo interno de otimização de cache em execução no mesmo período, gerando uma severa contenção no banco de dados. Como consequência, o número de conexões abertas disparou de uma média de 80 para cerca de 500, resultando em até 300 processos bloqueados simultaneamente. Adicionalmente, a sobrecarga causou falhas nas verificações de integridade da aplicação, levando a reinicializações que agravaram a disponibilidade temporariamente. ‌ **Resolução** Nossos sistemas de alerta automatizados detectaram a violação de disponibilidade imediatamente, e a equipe de resposta a incidentes reconheceu e iniciou a atuação em apenas 1 a 2 minutos após o primeiro disparo. A equipe conseguiu identificar rapidamente a janela de impacto e isolar as falhas nos primeiros 10 minutos. Após a dissipação do surto repentino de tráfego, os serviços e o banco de dados estabilizaram-se sozinhos e a disponibilidade retornou aos níveis normais de operação. ‌ **Aprendizados** * **Eficiência na Detecção:** Nossas ferramentas de observabilidade provaram ser eficientes, permitindo que a equipe correlacionasse sinais em múltiplos serviços quase em tempo real e de forma estruturada. * **Gestão de Carga:** Identificamos que a configuração atual do banco de dados não está dimensionada de forma ideal para gerenciar o volume massivo de conexões concorrentes geradas por surtos anômalos de requisições. * **Impacto de Processos Internos:** Operações pesadas de otimização de cache durante picos de tráfego representam um risco para a estabilidade da aplicação. **Ações Preventivas** * **Otimização de Consultas:** Refatorar o padrão de consultas e as atualizações de cache no banco de dados para minimizar a latência e o consumo excessivo de recursos de CPU. * **Revisão de Provisionamento:** Avaliar e ajustar os limites de capacidade e resiliência do banco de dados e da infraestrutura subjacente para suportar aumentos extremos de carga com maior fluidez de conexão.

Read the full incident report →

Minor March 26, 2026

Instabilidade no Serviço de Integração IdTrust

Detected by Pingoru
Mar 26, 2026, 08:14 PM UTC
Resolved
Mar 26, 2026, 08:41 PM UTC
Duration
26m
Affected: IDTrust | Alerta de Comportamento (API)
Timeline · 5 updates
  1. identified Mar 26, 2026, 08:14 PM UTC

    Atualização de Incidente: Identificado e Corrigido Status: Identificado Informamos que identificamos um incidente técnico com impacto na disponibilidade e latência do fluxo Create Process, com reflexos na jornada idtrust. Detalhamento e Resolução: A causa raiz foi mapeada como uma instabilidade de performance que gerou uma degradação temporária entre 16:30 e 16:45. Durante esse intervalo, registramos picos de latência e intermitências no processamento das solicitações. Nossa equipe de engenharia atuou com prioridade máxima e as medidas corretivas já foram implementadas com sucesso. No momento, os serviços operam dentro dos padrões de normalidade e os indicadores de disponibilidade foram restabelecidos. Status Atual Situação: Incidente corrigido. Ação: Monitoramento preventivo das métricas para garantir a estabilidade contínua da operação. Equipe Unico.

  2. identified Mar 26, 2026, 08:16 PM UTC

    Atualização de Incidente: Identificado e Corrigido Status: Identificado Informamos que identificamos um incidente técnico com impacto na disponibilidade e latência do fluxo Create Process, com reflexos na jornada idtrust. Detalhamento e Resolução: A causa raiz foi mapeada como uma instabilidade de performance que gerou uma degradação temporária entre 16:30 e 16:45. Durante esse intervalo, registramos picos de latência e intermitências no processamento das solicitações. Nossa equipe de engenharia atuou com prioridade máxima e as medidas corretivas já foram implementadas com sucesso. No momento, os serviços operam dentro dos padrões de normalidade e os indicadores de disponibilidade foram restabelecidos. Status Atual Situação: Incidente corrigido. Ação: Monitoramento preventivo das métricas para garantir a estabilidade contínua da operação. Equipe Unico.

  3. identified Mar 26, 2026, 08:16 PM UTC

    Atualização de Incidente: Identificado e Corrigido Status: Identificado Informamos que identificamos um incidente técnico com impacto na disponibilidade e latência do fluxo Create Process, com reflexos na jornada idtrust. Detalhamento e Resolução: A causa raiz foi mapeada como uma instabilidade de performance que gerou uma degradação temporária entre 16:30 e 16:45. Durante esse intervalo, registramos picos de latência e intermitências no processamento das solicitações. Nossa equipe de engenharia atuou com prioridade máxima e as medidas corretivas já foram implementadas com sucesso. No momento, os serviços operam dentro dos padrões de normalidade e os indicadores de disponibilidade foram restabelecidos. Status Atual Situação: Incidente corrigido. Ação: Monitoramento preventivo das métricas para garantir a estabilidade contínua da operação. Equipe Unico.

  4. resolved Mar 26, 2026, 08:41 PM UTC

    1. Resumo Executivo e Impacto Informamos que o incidente que afetou o fluxo Create Process na jornada idtrust foi totalmente resolvido. Entre 16:30 e 16:45, identificamos uma degradação na disponibilidade de alguns endpoints, que operaram momentaneamente entre 60% e 70%, além de um aumento atípico na latência para patamares de até 11 segundos. 2. Causa Raiz e Resolução A instabilidade foi provocada por eventos de interrupção na nossa infraestrutura de processamento. Esse comportamento causou o desligamento abrupto de instâncias, impactando o tempo de resposta e a taxa de sucesso das requisições. Como medida imediata para resolução e mitigação, o time de engenharia realizou a migração da carga de trabalho para nós de disponibilidade garantida (on-demand), eliminando a volatilidade do ambiente. Adicionalmente, implementamos melhorias no ciclo de vida dos serviços para garantir que futuros desligamentos de infraestrutura ocorram de forma graciosa, sem interromper as transações em curso. 3. Compromisso e Próximos Passos A Unico trata a resiliência de seus sistemas como prioridade inegociável. Para prevenir recorrências, estamos priorizando as seguintes ações: Migração definitiva de serviços críticos para pools de recursos dedicados. Expansão da capacidade de rede e ajustes de configuração para maior tolerância a falhas. Um Postmortem detalhado será elaborado e compartilhado em breve, contendo a análise técnica profunda e o plano de ação de longo prazo. Lamentamos sinceramente o impacto causado em sua operação e reafirmamos nosso compromisso com a excelência técnica e a transparência. Equipe Unico.

  5. postmortem Apr 01, 2026, 12:45 PM UTC

    # Postmortem: Instabilidade no Serviço de Integração IdTrust ## Resumo No dia **26 de março de 2026**, entre **16:30 e 16:52 \(BRT\)**, observamos uma degradação significativa na performance de componentes críticos de nossa infraestrutura de biometria. O incidente resultou em um aumento súbito de latência e erros de conexão, impactando a taxa de sucesso de integração de novos processos. A situação foi normalizada automaticamente após a estabilização da infraestrutura de nuvem, sem necessidade de intervenção manual direta para a recuperação dos serviços. ‌ ## Impacto O incidente teve uma duração aproximada de **22 minutos**, com o período de maior instabilidade concentrado em uma janela de **5 minutos**. ‌ * **Disponibilidade:** Alguns endpoints apresentaram queda de disponibilidade para níveis entre **60% e 70%** durante o pico do evento. * **Latência:** O tempo de resposta para processamentos críticos \(p99\) saltou de uma média de 900ms para picos superiores a **10 segundos**. * **Clientes:** O impacto foi sentido por pelo menos **10 clientes corporativos** que utilizam nossas jornadas de verificação de identidade. ## Causa Raiz A instabilidade foi desencadeada por eventos de **preempção de nós \(Spot Nodes\)** em nosso cluster de processamento principal. Devido à natureza dessas instâncias de custo otimizado, o provedor de nuvem pode solicitar o desligamento imediato das máquinas para recuperar capacidade. ‌ A severidade do impacto ocorreu devido a dois fatores técnicos principais: 1. **Ausência de Desligamento Gracioso:** Os serviços afetados não possuíam uma configuração de _preStop hook_, o que impediu que as conexões em andamento fossem finalizadas corretamente antes do encerramento do contêiner, causando erros de rede imediatos. 2. **Configuração de Timeouts Internos:** A comunicação entre os componentes internos não possuía limites de tempo \(_timeouts_\) otimizados, fazendo com que as requisições ficassem "presas" aguardando resposta de nós que já haviam sido removidos, o que gerou o efeito cascata de latência. ## Resolução O sistema recuperou a estabilidade de forma orgânica assim que novos nós foram provisionados pelo orquestrador de contêineres e as cargas de trabalho foram redistribuídas. A equipe de engenharia confirmou a normalização dos indicadores de saúde \(liveness\) e latência às **16:52**. ‌ ## Lições Aprendidas Este incidente destacou vulnerabilidades em nossa estratégia de resiliência para cargas de trabalho críticas: * **Priorização de Infraestrutura:** Identificamos que serviços vitais para a jornada do cliente não devem depender exclusivamente de instâncias passíveis de interrupção imediata sem mecanismos robustos de tolerância a falhas. * **Padronização de Ciclo de Vida:** A configuração de encerramento gracioso deve ser um requisito padrão para qualquer serviço que processe tráfego síncrono. * **Gestão de Capacidade de Rede:** Gargalos de infraestrutura \(como exaustão de IPs no cluster\) podem atuar como bloqueadores ocultos para a execução de melhorias preventivas, devendo ser monitorados proativamente. ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.‌ Atenciosamente, Equipe Unico.

Read the full incident report →

Major March 23, 2026

Instabilidade no Serviço de Integração IDSerpro

Detected by Pingoru
Mar 23, 2026, 01:38 PM UTC
Resolved
Mar 23, 2026, 02:51 PM UTC
Duration
1h 12m
Affected: IDCloud - By Unico (API)ID Serpro (API)
Timeline · 4 updates
  1. identified Mar 23, 2026, 01:38 PM UTC

    Prezado Cliente, Nossa monitoração proativa detectou um comportamento irregular no fluxo do IdSerpro do ByUnico e IDcloud. Embora a causa exata ainda esteja sob investigação, isso pode se manifestar como lentidão ou intermitência no serviço. A equipe de tecnologia está executando todos os procedimentos de diagnóstico no ambiente para identificar as causas. Em breve retornamos com atualizações.

  2. identified Mar 23, 2026, 01:52 PM UTC

    Prezado Cliente, Nossa monitoração proativa detectou um comportamento irregular no fluxo do IdSerpro do ByUnico e IDcloud. Embora a causa exata ainda esteja sob investigação, isso pode se manifestar como lentidão ou intermitência no serviço. A equipe de tecnologia está executando todos os procedimentos de diagnóstico no ambiente para identificar as causas. Em breve retornamos com atualizações.

  3. resolved Mar 23, 2026, 02:51 PM UTC

    Prezados, Informamos que o incidente impactando nossos fluxos de autenticação foi resolvido. Nossa equipe de engenharia estabilizou os serviços e os indicadores de disponibilidade já retornaram aos níveis operacionais esperados. 1. Resumo Executivo e Impacto Entre 10:30 e 11:10 (BRT) de 23/03/2026, identificamos uma degradação nos fluxos que dependem do ID Serpro, o que levou a nossa disponibilidade a patamares momentaneamente abaixo do SLO de 95,5%. O impacto manifestou-se através de erros internos inesperados e timeouts, dificultando ou impedindo que usuários finalizassem com sucesso seus fluxos de autenticação biométrica que utilizam esta validação de identidade oficial. 2. Causa Raiz e Resolução A instabilidade foi originada por uma oscilação atípica na infraestrutura do provedor de dados governamentais. Este serviço externo apresentou um tempo de resposta significativamente superior à média histórica, gerando um efeito cascata de expiração de prazos (timeouts) em nossa camada de processamento para o ID Serpro. Ações de Resolução: Realizamos o ajuste emergencial na configuração de nossa camada de integração, expandindo o tempo limite de resposta de 5 para 30 segundos. Esta medida permitiu que as requisições fossem processadas com sucesso, mesmo diante da lentidão do integrador, estabilizando o SLO e eliminando a taxa de erros residuais. 3. Compromisso e Próximos Passos A estabilidade do sistema segue sendo monitorada rigorosamente por nossos times de SRE e Engenharia. Como parte de nossa cultura de transparência e melhoria contínua, um Postmortem detalhado — contendo a linha do tempo técnica completa e o plano de ação para aumentar a resiliência contra instabilidades de terceiros — será compartilhado em breve. Lamentamos sinceramente pelo transtorno causado e reafirmamos nosso compromisso com a excelência e disponibilidade de nossas soluções. Atenciosamente, Equipe Unico

  4. postmortem Mar 25, 2026, 06:10 PM UTC

    # Postmortem: Instabilidade no Serviço de Integração IDSerpro ## Resumo No dia 23 de março de 2026, identificamos uma instabilidade que afetou a conclusão de fluxos de autenticação biométrica que utilizam uma base de dados governamental de terceiros. O incidente foi causado por uma degradação de performance no provedor externo, o que resultou em erros internos e tempos de resposta acima do esperado em nossa plataforma. A situação foi normalizada após o ajuste de nossas configurações de tolerância a latência. ‌ ## Impacto Durante o período de instabilidade, usuários de diversos parceiros e setores enfrentaram dificuldades para finalizar processos de verificação de identidade. ‌ * **Disponibilidade:** O índice de sucesso do serviço de autenticação ficou temporariamente abaixo da nossa meta \(SLO\) de **95,5%**. * **Experiência do Usuário:** Clientes finais encontraram erros de "timeout" ou falhas inesperadas ao tentar realizar a biometria facial em fluxos integrados ao serviço afetado. ## Causa Raiz A investigação técnica revelou que o serviço externo de biometria passou a operar com latências significativamente elevadas, atingindo picos de **4,5 a 6 segundos** por requisição. ‌ Nossa integração estava configurada com um tempo de espera rígido \(timeout\) de **5 segundos**. Como o provedor externo excedeu esse limite de forma intermitente, o sistema encerrava as conexões prematuramente e reportava erros de processamento, em vez de aguardar a conclusão da verificação. ‌ ## Resolução A equipe de engenharia agiu prontamente para mitigar o impacto seguindo estes passos: 1. **Diagnóstico:** Identificamos a origem externa da latência e confirmamos a instabilidade com o fornecedor. 2. **Ajuste de Configuração:** Aumentamos o limite de tempo de espera \(timeout\) da integração de **5 para 30 segundos**. 3. **Estabilização:** Esta mudança permitiu que as requisições, embora mais lentas, fossem concluídas com sucesso, restaurando a disponibilidade do serviço e normalizando os fluxos de autenticação. O incidente foi totalmente resolvido em **51 minutos** após o primeiro alerta. ‌ ## Lições Aprendidas Este evento trouxe aprendizados importantes para fortalecer nossa resiliência: * **Resiliência a Terceiros:** Reforçamos a necessidade de implementar estratégias adaptativas, como _circuit breakers_ e sistemas de retentativa \(retries\) mais robustos, para que falhas em dependências externas não causem interrupções diretas aos nossos usuários. * **Monitoramento Preditivo:** Estamos aprimorando nossos alertas para detectar aumentos graduais de latência em serviços externos antes que eles atinjam os limites críticos de erro. * **Equilíbrio de Performance:** Avaliamos o compromisso entre tempo de resposta e taxa de sucesso, garantindo que o sistema saiba priorizar a conclusão da jornada do usuário mesmo em cenários de degradação externa. ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.‌ Atenciosamente, Equipe Unico.

Read the full incident report →

Notice March 20, 2026

Instabilidade no Serviço de Assinatura Digital (ID Sign)

Detected by Pingoru
Mar 20, 2026, 03:12 PM UTC
Resolved
Mar 20, 2026, 01:30 PM UTC
Duration
Timeline · 2 updates
  1. resolved Mar 20, 2026, 03:12 PM UTC

    Prezado Cliente, Informamos que, a partir das 10:49 até 11:20, identificamos uma instabilidade que afetou os fluxos e funcionalidades que dependem da capacidade IDsign. Aplicamos as medidas corretivas necessárias e o serviço já apresenta comportamento estável. Permaneceremos em monitoramento pelos próximos períodos para assegurar que a performance se mantenha nos níveis ideais. Lamentamos o transtorno causado e seguimos à disposição através de nossos canais de atendimento para qualquer suporte adicional. Equipe Unico.

  2. postmortem Apr 06, 2026, 08:59 PM UTC

    **PostMortem: Instabilidade no Serviço de Assinatura Digital \(ID Sign\)** ### Resumo Em 20 de março de 2026, observamos uma degradação na disponibilidade do nosso fluxo de criação de processos. Durante um período de aproximadamente 31 minutos, falhas inesperadas impediram a criação de processos que possuíam envelopes de assinatura. ### Impacto O incidente ocorreu entre 10:49 e 11:20 \(Horário de Brasília\). Durante essa janela de tempo, múltiplos clientes foram afetados pelas falhas. Como consequência, a taxa de disponibilidade do serviço de criação de processos caiu para abaixo do limite da nossa meta de nível de serviço \(SLO\). ### Causa Raiz O problema foi desencadeado pelo envio repentino de cargas de dados contendo documentos vazios \(com tamanho de 0 bytes\) entre os serviços internos. O serviço responsável por criar os envelopes de assinatura não possuía uma validação adequada para exigir um tamanho mínimo de documento. Como resultado, o sistema aceitava os arquivos vazios e tentava prosseguir com o processamento. Ao falhar na etapa de upload, o serviço retornava um erro genérico de servidor, em vez de rejeitar imediatamente a requisição inválida com uma mensagem clara de validação. A causa raiz exata que levou o serviço de origem a enviar esses arquivos vazios de forma repentina ainda está sob investigação, visto que o problema começou e parou de forma uniforme e sem que nenhuma alteração de código ou configuração tivesse sido feita. ### Resolução O incidente foi resolvido espontaneamente ao final da janela de impacto de 31 minutos. O envio de documentos com conteúdo válido foi normalizado, e o fluxo de serviços se recuperou sozinho, sem a necessidade de intervenções manuais, reversões \(rollbacks\) ou implantações por parte da nossa equipe. ### Ações Futuras * **Validação de Dados:** Implementar validações defensivas rigorosas para rejeitar arquivos vazios ou inválidos logo na entrada, retornando um erro claro indicando argumentos inválidos em vez de falhas genéricas de servidor. * **Investigação de Origem:** Continuar a investigação interna para entender o motivo pelo qual o serviço de origem gerou o envio temporário de dados vazios, prevenindo futuras recorrências. * **Melhoria na Comunicação:** Aprimorar o processo para garantir que as atualizações em nossa página de status sejam publicadas mais rapidamente durante incidentes que afetam múltiplos clientes. ### Lições Aprendidas * **O que funcionou bem:** Nossos sistemas de monitoramento baseados em métricas de SLO detectaram a degradação e alertaram a equipe rapidamente, antes mesmo de percepções manuais. Além disso, a equipe conseguiu investigar e correlacionar os erros com os tamanhos de arquivo quase imediatamente, isolando a falha em menos de uma hora. * **Oportunidades de melhoria:** A ausência de uma validação defensiva estrita entre as fronteiras dos nossos serviços permitiu que dados inválidos se propagassem de forma silenciosa e gerassem erros confusos. Também identificamos que a declaração formal do incidente ocorreu com atraso. Uma comunicação oficial mais rápida melhorará a coordenação e a transparência contínua com nossos clientes.

Read the full incident report →

Notice March 19, 2026

Instabilidade nos serviços de notificações via Webhook ID Cloud

Detected by Pingoru
Mar 19, 2026, 11:30 AM UTC
Resolved
Mar 19, 2026, 11:30 AM UTC
Duration
Timeline · 2 updates
  1. resolved Mar 19, 2026, 01:13 PM UTC

    Instabilidade nos serviços de notificações via Webhook ID Cloud Resumo Executivo e Impacto: Informamos que tivemos um incidente relacionado à latência no processamento de notificações via webhook. O impacto principal ocorreu em uma janela curta de tempo, entre 08:35 e 08:45 (BRT), período em que identificamos um atraso na entrega de status de transações. Reforçamos que não houve perda de dados, comprometimento da integridade das informações ou interrupção no nosso motor de liveness. Todas as transações processadas durante esse intervalo tiveram suas notificações devidamente entregues após a estabilização do serviço. Causa Raiz e Resolução: A causa raiz foi uma instabilidade em nossa infraestrutura. Nossas métricas internas confirmaram uma anomalia crítica entre 08:34 e 08:48, com o pico de latência concentrado na janela de 10 minutos mencionada anteriormente. Esta falha na camada de transporte de dados impediu que os webhooks fossem disparados em tempo real. Embora o processamento central estivesse operacional, o atraso na recepção desses status pode ter gerado a percepção de indisponibilidade sistêmica. Atuamos imediatamente na mitigação do gargalo e na vazão das filas represadas para normalizar o fluxo de comunicação. Compromisso e Próximos Passos: Nossa prioridade agora é o fortalecimento da resiliência técnica e a melhoria contínua da experiência de integração: - Monitoramento: Estamos aprimorando nossas métricas de observabilidade para detectar anomalias em serviços de terceiros com maior granularidade e velocidade. - Postmortem: Um relatório técnico detalhado (Postmortem) será compartilhado em breve, aprofundando as ações estruturais que tomaremos para evitar recorrências. Recomendação de implementação para clientes: uso GetProcess como fallback: Conforme detalhado em nossa documentação técnica [https://devcenter.unico.io/unico-idcloud/by-unico-integration/adittional-resources/webhooks], reforçamos a recomendação do uso de método de contingência (GetProcess) para cenários onde a implementação do cliente identifica instabilidade/degradação do envio do webhook. Isso garante que a operação continue recebendo status sem interrupções. Pedimos desculpas por qualquer impacto causado e agradecemos a compreensão. Equipe Unico.

  2. postmortem Mar 30, 2026, 07:16 PM UTC

    ## Postmortem: Instabilidade nos serviços de notificações via Webhook ID Cloud ### Resumo Em 19 de março de 2026, o serviço responsável pela publicação de eventos de Change Data Capture \(CDC\) — essencial para a entrega de notificações via webhook — apresentou falhas intermitentes. O serviço entrou em um ciclo de reinicialização automática após falhas de comunicação com o provedor de nuvem, resultando em atrasos no processamento de notificações para diversos clientes. ‌ ### Impacto O incidente durou aproximadamente **10 minutos**, entre 08:33 e 08:43 BRT. Durante este intervalo, as atualizações de status que deveriam ser entregues em tempo real sofreram atrasos. ‌ * Cerca de **12.177 notificações** de webhook foram retidas temporariamente na fila de processamento. * Dois clientes de grande porte concentraram a maior parte do volume afetado, com aproximadamente **8.340** e **3.393** atualizações atrasadas, respectivamente. * Não houve perda de dados ou comprometimento da integridade das informações; todas as mensagens foram entregues com sucesso após a estabilização do serviço. ### Causa Raiz O incidente foi desencadeado por uma combinação de fatores técnicos e de infraestrutura: * **Instabilidade no Provedor de Nuvem:** Ocorreu um pico transitório de latência no serviço de mensageria do Google Cloud, resultando em erros de conexão e tempos de resposta extremamente elevados. * **Limitação de Design do Conector:** O componente utilizado para processar as mensagens estava configurado para tratar qualquer tempo de espera \(timeout\) superior a 30 segundos como um erro fatal e não recuperável. * **Volume de Processamento:** Devido a um grande lote de mensagens sendo processado simultaneamente, o atraso em apenas 11 delas foi suficiente para exceder o limite de tempo e derrubar o serviço por completo. * **Configurações de Legado:** O serviço ainda operava com parâmetros de configuração antigos, que não incluíam políticas de retentativa ou tolerância a falhas de rede temporárias. ### Resolução Após a identificação do gargalo na infraestrutura de nuvem e das falhas no serviço de saída, a equipe técnica realizou a reinicialização dos componentes afetados. Uma vez restabelecida a conectividade com o provedor de nuvem, o sistema processou automaticamente o acúmulo de mensagens em cerca de 5 minutos, normalizando a entrega de todas as notificações pendentes. ‌ ### Lições Aprendidas * **Desacoplamento de Melhorias e Migrações:** Identificamos que melhorias críticas de resiliência não devem ficar estritamente atreladas a grandes migrações de infraestrutura, sob o risco de manter serviços expostos a falhas conhecidas por mais tempo do que o necessário. * **Redução do Raio de Exposição:** O uso de lotes de processamento muito grandes pode aumentar o impacto de falhas isoladas. Ajustar o tamanho desses lotes ajuda a isolar problemas de rede. * **Monitoramento Proativo de Latência:** A ausência de alertas específicos para latência de publicação impediu uma detecção precoce antes que o limite de interrupção do serviço fosse atingido. * **Resiliência como Padrão:** Configurações de retentativa e tratamento de erros devem ser padronizadas em todos os conectores de dados para suportar a volatilidade natural de ambientes de nuvem. ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.‌ Atenciosamente, Equipe Unico.

Read the full incident report →

Minor March 13, 2026

Instabilidade Parcial na Prova de Vida/Liveness

Detected by Pingoru
Mar 13, 2026, 10:32 PM UTC
Resolved
Mar 13, 2026, 11:45 PM UTC
Duration
1h 13m
Affected: Prova de Vida (API)
Timeline · 4 updates
  1. monitoring Mar 13, 2026, 10:32 PM UTC

    Prezado Cliente, Informamos que a instabilidade que afetava o serviço de Prova de Vida (Liveness) foi identificada e corrigida. No momento, o cenário encontra-se totalmente estabilizado, com o impacto limitado a um período parcial com início às 18:55 e fim às 19:10. Nossa equipe de engenharia já implementou as ações corretivas e seguimos em fase de monitoramento para garantir a plena performance da funcionalidade.

  2. monitoring Mar 13, 2026, 10:41 PM UTC

    Prezado Cliente, Informamos que a instabilidade que afetava o serviço de Prova de Vida (Liveness) foi identificada e corrigida. No momento, o cenário encontra-se totalmente estabilizado, com o impacto limitado a um período parcial com início às 18:55 e fim às 19:10. Nossa equipe de engenharia já implementou as ações corretivas e seguimos em fase de monitoramento para garantir a plena performance da funcionalidade. Atenciosamente, Equipe Unico!

  3. resolved Mar 13, 2026, 11:45 PM UTC

    Atualização de Incidente: Resolvido Resumo Executivo e Impacto Informamos que a instabilidade parcial identificada em nosso motor de liveness foi totalmente resolvida. O incidente ocorreu entre 18:55 e 19:10, totalizando aproximadamente 15 minutos de impacto direto. Durante este intervalo, registramos um volume de aproximadamente 15% de erros. Ressaltamos que não houve qualquer perda ou comprometimento de integridade de dados durante o período. Compromisso e Próximos Passos A estabilidade do ecossistema já foi validada e o serviço segue operando dentro dos parâmetros de normalidade. Nossa prioridade agora volta-se para a análise de resiliência a longo prazo: Postmortem: Um relatório detalhado (Postmortem) será elaborado e compartilhado em breve, aprofundando os gatilhos do evento e as melhorias estruturais. Refinamento de Auto-scaling: Revisaremos as políticas de escalonamento automático para garantir respostas ainda mais ágeis a variações bruscas de tráfego. Lamentamos sinceramente pelo impacto causado em sua operação e reafirmamos nosso compromisso com a excelência técnica e a disponibilidade de nossos serviços. Equipe Unico.

  4. postmortem Mar 24, 2026, 01:18 PM UTC

    # Postmortem: Instabilidade Parcial na Prova de Vida/Liveness ## **Sumário** No dia 13 de março de 2026, entre 19:00 e 19:15 \(BRT\), o serviço **Liveness Platform Predict** apresentou uma degradação significativa, com a disponibilidade caindo para aproximadamente **85%**. O incidente foi desencadeado por um pico atípico e repentino de tráfego que excedeu a capacidade de processamento imediata da infraestrutura e dos mecanismos de escalonamento automático. ‌ ## **Impacto** * **Duração:** Aproximadamente 15 minutos. * **Experiência do Usuário:** Cerca de **15% das transações** falharam durante a janela de pico. * **Erros Observados:** Os usuários enfrentaram erros de limite de taxa \(HTTP 429\), erros internos do servidor \(HTTP 500\) e falhas de conexão devido a desconexões prematuras \(timeout\). * **Conformidade de SLO:** A conformidade do nível de serviço caiu de uma meta de 99,8% para a faixa de 84-85%, consumindo totalmente o orçamento de erro planejado para o período. ## **Causa Raiz** O incidente foi resultado de uma combinação de três fatores principais: 1. **Pico de Tráfego Exacerbado:** Um único locatário apresentou um volume de requisições de aproximadamente **6.000 por segundo**, superando drasticamente o limite acordado de 350 TPS. 2. **Headroom de Latência Reduzido:** O componente principal de processamento estava operando com uma latência de linha de base muito próxima ao seu limite de _timeout_ de 6 segundos. Sob carga extra, as requisições excederam esse limite, impedindo o processamento bem-sucedido. 3. **Instabilidade na Camada de Rede \(Escalonamento Agressivo\):** O sistema de escalonamento automático reagiu tentando criar centenas de novas instâncias simultaneamente. Essa rápida expansão sobrecarregou o plano de controle da rede e esgotou os recursos de IP disponíveis no cluster, gerando falhas de conexão em vez de alívio de carga. ## **Resolução** A equipe de engenharia detectou a queda de disponibilidade em menos de 2 minutos através de alertas automáticos. A mitigação foi alcançada através das seguintes ações: ‌ * **Ajuste de Capacidade Mínima:** O número mínimo de instâncias ativas foi elevado manualmente para 500. * **Estabilização da Latência:** Com o aumento da capacidade fixa, a latência de processamento retornou ao patamar de **3 segundos**, estabilizando o serviço e restabelecendo a disponibilidade normal. ## **Lições Aprendidas** * **Revisão de Timeouts:** Identificamos que a derivação gradual da latência base precisa ser acompanhada de revisões periódicas nas configurações de _timeout_ para garantir margem de segurança operacional. * **Refinamento de Escalonamento:** O comportamento de escalonamento automático agressivo pode ser contraproducente se a infraestrutura de rede subjacente não estiver preparada para a velocidade da expansão. * **Governança de Tráfego:** É necessário reforçar os limites de tráfego por cliente antes que picos inesperados possam impactar a plataforma de forma global. * **Mapeamento de Erros:** Certos padrões de erro de rede não estavam adequadamente mapeados em nossos sistemas de interrupção de circuito, o que dificultou a contenção automática da falha. ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.‌ Atenciosamente, Equipe Unico.

Read the full incident report →

Major March 12, 2026

Instabilidade na Prova de Vida/Liveness

Detected by Pingoru
Mar 12, 2026, 12:10 PM UTC
Resolved
Mar 12, 2026, 02:45 PM UTC
Duration
2h 34m
Affected: Prova de Vida (API)
Timeline · 5 updates
  1. identified Mar 12, 2026, 12:27 PM UTC

    Prezado Cliente, Identificamos uma instabilidade que afeta a capacidade de Prova de Vida (Liveness) em nossos serviços. Nossa equipe de engenharia já está mobilizada e trabalhando intensamente no diagnóstico para restabelecer a normalidade o mais breve possível. Entendemos a importância dessa funcionalidade para sua operação e priorizamos a resolução deste cenário. Reforçamos nosso compromisso com a transparência e enviaremos novas atualizações assim que tivermos mais informações sobre a evolução do reparo. Atenciosamente, Equipe Unico.

  2. identified Mar 12, 2026, 12:53 PM UTC

    Prezado Cliente Nossa equipe de tecnologia segue atuando proativamente para identificar a causa raiz e restabelecer a normalidade do serviço de Prova de Vida. Manteremos todos informados com novas atualizações sobre o progresso e a resolução do incidente em breve. Agradecemos a sua compreensão e paciência.

  3. monitoring Mar 12, 2026, 01:28 PM UTC

    Prezado Cliente, Nossa equipe identificou as causas do problema e realizou as ações para que este incidente fosse solucionado. Dentro de alguns dias compartilharemos maiores detalhes através de um Postmortem. Pedimos desculpas pelo transtorno e nos colocamos à disposição para sanar dúvidas através dos nossos canais de atendimento. Atenciosamente, Equipe Unico!

  4. resolved Mar 12, 2026, 02:45 PM UTC

    Prezado Cliente, Informamos que a instabilidade que afetou a disponibilidade da capacidade de Prova de Vida (Liveness) foi totalmente resolvida. Resumo Executivo e Impacto No dia de hoje, identificamos uma instabilidade temporária em nosso serviço de captura de dados biométricos entre 09:07 e 09:20. Durante este intervalo, uma parcela dos usuários enfrentou dificuldades ao tentar realizar autenticações e capturas, resultando em uma queda na taxa de disponibilidade. Lamentamos o ocorrido e ressaltamos que o restabelecimento da normalidade foi priorizado para minimizar o impacto na experiência dos usuários finais e na operação de nossos clientes parceiros. Causa Raiz e Resolução A instabilidade foi originada por uma falha ainda sob investigação que afetou a infraestrutura de nuvem. O comportamento observado é consistente com um incidente anterior registrado junto ao provedor. A equipe de engenharia interveio e o serviço foi totalmente restabelecido às 09:20, operando com estabilidade desde então. A investigação junto ao fornecedor segue em andamento. Um Postmortem detalhado será elaborado e compartilhado em breve, detalhando as melhorias estruturais de longo prazo. Lamentamos o impacto causado em sua operação e permanecemos à disposição. Atenciosamente, Equipe Unico.

  5. postmortem Mar 24, 2026, 08:49 PM UTC

    # Postmortem: Incidente de Disponibilidade na Plataforma de Biometria e Liveness ## Resumo Em 12 de março de 2026, nossa plataforma de captura de dados e biometria enfrentou uma degradação significativa de serviço. O incidente foi desencadeado por um pico repentino de tráfego que sobrecarregou o servidor de modelos de _liveness_, levando a um aumento drástico na latência e a uma queda acentuada na disponibilidade para o processamento de inferências. ## Impacto Entre **09:10 e 09:22 \(BRT\)**, a disponibilidade para os fluxos de biometria e _liveness_ caiu para níveis próximos a **1%**, afetando todos os clientes que utilizavam esses serviços no período. O sistema apresentou lentidão extrema e erros de tempo de resposta \(_timeout_\), impactando a experiência do usuário final. A estabilidade total das métricas foi confirmada às 17:31, após a implementação de ajustes estruturais. ## Causa Raiz A investigação identificou uma falha de design na forma como o sistema lidava com saturação de carga. O incidente seguiu a seguinte progressão: 1. **Pico de Requisições:** Um aumento inesperado no volume de tráfego proveniente de setores específicos sobrecarregou o servidor de modelos. 2. **Degradação Silenciosa:** A aplicação de inferência aceitou mais conexões simultâneas do que sua capacidade de processamento permitia. Em vez de rejeitar o excesso de carga com erros rápidos, o sistema tentou processar todas as requisições, o que causou uma disputa de recursos de CPU. Isso elevou o tempo de resposta de 2 segundos para mais de 30 segundos. 3. **Invisibilidade do Circuit Breaker:** Os mecanismos de proteção da rede não detectaram a falha, pois as desconexões dos clientes por lentidão e as respostas de limite de taxa \(_Rate Limit_\) foram interpretadas como eventos normais de rede, impedindo o isolamento automático dos componentes degradados. 4. **Efeito Cascata:** O tempo de inicialização de novos recursos para escala automática foi insuficiente para absorver o impacto imediato, sobrecarregando ainda mais as instâncias ativas. ## Resolução Para mitigar o problema e restaurar o serviço, foram tomadas as seguintes medidas: * **Ajuste de Configurações:** Revertemos alterações recentes nos limites de detecção de anomalias que se mostraram contraproducentes sob estresse. * **Gestão de Tráfego:** Implementamos novos limites locais de taxa de transferência e consolidamos as janelas de escalonamento para garantir que o sistema estivesse melhor preparado para picos de demanda. * **Estabilização:** As alterações foram implantadas via ferramentas de entrega contínua, e a estabilidade da latência foi confirmada após o deploy final às 17:31. ## Lições Aprendidas * **Falha por Lentidão vs. Falha por Erro:** Aprendemos que o sistema deve ser configurado para "falhar rápido" \(_fail fast_\). Aceitar requisições além da capacidade nominal causa degradação silenciosa, que é mais difícil de detectar e corrigir do que erros explícitos. * **Visibilidade do Mesh:** Identificamos a necessidade de tornar erros de limite de taxa \(429\) e desconexões de clientes visíveis para os mecanismos de auto-recuperação da malha de serviços. * **Backpressure:** A ausência de limites estritos de fila de conexões impediu a geração de pressão reversa \(_backpressure_\) necessária para proteger a integridade do sistema. ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.‌ Atenciosamente, Equipe Unico.

Read the full incident report →

Major March 10, 2026

Instabilidade nos serviços de mensagerias da Unico, impactando todos os produtos integrados aos fluxos de mensagens via WhatsApp

Detected by Pingoru
Mar 10, 2026, 10:19 PM UTC
Resolved
Mar 10, 2026, 11:27 PM UTC
Duration
1h 7m
Affected: Fluxo de mensagensFluxo de mensagensFluxo de mensagensFluxo de mensagens
Timeline · 4 updates
  1. investigating Mar 10, 2026, 10:19 PM UTC

    Prezado Cliente, Nosso time identificou a instabilidade na plataforma de mensageria para o fluxo de WhatsApp, gerando falhas nos envios de mensagens aos produtos IDcloud, IDcheck, IDSign, DPay e Unico People Nosso time de tecnologia está atuando para resolver o problema junto ao fornecedor. Em breve traremos novas atualizações.

  2. identified Mar 10, 2026, 10:20 PM UTC

    Prezado Cliente, Nosso time identificou a instabilidade na plataforma de mensageria para o fluxo de WhatsApp, gerando falhas nos envios de mensagens aos produtos IDcloud, IDcheck, IDSign, DPay e Unico People Nosso time de tecnologia está atuando para resolver o problema junto ao fornecedor. Em breve traremos novas atualizações.

  3. resolved Mar 10, 2026, 11:27 PM UTC

    Prezado Cliente, Incidente resolvido. Nossa equipe identificou as causas do problema e realizou as ações para que este incidente fosse solucionado. Dentro de alguns dias compartilharemos maiores detalhes através de um Postmortem. Pedimos desculpas pelo transtorno e nos colocamos à disposição para sanar dúvidas através dos nossos canais de atendimento. Atenciosamente, Equipe Unico!

  4. postmortem Mar 23, 2026, 12:25 PM UTC

    # Postmorte: Instabilidade nos serviços de mensagerias da Unico, impactando todos os produtos integrados aos fluxos de mensagens via WhatsApp ## **Resumo** No dia **10 de março de 2026**, nossos serviços enfrentaram dificuldades na entrega de mensagens e no recebimento de confirmações \(callbacks\) de notificações enviadas via WhatsApp. O problema foi originado por uma instabilidade global em um provedor externo, impactando a comunicação em tempo real com os usuários finais. ‌ ## **Impacto** O incidente ocorreu entre **13:50 e 15:12** \(horário de Brasília\). Durante esse período: ‌ * Aproximadamente **1.560 transações** foram afetadas pela falta de confirmação de entrega. * Houve uma degradação significativa na taxa de sucesso das mensagens, com picos de falha reportados em torno de **39%** em determinados canais. * Clientes que dependiam de notificações instantâneas para fluxos de autenticação e transações experimentaram atrasos ou ausência de status. ## **Causa Raiz** A falha foi identificada como uma **dependência externa**. O provedor da API do WhatsApp Business \(Meta\) apresentou instabilidades na infraestrutura de entrega de mensagens. Embora nossos parceiros tenham monitorado a situação, a causa técnica específica da instabilidade não foi divulgada publicamente pela Meta até o momento. ‌ ## **Resolução** A recuperação do serviço ocorreu de forma gradual à medida que a infraestrutura da Meta foi estabilizada. ‌ * **13:48:** Início da detecção de falhas nos callbacks. * **14:40:** Identificação de instabilidade generalizada e início da investigação técnica. * **15:12:** Confirmação de que as mensagens voltaram a ser entregues e os logs de erro cessaram. * **15:29:** O incidente foi declarado resolvido após monitoramento da normalização das taxas de entrega. ## **Lições Aprendidas** * **Dependência de Terceiros:** O incidente reforçou a necessidade de planos de contingência para serviços que dependem exclusivamente de APIs de terceiros, cujas falhas fogem ao controle direto da nossa engenharia. * **Monitoramento Granular:** Identificamos uma oportunidade de melhoria em nossa observabilidade. Atualmente, nossos alertas são segmentados, e a percepção da falha geral exigiu uma análise manual. Implementaremos alertas de visão macro para detectar anomalias globais de callback com maior agilidade. ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.‌ Atenciosamente, Equipe Unico.

Read the full incident report →

Notice March 6, 2026

Instabilidade ID Sign para Assinaturas Multidocumentos

Detected by Pingoru
Mar 06, 2026, 02:55 PM UTC
Resolved
Feb 26, 2026, 03:00 PM UTC
Duration
Timeline · 2 updates
  1. resolved Mar 06, 2026, 02:55 PM UTC

    Resumo Executivo e Impacto Entre o dia 26 de fevereiro de 2026 e a manhã de hoje, 6 de março, identificamos uma intercorrência que impedia a conclusão de assinaturas em envelopes contendo dois ou mais documentos nos fluxos de ID Sign. O erro ocorria na etapa final de validação do método de assinatura, resultando em aproximadamente 32.000 falhas registradas durante o período. O impacto foi generalizado para todos os clientes que operam com múltiplos documentos por envelope, embora envelopes com documento único tenham seguido operando normalmente. Confirmamos que não houve perda, vazamento ou corrupção de dados dos clientes ou signatários. Causa Raiz e Resolução A causa raiz foi a reintrodução de um erro de lógica de validação em uma versão do sistema implantada no dia 26/02. Este comportamento era um problema recorrente que já havia sido mitigado anteriormente, mas que voltou a afetar o ambiente de produção após uma nova atualização. Como medida imediata para restaurar a operação, nossa equipe de engenharia realizou o rollback (reversão) para a versão estável às 09h59. Após a reversão, as taxas de erro normalizaram. Alguns incidentes residuais podem ter ocorrido nos minutos seguintes devido ao cache de respostas incorretas nos navegadores dos usuários, situação que já foi dissipada. Compromisso e Próximos Passos Estamos tratando este caso com prioridade devido à recorrência do erro e ao tempo em que o comportamento permaneceu em produção sem o disparo de alertas sistêmicos. Nossos próximos passos incluem: Ajuste de Monitoria: Revisão dos thresholds de alerta para identificar falhas específicas em fluxos de múltiplos documentos, mesmo quando o volume total de erros não atinge o limite crítico global. Postmortem: Um documento detalhado com o plano de ação para evitar que este bug específico retorne em futuras versões será compartilhado com os stakeholders em breve. Lamentamos sinceramente o impacto causado em suas operações e reforçamos nosso compromisso com a estabilidade e a confiabilidade de nossas jornadas digitais. Equipe Unico

  2. postmortem Mar 16, 2026, 01:40 PM UTC

    # Postmortem: Instabilidade ID Sign para Assinaturas Multidocumentos ## Sumário Entre o final de fevereiro e o início de março de 2026, identificamos uma instabilidade que impedia a conclusão de assinaturas em envelopes que continham mais de um documento. O problema foi originado por uma falha na validação de eventos de aceite no carregamento da interface, impedindo que os usuários finalizassem o processo de assinatura conforme o esperado. ## Impacto O incidente afetou exclusivamente os fluxos de assinatura de envelopes com múltiplos documentos. * **Volume de erro:** Foram registrados **32.006 erros de validação** durante o período. * **Experiência do Usuário:** O sistema apresentava incorretamente todos os documentos como "aceitos" na interface, liberando o botão de submissão prematuramente. Ao tentar concluir, o usuário recebia um erro de validação \(Precondition Failed\), pois o sistema de segurança detectava que nem todos os documentos haviam sido tecnicamente processados. ## Causa Raiz A falha foi causada pela reintrodução de um erro de lógica em uma atualização de software. ‌ * **Falha Técnica:** O método responsável por retornar os dados do envelope passou a enviar apenas as informações de aceite relativas ao primeiro documento do pacote. * **Consequência:** Como o painel frontal recebia dados incompletos, ele "entendia" que o fluxo estava completo e ignorava as etapas de validação obrigatórias para os demais documentos, resultando em uma falha de conformidade no momento da assinatura final. ## Resolução Após a detecção e análise do comportamento anômalo, a equipe técnica realizou o **rollback** \(reversão\) para a versão estável anterior \(2.262.0\). ‌ * A reversão foi concluída com sucesso no dia 06 de março de 2026. * As taxas de erro caíram imediatamente após a aplicação da versão anterior, confirmando a estabilização do serviço. ## Lições Aprendidas * **Prevenção de Regressão:** Identificou-se que este era um problema recorrente que já havia sido tratado anteriormente, o que destaca a necessidade de testes de regressão mais rigorosos para fluxos específicos de múltiplos documentos. * **Monitoramento de Interface vs. Backend:** O incidente revelou uma discrepância entre o que o usuário visualizava \(sucesso falso\) e o que o backend processava, reforçando a importância de alertas baseados em erros de validação de contrato. * **Gestão de Cache:** Observou-se que, mesmo após a correção, alguns erros residuais ocorreram devido a sessões antigas armazenadas em cache, o que servirá de insumo para melhorar as estratégias de invalidação de cache em futuras correções. ‌ Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro. ‌ Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.

Read the full incident report →

Minor March 2, 2026

Instabilidade Unico People - link de cadastro

Detected by Pingoru
Mar 02, 2026, 06:23 PM UTC
Resolved
Mar 02, 2026, 08:21 PM UTC
Duration
1h 58m
Affected: Portal Cliente (Dashboard)Módulo Candidato
Timeline · 3 updates
  1. identified Mar 02, 2026, 06:23 PM UTC

    Prezados clientes, Identificamos uma instabilidade no Unico People que afeta a geração dos links de convite para novos cadastros. Devido a uma falha no serviço de encurtador de links, as URLs estão sendo geradas incorretamente, impedindo o acesso dos candidatos à plataforma. Nossa equipe de engenharia já está atuando com máxima urgência para corrigir o serviço de encurtamento e normalizar o envio dos convites. Pedimos desculpas pelo transtorno e manteremos todos atualizados sobre a resolução. Atenciosamente,

  2. monitoring Mar 02, 2026, 06:57 PM UTC

    Prezados clientes, Gostaríamos de informar que o serviço de geração de links no Unico People foi normalizado para novos cadastros. Nossa equipe de engenharia segue monitorando o ambiente para garantir a estabilidade. Atenção aos cadastros retroativos: Nosso time técnico continua trabalhando na correção específica dos links gerados entre 11h00 e 15h20 de hoje. Traremos atualizações sobre como proceder com esses convites em breve. Agradecemos a paciência e compreensão. Atenciosamente,

  3. resolved Mar 02, 2026, 08:21 PM UTC

    Prezados clientes, Informamos que o incidente relacionado à geração de links de convite no Unico People foi encerrado. O serviço de encurtador de links está operando normalmente para todos os novos cadastros. Sobre os links gerados entre 11h00 e 15h20: Nossa engenharia programou o envio de novos links corrigidos para esses casos. O reenvio ocorrerá de forma gradual entre hoje e amanhã (até as 08h00). Agradecemos a compreensão e paciência durante o período de instabilidade. Atenciosamente,

Read the full incident report →

Minor February 27, 2026

Instabilidade - Unico People

Detected by Pingoru
Feb 27, 2026, 01:26 PM UTC
Resolved
Feb 27, 2026, 06:03 PM UTC
Duration
4h 37m
Affected: AnálisePortal Cliente (Dashboard)
Timeline · 3 updates
  1. identified Feb 27, 2026, 01:26 PM UTC

    Informamos que detectamos uma instabilidade técnica que afeta a extração de dados de documentos em nossa plataforma. Identificamos que a origem do problema está em uma interrupção parcial nos serviços de infraestrutura da Google Cloud (GCloud), impactando diretamente a comunicação com os modelos de inteligência artificial (Gemini) utilizados em nosso motor de OCR. Nossa equipe de engenharia está em contato com o suporte do google para tratar o problema com urgencia. Manteremos todos atualizados,

  2. monitoring Feb 27, 2026, 02:43 PM UTC

    Prezados clientes, Informamos que a instabilidade que afetava a extração de dados de documentos está em processo de normalização. A comunicação com os serviços da infraestrutura de IA foi restabelecida e o ambiente apresenta sinais de recuperação. Nossa equipe de engenharia segue monitorando rigorosamente a estabilidade do sistema para garantir o fluxo total de processamento. Agradecemos a paciência e manteremos todos informados. Atenciosamente,

  3. resolved Feb 27, 2026, 06:03 PM UTC

    Prezados clientes, Informamos que a instabilidade na extração de dados de documentos foi totalmente resolvida. Após um período de monitoramento, confirmamos que os serviços de infraestrutura foram restabelecidos e a plataforma opera com estabilidade total. O incidente está oficialmente encerrado. Agradecemos a paciência e compreensão. Atenciosamente,

Read the full incident report →

Looking to track Unico downtime and outages?

Pingoru polls Unico's status page every 5 minutes and alerts you the moment it reports an issue — before your customers do.

  • Real-time alerts when Unico reports an incident
  • Email, Slack, Discord, Microsoft Teams, and webhook notifications
  • Track Unico alongside 5,000+ providers in one dashboard
  • Component-level filtering
  • Notification groups + maintenance calendar
Start monitoring Unico for free

5 free monitors · No credit card required