PayPlug incident

Incident sur le traitement des paiements

Major Resolved View vendor source →

PayPlug experienced a major incident on March 21, 2024, lasting 20m. The incident has been resolved; the full update timeline is below.

Started
Mar 21, 2024, 10:30 AM UTC
Resolved
Mar 21, 2024, 10:51 AM UTC
Duration
20m
Detected by Pingoru
Mar 21, 2024, 10:30 AM UTC

Update timeline

  1. identified Mar 21, 2024, 10:30 AM UTC

    Bonjour, Nous enregistrons actuellement un incident concernant le traitement des paiements. Celui-ci a commencé à 10h45. Le trafic est en train de revenir progressivement à la normale. ----------- In italiano: Buongiorno, Stiamo attualmente registrando un incidente relativo all'elaborazione dei pagamenti. Questo è iniziato alle 10:45. Il traffico sta progressivamente tornando alla normalità.

  2. identified Mar 21, 2024, 10:38 AM UTC

    We are continuing to work on a fix for this issue.

  3. resolved Mar 21, 2024, 10:51 AM UTC

    L'incident est entièrement résolu depuis 11h48. Les paiements passent de nouveau normalement. Nous continuons de monitorer activement la situation. Nous vous présentons nos excuses pour la gêne occasionnée. ----------- In Italiano: L'incidente è completamente risolto dalle 11:48. I pagamenti stanno di nuovo procedendo normalmente. Continuiamo a monitorare attivamente la situazione. Ci scusiamo per il disagio causato.

  4. postmortem Mar 22, 2024, 01:05 PM UTC

    **Service concerné** Paiement e-commerce \(y compris moyens de paiement alternatifs\). **Impact client** Dégradation progressive du service à partir de 10h45 jusqu'à 11h15 avant récupération progressive jusqu'à 11h42. **Synthèse de l’incident** 10h45 : mise en production de fonctionnalités de monitoring et **début de l’incident.** 11h04 : détection de la dégradation du service paiement. 11h08 : ouverture de la cellule de crise technique. 11h13 : rollback pour enlever la fonctionnalité et reprise progressive du service. 11h42 : rollback terminé, **reprise totale du service** et **fin de l’incident.** **Root cause** Mise en production de fonctionnalités pour améliorer notre monitoring qui se sont avérées défaillantes. Les tests effectués n’avaient pas mis en évidence la défaillance des fonctionnalités. **Contexte** La mise en production d’une nouvelle fonctionnalité, tout comme le rollback pour l'enlever sont progressifs sur les différents serveurs, ce qui explique la dégradation et le retour progressifs du trafic. **Actions à entreprendre par Payplug** | **Symptôme** | **Action** | | --- | --- | | Tests qui n’ont pas mis en évidence la défaillance | Investigation en cours sur la non détection en environnement de test. Actions à venir pour pallier le potentiel problème de manque de représentativité des tests. | | Détection de l’incident perfectible \(19 minutes après début de mise en production, en partie justifié par le déploiement progressif\) | Revue et rappel de formation des équipes sur le process de déploiement \(notamment sur la partie monitoring post déploiement\) | | Rollback pour rétablir le service trop long | Amélioration du process de rollback qui nécessite actuellement un redéploiement progressif sur tous les serveurs | ‌ ==============VERSIONE ITALIANA============== ‌ **Servizio coinvolto** Pagamento e-commerce \(compresi metodi alternativi di pagamento\). **Impatto sul cliente** Dal 10:45 alle 11:15 si è verificato un degrado progressivo del servizio, seguito da un recupero graduale fino alle 11:42. **Sintesi dell'incidente** 10:45: Introduzione in produzione di nuove funzionalità di monitoraggio, **avvio dell'incidente**. 11:04: Rilevamento del degrado nel servizio di pagamento. 11:08: Attivazione della cellula di crisi tecnica. 11:13: Rollback per eliminare le nuove funzionalità e ripristino graduale del servizio. 11:42: Completamento del rollback, **ripristino del servizio, conclusione dell'incidente.** **Causa principale** Introduzione di funzionalità difettose durante la messa in produzione, non rilevate durante i test. **Contesto** La messa in produzione e il rollback delle funzionalità sono progressivi su server diversi, spiegando il degrado e il recupero graduale del traffico. **Azioni da intraprendere** | **Symptôme** | **Action** | | --- | --- | | Test che non hanno individuato la falla | Indagine sulla mancata rilevazione durante i test e azioni future per migliorare la rappresentatività dei test. | | Rilevazione dell'incidente migliorabile | Revisione e rinnovo della formazione dei team sul monitoraggio post-incidente. | | Rollback troppo lungo | Miglioramento del processo di rollback per ridurre il tempo necessario al ripristino. |