Dalenys incident

INCIDENT PROCESSING | Perturbations paiements magasin NEXO / NEXO instore payment disruptions

Major Resolved View vendor source →

Dalenys experienced a major incident on December 7, 2024 affecting Paiement en magasin - NEXO / Instore payment, lasting 1h 12m. The incident has been resolved; the full update timeline is below.

Started
Dec 07, 2024, 04:25 PM UTC
Resolved
Dec 07, 2024, 05:38 PM UTC
Duration
1h 12m
Detected by Pingoru
Dec 07, 2024, 04:25 PM UTC

Affected components

Paiement en magasin - NEXO / Instore payment

Update timeline

  1. investigating Dec 07, 2024, 04:25 PM UTC

    FR Nous avons identifié des difficultés sur le paiement magasin NEXO. L'incident est en cours d'analyse. EN We have identified ongoing difficulties on NEXO instore payments. An investigation is in progress.

  2. investigating Dec 07, 2024, 04:50 PM UTC

    FR Nous poursuivons nos investigations pour rétablir le trafic au plus vite. EN We are continuing our investigations to restore traffic as quickly as possible.

  3. monitoring Dec 07, 2024, 05:04 PM UTC

    FR Nous actions ont permis de restaurer une pleine capacité d'encaissement en magasin / Nexo. Nous monitorons avant d'annoncer une pleine résolution. EN Our actions have restored full in-store / Nexo checkout capacity. We are monitoring before announcing a full recovery.

  4. resolved Dec 07, 2024, 05:38 PM UTC

    FR Nos services sont à nouveau pleinement opérationnels. Un post mortem sera publié lundi. EN Our services are fully operational again. A post-mortem will be published on Monday.

  5. postmortem Dec 10, 2024, 05:23 PM UTC

    # Post Mortem **Référence incident** TSR-965 **Service concerné** Paiements en magasin NEXO **Impact client** Indisponibilité du paiement en magasin via TPE NEXO. **Synthèse de l’incident** * **5 décembre 14h34 :** activation de la nouvelle brique d’acquisition. * **7 décembre - 16h45 : début de l’incident.** * **7 décembre - 16h58 :** remontées d’alertes. * **7 décembre - 17h17 :** création de la cellule incident majeur. * **7 décembre - 17h25 :** communication status page. * **7 décembre - 17h35 :** actions pour purger des files de messages bloquant le trafic. * **7 décembre - 18h00 : Reprise du service et fin de l’incident.** **Contexte** Plan de transformation en cours impliquant un changement de brique d’acquisition, pour se rendre plus indépendant, réactif et résilient qu’avec la brique actuelle. **Root cause** Le timeout d’une requête d’autorisation n’a pas été géré correctement par une instance de notre nouvelle brique d’acquisition. L’instance est restée en attente de réponse à cette requête, sans passer aux requêtes suivantes. La file d’attente de cette instance s’est engorgée jusqu’à ne plus répondre et a fini par faire échouer les deux autres instances, coupant par la même occasion l’intégralité du trafic NEXO. Les tests n’ont pas permis de reproduire ce cas en amont du déploiement et de s’en prémunir. **Actions à entreprendre par Payplug** | **Symptôme** | **Action** | | --- | --- | | Robustesse de la nouvelle brique insuffisante. | Switch sur l’ancienne brique tant qu’on n’a pas suffisamment fiabilisé la nouvelle. **Aucun risque ne sera pris avant la fin des soldes.** | | Mauvaise gestion des requêtes d’autorisations en erreur. | Changement structurant sur les applicatifs utilisés par cette nouvelle brique priorisé en amont du redéploiement de cette nouvelle brique. | | Délai de résolution important. | Mise à jour de la documentation à destination de l’astreinte. |