Whaller experienced a minor incident on October 8, 2024 affecting Main application and API, lasting 4h 33m. The incident has been resolved; the full update timeline is below.
Affected components
Update timeline
- investigating Oct 08, 2024, 05:59 PM UTC
Nous observons des lenteurs depuis environ 18h40 CET. Nous investiguons.
- identified Oct 08, 2024, 06:14 PM UTC
La cause est dûe à un incident chez notre hébergeur : https://hosted-private-cloud.status-ovhcloud.com/incidents/k7gc5f33n5sg
- resolved Oct 08, 2024, 10:32 PM UTC
This incident has been resolved.
- postmortem Oct 09, 2024, 07:50 AM UTC
### Résumé Le 08 octobre 2024, un incident a eu lieu sur notre infrastructure hébergée, entraînant l’indisponibilité de certains services. Les équipes techniques ont diagnostiqué le problème et ont travaillé en collaboration avec notre fournisseur pour restaurer le service. L'incident a été résolu dans un délai de 6 heures. ### Chronologie des événements * **18:30** : Détection initiale du problème, des pages ne sont pas chargées correctement. * **19:15** : Les équipes techniques sont informées de l’incident. * **19:45** : Analyse initiale réalisée, suspicion d’un lien avec un incident de notre fournisseur d’hébergement. * **20:05** : Incident déclaré auprès du fournisseur d’hébergement. * **22:45** : Appel au fournisseur pour demander un remplacement des ressources matérielles défectueuses. * **23:25** : Opération de maintenance terminée en interne suite au remplacement des ressources matérielles défectueuses. * **00:15** : Redémarrage des services impactés. * **00:17** : Intervention manuelle sur d’autres services, restauration complète des fonctionnalités. * **00:32** : Clôture de l’incident. ### Difficultés rencontrées Les équipes techniques ont rencontré des difficultés liées à l’indisponibilité soudaine d’un hôte et à la nécessité d’intervenir manuellement sur plusieurs services pour restaurer les connexions réseau et relancer les services. Le délai de réponse du fournisseur d’hébergement a également allongé la durée de résolution. ### Cause de l'incident L’incident a été causé par la défaillance d’un hôte dans notre infrastructure hébergée, impactant la disponibilité des services critiques. Le suivi de l’incident est disponible se trouve ici : [\[RBX\]\[Hosted Private Cloud\] - Hosts unreachable incident notifcation](https://hosted-private-cloud.status-ovhcloud.com/incidents/k7gc5f33n5sg) ### Perte de données Aucune perte de données n’a été constatée durant l’incident. Les actions correctives ont été menées de manière à préserver l’intégrité des données. ### Mesures de remédiation * Collaboration renforcée avec le fournisseur d’hébergement pour améliorer les délais de remplacement des hôtes défectueux. * Automatisation des procédures de reconfiguration réseau afin de minimiser les interventions manuelles en cas d’incident similaire. * Amélioration des processus de surveillance pour détecter plus rapidement les anomalies et accélérer la résolution des incidents.