Whaller incident
Les fichiers Word, Excel et PowerPoint ne peuvent plus être visualisés ou édités
Whaller experienced a minor incident on October 13, 2024 affecting Whaller 365 (document editor), lasting 7m. The incident has been resolved; the full update timeline is below.
Affected components
Update timeline
- investigating Oct 13, 2024, 08:53 PM UTC
Le service de visualisation et d'édition en ligne des fichiers bureautiques ne fonctionne plus.
- investigating Oct 13, 2024, 08:53 PM UTC
We are continuing to investigate this issue.
- resolved Oct 13, 2024, 09:00 PM UTC
L'incident est résolu.
- postmortem Dec 17, 2024, 06:36 AM UTC
## Résumé Le 13 octobre 2024, les utilisateurs ont rencontré une impossibilité de charger et d’éditer les fichiers Word, Excel et PowerPoint dans OnlyOffice. L’incident a été détecté par un signalement client et a été résolu après intervention des équipes techniques sur un problème lié au service **Nginx**. ## Chronologie des événements * **22h00** : Signalement du problème par un client. * **22h45** : Les équipes techniques reproduisent l’incident. * **22h46** : Investigation en cours sur les serveurs frontaux. * **22h54** : Création de la page d’incident pour informer les utilisateurs. * **22h58** : Redémarrage manuel de **Nginx** effectué, résolution de l’incident. ## Difficultés rencontrées * Les alertes automatisées étaient noyées parmi d’autres alertes non critiques, retardant la détection proactive. * Le problème provenait d’un dysfonctionnement de **logrotate** qui a déclenché un redémarrage en boucle du service **Nginx**. ## Cause de l’incident Une erreur dans la configuration de **logrotate** pour les logs `modsec_audit` a conduit à un redémarrage répété du service **Nginx**. Après plusieurs échecs, **systemd** a arrêté les tentatives de redémarrage automatique, laissant le service à l’arrêt. ## Perte de données Aucune perte de données n’a été constatée durant cet incident. ## Mesures de remédiation 1. **Correction de la configuration logrotate** * Modification de la configutration * Déploiement de cette correction dans les scripts **Ansible** pour garantir une application uniforme. 2. **Amélioration de la surveillance** * Filtrage des alertes pour éviter les fausses notifications. * Ajout d’alertes spécifiques pour détecter l’arrêt anormal des services critiques comme **Nginx**. Les équipes techniques restent mobilisées pour garantir la stabilité du service et remercient les utilisateurs pour leur compréhension.