Ekco incident

Connection Issues

Major Resolved View vendor source →

Ekco experienced a major incident on May 6, 2025 affecting Iaas Nieuwegein, lasting 49m. The incident has been resolved; the full update timeline is below.

Started
May 06, 2025, 11:00 AM UTC
Resolved
May 06, 2025, 11:49 AM UTC
Duration
49m
Detected by Pingoru
May 06, 2025, 11:00 AM UTC

Affected components

Iaas Nieuwegein

Update timeline

  1. investigating May 06, 2025, 10:25 AM UTC

    We have received reports of issues connecting to the IAAS platform. This is currently being investigated. The next update will be at 13:00.

  2. investigating May 06, 2025, 11:01 AM UTC

    We are continuing to investigate this issue. We have escalated the issue with the manufacterer. The next update will be at 13:30

  3. investigating May 06, 2025, 11:34 AM UTC

    platform should be up and running. We are contacting customers to verify

  4. investigating May 06, 2025, 11:49 AM UTC

    This incident has been resolved. We will continue to monitor the situation. Root cause is still under investigation.

  5. resolved May 06, 2025, 11:56 AM UTC

    This incident has been resolved. We will continue to monitor the situation. Root cause is still under investigation.

  6. postmortem May 16, 2025, 03:38 PM UTC

    **Datum incident: 01-05-2025** **Start tijd incident: 16:27** **Eind tijd incident: 17:20** **Totale tijd incident: 53 minuten** **Datum incident: 02-05-2025** **Start tijd incident: 11:53** **Eind tijd incident: 13:00** **Totale tijd incident: 67 minuten** **Datum incident: 06-05-2025** **Start tijd incident: 12:00** **Eind tijd incident: 13:00** **Totale tijd incident: 60 minuten** **Betrokken diensten: IAAS Edge Gateway Firewall** **Impact op de dienst: Volledige uitval van de firewall functionaliteit** **Samenvatting** Op 1 mei is er een storing ontstaan in het Vmware Edge Gateway cluster. Dit cluster is verantwoordelijk voor het functioneren van de aanwezige Edge Gateway firewalls in de IAAS omgeving. Als gevolg van deze verstoring ontstond er een complete uitval van de Firewalls die gebruikt worden in de IAAS omgeving. Direct na de eerste storing is met Broadcom Vmware een rootcause analyse gestart. Op 6 mei is oorzaak gevonden en hotfix geadviseerd. Deze is onder change control dezelfde avond geïmplementeerd. De storing is sindsdien niet meer opgetreden. **Root cause** Na uitvoerig onderzoek vanuit Vmware is gebleken dat een software bug de oorzaak was van de problemen. Dit onderzoek bracht naar voren dat er een probleem was waarbij bepaalde processen in het systeem vastliepen, wat de verwerking van netwerkverkeer belemmerde. Dit gebeurde wanneer het systeem onder hoge belasting stond en geheugen “gelocked” werd. Hierdoor ontstond een blokkade binnen verschillende processen. Broadcom \(leverancier VMWARE\) heeft om die reden een hotfix geadviseerd om dit probleem te adresseren, welke nog diezelfde avond is toegepast. De ontwikkelingsafdeling van Broadcom heeft de bug en de toegepaste remedie bevestigd. Na een periode van intensief monitoren gaat Ekco in deze conclusie mee. Na implementatie van de hotfix heeft de storing zich niet meer voorgedaan. Als Ekco willen we onze welgemeende excuses aanbieden voor het ongemak dat deze verstoringen hebben veroorzaakt. We begrijpen de impact die dit zal hebben gehad en stellen je geduld en begrip zeer op prijs. Als je vragen hebt of verdere toelichting nodig hebt, aarzel dan niet om contact met ons op te nemen. We zijn er om je te helpen en eventuele zorgen weg te nemen.