Ekco incident

Storing op de backup dienstverlening

Ekco experienced a major incident on July 9, 2025 affecting Back-up Ahsay and Back-up Veeam Cloud Connect and 1 more component, lasting 9d 3h. The incident has been resolved; the full update timeline is below.

Started: Jul 09, 2025, 08:27 AM UTC
Resolved: Jul 18, 2025, 11:45 AM UTC
Duration: 9d 3h
Detected by Pingoru: Jul 09, 2025, 08:27 AM UTC

Affected components

Back-up AhsayBack-up Veeam Cloud ConnectBack-up Microsoft 365 Ekco Portal

Update timeline

investigating Jul 09, 2025, 08:27 AM UTC

Momenteel ervaren we problemen op de backup omgeving. Hierdoor kunt u mogelijk hinder ondervinden. De oorzaak hiervan wordt momenteel onderzocht. Wij streven ernaar u zo snel mogelijk te voorzien van een nieuwe update.
investigating Jul 09, 2025, 09:32 AM UTC

Helaas is de oorzaak van de storing nog niet gevonden. De leverancier is opgeschakeld om te assisteren in het onderzoek. Zodra er meer bekend is zullen we opnieuw een update plaatsen.
identified Jul 09, 2025, 12:29 PM UTC

Inmiddels is vast komen te staan dat de storing wordt veroorzaakt door een probleem met het storage systeem. Het onderzoek richt zich nu op het herstellen van dit systeem. Hiervoor zijn extra specialisten opgeschakeld en is een field engineer op het datacenter aanwezig. We doen er alles aan de storing zo snel als mogelijk te herstellen. Zodra er meer bekend is zullen we opnieuw een update plaatsen.
identified Jul 09, 2025, 03:08 PM UTC

Update over de storing Op dit moment is de oorzaak van de storing helaas nog niet vastgesteld. Onze engineers werken onafgebroken door om het probleem zo snel mogelijk te verhelpen. We begrijpen dat dit veel hinder veroorzaakt en doen er alles aan om de dienstverlening zo spoedig mogelijk te herstellen. We houden u op de hoogte van verdere ontwikkelingen. Onze excuses voor het ongemak.
identified Jul 09, 2025, 05:24 PM UTC

Update over de storing Op dit moment worden er herstelwerkzaamheden uitgevoerd op het storage systeem. Hierbij wordt de data uitvoerig gescanned om er zeker van te zijn dat er geen fouten zijn ontstaan. Het is helaas niet goed te voorspellen hoe lang deze scan zal duren. We houden u op de hoogte van verdere ontwikkelingen.
identified Jul 09, 2025, 08:10 PM UTC

Helaas is er nog geen nieuwe update op dit moment. De herstelwerkzaamheden zijn nog in volle gang. We houden u op de hoogte van verdere ontwikkelingen.
identified Jul 09, 2025, 09:59 PM UTC

Helaas is het nog niet gelukt de diensten weer online te brengen. Engineers van Ekco zullen samen met de leverancier gedurende de nacht doorgaan met de herstelwerkzaamheden. Zodra er meer bekend is zullen we opnieuw een update plaatsen.
identified Jul 10, 2025, 04:21 AM UTC

Afgelopen nacht is het onderzoek naar de verstoring onverminderd voortgezet. Op meerdere momenten is het gelukt om het systeem tijdelijk online te brengen. Helaas is de stabiliteit nog onvoldoende, waardoor de dienstverlening nog niet volledig is hersteld. We werken met maximale inzet aan een structurele oplossing en houden u op de hoogte van verdere ontwikkelingen.
identified Jul 10, 2025, 11:05 AM UTC

Beste klant, Wij begrijpen dat de aanhoudende storing op een deel van ons back-upplatform die nu langer dan 24 uur duurt, een aanzienlijke impact heeft op jullie bedrijfsvoering. Daarom wil ik jou persoonlijk informeren over de actuele situatie en wat we eraan doen. Afgelopen woensdag ochtend rond 02:00 zijn er problemen ontstaan op een beperkt deel van onze storage systemen. Dit kan tot gevolg hebben dat, van een aantal backups die je bij ons afneemt op het gebied van Ahsay, Veeam M365 Backup of Veeam Cloud Connect, de backup jobs nu 1 of 2 dagen niet gelopen hebben. Wat we tot nu toe weten is dat het storagesysteem problemen heeft vastgesteld tijdens het schrijven van data. Uit voorzorg schakelt het systeem dan uit om eventuele beschadiging van de data te voorkomen. Tot op heden is het nog niet mogelijk gebleken de oorzaak van de fouten in de schrijfacties te achterhalen. We voeren op dit moment diepgaande analyses uit om te achterhalen waardoor de problemen zich voordoen zodat er gepaste maatregelen kunnen worden genomen. Het probleem heeft onze volle aandacht en onze specialisten werken onafgebroken aan een oplossing. Ons doel is de problemen voor het begin van de avond te verhelpen zodat de backups vannacht weer probleemloos kunnen draaien. De storing betreft slechts een beperkt deel van ons platform en, wanneer gewenst, kunnen we nieuwe accounts aanmaken, waarmee direct een backup kan worden gestart. Zeker op het moment dat er geen lokale backup aanwezig is, adviseren we je deze optie te overwegen. Voor het inregelen of voor advies kun je een mail sturen naar [email protected] of bellen met het klantteam op het nummer (088-0700653). We houden je uiteraard continu op de hoogte van de voortgang via statuspage en ik zal je rond 16:30 vandaag ook informeren over de stand van zaken. Nogmaals onze oprechte excuses voor het ongemak. Wij danken je hartelijk voor jouw begrip en vertrouwen. Met vriendelijke groet, Jeroen van den Nouwland Directeur Ekco NL
identified Jul 10, 2025, 03:45 PM UTC

Beste klant, Zoals eerder beloofd ontvang je hierbij een update over de situatie. Het uitgebreide onderzoek heeft aangewezen dat de instabiliteit van het storagesysteem hoogstwaarschijnlijk veroorzaakt is door een defecte disk. De betreffende disk is ondertussen vervangen. We ondernemen de volgende stappen: Pool laden en controle op stabiliteit Op dit moment zijn we bezig met het opnieuw inladen van de pool op het storagesysteem. Daarbij controleren we zorgvuldig of de omgeving stabiel functioneert. Uitsluitsel rond 18:30 uur We verwachten rond 18:30 uur meer duidelijkheid te hebben over de status van de pool en of we kunnen doorgaan met de volgende stap in het herstelproces. Scrub en herstel bij akkoord Als de stabiliteit is bevestigd, starten we een zogenoemde ‘scrub’ om eventuele datacorruptie op te sporen en te herstellen. Dit proces neemt naar verwachting enkele uren in beslag, tot ongeveer 21:00 uur. Diensten weer beschikbaar rond 21:00 uur Als de scrub succesvol verloopt, verwachten we de betrokken diensten rond 21:00 uur weer beschikbaar te kunnen stellen. We realiseren ons dat deze situatie vervelend is en doen er alles aan om dit zo snel en zorgvuldig mogelijk op te lossen. Bedankt voor je geduld en vertrouwen.
identified Jul 10, 2025, 05:14 PM UTC

Beste klant, Na het succesvol inladen van de pool op het storagesysteem is deze toch helaas instabiel gebleken. Hierdoor kan helaas de scrub actie nog niet starten is zal eerst verder onderzocht worden waardoor het systeem instabiel blijft. We houden u op de hoogte van verdere ontwikkelingen.
identified Jul 10, 2025, 07:26 PM UTC

Beste Klant, Graag informeren wij je over een mogelijkheid om voor de Cloud Connect dienstverlening een workaround toe te passen. Doordat we vanmiddag additionele storage hebben bijgeplaatst, is het op dit moment mogelijk om een nieuwe backup job te starten. Deze backup zal op een ander storage systeem worden geschreven en zal, wanneer het storage systeem hersteld is, samengevoegd worden met de huidige backup chain. Je kunt deze nieuwe job starten door in de huidige backup job een Active Full backup te starten. Wel is het van belang in dit geval de Quota in ogenschouw te nemen. Wanneer een verhoging nodig is kun je deze aanvragen door een email te sturen naar [email protected]. Deze verhoging zullen wij niet in rekening brengen. Het onderzoek naar de oorzaak gaat uiteraard ook nu onverminderd door. We houden je op de hoogte van de verdere ontwikkelingen.
identified Jul 11, 2025, 07:34 AM UTC

Beste Klant, Afgelopen nacht is het onderzoek naar de storing voortgezet en zijn er verschillende werkzaamheden uitgevoerd waarna de pool rond 07:00 opnieuw is ingeladen. Sinds die tijd is het systeem stabiel en worden er controles uitgevoerd op het systeem en de disken. Deze controles zullen nog enige tijd in beslag nemen. We houden je op de hoogte van de verdere ontwikkelingen.
identified Jul 11, 2025, 03:05 PM UTC

Beste Klant, Sinds 16:00 is een groot gedeelte van de backup diensten weer online. Dit betekent dat op deze omgevingen de backups weer succesvol kunnen worden gemaakt. We werken op dit moment hard om ook de laatste backup diensten ook weer online te krijgen. We verwachten dat dit in de loop van de avond zal gebeuren. We houden je op de hoogte van deze ontwikkelingen.
identified Jul 11, 2025, 08:15 PM UTC

Beste Klant, Sinds 21:00 zijn alle Ahsay Backup diensten volledig hersteld. Een klein gedeelte van de Microsoft 365 Backup en de Cloud Connect diensten wordt nog aan gewerkt. Ook deze verwachten we binnen afzienbare tijd weer online. We houden je op de hoogte van de verdere ontwikkelingen.
monitoring Jul 13, 2025, 03:56 PM UTC

Beste klant, Alle diensten zijn inmiddels weer volledig operationeel. De omgeving wordt actief gemonitord en het systeem functioneert op dit moment stabiel. Bij een aantal back-upaccounts constateren we nog enkele aandachtspunten. Indien hier actie voor nodig is, nemen wij direct contact met je op. Daarnaast zullen we in de komende periode een post-mortem verslag opstellen waarin we dieper ingaan op de oorzaak van de storing en de genomen maatregelen.
resolved Jul 18, 2025, 11:45 AM UTC

Post- Mortum rapport: Betrokken diensten Ahsay, VEEAM Cloud Connect en VEEAM O365 backup diensten Starttijd 09-07-2025 02:00 Eindtijd 13-07-2025 18:00 Wat is er gebeurd? Op 9 juli 2025 om 02:00 uur ’s nachts is een storing ontstaan binnen de back-up infrastructuur, waardoor een beperkt deel van de back-updienstverlening is uitgevallen. Klanten konden hierdoor te maken krijgen met mislukte of niet-uitgevoerde back-uptaken en beperkte toegang tot back-upfunctionaliteiten. Ekco heeft samen met de leverancier in de twee dagen nadat de storing geconstateerd was het probleem onderzocht en verschillende werkzaamheden uitgevoerd om het systeem weer te herstellen. Hierbij is er dag en nacht doorgewerkt. Op 11 juli rond 17:30 uur is het gelukt om een groot deel van de getroffen back-updiensten weer online te brengen. De Ahsay Backup diensten zijn op dat moment volledig hersteld. In het daaropvolgende weekend is er doorgewerkt aan het herstel van de resterende componenten. Het betrof hier nog een klein gedeelte van de VEEAM Cloud Connect en VEEAM O365 backup dienstverlening. Op zondag rond 17:00 uur waren ook deze diensten hersteld. Voor een beperkt aantal M365 en Cloud Connect backup jobs moesten er nieuwe volledige (Full) back-ups worden uitgevoerd om de continuïteit te waarborgen. Voor deze jobs is tevens de retentie data nog niet beschikbaar. Hierover is rechtstreeks gecommuniceerd met de betrokken partijen. Er wordt op dit moment actief gewerkt aan het herstellen van de beschikbaarheid van deze data. Wat ging er mis en waarom? De storing werd veroorzaakt door uitdagingen in het onderliggende storage systeem. Voor onze backup omgevingen maken we gebruik van een groot aantal ZFS-storage systemen. ZFS is zowel een volumemanagement als een filesysteem in één. Een unieke eigenschap van ZFS is dat het - in tegenstelling tot klassieke RAID systemen - dataintegriteit waarborgt tot op het niveau van de data zelf, in plaats van alleen het volume. Daarnaast is ZFS wat men noemt een Copy-on-Write systeem, dat ervoor zorgt dat - zelfs bij een stroomstoring halverwege een wijziging, de volledige versie is intact is, in plaats van alleen een half overschreven bestand. Daarnaast zijn de systemen zelf ook redundant, de individuele (disk) enclosures zijn redundant aangesloten met vier verbindingen, 2 verbindingen naar elk van de redundante controllers. Elke van die verbindingen eindigen op een afzonderlijke host bus adapter, die zich elk in een afzonderlijk slot van de controllers bevinden. De netwerkconnectiviteit is per controller uitgevoerd door middel van een redundante bundel van 2 verbindingen waarbij iedere onderliggende verbinding zich op een aparte netwerkkaart van de controllers bevinden. Ieder van deze verbindingen zijn ontsloten middels separate switches in het achterliggende netwerk. Deze storing ontstond in het laatste deel van de keten, de fysieke schijf. Gegevensdragers zoals harddisks of SSD's degraderen in de loop der tijd en kunnen soms defect raken, daarom zijn er verschillende strategieën om de data te verdelen over meerdere drives tegelijk, met een stuk extra data - de zogenaamde parity data - waardoor bij een defecte schijf, de data die daar op stond gereconstrueerd kan worden uit de stukjes parity data die zich op de andere schijven bevinden. Hoeveel schijven er defect kunnen raken zonder dataverlies hangt af van de gekozen strategie. De regel hier is dat voor elke schijf die kan falen, de bruikbare ruimte afneemt met de som van de opslagruimte die de redundante schijven samen hebben. Hoe groter de redundantie, des ter kleiner het bruikbare volume voor opslag. Bij Ekco hebben we gekozen voor de meest redundante, maar ook meest kostbare vorm, namelijk een volledige kopie van de data op een ander set schijven. Dit staat beter bekend als RAID1, oftewel mirrored volume, of in ZFS terminologie; raidZ1. Omdat een mirrorset van twee schijven - waarvan de opslagruimte slechts die van een enkele schijf is - niet voldoende is om vele backups op te slaan, bestaat een enkel volume bij Ekco uit 196 schijven, waarvan er 98 in één enclosure zitten en de andere 98 in een andere fysieke enclosure. Er kunnen dus 98 schijven falen zonder dat dit effect heeft op de data. Het enige dat niet mag gebeuren is het falen van 2 schijven binnen dezelfde mirrorset. En bij 196 schijven is die kans heel erg klein, maar niet onmogelijk. Uit de analyse is gebleken dat het systeem in dit geval te maken heeft gehad met falende schijven in eenzelfde mirrorset. Beide schijven waren niet volledig gefaald, maar kleine delen van de data op de schijven waren niet meer goed te lezen. Dit resulteerde in corruptie van een zeer beperkte hoeveelheid data. Zo beperkt zelfs dat de systemen die er gebruik van maken in eerste instantie hier geen issues over rapporteerde. Pas gedurende de nacht van 9 juli werden de problemen groter en heeft het storage systeem zichzelf uiteindelijk uitgeschakeld. Dit doet het systeem uit voorzorg om verdere corruptie van de data te voorkomen. Uiteindelijk was de enige manier om het systeem weer stabiel up and running te krijgen, om de getroffen mirror set tijdelijk buiten gebruik te nemen. De buitengesloten data bevat nog een beperkte set retentiedata voor de diensten M365 Backup en Cloud Connect. Deze data wordt zorgvuldig veilig gesteld, zodat herstelwerkzaamheden op deze data kunnen plaatsvinden. Tijdlijn en acties? - 9 juli 02:00 – Het probleem met de falende schijven veroorzaakt falende backups - 9 juli 09:30 – Het storage systeem constateert dusdanig veel fouten dat het alarmen genereert. Het onderzoek wordt gestart. - 9 juli 11:00 – Er wordt vastgesteld dat het opslagsysteem niet meer goed functioneert. De leverancier wordt ingeschakeld. - 9 juli 12:00 – Er wordt opgeschaald en een crisis team wordt samengesteld. Gedurende het verloop van de storing worden verschillende herstelpogingen ondernomen. Deze acties, zoals het scannen van schijven en data, kosten veel tijd en worden gedurende de dag en nacht uitgevoerd. Communicatie over de ontwikkelingen worden gedaan via StatusPage. - 10 juli 21:30 – Ekco heeft op de achtergrond extra storage systemen ingezet. Hierdoor kunnen Ahsay en Cloud Connect Backup jobs desgewenst opnieuw gestart worden. Hiervoor is een handmatige actie nodig vanuit onze klanten waarover gecommuniceerd wordt via StatusPage. 11 juli 09:00 – De data waarop een kleine hoeveelheid corruptie is vastgesteld wordt buitengesloten. Het opslagsysteem wordt weer online gebracht. Er vinden controles plaats om te beoordelen of het systeem stabiel blijft. - 11 juli 16:00 – De back-updiensten worden opnieuw opgestart. De Ahsay dienstverlening is dan volledig hersteld. Ook is het overgrote gedeelte van de M365 en Cloud Connect backup diensten dan hersteld. Voor een beperkte set aan M365 en Cloud Connect backup set geldt dan dat ze nog niet beschikbaar zijn. - 11 juli 20:00 – Er worden herstelwerkzaamheden gestart op de buitengesloten data. Ook dit proces vergt veel tijd vanwege de omvang van de dataset. Van vrijdag avond tot en met zondag wordt hierop doorgewerkt. - 13 juli 12:00 – Er wordt vastgesteld dat de herstelwerkzaamheden aanzienlijk meer tijd vergen dan verwacht. Er wordt besloten om de betreffende back-up sets voorlopig opnieuw op te starten op een ander opslagsysteem. - 13 juli 14:00 – De verschillende backup-sets zijn voorzien van alternatieve opslaglocaties en de jobs kunnen worden gestart. Het ingestelde backup schema zal nu automatische de backup job starten. Doordat de retentie data ontbreekt starten deze backup met een nieuwe volledige (Full) backup. -13 Juli tot 17 juli – Sinds zondagavond wordt er intensief gewerkt aan het opnieuw beschikbaar stellen van de retentiedata. Dit is een zorgvuldig en tijdrovend proces, waarbij we uiterst terughoudend te werk gaan om ieder risico op verdere beschadiging van de data volledig uit te sluiten. Op dit moment worden deze werkzaamheden uitgevoerd zonder enige impact op de omgeving. Wanneer blijkt dat er toch impact verwacht wordt zullen we dit plannen in een maintenance window. Hierover zal dan gecommuniceerd worden. De verwachting is dat hier begin volgende week weer duidelijkheid over zal zijn. Evaluatie en vervolg acties? Wij realiseren ons dat we in deze situatie niet de dienstverlening hebben geleverd die u van ons mag verwachten. Dit nemen we zeer serieus. Er zal een uitvoerige evaluatie plaatsvinden met alle betrokken partijen om de oorzaak van het incident, de communicatie en de herstelacties grondig te analyseren. Over uiterlijk 2 weken zal er opnieuw communicatie plaatsvinden met een terugkoppeling over de uitkomsten van deze evaluatie en de vervolgstappen die daaruit voortvloeien.
postmortem Aug 01, 2025, 01:28 PM UTC

Beste klant, Zoals eerder gecommuniceerd, hebben wij een grondige evaluatie uitgevoerd naar aanleiding van de storing in onze back-updienstverlening van begin juli. Uit deze evaluatie is gebleken dat de impact van de storing relatief groot was, ondanks dat slechts een zeer klein deel van de data daadwerkelijk corrupt is geraakt. De oorzaak lag in het falen van twee schijven binnen dezelfde mirrorset, waarbij kleine delen van de data niet meer goed leesbaar waren. Hoewel ZFS-technologie normaal gesproken uitstekende bescherming biedt tegen datacorruptie, is gebleken dat dit type incident niet in alle gevallen volledig te voorkomen is. Om de impact van dit soort storingen in de toekomst aanzienlijk te beperken, hebben wij besloten de architectuur van onze storage-systemen aan te passen. Concreet betekent dit dat we overstappen op kleinere datapools. Hierdoor wordt de omvang van de getroffen data bij een eventuele storing veel beperkter en kunnen herstelwerkzaamheden sneller en efficiënter worden uitgevoerd. Deze aanpassingen in de architectuur zullen gefaseerd worden doorgevoerd in de periode tot eind 2025. De werkzaamheden vinden uitsluitend plaats op de backend en zullen geen hinder veroorzaken voor onze dienstverlening. Wij blijven ons inzetten om onze dienstverlening verder te verbeteren en danken u voor uw begrip en vertrouwen. Met vriendelijke groet, Ekco