PKI Signing incident
Nieuwe documenten blijven soms in verwerking staan
PKI Signing experienced a minor incident on November 29, 2022, lasting 13h 9m. The incident has been resolved; the full update timeline is below.
Update timeline
- investigating Nov 29, 2022, 08:11 AM UTC
Op dit moment bestaat er op het platform een probleem met de verwerking van nieuwe documenten. In sommige situaties blijven documenten hangen op "Bezig met verwerken". Dossiers die in deze status blijven hangen kunnen worden verwijderd van het platform en opnieuw worden geüpload. Printopdrachten dienen ook opnieuw te worden uitgevoerd. Wij adviseren om het niet direct opnieuw te proberen, maar op een ander tijdstip, omdat het probleem doorgaans wat langer aanhoudt. Ons development team is op de hoogte van het probleem en is bezig te onderzoeken wat de oorzaak is van het probleem.
- identified Nov 29, 2022, 11:06 AM UTC
The issue has been identified and a fix is being implemented.
- monitoring Nov 29, 2022, 11:47 AM UTC
Een oplossing voor het probleem is uitgerold en we monitoren voorlopig de resultaten om te kijken of deze oplossing het probleem definitief heeft opgelost.
- resolved Nov 29, 2022, 09:20 PM UTC
De problemen rondom uploaden van documenten komen na het doorvoeren van enkele wijzigingen niet meer voor.
- postmortem Nov 30, 2022, 08:29 AM UTC
Na de release van versie 22.23 is een onverwacht probleem ontstaan bij het uploaden van documenten. Documenten werden daardoor niet meer verwerkt en bleven in de status “Bezig met verwerken” staan. Op donderdag 24 november ontvingen wij de eerste meldingen van het probleem op onze supportdesk en ons ontwikkelteam is gestart met een analyse. Uit deze analyse is gebleken dat het systeem teveel verbindingen probeerde op te zetten met onze database. Als eerste maatregel op dit probleem is het betreffende onderdeel in het systeem gereset en daarna getest door middel van het uploaden van een grote hoeveelheid bestanden. Uit monitoring bleek dat het probleem niet meer optrad. Helaas bleek na enkele uren hetzelfde probleem opnieuw op te treden. Om zo min mogelijk overlast voor klanten te hebben is daarna het bewuste systeemonderdeel met regelmaat herstart. Ondertussen zijn onze ontwikkelaars op zoek gegaan naar de hoofdoorzaak van het probleem. Tijdens de release is in het kader van stabiliteit en performance het verwerken van documenten verplaatst naar een ander onderdeel binnen het systeem. Hierdoor wordt dit systeemonderdeel zwaarder belast en worden meer databaseverbindingen gebruikt. Dat ligt in de lijn der verwachting en hoort geen verdere problemen op te leveren. De oorzaak bleek te liggen in een onderdeel van de software dat door de huidige release niet is aangepast en wat al langere tijd naar behoren functioneert. Als gevolg van dit probleem bleven database verbindingen open. Hierdoor ontstond een te hoog aantal simultane verbindingen wat leidt tot het niet kunnen openen van nog meer verbindingen en daardoor het verwerken van documenten beïnvloed. Het bleek dat afhankelijk van drukte op het platform het langer of korter duurt voordat dit punt is bereikt. Op 30 november is om 12.45 een hotfix geplaatst voor dit probleem. Daarnaast is hetzelfde probleem buiten kantooruren ook binnen andere onderdelen van het systeem die hier gebruik van maakten verholpen. Ter verbetering van onze processen rijst de vraag hoe het kan dat dit issue niet eerder op is gevallen. Het issue was namelijk al langer in het systeem aanwezig. Het PKIsigning systeem wordt 24 uur per dag gemonitord met daarbij ook diverse drempelwaarden waarboven ons ontwikkelteam automatisch notificaties krijgt en kan ingrijpen. Het aantal databaseconnecties is een van de waarden die wij monitoren. Er bleek echter geen opvallende trend in de data aanwezig te zijn. De database sluit inactieve verbindingen zelf af na een bepaalde tijd, waardoor het aantal gelijktijdige verbindingen binnen normale waarden blijft. Hierdoor zijn er geen notificaties zijn verstuurd. Omdat de software de verbinding niet sluit, blijft deze de gesloten verbindingen op dat moment wel als actief aanmerken. Het gevolg hiervan is dat de software geen nieuwe verbindingen meer wil aanmaken terwijl deze voldoende voorhanden zijn. De monitoring die wij hebben staan heeft dit niet kunnen ondervangen. Deze bewuste situatie is onder de aandacht gebracht van alle ontwikkelaars, zodat hierop geanticipeerd kan worden en ook zal worden ontdekt tijdens de code reviews die onderdeel zijn van ons vaste ontwikkelproces. Onze excuses voor het ontstane ongemak.