Pridok incident

Stopp for enkelte brukere i epj3

Major Resolved View vendor source →

Pridok experienced a major incident on June 19, 2024, lasting —. The incident has been resolved; the full update timeline is below.

Started
Jun 19, 2024, 01:59 PM UTC
Resolved
Jun 19, 2024, 06:00 AM UTC
Duration
Detected by Pingoru
Jun 19, 2024, 01:59 PM UTC

Update timeline

  1. resolved Jun 19, 2024, 01:59 PM UTC

    Vi opplever høye svartider for enkelte brukere i epj3, som fører til at EPJ er utilgjengelig

  2. postmortem Jun 19, 2024, 01:59 PM UTC

    # Post-mortem rapport om feil i miljøet 19.06.2024 **En oppsummering av hendelsen, årsaken, løsningen, og lærdommene** ## **Hva skjedde?** Mellom klokken 07:57 og 10:12 opplevde vi en feil i en av databasene våre som berørte 5,85% av kundene våre. Feilen førte til at kundene ikke fikk tilgang til Pridok EPJ, med langvarige stopp og feilmeldinger på skjermen. Vi beklager ulempene dette medførte for kundene våre og tar hendelsen på alvor. Feilen skyldes ikke en oppdatering av miljøet, men var forårsaket av håndtering av statistikk internt i databasen. ## **Hva var årsaken?** En grundig analyse avdekket at en databaseforespørsel ikke brukte en indeks som den skulle. Dette førte til at oppslag tok betydelig lenger tid enn normalt, noe som dramatisk påvirket svartiden og overbelastet databasen. Som et resultat klarte ikke databasen å håndtere kundenes forespørsler. ## **Hvordan løste vi det?** Alarmene gikk klokken 08:02 og vi startet umiddelbart med å undersøke saken. Vi identifiserte og rettet den første av to problemer kl. 08:27. Denne første feilen kamuflerte en annen feil som førte til at databasen fortsatt var utilgjengelig. Vi fikk isolert problemet klokken 08:42, og startet umiddelbart med å rette den. På grunn av de pågående treghetene i databasen så tok det lenger tid enn ventet å implementere rettelsen. Vi besluttet derfor å stenge tilgangen for brukerne for å få tilstrekkelig kapasitet til å gjennomføre endringene. Normal drift ble gjenopprettet klokken 10:12, og kundene ble informert om at tjenestene var tilgjengelige igjen. ## **Hva gjør vi videre?** Vi jobber kontinuerlig med å forbedre våre interne prosesser for å levere en stabil og pålitelig tjeneste. Tiltak som allerede er implementert for å forhindre lignende feil inkluderer: · Rettelse av feilen i spørringen og tilleggsindeks i databasen for å forhindre at dette skjer igjen. · Rettelsen er utført i alle databaser, ikke bare i denne ene, for å forebygge lignende feil. · Flere alarmer og varsler i databasen for bedre overvåking av ressursbruk og responstid. Vi beklager igjen ulempene denne feilen medførte for kundene våre og setter pris på deres tålmodighet og forståelse. Vi tar ansvar for hendelsen og er opptatt av å levere høy kvalitet på våre tjenester.