Pridok incident

Nettverksproblemer i Azure

Pridok experienced a major incident on June 16, 2023, lasting 6h. The incident has been resolved; the full update timeline is below.

Started: Jun 16, 2023, 06:19 AM UTC
Resolved: Jun 16, 2023, 12:20 PM UTC
Duration: 6h
Detected by Pingoru: Jun 16, 2023, 06:19 AM UTC

Update timeline

investigating Jun 16, 2023, 06:19 AM UTC

Microsoft varsler om omfattende nettverksproblemer som gir tregheter og feil i Pridok. Vi kommer tilbake med oppdatering straks vi vet noe mer.
investigating Jun 16, 2023, 07:09 AM UTC

Vi ser en forbedring i tjenestene nå, og forventer at løsningen er 100% operativ igjen om kort tid.
investigating Jun 16, 2023, 08:59 AM UTC

Alle tjenester er oppe og kjører. Vi fortsetter å overvåke løsningen utover dagen.
resolved Jun 16, 2023, 12:20 PM UTC

This incident has been resolved.
postmortem Jun 17, 2023, 03:15 PM UTC

## Hva skjedde? Fredag 16.6, mellom kl 04:34 og 09:25, hadde datasenteret vårt i Azure problemer med nettverket. Dette berørte ca 10% av trafikken, og ga symptomer som tregheter/heng, tilsynelatende tomme journaler og andre feil. Fra 08:45 så vi at situasjonen bedret seg betydelig, og fra 09:25 var vi fullt operative igjen. ## Hva gikk galt og hvorfor? Azure har automatiske løsninger som monitorerer nettverket, og fjerner noder som anses som ikke-fungerende. Deretter tilkalles teknikere som reparerer eller erstatter utstyret og setter det i produksjon igjen. En stor grad av redundans gjør at sluttbrukere ikke merker noe til dette. En del av automatikken er et nettverkskart som forteller hvilke ruter trafikken i Azure er tillatt å flyte gjennom. En oppdatering av nettverkskartet ble lagt ut natt til fredag, som inneholdt informasjon om nye nettverksnoder som er en del av en større utvidelse av datasenteret. Feilen var at et flertall av disse nye nodene ikke var aktive ennå, og på grunn av måten automatikken virker så ble disse -pluss- mange andre fullt fungerende noder flagget med feil og tatt ut av produksjon. Dette førte etterhvert til store kapasitetsproblemer som ga symptomene beskrevet over. ## Hvordan responderte vi? Alarmer ble utløst kl 05:03, og Microsoft sine teknikere startet umiddelbart arbeidet med å feilsøke og rette problemet. Nettverksnoder som feilaktig var koblet ut, ble koblet tilbake igjen og dette gjorde at situasjonen gradvis bedret seg til alt var fullt fungerende igjen. ‌ Denne artikkelen er basert på foreløpig post incident review fra Microsoft, tilgjengelig på engelsk med tracking id VLB8-1Z0 på [https://azure.status.microsoft/en-us/status/history/](https://azure.status.microsoft/en-us/status/history/). På samme siden vil bli publisert en komplett post incident-report \(PIR\). Vi oppdaterer denne artikkelen hvis det kommer vesentlige nye opplysninger i saken.