...
📋 Oppsummering
Postmortem owner | |||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Incident | USIT (UiO) servere gjort utilgjengelig for eksterne maskiner, gjorde at FS-integrasjon for Canvas var nede da verken institusjoner eller leverandør (Instructure Canvas) hadde tilgang til FS-eksport | ||||||||||||||||
Priority |
| ||||||||||||||||
Affected services |
|
...
📝 Rapport
📝 Postmortem report
Instructions | Report | ||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
🙅♀️ Fault
| USIT (UiO) hadde implementert en endring på sine servere:
| ||||||||||||||||||||||||||||||
🥏 Impact
| Alle 25 institusjoner som benytter integrasjonen var berørt. Sinne gjennomførte overføring til Canvas var 2022-03-28 kl 10:08 (altså dagen før). Tjenesteansvarlig mottok 3 meldinger per e-post direkte. Ba de også melde til FS-support. | ||||||||||||||||||||||||||||||
👁 Detection
| Oppdaget ved melding fra sektoren. Den første meldingen om feil ble først lagt merke til ca kl 13:30. | ||||||||||||||||||||||||||||||
🙆♀️ Recovery
| Feilen gjorde at 25 Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i nesten et helt døgn. Feil ble oppdaget tidlig av enkeltinstitusjoner, men det ble ikke klart at dette var en systematisk feil før flere timer etterpå. Feilen ble ganske hurtig rettet da dette ble påpekt. Bedre mulighet til å avdekke at dette var en systematisk feil som rammet alle 25 institusjoner, kunne redusert tiden man var uten FS-integrasjon til Canvas. | ||||||||||||||||||||||||||||||
⏲ Timeline
| Kl. 09:49: Problemet ble oppdaget av USN som meldte fra om at de ikke hadde tilgang til serveren for å sjekke XML-eksport Kl. 12:35: UiT melder om samme problem og spør hva som er rett kanal å varsle (tjenesteansvarlig LMS eller FS-support) ca. kl 13:30: Tjenesteansvarlig verifiserer feilen (får ikke koblet til). Tjenesteanvarlig spør så Team lead på Studiegjennomføring om det er kjent til noen endringer hos USIT. Blir anbefalt å dobbeltsjekke med Kai. kl. 13:42: Tjenestenansvarlig sender spørsmål (videresendt informasjon innmeldt fra sektor) til Kai om server. Kai melder om at han har tilgang, men sender straks sak til USIT. kl 13:43: Tjenesteansvarlig sender varsel til sikkerhet@sikt.no og Marius Eide som beskrevet på Innsikt (fikk ikke respons på denne). Tjenesteansvarlig svarer også på henvendelsene fra sektoren og varsler på Teams for
kl: 14:00: Tråd startet
Kl. 14:30: Tjenesteansvarlig kontakter produkteier for FS for å etterspørre purring på USIT. Henvises til Thor Anti. Kl. 14:33: Tjenesteansvarlig poster informasjon om at integrasjonen er nede i kanalen Change, Incident, Problem og Request i Teamet for
Kl. 14:36: Tjenesteansvarlig legger til Thor i
Kl 14:39: Tjenesteansvarlig kontakter leder av Servicesenteret for å melde fra om problemet (grunnet manglende reaksjon på post i Teams-kanal) og at det kanskje er lurt å vurdere en driftsmelding eller lignende. ca Kl. 14:40: Tjenesteansvarlig etterspør på
Kl. 14:54: Leder av Servicesenteret ber om at Tjenesteansvarlig lage incident i RT. Tjenesteansvarlig svarer et situasjonen er hektisk og prioritet er å sikre at problemet blir sett på samme dag, og siden man ikke har erfaring med å registrere det i RT blir det ikke prioritert i denne omgang. Kl. 15:00: Driftsmelding publisert på https://www.fellesstudentsystem.no/driftsmeldinger/2022/2022-03-29-canvas-integrasjon-nede.html Kl. 15:16: USIT svarer om at de har gjennomført en endring og sperret inngående SSH, som er årsaken. De ser på løsning. Kl. 15:16-17:15: Dialog frem og tilbake med USIT frem til det er verifisert at alle har fått gjenopprettet tilgang og import til Canvas går som normalt. | ||||||||||||||||||||||||||||||
🔎 Five whys root cause identification
|
| ||||||||||||||||||||||||||||||
🤔 Lessons learned
| Mangler oversikt over:
| ||||||||||||||||||||||||||||||
✍ Follow-up tasks
|
|
...