...
📝 Postmortem report
Instructions | Report | ||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
LeadupList the sequence of events that led to the incident.🙅♀️ Fault
| USIT (UiO) hadde implementert en endring på sine servere:
| ||||||||||||||||||||||||||||||
🥏 Impact
| Alle 25 institusjoner som benytter integrasjonen var berørt. Sinne gjennomførte overføring til Canvas var 2022-03-28 kl 10:08 (altså dagen før). Tjenesteansvarlig mottok 3 meldinger per e-post direkte. Ba de også melde til FS-support. | ||||||||||||||||||||||||||||||
👁 Detection
| Oppdaget ved melding fra sektoren. Den første meldingen om feil ble først lagt merke til ca kl 13:30. | ||||||||||||||||||||||||||||||
🙆♀️ Recovery
| |||||||||||||||||||||||||||||||
⏲ Timeline
| Kl. 09:49: Problemet ble oppdaget av USN som meldte fra om at de ikke hadde tilgang til serveren for å sjekke XML-eksport Kl. 12:35: UiT melder om samme problem og spør hva som er rett kanal å varsle (tjenesteansvarlig LMS eller FS-support) ca. kl 13:30: Tjenesteansvarlig verifiserer feilen (får ikke koblet til). Tjenesteanvarlig spør så Team lead på Studiegjennomføring om det er kjent til noen endringer hos USIT. Blir anbefalt å dobbeltsjekke med Kai. kl. 13:42: Tjenestenansvarlig sender spørsmål (videresendt informasjon innmeldt fra sektor) til Kai om server. Kai melder om at han har tilgang, men sender straks sak til USIT. kl 13:43: Tjenesteansvarlig sender varsel til sikkerhet@sikt.no og Marius Eide som beskrevet på Innsikt (fikk ikke respons på denne). Tjenesteansvarlig svarer også på henvendelsene fra sektoren og varsler på Teams for
kl: 14:00: Tråd startet
Kl. 14:30: Tjenesteansvarlig kontakter produkteier for FS for å etterspørre purring på USIT. Henvises til Thor Anti. Kl. 14:33: Tjenesteansvarlig poster informasjon om at integrasjonen er nede i kanalen Change, Incident, Problem og Request i Teamet for
Kl. 14:36: Tjenesteansvarlig legger til Thor i
Kl 14:39: Tjenesteansvarlig kontakter leder av Servicesenteret for å melde fra om problemet (grunnet manglende reaksjon på post i Teams-kanal) og at det kanskje er lurt å vurdere en driftsmelding eller lignende. ca Kl. 14:40: Tjenesteansvarlig etterspør på
Kl. 14:54: Leder av Servicesenteret ber om at Tjenesteansvarlig lage incident i RT. Tjenesteansvarlig svarer et situasjonen er hektisk og prioritet er å sikre at problemet blir sett på samme dag, og siden man ikke har erfaring med å registrere det i RT blir det ikke prioritert i denne omgang. Kl. 15:00: Driftsmelding publisert på https://www.fellesstudentsystem.no/driftsmeldinger/2022/2022-03-29-canvas-integrasjon-nede.html Kl. 15:16: USIT svarer om at de har gjennomført en endring og sperret inngående SSH, som er årsaken. De ser på løsning. Kl. 15:1516-17:15: Dialog frem og tilbake med USIT frem til det er verifisert at alle har fått gjenopprettet tilgang og import til Canvas går som normalt. | ||||||||||||||||||||||||||||||
🔎 Five whys root cause identification
|
| ||||||||||||||||||||||||||||||
🤔 Lessons learned
| Mangler oversikt over:
| ||||||||||||||||||||||||||||||
✍ Follow-up tasks
|
|
...