đ Oppsummering
Postmortem owner | |
---|---|
Incident | USIT (UiO) servere gjort utilgjengelig for eksterne maskiner, gjorde at FS-integrasjon for Canvas var nede da verken institusjoner eller leverandĂžr (Instructure Canvas) hadde tilgang til FS-eksport |
Priority | P0 / P1 / P2+ |
Affected services |
|
đ Rapport
Instructions | Report |
---|---|
đ ââïžÂ Fault
| USIT (UiO) hadde implementert en endring pÄ sine servere:
|
đ„Â Impact
| Alle 25 institusjoner som benytter integrasjonen var berÞrt. Sinne gjennomfÞrte overfÞring til Canvas var 2022-03-28 kl 10:08 (altsÄ dagen fÞr). Tjenesteansvarlig mottok 3 meldinger per e-post direkte. Ba de ogsÄ melde til FS-support. |
đ Detection
| Oppdaget ved melding fra sektoren. Den fĂžrste meldingen om feil ble fĂžrst lagt merke til ca kl 13:30. |
đââïžÂ Recovery
| Feilen gjorde at 25 Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i nesten et helt dÞgn. Feil ble oppdaget tidlig av enkeltinstitusjoner, men det ble ikke klart at dette var en systematisk feil fÞr flere timer etterpÄ. Feilen ble ganske hurtig rettet da dette ble pÄpekt. Bedre mulighet til Ä avdekke at dette var en systematisk feil som rammet alle 25 institusjoner, kunne redusert tiden man var uten FS-integrasjon til Canvas. |
âČ Timeline
| Kl. 09:49: Problemet ble oppdaget av USN som meldte fra om at de ikke hadde tilgang til serveren for Ă„ sjekke XML-eksport Kl. 12:35: UiT melder om samme problem og spĂžr hva som er rett kanal Ă„ varsle (tjenesteansvarlig LMS eller FS-support) ca. kl 13:30: Tjenesteansvarlig verifiserer feilen (fĂ„r ikke koblet til). Tjenesteanvarlig spĂžr sĂ„ Team lead pĂ„ StudiegjennomfĂžring om det er kjent til noen endringer hos USIT. Blir anbefalt Ă„ dobbeltsjekke med Kai. kl. 13:42: Tjenestenansvarlig sender spĂžrsmĂ„l (videresendt informasjon innmeldt fra sektor) til Kai om server. Kai melder om at han har tilgang, men sender straks sak til USIT. kl 13:43: Tjenesteansvarlig sender varsel til sikkerhet@sikt.no og Marius Eide som beskrevet pĂ„ Innsikt (fikk ikke respons pĂ„ denne). Tjenesteansvarlig svarer ogsĂ„ pĂ„ henvendelsene fra sektoren og varsler pĂ„ Teams for SEKTORSAMARBEIDET I LMS-TJENESTEN. kl: 14:00: TrĂ„d startet SLACK RT-STUDIEGENNOMFĂRING om problemet, da det ble meldt inn ogsĂ„ til FS-support. Tjenesteansvarlig spĂžr om vi bĂžr forsĂžke Ă„ ringe USIT for Ă„ fĂ„ respons pĂ„ at problemet lĂžses samme dag (altsĂ„ at folk ikke âdrar hjemâ og problemet vedvarer til neste dag). Kl. 14:30: Tjenesteansvarlig kontakter produkteier for FS for Ă„ etterspĂžrre purring pĂ„ USIT. Henvises til Thor Anti. Kl. 14:33: Tjenesteansvarlig poster informasjon om at integrasjonen er nede i kanalen Change, Incident, Problem og Request i Teamet for SIKT SERVICESENTER for Ă„ sĂžrge for at Servicesenteret er informert, og eventuelt kan poste driftsvarsel (fikk ikke respons pĂ„ denne). Kl. 14:36: Tjenesteansvarlig legger til Thor i SLACK RT-STUDIEGENNOMFĂRING i samme trĂ„d og spĂžr om mulighet til Ă„ ringe/purre pĂ„ USIT. Kl 14:39: Tjenesteansvarlig kontakter leder av Servicesenteret for Ă„ melde fra om problemet (grunnet manglende reaksjon pĂ„ post i Teams-kanal) og at det kanskje er lurt Ă„ vurdere en driftsmelding eller lignende. ca Kl. 14:40: Tjenesteansvarlig etterspĂžr pĂ„ SLACK RT-STUDIEGENNOMFĂRING om det kan publiseres driftsmelding. Kl. 14:54: Leder av Servicesenteret ber om at Tjenesteansvarlig lage incident i RT. Tjenesteansvarlig svarer et situasjonen er hektisk og prioritet er Ă„ sikre at problemet blir sett pĂ„ samme dag, og siden man ikke har erfaring med Ă„ registrere det i RT blir det ikke prioritert i denne omgang. Kl. 15:00: Driftsmelding publisert pĂ„ https://www.fellesstudentsystem.no/driftsmeldinger/2022/2022-03-29-canvas-integrasjon-nede.html Kl. 15:16: USIT svarer om at de har gjennomfĂžrt en endring og sperret inngĂ„ende SSH, som er Ă„rsaken. De ser pĂ„ lĂžsning. Kl. 15:16-17:15: Dialog frem og tilbake med USIT frem til det er verifisert at alle har fĂ„tt gjenopprettet tilgang og import til Canvas gĂ„r som normalt. |
đ Five whys root cause identification
|
|
đ€Â Lessons learned
| Mangler oversikt over:
|
â Follow-up tasks
|
|