Incident-rapport 2022-03-29 FS-integrasjon til Canvas utilgjengelig
Oppsummering
Postmortem owner | |
---|---|
Incident | USIT (UiO) servere gjort utilgjengelig for eksterne maskiner, gjorde at FS-integrasjon for Canvas var nede da verken institusjoner eller leverandør (Instructure Canvas) hadde tilgang til FS-eksport. |
Priority | p0 / p1 / p2+ |
Affected services |
|
Rapport
Instructions | Report |
---|---|
Fault
| USIT (UiO) hadde implementert en endring på sine servere:
|
Impact
| Alle 25 institusjoner som benytter integrasjonen var berørt. Siste gjennomførte overføring til Canvas var 2022-03-28 kl 10:08 (altså dagen før). Tjenesteansvarlig mottok 3 meldinger per e-post direkte. Ba de også melde til FS-support. |
Detection
| Oppdaget ved melding fra sektoren. Den første meldingen om feil ble først lagt merke til ca kl 13:30. |
Recovery
| Feilen gjorde at 25 Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i nesten et helt døgn. Feil ble oppdaget tidlig av enkeltinstitusjoner, men det ble ikke klart at dette var en systematisk feil før flere timer etterpå. Feilen ble ganske hurtig rettet da dette ble påpekt. Bedre mulighet til å avdekke at dette var en systematisk feil som rammet alle 25 institusjoner, kunne redusert tiden man var uten FS-integrasjon til Canvas. |
Timeline
| Kl. 09:49: Problemet ble oppdaget av USN som meldte fra om at de ikke hadde tilgang til serveren for å sjekke XML-eksport Kl. 12:35: UiT melder om samme problem og spør hva som er rett kanal å varsle (tjenesteansvarlig LMS eller FS-support) ca. kl 13:30: Tjenesteansvarlig verifiserer feilen (får ikke koblet til). Tjenesteanvarlig spør så Team lead på Studiegjennomføring om det er kjent til noen endringer hos USIT. Blir anbefalt å dobbeltsjekke med Kai. kl. 13:42: Tjenestenansvarlig sender spørsmål (videresendt informasjon innmeldt fra sektor) til Kai om server. Kai melder om at han har tilgang, men sender straks sak til USIT. kl 13:43: Tjenesteansvarlig sender varsel til sikkerhet@sikt.no og Marius Eide som beskrevet på Innsikt (fikk ikke respons på denne). Tjenesteansvarlig svarer også på henvendelsene fra sektoren og varsler på Teams for sektorsamarbeidet i LMS-tjenesten. kl: 14:00: Tråd startet Slack RT-studiegennomføring om problemet, da det ble meldt inn også til FS-support. Tjenesteansvarlig spør om vi bør forsøke å ringe USIT for å få respons på at problemet løses samme dag (altså at folk ikke “drar hjem” og problemet vedvarer til neste dag). Kl. 14:30: Tjenesteansvarlig kontakter produkteier for FS for å etterspørre purring på USIT. Henvises til Thor Anti. Kl. 14:33: Tjenesteansvarlig poster informasjon om at integrasjonen er nede i kanalen Change, Incident, Problem og Request i Teamet for Sikt Servicesenter for å sørge for at Servicesenteret er informert, og eventuelt kan poste driftsvarsel (fikk ikke respons på denne). Kl. 14:36: Tjenesteansvarlig legger til Thor i Slack RT-studiegennomføring i samme tråd og spør om mulighet til å ringe/purre på USIT. Kl 14:39: Tjenesteansvarlig kontakter leder av Servicesenteret for å melde fra om problemet (grunnet manglende reaksjon på post i Teams-kanal) og at det kanskje er lurt å vurdere en driftsmelding eller lignende. ca Kl. 14:40: Tjenesteansvarlig etterspør på Slack RT-studiegennomføring om det kan publiseres driftsmelding. Kl. 14:54: Leder av Servicesenteret ber om at Tjenesteansvarlig lage incident i RT. Tjenesteansvarlig svarer et situasjonen er hektisk og prioritet er å sikre at problemet blir sett på samme dag, og siden man ikke har erfaring med å registrere det i RT blir det ikke prioritert i denne omgang. Kl. 15:00: Driftsmelding publisert på https://www.fellesstudentsystem.no/driftsmeldinger/2022/2022-03-29-canvas-integrasjon-nede.html Kl. 15:16: USIT svarer om at de har gjennomført en endring og sperret inngående SSH, som er årsaken. De ser på løsning. Kl. 15:16-17:15: Dialog frem og tilbake med USIT frem til det er verifisert at alle har fått gjenopprettet tilgang og import til Canvas går som normalt. |
Five whys root cause identification
|
|
Lessons learned
| Mangler oversikt over:
|
Follow-up tasks
| Pågående forbedringer:
I tillegg bør vi se på:
|