Incident-rapport 2022-04-27 FS-integrasjon til Canvas utilgjengelig
Oppsummering
Postmortem owner | |
---|---|
Incident | To problemer oppstod:
|
Priority | p0 / p1 / p2+ |
Affected services |
|
Rapport
Instructions | Report |
---|---|
Fault
| Instructure (skyleverandøren av Canvas som også står for FS-integrasjonen) hadde implementert en endring på sine servere:
|
Impact
| Alle institusjoner som benytter integrasjonen var berørt. Siste gjennomførte overføring til Canvas var 2022-04-26 kl 17:00 (altså dagen før). Tjenesteansvarlig mottok varsel fra HVL på Teams kl 07:59, og ba de varsle FS-support@sikt.no med lms@sikt.no på kopi. Tjenesteansvarlig mottok også en henvendelse fra en institusjon per e-post. |
Detection
| Oppdaget ved melding fra sektoren, ca. kl 08:05. Sektoren meldte også om at SFTP-serveren (ved UiO/USIT) var utilgjengelig. Dette ble da først antatt som å være årsaken. |
Recovery
| Feilen gjorde at Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i 1-2 døgn. Feil ble oppdaget tidlig av enkeltinstitusjoner, rotårsaken ble ført avdekket 2022-04-27 kl 19:49 og rettet noen timer senere. I løpet av kvelden/natten avventet man med å se om insitusjonene fikk import riktig, og mange hadde fortsatt problemer. Bedre kontaktflater/avtaleforhold med eksterne driftsleverandører (både USIT og Instructure) kunne forkortet perioden der integrasjonen var utilgjengelig eller genererte feil. Feilen var bekreftet løst 2022-04-29 kl. 09:00 |
Timeline
| 2022-04-27:Kl. 07:59: Problemet ble oppdaget av HVL som meldte fra på Teams for Teams LMS for sektor om at deres Canvas ikke hadde lest inn filer fra FS i løpet av natten. Kl. 08:04: Tjenesteansvarlig (heretter TA) forsøker å koble til SFTP-server og får ikke koblet til. Melder fra på e-post til www-drift@usit.uio.no, team lead sus og Instructure (v/CSM). Melder også fra til leder Vegard Moen, som varsler Sikkerhet. Kl. 08:06: TA melder fra på Teams LMS for sektor at vi ikke koblet til SFTP-server og at feilen da kan gjelde flere. Kl. 08:13: TA melder fra på Tjenestevarsling-Teamskanal for Sikt Servicesenter. Kl. 08:18: TA kontakter team lead sus (på Slack) om at man ikke får kontakt med SFTP-serveren, og om de kan kontakte USIT ved UiO. Kl. 08:19: TA sender e-post med kort statusinformasjon om at integrasjonen har problemer og at statusoppdateringer vil gis på Teams LMS for sektor Kl 08:25: USN melder på Teams LMS for sektor at siste import for dem var kl 17:00 dagen før. Kl. 08:28: USN sender sak til FS-support@sikt.no (saksnr 303348) at integrasjonen og SFTP-serveren er nede (Flere institusjoner gjør det samme utover dagen). Kl. 08:40: USN melder om at SFTP-serveren er tilgjengelig igjen og avventer ny import forespeilet ferdigstilt i 10-tiden for å se at den fungerer igjen. Kl. 08:42: Tråd startet Slack RT-studiegennomføring basert på USN sin RT-sak til FS-support. Kl. 09:04: Driftsmelding publisert på fellesstudentsystem: 2022-04-27 Canvasintregrasjonen er utilgjengelig [LØST] Kl. 09:22: team lead sus sender ny sak til www-drift@usit.uio.no. Kl. 09:42: USIT svarer (saksnr 4872906) om at serveren ikke har blitt flyttet og at de har testet og verifisert at eksterne har tilgang. Kl. 10:08: USN svarer på sin sak (303348) om at det fremdeles ikke er kommet en vellykket import til Canvas, men at man avventer til rundt lunsj for å se om den har blitt trigget. Kl. 10:26-12:14: Flere institusjoner melder om at ingen ny import til Canvas er gjort. Kl. 12:23: USN svarer på nytt i sin sak (303348) med at det fremdeles ikke er kommet en vellykket import til Canvas, og det samme gjelder alle andre institusjoner. Kl. 13:05: TA kontakter Instructure (v/CSM) på nytt med spørsmål om de kan undersøke nærmere på sin side, da flere melder om at det ikke kjøres import til Canvas. Kl. 14:05: TA svarer USIT (sak 4911512) med spørsmål om de kan fortsette feilsøking på sin ende og sjekke om Instructure (USA) har hatt vellykkede tilkoblinger og hentet ut filer fra SFTP-serveren. Kl. 14:51: TA får svar fra Instructure (v/CSM)om at de venter på tilbakemelding internt. Kl. 15:47: TA sender utfylt avviksskjema til Sikkerhet. Kl 19:49: TA mottar svar fra Instructure (v/CSM) om at oppdatering av bibliotek har vært årsaken til problemer med SFTP-funksjonaliteten, og at feilen vil rettes ila et par timer. Kl. 20:37: TA videresender svaret fra Instructure (v/CSM) til kontakter ved USN slik at de har mulighet til å sjekke at importen går riktig ved neste runde. Kl. 20:43: TA melder på Teams LMS for sektor at Instructure mener å ha funnet feilen på sin side og ny kode driftsettes mellom 21 og 22. Etterspør om noen kan sjekke at import går. Kl 22:15: USN melder tilbake om at ny import har gått, men generert en stor mengde varsel/feilmeldinger. Avventer til nattens store hovedimport er gjennomført for videre analyse. Kl 22:59: UiA melder på Teams LMS for sektor om at de ikke har fått noen ny import til Canvas. Kl 23:08: TA melder kort status til Instructure (v/CSM) om at USN melder om at import har gått, men gitt mye feilmeldinger, og at UiA melder om at deres import ikke har gått. Kl. 23:23: TA sender sak til Sikt Servicesenter på kontakt@sikt.no og etterspør driftsmelding på http://sikt.no 2022-04-28:Kl. 07:01: UiA melder på Teams LMS for sektor at Canvas gir mange feilmeldinger om importen. Kl. 07:57: TA melder til Instructure (v/CSM) om at importen ser ut til å gå, men integrasjonen ikke flytter gamle filer (som den skal). Dette gjør at gamle filer kan leses på nytt og det gir dermed feilmeldinger. Kl. 10:08: TA sender oppdatering til Sikt Servicesenter (sak 303458) og etterspør oppdatering av driftsmelding, til at tjenesten er i drift men med begrenset ytelse. Kl. 10:50: Sikt Servicesenter melder om at driftsmelding er oppdatert. Kl. 14:02: TA ber USN melde inn support ticket til Instructure om at integrasjonen ikke fungerer som normalt. Kl. 14:19: Tilbakemelding fra Instructure (v/CSM) om at de skal sjekke med Proserve Kl. 14:47: USN melder om at support ticket (08731556) er sendt til Instructure support og eskalert. Kl 14:56: TA melder til Instructure (v/CSM) om support-ticket og det fortsatte problemet. Kl. 17:59: TA gir statusoppdatering om at det avventes retting fra USA på Teams LMS for sektor. Kl. 19:18: Instructure (v/CSM) melder om at Proserve ser på saken. Kl. 19:50: Instructure (v/CSM) melder om at Proserve har funnet en løsning og iverksetter snarest mulig, men vil være forsinkelse resten av dagen, men problemet skal være løst neste dag. Videre oppfølging fra Proserve blir i supportsaken. Kl 23:31: TA sender ny statusoppdatering på Teams LMS for sektor om at problemet skal løses ila kvelden, og om de kan verifisere dette neste morgen. 2022-04-29:Kl. 06:46: UiT melder på Teams LMS for sektor at nattens import har gått smertefritt Kl. 07:39: HVL melder om det samme Kl. 08:49: USN videresender svar fra Instructure support på e-post (sendt fra Instructure kl. 01:26):
Kl. 09:00-10:00: TA avventer om det kommer noen som melder om feil/problemer. Kl: 10:11: TA friskmelder saken og melder fra til Teams LMS for sektor,Slack RT-studiegennomføring og Sikt Servicesenter |
Five whys root cause identification
| |
Lessons learned
|
|
Follow-up tasks
|
|