đ Oppsummering
Postmortem owner | |
---|---|
Incident | To problemer oppstod:
|
Priority | P0 / P1 / P2+ |
Affected services |
|
đ Rapport
Instructions | Report |
---|---|
đ ââïžÂ Fault
| Instructure (skyleverandÞren av Canvas som ogsÄ stÄr for FS-integrasjonen) hadde implementert en endring pÄ sine servere:
|
đ„Â Impact
| Alle institusjoner som benytter integrasjonen var berÞrt. Siste gjennomfÞrte overfÞring til Canvas var 2022-04-26 kl 17:00 (altsÄ dagen fÞr). Tjenesteansvarlig mottok varsel fra HVL pÄ Teams kl 07:59, og ba de varsle FS-support@sikt.no med lms@sikt.no pÄ kopi. Tjenesteansvarlig mottok ogsÄ en henvendelse fra en institusjon per e-post. |
đ Detection
| Oppdaget ved melding fra sektoren, ca. kl 08:05. Sektoren meldte ogsÄ om at SFTP-serveren (ved UiO/USIT) var utilgjengelig. Dette ble da fÞrst antatt som Ä vÊre Ärsaken. |
đââïžÂ Recovery
| Feilen gjorde at Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i 1-2 dÞgn. Feil ble oppdaget tidlig av enkeltinstitusjoner, rotÄrsaken ble fÞrt avdekket 2022-04-27 kl 19:49 og rettet noen timer senere. I lÞpet av kvelden/natten avventet man med Ä se om insitusjonene fikk import riktig, og mange hadde fortsatt problemer. Bedre kontaktflater/avtaleforhold med eksterne driftsleverandÞrer (bÄde USIT og Instructure) kunne forkortet perioden der integrasjonen var utilgjengelig eller genererte feil. |
âČ Timeline
| 2022-04-27:Kl. 07:59: Problemet ble oppdaget av HVL som meldte fra pĂ„ Teams for TEAMS LMS FOR SEKTOR om at deres Canvas ikke hadde lest inn filer fra FS i lĂžpet av natten. Kl. 08:04: Tjenesteansvarlig (heretter TA) forsĂžker Ă„ koble til SFTP-server og fĂ„r ikke koblet til. Melder fra pĂ„ e-post til www-drift@usit.uio.no, TEAM LEAD SUS og INSTRUCTURE (V/CSM). Melder ogsĂ„ fra til leder Vegard Moen, som varsler SIKKERHET. Kl. 08:06: TA melder fra pĂ„ TEAMS LMS FOR SEKTOR at vi ikke koblet til SFTP-server og at feilen da kan gjelde flere. Kl. 08:13: TA melder fra pĂ„ Tjenestevarsling-Teamskanal for SIKT SERVICESENTER. Kl. 08:18: TA kontakter TEAM LEAD SUS (pĂ„ Slack) om at man ikke fĂ„r kontakt med SFTP-serveren, og om de kan kontakte USIT ved UiO. Kl. 08:19: TA sender e-post med kort statusinformasjon om at integrasjonen har problemer og at statusoppdateringer vil gis pĂ„ TEAMS LMS FOR SEKTOR Kl 08:25: USN melder pĂ„ TEAMS LMS FOR SEKTOR at siste import for dem var kl 17:00 dagen fĂžr. Kl. 08:28: USN sender sak til FS-support@sikt.no (saksnr 303348) at integrasjonen og SFTP-serveren er nede (Flere institusjoner gjĂžr det samme utover dagen). Kl. 08:40: USN melder om at SFTP-serveren er tilgjengelig igjen og avventer ny import forespeilet ferdigstilt i 10-tiden for Ă„ se at den fungerer igjen. Kl. 08:42: TrĂ„d startet SLACK RT-STUDIEGENNOMFĂRING basert pĂ„ USN sin RT-sak til FS-support. Kl. 09:22: TEAM LEAD SUS sender ny sak til www-drift@usit.uio.no. Kl. 09:42: USIT svarer (saksnr 4872906) om at serveren ikke har blitt flyttet og at de har testet og verifisert at eksterne har tilgang. Kl. 10:08: USN svarer pĂ„ sin sak (303348) om at det fremdeles ikke er kommet en vellykket import til Canvas, men at man avventer til rundt lunsj for Ă„ se om den har blitt trigget. Kl. 10:26-12:14: Flere institusjoner melder om at ingen ny import til Canvas er gjort. Kl. 12:23: USN svarer pĂ„ nytt i sin sak (303348) med at det fremdeles ikke er kommet en vellykket import til Canvas, og det samme gjelder alle andre institusjoner. Kl. 13:05: TA kontakter INSTRUCTURE (V/CSM) pĂ„ nytt med spĂžrsmĂ„l om de kan undersĂžke nĂŠrmere pĂ„ sin side, da flere melder om at det ikke kjĂžres import til Canvas. Kl. 14:05: TA svarer USIT (sak 4911512) med spĂžrsmĂ„l om de kan fortsette feilsĂžking pĂ„ sin ende og sjekke om Instructure (USA) har hatt vellykkede tilkoblinger og hentet ut filer fra SFTP-serveren. Kl. 14:51: TA fĂ„r svar fra INSTRUCTURE (V/CSM)om at de venter pĂ„ tilbakemelding internt. Kl. 15:47: TA sender utfylt avviksskjema til SIKKERHET. Kl 19:49: TA mottar svar fra INSTRUCTURE (V/CSM) om at oppdatering av bibliotek har vĂŠrt Ă„rsaken til problemer med SFTP-funksjonaliteten, og at feilen vil rettes ila et par timer. Kl. 20:37: TA videresender svaret fra INSTRUCTURE (V/CSM) til kontakter ved USN slik at de har mulighet til Ă„ sjekke at importen gĂ„r riktig ved neste runde. Kl. 20:43: TA melder pĂ„ TEAMS LMS FOR SEKTOR at Instructure mener Ă„ ha funnet feilen pĂ„ sin side og ny kode driftsettes mellom 21 og 22. EtterspĂžr om noen kan sjekke at import gĂ„r. Kl 22:15: USN melder tilbake om at ny import har gĂ„tt, men generert en stor mengde varsel/feilmeldinger. Avventer til nattens store hovedimport er gjennomfĂžrt for videre analyse. Kl 22:59: UiA melder pĂ„ TEAMS LMS FOR SEKTOR om at de ikke har fĂ„tt noen ny import til Canvas. Kl 23:08: TA melder kort status til INSTRUCTURE (V/CSM) om at USN melder om at import har gĂ„tt, men gitt mye feilmeldinger, og at UiA melder om at deres import ikke har gĂ„tt. Kl. 23:23: TA sender sak til SIKT SERVICESENTER pĂ„ kontakt@sikt.no og etterspĂžr driftsmelding pĂ„ http://sikt.no 2022-04-28:Kl. 07:01: UiA melder pĂ„ TEAMS LMS FOR SEKTOR at Canvas gir mange feilmeldinger om importen. Kl. 07:57: TA melder til INSTRUCTURE (V/CSM) om at importen ser ut til Ă„ gĂ„, men integrasjonen ikke flytter gamle filer (som den skal). Dette gjĂžr at gamle filer kan leses pĂ„ nytt og det gir dermed feilmeldinger. Kl. 10:08: TA sender oppdatering til SIKT SERVICESENTER (sak 303458) og etterspĂžr oppdatering av driftsmelding, til at tjenesten er i drift men med begrenset ytelse. Kl. 10:50: SIKT SERVICESENTER melder om at driftsmelding er oppdatert. Kl. 14:02: TA ber USN melde inn support ticket til Instructure om at integrasjonen ikke fungerer som normalt. Kl. 14:19: Tilbakemelding fra INSTRUCTURE (V/CSM) om at de skal sjekke med Proserve Kl. 14:47: USN melder om at support ticket (08731556) er sendt til Instructure support og eskalert. Kl 14:56: TA melder til INSTRUCTURE (V/CSM) om support-ticket og det fortsatte problemet. Kl. 17:59: TA gir statusoppdatering om at det avventes retting fra USA pĂ„ TEAMS LMS FOR SEKTOR. Kl. 19:18: INSTRUCTURE (V/CSM) melder om at Proserve ser pĂ„ saken. Kl. 19:50: INSTRUCTURE (V/CSM) melder om at Proserve har funnet en lĂžsning og iverksetter snarest mulig, men vil vĂŠre forsinkelse resten av dagen, men problemet skal vĂŠre lĂžst neste dag. Videre oppfĂžlging fra Proserve blir i supportsaken. Kl 23:31: TA sender ny statusoppdatering pĂ„ TEAMS LMS FOR SEKTOR om at problemet skal lĂžses ila kvelden, og om de kan verifisere dette neste morgen. 2022-04-29:Kl. 06:46: UiT melder pĂ„ TEAMS LMS FOR SEKTOR at nattens import har gĂ„tt smertefritt Kl. 07:39: HVL melder om det samme Kl. 08:49: USN videresender svar fra Instructure support pĂ„ e-post (sendt fra Instructure kl. 01:26):
Kl. 09:00-10:00: TA avventer om det kommer noen som melder om feil/problemer. Kl: 10:11: TA friskmelder saken og melder fra til TEAMS LMS FOR SEKTOR,SLACK RT-STUDIEGENNOMFĂRING og SIKT SERVICESENTER |
đ Five whys root cause identification
| |
đ€Â Lessons learned
| |
â Follow-up tasks
|