Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 2 Next »

📋 Oppsummering

Postmortem owner

Incident

To problemer oppstod:

  1. Hovedproblemet: Oppdatering av enkelte bibliotek som bruker verktÞyet (i integrasjonen) forÄrsakte utilsiktede problemer med SFTP-funksjonaliteten hos Instructure.

  2. SFTP-servere for FS-integrasjon til Canvas var utilgjengelig en kort periode.

Priority

P0 / P1 / P2+

Affected services

  • Canvas LMS

📝 Rapport

Instructions

Report

đŸ™…â€â™€ïžÂ Fault


Describe how the change that was implemented didn't work as expected. If available, include relevant data visualizations.

Instructure (skyleverandÞren av Canvas som ogsÄ stÄr for FS-integrasjonen) hadde implementert en endring pÄ sine servere:

Eg har fÄtt svar frÄ ProServe teamet hos oss at det var nyleg gjennomfÞrt ein oppdatering av enkelte av biblioteka som bruker verktÞyet som igjen forÄrsaket utilsiktet problemer med SFTP-funksjonaliteten. Det ser ut som problemet var pÄ vÄr side denne gangen. Problemet er fikset og verifisert at det vil fungere men dei mÄ fortsatt opplaste koden. I lÞpet av den neste timen eller to sÄ skal ein ha den oppdaterte koden pÄ plass og alt skal gÄ tilbake til det normale. 

đŸ„Â Impact


Describe how internal and external users were impacted during the incident. Include how many support cases were raised.

Alle institusjoner som benytter integrasjonen var berÞrt. Siste gjennomfÞrte overfÞring til Canvas var 2022-04-26 kl 17:00 (altsÄ dagen fÞr).

Tjenesteansvarlig mottok varsel fra HVL pÄ Teams kl 07:59, og ba de varsle FS-support@sikt.no med lms@sikt.no pÄ kopi. Tjenesteansvarlig mottok ogsÄ en henvendelse fra en institusjon per e-post.

👁 Detection


Report when the team detected the incident and how they knew it was happening. Describe how the team could've improved time to detection.

Oppdaget ved melding fra sektoren, ca. kl 08:05. Sektoren meldte ogsÄ om at SFTP-serveren (ved UiO/USIT) var utilgjengelig. Dette ble da fÞrst antatt som Ä vÊre Ärsaken.

đŸ™†â€â™€ïžÂ Recovery


Report how the user impact was mitigated and when the incident was deemed resolved. Describe how the team could've improved time to mitigation.

Feilen gjorde at Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i 1-2 dĂžgn.

Feil ble oppdaget tidlig av enkeltinstitusjoner, rotÄrsaken ble fÞrt avdekket 2022-04-27 kl 19:49 og rettet noen timer senere.

I lĂžpet av kvelden/natten avventet man med Ă„ se om insitusjonene fikk import riktig, og mange hadde fortsatt problemer.

Bedre kontaktflater/avtaleforhold med eksterne driftsleverandÞrer (bÄde USIT og Instructure) kunne forkortet perioden der integrasjonen var utilgjengelig eller genererte feil.

âČ Timeline


Detail the incident timeline using UTC to standardize for timezones. Include lead-up events, post-impact event, and any decisions or changes made.

2022-04-27:

Kl. 07:59: Problemet ble oppdaget av HVL som meldte fra pÄ Teams for TEAMS LMS FOR SEKTOR om at deres Canvas ikke hadde lest inn filer fra FS i lÞpet av natten.

Kl. 08:04: Tjenesteansvarlig (heretter TA) forsÞker Ä koble til SFTP-server og fÄr ikke koblet til. Melder fra pÄ e-post til www-drift@usit.uio.no, TEAM LEAD SUS og INSTRUCTURE (V/CSM). Melder ogsÄ fra til leder Vegard Moen, som varsler SIKKERHET.

Kl. 08:06: TA melder fra pÄ TEAMS LMS FOR SEKTOR at vi ikke koblet til SFTP-server og at feilen da kan gjelde flere.

Kl. 08:13: TA melder fra pÄ Tjenestevarsling-Teamskanal for SIKT SERVICESENTER.

Kl. 08:18: TA kontakter TEAM LEAD SUS (pÄ Slack) om at man ikke fÄr kontakt med SFTP-serveren, og om de kan kontakte USIT ved UiO.

Kl. 08:19: TA sender e-post med kort statusinformasjon om at integrasjonen har problemer og at statusoppdateringer vil gis pÄ TEAMS LMS FOR SEKTOR

Kl 08:25: USN melder pÄ TEAMS LMS FOR SEKTOR at siste import for dem var kl 17:00 dagen fÞr.

Kl. 08:28: USN sender sak til FS-support@sikt.no (saksnr 303348) at integrasjonen og SFTP-serveren er nede (Flere institusjoner gjĂžr det samme utover dagen).

Kl. 08:40: USN melder om at SFTP-serveren er tilgjengelig igjen og avventer ny import forespeilet ferdigstilt i 10-tiden for Ă„ se at den fungerer igjen.

Kl. 08:42: TrÄd startet SLACK RT-STUDIEGENNOMFØRING basert pÄ USN sin RT-sak til FS-support.

Kl. 09:22: TEAM LEAD SUS sender ny sak til www-drift@usit.uio.no.

Kl. 09:42: USIT svarer (saksnr 4872906) om at serveren ikke har blitt flyttet og at de har testet og verifisert at eksterne har tilgang.

Kl. 10:08: USN svarer pÄ sin sak (303348) om at det fremdeles ikke er kommet en vellykket import til Canvas, men at man avventer til rundt lunsj for Ä se om den har blitt trigget.

Kl. 10:26-12:14: Flere institusjoner melder om at ingen ny import til Canvas er gjort.

Kl. 12:23: USN svarer pÄ nytt i sin sak (303348) med at det fremdeles ikke er kommet en vellykket import til Canvas, og det samme gjelder alle andre institusjoner.

Kl. 13:05: TA kontakter INSTRUCTURE (V/CSM) pÄ nytt med spÞrsmÄl om de kan undersÞke nÊrmere pÄ sin side, da flere melder om at det ikke kjÞres import til Canvas.

Kl. 14:05: TA svarer USIT (sak 4911512) med spÞrsmÄl om de kan fortsette feilsÞking pÄ sin ende og sjekke om Instructure (USA) har hatt vellykkede tilkoblinger og hentet ut filer fra SFTP-serveren.

Kl. 14:51: TA fÄr svar fra INSTRUCTURE (V/CSM)om at de venter pÄ tilbakemelding internt.

Kl. 15:47: TA sender utfylt avviksskjema til SIKKERHET.

Kl 19:49: TA mottar svar fra INSTRUCTURE (V/CSM) om at oppdatering av bibliotek har vĂŠrt Ă„rsaken til problemer med SFTP-funksjonaliteten, og at feilen vil rettes ila et par timer.

Kl. 20:37: TA videresender svaret fra INSTRUCTURE (V/CSM) til kontakter ved USN slik at de har mulighet til Ä sjekke at importen gÄr riktig ved neste runde.

Kl. 20:43: TA melder pÄ TEAMS LMS FOR SEKTOR at Instructure mener Ä ha funnet feilen pÄ sin side og ny kode driftsettes mellom 21 og 22. EtterspÞr om noen kan sjekke at import gÄr.

Kl 22:15: USN melder tilbake om at ny import har gÄtt, men generert en stor mengde varsel/feilmeldinger. Avventer til nattens store hovedimport er gjennomfÞrt for videre analyse.

Kl 22:59: UiA melder pÄ TEAMS LMS FOR SEKTOR om at de ikke har fÄtt noen ny import til Canvas.

Kl 23:08: TA melder kort status til INSTRUCTURE (V/CSM) om at USN melder om at import har gÄtt, men gitt mye feilmeldinger, og at UiA melder om at deres import ikke har gÄtt.

Kl. 23:23: TA sender sak til SIKT SERVICESENTER pÄ kontakt@sikt.no og etterspÞr driftsmelding pÄ http://sikt.no

2022-04-28:

Kl. 07:01: UiA melder pÄ TEAMS LMS FOR SEKTOR at Canvas gir mange feilmeldinger om importen.

Kl. 07:57: TA melder til INSTRUCTURE (V/CSM) om at importen ser ut til Ä gÄ, men integrasjonen ikke flytter gamle filer (som den skal). Dette gjÞr at gamle filer kan leses pÄ nytt og det gir dermed feilmeldinger.

Kl. 10:08: TA sender oppdatering til SIKT SERVICESENTER (sak 303458) og etterspĂžr oppdatering av driftsmelding, til at tjenesten er i drift men med begrenset ytelse.

Kl. 10:50: SIKT SERVICESENTER melder om at driftsmelding er oppdatert.

Kl. 14:02: TA ber USN melde inn support ticket til Instructure om at integrasjonen ikke fungerer som normalt.

Kl. 14:19: Tilbakemelding fra INSTRUCTURE (V/CSM) om at de skal sjekke med Proserve

Kl. 14:47: USN melder om at support ticket (08731556) er sendt til Instructure support og eskalert.

Kl 14:56: TA melder til INSTRUCTURE (V/CSM) om support-ticket og det fortsatte problemet.

Kl. 17:59: TA gir statusoppdatering om at det avventes retting fra USA pÄ TEAMS LMS FOR SEKTOR.

Kl. 19:18: INSTRUCTURE (V/CSM) melder om at Proserve ser pÄ saken.

Kl. 19:50: INSTRUCTURE (V/CSM) melder om at Proserve har funnet en lĂžsning og iverksetter snarest mulig, men vil vĂŠre forsinkelse resten av dagen, men problemet skal vĂŠre lĂžst neste dag. Videre oppfĂžlging fra Proserve blir i supportsaken.

Kl 23:31: TA sender ny statusoppdatering pÄ TEAMS LMS FOR SEKTOR om at problemet skal lÞses ila kvelden, og om de kan verifisere dette neste morgen.

2022-04-29:

Kl. 06:46: UiT melder pÄ TEAMS LMS FOR SEKTOR at nattens import har gÄtt smertefritt

Kl. 07:39: HVL melder om det samme

Kl. 08:49: USN videresender svar fra Instructure support pÄ e-post (sendt fra Instructure kl. 01:26):

Sorry for the ongoing trouble.  I believe we have finally got it all sorted out and processed files should now be moved over to the "old" directory once we have finished with them.  I have manually triggered the import job for all of your schools, which should cause us to process these files one last time and then move them to "old".  From tomorrow on, things should process the way they should and then move into "old" after they are done.

Kl. 09:00-10:00: TA avventer om det kommer noen som melder om feil/problemer.

Kl: 10:11: TA friskmelder saken og melder fra til TEAMS LMS FOR SEKTOR,SLACK RT-STUDIEGENNOMFØRING og SIKT SERVICESENTER

🔎 Five whys root cause identification


Run a 5-whys analysis to understand the true causes of the incident. 

đŸ€”Â Lessons learned


Describe what you learned, what went well, and how you can improve.

✍ Follow-up tasks


List the Jira issues created to prevent this class of incident in the future. Note who is responsible, when they have to complete the work, and where that work is being tracked.

  • No labels