Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Instructions

Report

🙅‍♀️ Fault


Describe how the change that was implemented didn't work as expected. If available, include relevant data visualizations.

Instructure (skyleverandøren av Canvas som også står for FS-integrasjonen) hadde implementert en endring på sine servere:

Eg har fått svar frå ProServe teamet hos oss at det var nyleg gjennomført ein oppdatering av enkelte av biblioteka som bruker verktøyet som igjen forårsaket utilsiktet problemer med SFTP-funksjonaliteten. Det ser ut som problemet var på vår side denne gangen. Problemet er fikset og verifisert at det vil fungere men dei må fortsatt opplaste koden. I løpet av den neste timen eller to så skal ein ha den oppdaterte koden på plass og alt skal gå tilbake til det normale. 

🥏 Impact


Describe how internal and external users were impacted during the incident. Include how many support cases were raised.

Alle institusjoner som benytter integrasjonen var berørt. Siste gjennomførte overføring til Canvas var 2022-04-26 kl 17:00 (altså dagen før).

Tjenesteansvarlig mottok varsel fra HVL på Teams kl 07:59, og ba de varsle FS-support@sikt.no med lms@sikt.no på kopi. Tjenesteansvarlig mottok også en henvendelse fra en institusjon per e-post.

👁 Detection


Report when the team detected the incident and how they knew it was happening. Describe how the team could've improved time to detection.

Oppdaget ved melding fra sektoren, ca. kl 08:05. Sektoren meldte også om at SFTP-serveren (ved UiO/USIT) var utilgjengelig. Dette ble da først antatt som å være årsaken.

🙆‍♀️ Recovery


Report how the user impact was mitigated and when the incident was deemed resolved. Describe how the team could've improved time to mitigation.

Feilen gjorde at Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i 1-2 døgn.

Feil ble oppdaget tidlig av enkeltinstitusjoner, rotårsaken ble ført avdekket 2022-04-27 kl 19:49 og rettet noen timer senere.

I løpet av kvelden/natten avventet man med å se om insitusjonene fikk import riktig, og mange hadde fortsatt problemer.

Bedre kontaktflater/avtaleforhold med eksterne driftsleverandører (både USIT og Instructure) kunne forkortet perioden der integrasjonen var utilgjengelig eller genererte feil.

⏲ Timeline


Detail the incident timeline using UTC to standardize for timezones. Include lead-up events, post-impact event, and any decisions or changes made.

2022-04-27:

Kl. 07:59: Problemet ble oppdaget av HVL som meldte fra på Teams for

Status
colourBlue
titleTeams LMS for sektor
om at deres Canvas ikke hadde lest inn filer fra FS i løpet av natten.

Kl. 08:04: Tjenesteansvarlig (heretter TA) forsøker å koble til SFTP-server og får ikke koblet til. Melder fra på e-post til www-drift@usit.uio.no,

Status
colourPurple
titleteam lead sus
og
Status
colourRed
titleInstructure (v/CSM)
. Melder også fra til leder Vegard Moen, som varsler
Status
colourGreen
titleSikkerhet
.

Kl. 08:06: TA melder fra på

Status
colourBlue
titleTeams LMS for sektor
at vi ikke koblet til SFTP-server og at feilen da kan gjelde flere.

Kl. 08:13: TA melder fra på Tjenestevarsling-Teamskanal for

Status
colourYellow
titleSikt Servicesenter
.

Kl. 08:18: TA kontakter

Status
colourPurple
titleteam lead sus
(på Slack) om at man ikke får kontakt med SFTP-serveren, og om de kan kontakte USIT ved UiO.

Kl. 08:19: TA sender e-post med kort statusinformasjon om at integrasjonen har problemer og at statusoppdateringer vil gis på

Status
colourBlue
titleTeams LMS for sektor

Kl 08:25: USN melder på

Status
colourBlue
titleTeams LMS for sektor
at siste import for dem var kl 17:00 dagen før.

Kl. 08:28: USN sender sak til FS-support@sikt.no (saksnr 303348) at integrasjonen og SFTP-serveren er nede (Flere institusjoner gjør det samme utover dagen).

Kl. 08:40: USN melder om at SFTP-serveren er tilgjengelig igjen og avventer ny import forespeilet ferdigstilt i 10-tiden for å se at den fungerer igjen.

Kl. 08:42: Tråd startet

Status
colourRed
titleSlack RT-studiegennomføring
basert på USN sin RT-sak til FS-support.

Kl. 09:04: Driftsmelding publisert på fellesstudentsystem: https://www.fellesstudentsystem.no/driftsmeldinger/2022/2022--04-27-canvasintregrasjonen-er-utilgjengelig-.html

Kl. 09:22:

Status
colourPurple
titleteam lead sus
sender ny sak til www-drift@usit.uio.no.

Kl. 09:42: USIT svarer (saksnr 4872906) om at serveren ikke har blitt flyttet og at de har testet og verifisert at eksterne har tilgang.

Kl. 10:08: USN svarer på sin sak (303348) om at det fremdeles ikke er kommet en vellykket import til Canvas, men at man avventer til rundt lunsj for å se om den har blitt trigget.

Kl. 10:26-12:14: Flere institusjoner melder om at ingen ny import til Canvas er gjort.

Kl. 12:23: USN svarer på nytt i sin sak (303348) med at det fremdeles ikke er kommet en vellykket import til Canvas, og det samme gjelder alle andre institusjoner.

Kl. 13:05: TA kontakter

Status
colourRed
titleInstructure (v/CSM)
på nytt med spørsmål om de kan undersøke nærmere på sin side, da flere melder om at det ikke kjøres import til Canvas.

Kl. 14:05: TA svarer USIT (sak 4911512) med spørsmål om de kan fortsette feilsøking på sin ende og sjekke om Instructure (USA) har hatt vellykkede tilkoblinger og hentet ut filer fra SFTP-serveren.

Kl. 14:51: TA får svar fra

Status
colourRed
titleInstructure (v/CSM)
om at de venter på tilbakemelding internt.

Kl. 15:47: TA sender utfylt avviksskjema til

Status
colourGreen
titleSikkerhet
.

Kl 19:49: TA mottar svar fra

Status
colourRed
titleInstructure (v/CSM)
om at oppdatering av bibliotek har vært årsaken til problemer med SFTP-funksjonaliteten, og at feilen vil rettes ila et par timer.

Kl. 20:37: TA videresender svaret fra

Status
colourRed
titleInstructure (v/CSM)
til kontakter ved USN slik at de har mulighet til å sjekke at importen går riktig ved neste runde.

Kl. 20:43: TA melder på

Status
colourBlue
titleTeams LMS for sektor
at Instructure mener å ha funnet feilen på sin side og ny kode driftsettes mellom 21 og 22. Etterspør om noen kan sjekke at import går.

Kl 22:15: USN melder tilbake om at ny import har gått, men generert en stor mengde varsel/feilmeldinger. Avventer til nattens store hovedimport er gjennomført for videre analyse.

Kl 22:59: UiA melder på

Status
colourBlue
titleTeams LMS for sektor
om at de ikke har fått noen ny import til Canvas.

Kl 23:08: TA melder kort status til

Status
colourRed
titleInstructure (v/CSM)
om at USN melder om at import har gått, men gitt mye feilmeldinger, og at UiA melder om at deres import ikke har gått.

Kl. 23:23: TA sender sak til

Status
colourYellow
titleSikt Servicesenter
kontakt@sikt.no og etterspør driftsmelding på http://sikt.no

2022-04-28:

Kl. 07:01: UiA melder på

Status
colourBlue
titleTeams LMS for sektor
at Canvas gir mange feilmeldinger om importen.

Kl. 07:57: TA melder til

Status
colourRed
titleInstructure (v/CSM)
om at importen ser ut til å gå, men integrasjonen ikke flytter gamle filer (som den skal). Dette gjør at gamle filer kan leses på nytt og det gir dermed feilmeldinger.

Kl. 10:08: TA sender oppdatering til

Status
colourYellow
titleSikt Servicesenter
(sak 303458) og etterspør oppdatering av driftsmelding, til at tjenesten er i drift men med begrenset ytelse.

Kl. 10:50:

Status
colourYellow
titleSikt Servicesenter
melder om at driftsmelding er oppdatert.

Kl. 14:02: TA ber USN melde inn support ticket til Instructure om at integrasjonen ikke fungerer som normalt.

Kl. 14:19: Tilbakemelding fra

Status
colourRed
titleInstructure (v/CSM)
om at de skal sjekke med Proserve

Kl. 14:47: USN melder om at support ticket (08731556) er sendt til Instructure support og eskalert.

Kl 14:56: TA melder til

Status
colourRed
titleInstructure (v/CSM)
om support-ticket og det fortsatte problemet.

Kl. 17:59: TA gir statusoppdatering om at det avventes retting fra USA på

Status
colourBlue
titleTeams LMS for sektor
.

Kl. 19:18:

Status
colourRed
titleInstructure (v/CSM)
melder om at Proserve ser på saken.

Kl. 19:50:

Status
colourRed
titleInstructure (v/CSM)
melder om at Proserve har funnet en løsning og iverksetter snarest mulig, men vil være forsinkelse resten av dagen, men problemet skal være løst neste dag. Videre oppfølging fra Proserve blir i supportsaken.

Kl 23:31: TA sender ny statusoppdatering på

Status
colourBlue
titleTeams LMS for sektor
om at problemet skal løses ila kvelden, og om de kan verifisere dette neste morgen.

2022-04-29:

Kl. 06:46: UiT melder på

Status
colourBlue
titleTeams LMS for sektor
at nattens import har gått smertefritt

Kl. 07:39: HVL melder om det samme

Kl. 08:49: USN videresender svar fra Instructure support på e-post (sendt fra Instructure kl. 01:26):

Sorry for the ongoing trouble.  I believe we have finally got it all sorted out and processed files should now be moved over to the "old" directory once we have finished with them.  I have manually triggered the import job for all of your schools, which should cause us to process these files one last time and then move them to "old".  From tomorrow on, things should process the way they should and then move into "old" after they are done.

Kl. 09:00-10:00: TA avventer om det kommer noen som melder om feil/problemer.

Kl: 10:11: TA friskmelder saken og melder fra til

Status
colourBlue
titleTeams LMS for sektor
,
Status
colourRed
titleSlack RT-studiegennomføring
og
Status
colourYellow
titleSikt Servicesenter

🔎 Five whys root cause identification


Run a 5-whys analysis to understand the true causes of the incident. 

🤔 Lessons learned


Describe what you learned, what went well, and how you can improve.

✍ Follow-up tasks


List the Jira issues created to prevent this class of incident in the future. Note who is responsible, when they have to complete the work, and where that work is being tracked.

...