Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 2 Next »

📋 Postmortem summary

Postmortem owner

Incident

USIT (UiO) servere gjort utilgjengelig for eksterne maskiner, gjorde at FS-integrasjon for Canvas var nede da verken institusjoner eller leverandĂžr (Instructure Canvas) hadde tilgang til FS-eksport

Priority

P0 / P1 / P2+

Affected services

  • Canvas LMS

Executive summary

📝 Postmortem report

Instructions

Report

đŸ™…â€â™€ïžÂ Fault


Describe how the change that was implemented didn't work as expected. If available, include relevant data visualizations.

USIT (UiO) hadde implementert en endring pÄ sine servere:

Dette kommer av en generell innstramming av tilgang til UiO-servere fra omverdenen og inngÄende ssh er sperret. VÄr kartlegging har dessverre ikke avdekket at w3prod-datasync02 ville bli rammet av endringen.

đŸ„Â Impact


Describe how internal and external users were impacted during the incident. Include how many support cases were raised.

Alle 25 institusjoner som benytter integrasjonen var berÞrt. Sinne gjennomfÞrte overfÞring til Canvas var 2022-03-28 kl 10:08 (altsÄ dagen fÞr).

Tjenesteansvarlig mottok 3 meldinger per e-post direkte. Ba de ogsÄ melde til FS-support.

👁 Detection


Report when the team detected the incident and how they knew it was happening. Describe how the team could've improved time to detection.

Oppdaget ved melding fra sektoren. Den fĂžrste meldingen om feil ble fĂžrst lagt merke til ca kl 13:30.

đŸ™†â€â™€ïžÂ Recovery


Report how the user impact was mitigated and when the incident was deemed resolved. Describe how the team could've improved time to mitigation.

âČ Timeline


Detail the incident timeline using UTC to standardize for timezones. Include lead-up events, post-impact event, and any decisions or changes made.

Kl. 09:49: Problemet ble oppdaget av USN som meldte fra om at de ikke hadde tilgang til serveren for Ă„ sjekke XML-eksport

Kl. 12:35: UiT melder om samme problem og spĂžr hva som er rett kanal Ă„ varsle (tjenesteansvarlig LMS eller FS-support)

ca. kl 13:30: Tjenesteansvarlig verifiserer feilen (fÄr ikke koblet til). Tjenesteanvarlig spÞr sÄ Team lead pÄ StudiegjennomfÞring om det er kjent til noen endringer hos USIT. Blir anbefalt Ä dobbeltsjekke med Kai.

kl. 13:42: Tjenestenansvarlig sender spÞrsmÄl (videresendt informasjon innmeldt fra sektor) til Kai om server. Kai melder om at han har tilgang, men sender straks sak til USIT.

kl 13:43: Tjenesteansvarlig sender varsel til sikkerhet@sikt.no og Marius Eide som beskrevet pÄ Innsikt (fikk ikke respons pÄ denne). Tjenesteansvarlig svarer ogsÄ pÄ henvendelsene fra sektoren og varsler pÄ Teams for SEKTORSAMARBEIDET I LMS-TJENESTEN.

kl: 14:00: TrĂ„d startet SLACK RT-STUDIEGENNOMFØRING om problemet, da det ble meldt inn ogsĂ„ til FS-support. Tjenesteansvarlig spĂžr om vi bĂžr forsĂžke Ă„ ringe USIT for Ă„ fĂ„ respons pĂ„ at problemet lĂžses samme dag (altsĂ„ at folk ikke “drar hjem” og problemet vedvarer til neste dag).

Kl. 14:30: Tjenesteansvarlig kontakter produkteier for FS for Ä etterspÞrre purring pÄ USIT. Henvises til Thor Anti.

Kl. 14:33: Tjenesteansvarlig poster informasjon om at integrasjonen er nede i kanalen Change, Incident, Problem og Request i Teamet for SIKT SERVICESENTER for Ä sÞrge for at Servicesenteret er informert, og eventuelt kan poste driftsvarsel (fikk ikke respons pÄ denne).

Kl. 14:36: Tjenesteansvarlig legger til Thor i SLACK RT-STUDIEGENNOMFØRING i samme trÄd og spÞr om mulighet til Ä ringe/purre pÄ USIT.

Kl 14:39: Tjenesteansvarlig kontakter leder av Servicesenteret for Ä melde fra om problemet (grunnet manglende reaksjon pÄ post i Teams-kanal) og at det kanskje er lurt Ä vurdere en driftsmelding eller lignende.

ca Kl. 14:40: Tjenesteansvarlig etterspÞr pÄ SLACK RT-STUDIEGENNOMFØRING om det kan publiseres driftsmelding.

Kl. 14:54: Leder av Servicesenteret ber om at Tjenesteansvarlig lage incident i RT. Tjenesteansvarlig svarer et situasjonen er hektisk og prioritet er Ä sikre at problemet blir sett pÄ samme dag, og siden man ikke har erfaring med Ä registrere det i RT blir det ikke prioritert i denne omgang.

Kl. 15:00: Driftsmelding publisert pÄ https://www.fellesstudentsystem.no/driftsmeldinger/2022/2022-03-29-canvas-integrasjon-nede.html

Kl. 15:16: USIT svarer om at de har gjennomfÞrt en endring og sperret inngÄende SSH, som er Ärsaken. De ser pÄ lÞsning.

Kl. 15:16-17:15: Dialog frem og tilbake med USIT frem til det er verifisert at alle har fÄtt gjenopprettet tilgang og import til Canvas gÄr som normalt.

🔎 Five whys root cause identification


Run a 5-whys analysis to understand the true causes of the incident. 

  1. USIT Ăžnsker strengere sikkerhet for sine servere

  2. USIT sperret for inngÄende SSH fra eksterne maskiner (ikke UiO-driftet), ble ikke kommunisert til riktige mottakere i Sikt/sektor

  3. Ikke grundig nok kartlegging av hva som vil pÄvirkes

  4. Mangelfull kommunikasjon(?)

  5. Driftsavtalen/-modellen(?)

đŸ€”Â Lessons learned


Describe what you learned, what went well, and how you can improve.

Mangler oversikt over:

  • Hvem man skal kontakte (hvem gjĂžr hva i Sikt; hvem i FS spĂžr man om X?, hvem kobler pĂ„ relevante ressurser?, hvem kan ringe USIT?, hvem kan poste driftsmelding?, hvilke kanaler skal man varsle?
)

  • Hvem kan bistĂ„?

  • Hvilken (og hvem sin) prosess skal man fĂžlge?

    • Hvor man skal rapportere og hvordan (sikkerhet, avviksskjema, incidentregistrering i RT) - ingen sammenheng og ingen kommunikasjon pĂ„ tvers

✍ Follow-up tasks


List the Jira issues created to prevent this class of incident in the future. Note who is responsible, when they have to complete the work, and where that work is being tracked.

  1. Sjekke om Instructure kan fÄ til en automatisk varsling av om import ikke gÄr gjennom

  2. OppfĂžlging med USIT om kartleggingsprosess og prosess for varsling av endring

  3. FĂ„ Ă©n arbeidsflyt/prosess for incidents, fremfor at hver avdeling har sin egen

  • No labels