In caso di incidente informatico analizza cosa non ha funzionato

In caso di incidente informatico analizza cosa non ha funzionato

Una volta risolto un incidente, si tende a passare oltre e a tornare al normale lavoro quotidiano. In questo modo si perde l'opportunità di raccogliere insegnamenti critici e di comprendere il vero comportamento del sistema, nonché le interruzioni di processo e di sistema.

È essenziale condurre efficaci revisioni post-incidente e intraprendere azioni chiare sulla base di tali revisioni.

REVISIONI POST-INCIDENTE

Le revisioni post-incidente sono una componente chiave della cultura di un'organizzazione. Si tratta di un ciclo di feedback critico che contribuisce alla comprensione del sistema e all'apprendimento continuo.

Le revisioni post-incidente devono essere di due tipi: locali e globali.

REVISIONE LOCALE POST-INCIDENTE

Lo scopo della riunione di riesame è quello di concentrarsi su ciò che è accaduto e su ciò che si può imparare dall'incidente. A tal fine, il team intraprende le seguenti azioni:

  • Rivedere la cronologia;

  • Identifica e discute ciò che è andato storto;

  • Discute di ciò che è andato bene;

Alcune delle domande più importanti da porre sono:

  1. Come avremmo potuto individuarlo prima?

  2. Come avremmo potuto diagnosticare l'incidente più rapidamente? Gli analisti avevano le informazioni necessarie per diagnosticare il problema?

  3. Cosa avrebbe aiutato a risolvere il problema più velocemente? Abbiamo bisogno di nuovi trigger, raccolta dati, strumenti o processi?

  4. Quali azioni specifiche dovremmo intraprendere per migliorare?

  5. Dove siamo stati fortunati?

  6. Cosa abbiamo imparato sul comportamento del nostro sistema?

  7. Come avremmo potuto evitare che l'incidente si verificasse?

  8. Cosa è andato bene nella gestione dell'incidente?

REGISTRARE E AGIRE

Le soluzioni tattiche immediate sono importanti e devono essere identificate per stabilizzare i sistemi il più rapidamente possibile, ma è necessario discutere anche di miglioramenti a più lungo termine e su larga scala per identificare soluzioni che evitino il ripetersi degli incidenti.

Le azioni da intraprendere devono essere raccolte e tradotte nel sistema di tracciamento del lavoro della squadra incidenti.

L'ASSENZA DI COLPE È FONDAMENTALE PER L'APPRENDIMENTO

Il team deve concentrarsi sull'identificazione delle carenze nei sistemi e nei processi esistenti. I sistemi complessi falliscono per una serie di ragioni; pertanto, la revisione non deve concentrarsi sulle persone.

Se un membro del team ha preso una decisione sbagliata, la conversazione deve riguardare le informazioni mancanti che lo avrebbero aiutato a comprendere meglio la situazione.

Se qualcuno ha commesso un errore, la conversazione deve vertere su come rendere il sistema più sicuro in modo che questo tipo di errore non sia possibile o sia almeno più facilmente individuabile.

REVISIONE GLOBALE POST-INCIDENTE

Le revisioni locali post-incidente generano un apprendimento significativo sul comportamento localizzato e sul comportamento di sistemi e processi. Ma quando i team effettuano le revisioni in modo isolato, l'organizzazione e gli altri team non hanno accesso a tutte le lezioni apprese.

DIFFONDERE L'APPRENDIMENTO

Oltre alla revisione locale post-incidente, è necessario generare un apprendimento globale rendendo ampiamente disponibili i risultati della revisione locale.

ABBATTERE I SILOS

Le seguenti pratiche abbattono i silos tra i team e massimizzano l'apprendimento interfunzionale in tutta l'organizzazione:

  • Organizzare una Global Incident Review se si è verificato un incidente grave;

  • Durante il Global Incident Review, i team e gli stakeholder devono concentrarsi sulla valutazione dell'impatto sull'azienda e poi sullo stack tecnologico;

  • Raccontate la storia dell'incidente per fornire il miglior contesto possibile e per stimolare il coinvolgimento del pubblico;

  • Discutere i piani di rimedio e gli elementi di miglioramento successivi;

  • Discutere ciò che l'organizzazione e tutti i team (non solo quello colpito) possono imparare dall'evento;

  • Identificare i miglioramenti necessari per diagnosticare l'incidente, compreso il servizio impattato, il livello di priorità e i team di risoluzione corretti impegnati per migliorare i tempi di risposta in futuro;

  • Esaminare le fasi di riparazione e identificare le raccomandazioni per ridurre la durata della riparazione di un incidente futuro;

  • Valutare se la comunicazione dell'incidente è stata efficace o se è possibile migliorare qualcosa per ridurre i ritardi, le confusioni e i tempi di risposta.

Durante queste sessioni e dopo che gli incidenti specifici sono stati valutati ed esaminati, è importante aggiornare o raccogliere tutte le conoscenze condivise e acquisite nelle best practices dell'azienda.

Questo documento aumenterà la consapevolezza della risposta agli incidenti e delle soluzioni e consentirà un miglioramento continuo in tutta l'organizzazione.

AZIONE

Dopo la risoluzione di un incidente, l'organizzazione e il team devono migliorare la loro capacità di rilevare, diagnosticare, mitigare, risolvere e prevenire incidenti futuri. Possono rafforzare e incoraggiare la proprietà collettiva dell'affidabilità del sistema e dell'esperienza del cliente, ripristinare e mantenere la fiducia dei clienti e degli stakeholder e identificare modifiche di sistema e di processo su larga scala che migliorino la robustezza del sistema e riducano l'impatto futuro.

ELEMENTI DI MIGLIORAMENTO

Nell'ambito dell'analisi post-incidente, è necessario ricercare i fattori che hanno contribuito all'incidente e cercare di identificare opportunità di miglioramento specifiche e attuabili.

Assicuratevi inoltre che gli elementi di miglioramento identificati siano specifici, mirati e attuabili.

PENSARE IN MODO AMPIO

Si può essere tentati di identificare un cambiamento molto specifico che risolva il problema specifico che si è verificato in questo particolare incidente. Se possibile, cercate di risolvere una serie di problemi che potrebbero causare una serie di incidenti. Può essere utile stimolare la discussione con domande mirate come:

  • Come avremmo potuto rilevare più facilmente l'incidente?

  • Come avremmo potuto diagnosticare l'incidente più rapidamente?

  • Come avremmo potuto mitigare gli effetti dell'incidente sull'esperienza del cliente?

  • Come avremmo potuto risolvere l'incidente più rapidamente?

  • Come avremmo potuto evitare che l'incidente si verificasse?

STABILIRE LE PRIORITÀ CON ATTENZIONE

Non tutti i miglioramenti possono o devono essere implementati, per motivi di fattibilità e di impegno. Assicuratevi di dare priorità ai miglioramenti che avranno un impatto maggiore e risolveranno classi di problemi più ampie.