Quando parlo di disastro informatico, mi riferisco a qualsiasi condizione che impedisca il corretto funzionamento dell’infrastruttura IT aziendale. Ovvio, ci sono disastri più o meno gravi, ma in ogni caso qualcosa, ad un certo punto e per qualche ragione, smette di funzionare come te lo aspetti.

Ci sono almeno due fattori comuni che puoi rilevare nelle aziende che subiscono un disastro informatico di media/elevata entità: la rabbia e il panico.

La rabbia

Quando qualcosa guasta i tuoi piani, la sensazione che provi è solitamente accompagnata dalla frase: “ecco, succede sempre nel momento meno opportuno!!”

E quindi che ti inca%%i come una furia, perché il fato ti è avverso e ha deciso di rovinarti la giornata più importante dell’anno, quella dove dovevi fare cose vitali e che proprio non poteva essere soggetta a contrattempi.

Ma se ti fermi un secondo a pensare, ti accorgi che in realtà non c’è mai un momento opportuno per un problema del genere. Onestamente, quando ti è mai capitato di alzarti al mattino, scendere dal letto e, stiracchiandoti, pensare:

“Speriamo che oggi si schianti il server in ufficio, visto che è proprio la giornata ideale!”

In realtà ieri avevi fa fare cose importanti. E l’altro ieri pure. E anche la scorsa settimana, lo scorso mese, e così via… Se lavori, ogni giorno fai qualcosa di critico per il tuo business, e ogni giorno è importante come quello prima e quello dopo, più o meno.

E un fermo ti fa inca%%are, oggi come ieri e come domani.

Il panico

Il panico è dettato dal fatto che non controlli la situazione.

Quando qualcosa non va per il verso giusto, ti trovi a dover gestire qualcosa che non sei abituato a gestire. Qualcosa che non hai mai pianificato di dover gestire. Qualcosa che, forse, ti ha sempre fatto comodo pensare che fosse sotto la responsabilità di altri.

E quando succede, e ti accorgi che mediamente “gli altri” non esistono, e tutto è in capo a te, allora ecco che ti trovi con il battito accelerato e la sudorazione a mille.

Inizi a telefonare a destra e a manca, pretendendo di ripartire immediatamente e senza intoppi, perché ci sono delle scadenze importanti… le più importanti dell’anno.

E allora ecco che ti auto-convinci che oggi, giorno del disastro, è più importante di ieri. E forse, proprio a causa del disastro, non arriverai a vedere il domani.

E allora la rabbia sale, il panico pure.

Keep calm e apri il cassetto!

Si, perché rabbia e panico possono essere mitigati con un pezzo di carta. Solo che lo devi predisporre adesso, perché se nel momento del bisogno il cassetto sarà vuoto, allora non avrai soluzioni diverse dall’imprecare e disperarti.

Vediamo di capire insieme cosa devi fare, ora, per evitare di cadere nello stereotipo domani.

I punti chiave per gestire un disastro in modo ottimale

Stabilisci (prima) i tempi

Ci sono due variabili temporali chiave quando si progetta un piano di disaster recovery.

Si chiamano rispettivamente RTO e RPO. Se ti va di girovagare un po’ sul mio blog www.backupaffidabile.it, ne troverai parlare spesso. Ad ogni modo te le riassumo qua.

Con l’acronimo RTO (Recovery Time Objective) si indica il tempo massimo accettabile per il ripristino di un sistema. Non esiste un valore standard per tutti, ma è fortemente legato al tipo di attività svolta. Non è neppure un parametro globale dell’azienda, ma potrebbe essere diverso per diversi sistemi. Ad esempio, il server di posta elettronica potrebbe avere un RTO di 30 minuti, quello dell’amministrazione di 2 ore e il file server di 4 ore, e così via.

Ovviamente per poter rispettare il tempo prefissato, dovrai implementare delle soluzione tecniche e organizzative adatte. Sistemi diversi per RTO diversi.

Il secondo acronimo, RPO (Recovery Point Objective), rappresenta la massima quantità di dati che la tua attività può permettersi di perdere, sempre su scala temporale. Ci sono attività che non possono permettersi di perdere neppure pochi secondi di dati (pensa a una banca), mentre altre possono permettersi qualche ora. Difficilmente si va oltre, e se da imprenditore pensi che la tua azienda possa permettersi di perdere giorni di dati, allora probabilmente stai valutando la cosa in modo errato. Sono disponibile a scambiare due chiacchiere in materia, se lo ritieni opportuno.

Ovviamente, per poter garantire un RPO basso, la frequenza con la quale i backup vengono effettuati deve essere alta. Un solo backup notturno significa avere un RPO di 24 ore, il che significa perdere una giornata intera di lavoro in caso di disastro.

Identifica le persone chiave

Prepara un elenco di persone chiave da allertare in caso di disastro. Non pensare che, siccome sei il titolare dell’azienda, tutto possa essere gestito da te in autonomia.

Devi predisporre una lista con, almeno, queste figure chiave:

  • Responsabile tecnico IT (sistemista) che seguirà le operazioni di ripristino;
  • Responsabili IT di terze parti (ad esempio le software house che curano i gestionali) che potrebbero essere coinvolti per il ripristino di database, di licenze, ecc.
  • Elettricista, Idraulico, manutentori in generale (che potrebbero essere coinvolti in base alla tipologia di disastro);
  • Persone chiave aziendali (capi reparto, dirigenti, ecc.) che, conoscendo le attività dei singoli settori/reparti, potrebbero disporre di informazioni utili per un corretto ripristino;
  • Tieni anche un elenco di clienti chiave, che potrebbero subire dei disagi a seguito del disastro e delle attività di ripristino. Avvisarli preventivamente, se si prevedono situazioni spiacevoli, potrebbe mettere l’azienda in una luce migliore rispetto a quella che si avrebbe in caso di inefficienza improvvisa.

Stabilisci una catena di comando

Siccome tutto il personale sarà vittima di rabbia e panico, devi stabilire quale sarà la catena di comando. In questo modo si eviterà la “ricorsa al tecnico” da parte di tutti quelli che, seduti alla scrivania, saranno convinti che il loro lavoro è più prioritario rispetto a quello degli altri, e che quindi insisteranno per avere dei trattamenti di favore. Le istruzioni al personale tecnico, difformi da quelle pianificate, devono arrivare secondo una linea di comando prestabilita e senza che degeneri il caos.

Archivia e mantieni tutta la documentazione

Disporre di tutte le informazioni relative alla tua infrastruttura è fondamentale per poter garantire dei tempi di ripristino certi e non ritrovarti con dei pezzi mancanti o delle componenti non correttamente funzionanti dopo un ripristino. Immagina di subire un danno che coinvolga uno o più switch, un firewall, un router… Questi dispositivi dovrebbero disporre di configurazioni specifiche – almeno quelli installati da un professionista, per garantire connettività, sicurezza e prestazioni – che andranno ripristinate sugli eventuali nuovi apparati. L’assenza di documentazione porterebbe sicuramente a un protrarsi dei tempi di fermo e a uno strascico di disservizi, che potranno essere corretti solo dopo essersi verificati.

La documentazione è indispensabile anche in mille altri contesti. Cambio di fornitore, cambio di tecnologie, adempienza alle norme, ecc.

Scegli con criterio la tecnologia a cui affidarti

E’ ovvio che non tutte le tecnologie sono adatte a tutti i contesti.

Il sistema di disaster recovery di una banca sarà probabilmente inadatto a uno studio di consulenza, così come il viceversa. Indubbiamente, se vuoi garantire una certa soglia di RTO e RPO devi valutare delle soluzioni tecnologiche che ti consentano di raggiungere gli obiettivi prefissati.

Pensa anche se possa essere utile ridondare gli apparati di rete (switch, firewall, ecc.), ridondare i server, mantenere delle parti di ricambio in casa per poter effettuare delle sostituzioni al volo.

Definisci e documenta le procedure operative da attuare in caso di disastro

Scrivi.

Un disastro, per definizione, non è una cosa che avviene con frequenza. Non puoi pensare quindi di pianificare le azioni da intraprendere qualora si verifichi e ricordartele con precisione, magari a distanza di anni – e con personale diverso – rispetto a quando le hai studiate.

Prepara una checklist con le attività da svolgere ed elencale nel corretto ordine, in base all’importanza del singolo task.

Stabilisci anche i criteri e le condizioni che siano da considerarsi disastro. Un fermo server di 5 minuti è da considerarsi disastro? Il guasto a un componente è da considerarsi disastro? Un particolare software non funzionante, di nuovo, è da considerarsi disastro?

Devi essere certo di non avviare delle procedure di disaster recovery, che prevederanno sicuramente un tempo di fermo per essere completate, in presenza di un problema che si sarebbe risolto in un tempo inferiore.

Aggiorna le procedure con il passare del tempo. L’infrastruttura IT della tua azienda è viva e in costante mutamento. Non puoi pensare che una procedura studiata 10 anni fa sia valida ancora oggi, perché i sistemi saranno cambiati e il rischio sarebbe quello di trovarti tra le mani un documento obsoleto e privo di informazioni utili (con conseguente incremento di rabbia e panico).

Esegui costantemente dei test di ripristino, simulando il disastro

Non dare mai per scontato che le cose vadano per il verso giusto al primo colpo.

Io dico che il disaster recovery è come una disciplina sportiva, e come tale devi allenarti per poter eccellere. Non puoi pensare di prendere e, pronti, partenza, via, ripristinare un’infrastruttura colpita da un disastro senza aver mai fatto sperimentazione prima.

Le procedure che hai scritto devono essere validate, e solo testandole potrai verificarne la bontà.

Purtroppo i test di ripristino sono sempre considerati una perdita di tempo, mentre sono proprio quelli che nel momento del bisogno ti faranno sentire tranquillo (zero panico), perché avrai già avuto conferma del buon esito delle procedure. La serenità è un punto chiave affinché tutto fili per il verso giusto. Per ottenerla devi essere un po’ come San Tommaso.

Cos’altro mettere nel cassetto?

Indubbiamente il consiglio che posso darti è quello di mettere nel cassetto, attaccato con una graffetta al foglio appena preparato, il numero di telefono di un professionista che ti possa affiancare per tutta la durate delle operazioni di ripristino.

Molte delle cose che devi scrivere sul foglio possono infatti essere delegate a soggetti esterni, che di lavoro fanno proprio questo: garantire il buon esito delle operazioni di ripristino in caso di disastro.

Ti consiglio di farti consigliare da un professionista anche durante l’analisi preventiva. Spesso vengono trascurati alcuni aspetti per una semplice mancanza di esperienza. Chi eroga servizi professionali di disaster recovery gestito ne ha viste di tutti i colori, e quindi potrebbe portare alla tua attenzione degli aspetti che, in altri contesti, si sono rivelati tragici. Sicuramente avere una visione globale più ampia ti aiuterà a prendere le decisioni corrette e uscire indenne anche da situazioni molto complesse.