Chi ha sperimentato problemi con i propri file Dropbox durante il weekend può farsi forza con due consolazioni: innanzitutto non è l’unico; inoltre il problema è risolto. Se problemi di questo tipo son estremamente gravi per servizi quali Dropbox, che sull’affidabilità debbono costruire il proprio rapporto di fiducia con gli utenti, al tempo stesso il gruppo ha dimostrato di poter reagire con efficacia sia dal punto di vista tecnico, sia dal punto di vista comunicativo.
Dropbox ha comunicato presto e con somma trasparenza l’entità e l’origine del problema. Il blog ufficiale del gruppo ha quindi seguito l’evolversi della situazione con aggiornamenti cadenzati durante il fine settimana. Nella notte, poi, il lieto fine: dopo 2 giorni di irreperibilità di file e account, il servizio è stato completamente ripristinato. Fin dalle ore precedenti il blog ha inoltre informato gli utenti circa le modalità di accesso ai file, il tutto mentre i lavori di ripristino erano ancora in corso e quando, in assenza di specifiche informative, gli utenti non avrebbero avuto possibilità di recuperare il proprio materiale.
Il team Dropbox ha spiegato come il bug in uno script abbia portato al collasso il sistema al termine di un previsto intervento di manutenzione ordinaria sui server. La reinstallazione del sistema operativo di alcune macchine ha portato ad un riavvio problematico che non ha permesso di tenere attivo l’accesso ai file. Questi ultimi non sarebbero mai stati in pericolo, ma l’accesso agli stessi è risultato tuttavia impossibile per molte ore. Il bug ha riavviato alcune macchine attive, riavviando però al contempo anche le relative “slave” utilizzate per la copia ridondante dei database: lo stop forzato di tutte le macchine ha causato il blocco avvertito dagli utenti fino dalla serata di venerdì.
L’irreperibilità dei file è quanto di peggio possa succedere per un sistema di cloud storage, ove la reperibilità dei file equivale all’affermazione del possesso degli stessi. Dropbox ha però dimostrato di saper reagire anche ad un problema di questa caratura, chiudendo il post con una sorta di “memorandum” di impegni a futura memoria: la necessità di un sistema di verifica distribuito e l’impegno allo sviluppo di processi di disaster recovery più rapidi ed efficaci.
48 ore di buio, insomma, dai quali imparare: la reazione del gruppo, soprattutto a livello comunicativo e di trasparenza sull’accaduto, è il modo migliore per uscire dall’impasse a testa alta. Smentita con forza, invece, ogni ipotesi di attacco remoto ai server del gruppo: è stato un errore, e non il dolo di un’offensiva esterna, a fermare l’accesso degli utenti al servizio.