Succede così di rado che ha fatto scalpore: ieri sera, dalle 20.30 ore italiane, Facebook è stato inaccessibile. Un black out in piena regola, durato quasi tre ore. Oggi tutto è ripristinato, e l’azienda ha detto che si è trattato di un problema di software. Le ipotesi, anche le più fantasiose, però stanno impazzando nella blogosfera. Cos’è realmente accaduto ai server del social network?
Palo Alto ha già dato una spiegazione ufficiale: l’inaccessibilità del sito a livello globale è stata causata da un sistema automatico per verificare i valori di configurazione della cache, ha spiegato il direttore del software engineering, Robert Johnson, in una nota sul sito.
È la peggiore interruzione in più di quattro anni, e vogliamo chiedere scusa per questo. Abbiamo anche voluto fornire più dettagli su quello che è successo e condividere una grande lezione che abbiamo imparato. L’intento del sistema automatizzato è quello di verificare la presenza di valori di configurazione che non sono validi nella cache e li sostituisce con i valori aggiornati. Questo funziona bene per un problema temporaneo, ma non funziona quando è persistente.
Abbiamo modificato la copia di un valore di configurazione che è stato interpretato come scorretto. Questo significa che ogni singolo client ha visto il valore non valido e ha tentato di risolvere il problema. Poiché la correzione consiste nel fare una query a un cluster di database, il cluster è stato rapidamente sopraffatto da centinaia di migliaia di richieste al secondo.
In parole semplici, il sistema automatico che provvede a verificare alcuni valori di configurazione non ha capito le modifiche apportate dai tecnici di Facebook e la sua correzione è finita come una cascata inesorabile su tutte le macchine, arrivando a sovraccaricare il sistema mandandolo in tilt.
L’unica soluzione, a quel punto, è stato mandare offline il sistema perché il problema non era più limitato al punto originario. In un certo senso, avere impiegato tre ore è quasi miracoloso se si pensa alle dimensioni di Facebook. Niente di grave, insomma, per un sito che gestisce 500 milioni di utenti è perfettamente prevedibile questo tipo di incidenti.
La totale mancanza di spiegazioni in quelle ore ha però infastidito alcuni navigatori, che hanno monitorato la situazione e si sono scatenati su Twitter e sui blog in cerca di spiegazioni e, soprattutto, nella presa in giro della creatura di Mark Zuckerberg.
Tra le boutade più gettonate, come racconta l’Huffington Post, l’ipotesi che si trattasse di un estremo tentativo dell’amministrazione americana di far tornare la popolazione a lavorare per migliorare la produttività.
Non sono mancate però anche le classiche teorie complottiste: gli hacker cinesi, in particolare per il primo down, meno grave, del giorno precedente, ma anche l’ipotesi di una guerra nascosta contro il social network da parte di Google, irritata per la chiusura dei dati e il possibile accordo con Bing e i nuovi interessi nella telefonia.
Cosa ci sia di vero è difficile stabilirlo. Due cose però si possono dire: è innegabile l’effetto Golia, vedere un gigante cadere a terra rumorosamente scatena sempre un certo piacere (e magari, come nel video qui sotto, suggerisce 15 cose da fare mentre Facebook è irraggiungibile).
Più seriamente, dobbiamo mettere in conto che sistemi planetari così complessi siano soggetti a questi down, ad attacchi, e per questo dobbiamo sempre ricordarci che là dentro ci sono molti nostri dati personali.
[youtube]u3xcwdZ8oVU[/youtube]