Ogni nostra azione produce CO2. Come singoli individui dobbiamo essere consapevoli che inquiniamo sia muovendoci in auto sia cliccando compulsivamente sul Ricarica questa pagina (1 km di auto a 50 km/h equivale mediamente a 200 clic). Ma come società quanto ci costa (in gr di CO2) internet? La risposta è abbastanza complessa perché si dovrebbero integrare contemporaneamente i singoli consumi individuali (con un antecedente studio demografico) più i consumi che ogni attività comunitaria pubblica o privata produce (come ad esempio le basi di dati). Per non complicare i calcoli, ogni singola sorgente deve essere analizzata indipendentemente. In questo post cercherò di approfondire ed analizzare i consumi comunitari e in particolare i cosiddetti Big Data (BD). Innanzitutto cosa sono i BD. Una possibile definizione è quella che potete trovare nell’articolo What is big data?:

I Big Data rappresentano la raccolta di informazioni caratterizzate da volume, velocità e varietà abbastanza grandi da richiedere tecnologie e metodi di analisi specifici per la loro trasformazione in Numeri.

In tutta franchezza, questa definizione a me non piace (nell’articolo ne potete trovare altre): non è né scientifica né poetica, né abbastanza sintetica né bastantemente analitica. Tutto ruota attorno all’aggettivo grande (High) che a mio avviso è troppo soggettivo: per mia nonna già un file testo di un centinaio di righe potrebbe considerarsi grande, mentre mio nipote potrebbe considerarlo troppo sintetico e criptico per comprenderlo. In ogni caso questa è la definizione più comunemente accettata, dunque me la faccio andar bene. Ma per amor di precisione è bene specificare che grande vuol dire qualche 1021 Byte= qualche ZettaByte. Giusto per dare un’idea avremmo bisogno di 250 miliardi di DVD da 4 GB o 1 miliardo di hardisk da 1000 TB per stoccare un ZB (se non ricordate molto bene i prefissi dei multipli potete guardare su Wikipedia, è affidabile). Considerando le dimensioni tipiche di un DVD, 250 miliardi di DVD e 1 miliardo di dischi rigidi occuperebbero rispettivamente 4 milioni e 1 milione di m3 (per i DVD ho utilizzato una dimensione di 6 cm di raggio*0.15 cm di spessore, mentre per i dischi rigidi ho considerato un parallelepipedo di 20*10*3.5 cm). Una torre gemella occupava 1.6 milioni di m3 mentre i detriti per i futuri lavori della TAV bresciana ne occuperanno 10 milioni! Adesso che abbiamo in saccoccia la definizione di Big Data e qualche cifra possiamo chiederci quanto e se essi siano inquinanti.

La risposta al se è abbastanza semplice: si. Per il quanto dobbiamo considerare differenti tipi di inquinamento relativi alle differenti fasi del ciclo della vita dei Dati (grandi o piccoli che siano): stoccaggio, trasporto e infrastrutture per l’analisi, utilizzo e fine della loro vita. Per quanto riguarda lo stoccaggio ci basterebbero una dozzina (circa 10 ZB totali nel mondo) di nuove torri gemelle, almeno per il 2015. Ed altrettanto per le infrastrutture per l’analisi (ovvero i supercalcolatori) come quelli in figura:

Modello vintage di supercalcolatore

Direi che, con buona pace degli ambientalisti ortodossi, una ventina di torri gemelle in più non sono un dramma. In Siberia ci sarebbe abbastanza spazio e le temperature basse permetterebbero di eliminare qualche ventola refrigerante di troppo.

L’altro inquinamento, quello relativo al vero e proprio utilizzo dei Big Data lo considero il loro vero tallone d’Achille. In fase di utilizzazione, gli elementi essenziali dei BD si possono suddividere in tre categorie: dispositivi terminali, reti e centri dati. Sommando tutto si arriva ad un consumo di circa 40 gigawatt/annuo, ovvero come quaranta unità di produzione elettriche in una centrale nucleare. Cifre che inevitabilmente hanno ripercussioni sul clima, anche se l’impatto in termini di emissione di CO2 dipende dal modo in cui l’energia è prodotta (ecco un link per chi ama i numeri). Considerando una produzione d’energia equi-partita in idroelettrico, nucleare, rinnovabili, gas naturali e petrolio, 40 gigawatt equivalgono a circa 2000-3000 tonnellate di CO2. La stessa somma di COè prodotta da 600.000 persone che con una auto diesel compiono 30 km al giorno per un anno.*

Forse un giorno, quando gli Zettabyte diventeranno Yottabyte e le 2000-3000 tonnellate di CO2 diventeranno 2-3 milioni (ancora qualche anno), arriveremo allo scenario (provocatorio) proposto dalla società Cisco, in cui il traffico alternato sarà imposto non solo alle auto ma anche ai computer (indirizzi IP pari nei gironi pari, dispari nei giorni dispari, domenica blocco totale).
Se Big Data, di per sé, sono inquinanti, permettono almeno di ridurre altre fonti d’inquinamento? In parte si. La massiccia analisi dei dati può aiutare a ottimizzare i processi industriali e ridurre così le emissioni associate. Allo stesso modo, gli agricoltori possono ricevere informazioni in tempo reale sulle loro piantagioni, da sensori e immagini satellitari, per trasmettere solo la quantità di acqua necessaria e il giusto dosaggio di pesticidi.

La raccolta dei dati e la loro disponibilità può anche portare a comportamenti degli uomini più “ambientalisti”. A Portland, ad esempio, una comunità di cittadini utilizza dei sensori per misurare la qualità dell’aria nel loro quartiere. I dati sono analizzati e visualizzati costantemente su un sito web. In Cina, e più precisamente nella città di Pechino, è stato lanciato con IBM una campagna di misura per ridurre l’inquinamento. I dati sono raccolti da una moltitudine di sensori, insieme con i dati satellitari meteorologici, ed analizzati mediante sistemi di intelligenza artificiale su larga scala. L’obiettivo: produrre una mappa di previsione dell’inquinamento con 72 ore di anticipo. Senza dubbio sono iniziative (più o meno) ammirevoli, in fin dei conti inquiniamo per capire come inquinare meno. Ma non dobbiamo dimenticare che i Big Data sono utilizzati e si sviluppano principalmente per questioni di marketing. I principali stoccatori e utilizzatori di BD sono le grandi aziende mondiali. I nomi sono noti: Google, Amazon, Windows, Facebook e Twitter. In questo caso non penso che l’utilizzo dei BD sia tanto ammirevole quanto quello degli abitanti di Portland e Pechino. L’unico scopo di queste (come di altre) aziende è solo quello di conoscere meglio le “voglie” degli utenti, assecondarle, farci tirare fuori quattrini dalle tasche e creare sempre più grandi Big Data. Alla domanda se i Big Data permettono di ridurre altre fonti d’inquinamento la risposta questa volta è no. L’utilizzo dei BD in questo caso serve solo per aumentare i consumi, non per razionalizzarli.

Forse è il caso di cominciare a tassare l’utilizzo dei Big Data? Credo che sia nostra responsabilità garantire che i costi ambientali di queste tecnologie siano bilanciati – almeno in parte – dal progresso nella lotta contro il riscaldamento globale e l’inquinamento.

* In Italia ci sarebbero circa 21 milioni di auto utilizzate per andare al lavoro o a scuola (in Francia 18 milioni).


Everything produces CO2. As individual we must be aware that we pollute both by using car and compulsively clicking on Reload this Page (1 km by car to 50 km/h is equivalent to 200 clicks). But as a society, what is the cost (in grams of CO2) of internet? The answer is quite complex because it should integrate both individual consumption (with a prior demographic study) plus the consumption of all community activities (such as databases). To complicate calculations, each source must be analyzed independently. In this post I will try to investigate and analyze the social consumption and in particular the so-called Big Data (BD). First of all, what is BD? One possible definition is the one presents in What is big data?:

Big Data represents the Information assets characterized by such a High Volume, Velocity and Variety to require specific Technology and Analytical Methods for its transformation into Value.

Frankly, I do not like this definition (in the article, you can find other definitions): it is neither scientific nor poetic, nor enough concise nor sufficiently analytical. Everything revolves around the adjective High which I think is too subjective: for my grandmother a text file of a hundred lines could be considered large, while my nephew might consider this tiny file too brief and cryptic to be understood. In any case, this is the definition most commonly accepted, so I will keep it. But for the sake of accuracy, it is worth specifying that High means some 1021 Byte = some zettabyte. Just to give an idea, we would need 250 billions DVD of 4 GB or 1 billion hard disks 1000 TB for storing a ZB (if you do not remember very well the multiple prefixes can look on Wikipedia, it is reliable). Considering a typical size of a DVD, 250 billions DVD and 1 billion hard disks would occupy respectively 4 million and 1 million m3 (for DVDs I used a size of 6 cm in radius * 0.15 cm of thickness, while for the hard disk I considered a parallelepiped measuring 20*10*3.5 cm). A twin tower occupied 1.6 million m3! Now, we have in the bag the definition of Big Data and some number, we may wonder if and how much they are polluting.

The answer to if is quite simple: yes. To know How much, we have to consider different types of pollution related to the different phases of the life cycle of data: storage, transport and infrastructure for analysis, use and end of their lives. Storage would need a dozen (about 10 ZB total worldwide) new twin towers for 2015. And the same for analysis infrastructure (like supercomputer in figure)

Vintage model of a supercomputer

I would say that, pace of orthodox environmentalists, twenty towers twins are not a big drama.
In Siberia there is enough space and temperatures are low enough to eliminate also some cooling fans.

The pollution related to the actual use of Big Data is, in my opinion, its real Achilles heel.  The use of BD requests about 40 gigawatt/year, the equivalent of forty units of electricity production in a nuclear power plant.

Figures that will inevitably have repercussions on the climate, although the impact in terms of CO2 emissions depends on the way the energy is produced (here is a link for those who like numbers). Considering an energy production equally shared between hydroelectric, nuclear, renewables, natural gas and oil,  40 gigawatts mean from 2000 to 3000 tons of CO2. The same amount of CO2 is produced by 600,000 people with a diesel car perform 30 km per day for one year.

Maybe one day, when the Zettabyte will become Yottabyte, we get to the scenario (provocative) proposed by Cisco, where the alternating traffic will be imposed not only for cars but also to computers (IP addresses even on even days, odd on odd days, Sunday total block).
If Big Data, in itself, are polluting, do they at least allow to reduce other sources of pollution? Partially. The massive data analysis can help to optimize industrial works and reduce associated emissions. Similarly, farmers can receive real-time information on their plantations, through sensors and satellite imagery, in order to give only the necessary amount of water or dosage of pesticides.

Data collection and their availability can also lead to “environmentalists” behaviors. In Portland, a community of citizens uses sensors to measure air quality in their neighborhood. The data are analyzed and displayed continuously on a website. In China, the city of Beijing has launched with IBM, a measurement campaign to reduce pollution. The data are collected from a multitude of sensors, together with meteorological satellite data, and analyzed using artificial intelligence systems on a large scale. The goal is to produce a map of pollution forecast 72 hours in advance. No doubt they are initiatives, more or less, admirable, nevertheless we pollute to understand how we can pollute less. But we must not forget that the Big Data are used and developed primarily for marketing. The main storage operators and users of BD are the largest companies in the world. The names are known: Google, Amazon, Windows, Facebook and Twitter. In this case I do not think that the use of BD is so admirable as that of the residents of Portland and Beijing. The sole purpose of these (as other) companies is just to learn more about the wishes of users, support them, let us pull out money from the pockets and create increasingly large Big Data. In this case Big Data cannot reduce other sources of pollution: its use only increases consumption. Perhaps it would be appropriate to begin to tax the use of Big Data? It is our responsibility to ensure that the environmental costs of these technologies is balanced – at least in part – by the progress in the fight against global warming and pollution.