I nostri dati sono la materia prima più
preziosa per il mondo della pubblicità,
e da tempo sono un libro aperto
per i servizi segreti e le multinazionali
ibero accesso alle informazioni, shopping 24 ore su 24, nuove
forme di comunicazione e intrattenimento: oggi nessuno
vorrebbe più rinunciare ai vantaggi di internet. Tanto più che
non costano quasi mai nulla. Eppure le wcb company come
Google guadagnano miliardi. Con cosa? Con i dati, i nostri da-
ti. E anche i servizi segreti, si pensi a Prism, approfittano delle trac-
ce digitali che ci lasciamo alle spalle ogni giorno.
Chi può ricevere quali dati, lo vedete nella panoramica qui so*
pra. ll metodo più semplice è la raccolta dei dati da parte dei gesto*
ri dci siti web. Qucsti vcrbalizzano ogni singolo clic, ogni singola
riga di testo. Oltre ai dati tecnici dell'apertura della pagina (i meta-
dati) alcuni provider, come Google, Amazon o Facebook, indagano
anche molti aspetti privati, come gli interessi o i rapporti persona-
li. Anche i servizi pubblicitari attivi su molti siti web possono, gra*
zie ai metadati, tracciare profili completi. A questi si aggiungono i
venditori di informazioni, che raccolgono dati offline, come nomi
e indirizzi, e li vendono per scopi pubblicitari. E perfino chi vende
software e apps sa parecchio di noi, che si tratti dei tempi di utiliz›
zo o di dove ci troviamo.
I consumatori, al contrario, possono scoprire soltanto con
grande difficoltà chi raccoglie quali dati e cosa ne fa. All'esterno i
colossi dell'IT amano mostrarsi come amici degli utenti, ma se in›
terrogati sull'utilizzo dei dati i loro portavoce ci hanno citato solo
le norme sulla privacy. Per chi non ha una formazione legale que-
ste sono in parte incomprensibili e su certi punti si mantengono
spesso vaghe. Un classico; "Forniamo dati personali alle nostre
affiliate o ad altre aziende o persone fidate affinché li trattino per
noi [...]". Ma chi sono queste aziende e persone? Questa formula
proviene dalle norme sulla privacy di Google, ma la impiegano
anche numerose altre societa.
Chi volesse sapere chi tratterà i dati deve richiedere questa inf
formazione: per legge le aziende sono tenute a fornire tale infor-
mazione. Da quelle straniere non c'c però alcuna garanzia di rice-
verla. Qui si palesa il problema centrale della privacy: le leggi na-
zionali come dovrebbero regolamentare il traffico dati transfron-
taliero? La legge sulla privacy dichiara che i dati personali possono
csscre raccolti, elaborati e utilizzati solo con il consenso della per›
sona (e se non esiste un conflitto con altre leggi), tuttavia la legge
sulla privacy spesso non viene rispettata dai provider stranieri. Per
Facebook e stata presa di recente una decisione. In quel caso vale la
legge irlandese. ll motivo: Facebook opera il suo servizio per l'Euro-
pa dall'lrlanda. Ancora più complessa e la situazione legale della
trasmissione dei dati da parte delle autorità.
Prima si raccoglie, pol si chiede
La diffusione delle informazioni in tutto il mondo non e però arre-
stata dalle leggi locali sulla privacy. Milioni di gigabyte viaggiano
oggi giorno attraverso spessi cavi in fibra ottica e finiscono in gif
ganteschi centri di elaborazione. Per comprendere cosa puo rivela'
re questa marea di dati, bisogna prima raccoglierli. Le grandi web
company lo fanno ormai da anni. Google analizza le ricerche, e og-
gi con Google Instant completa in tempo reale il testo digitato per
generare la domanda più probabile e mostrare direttamente i rif
sultati più consoni. Amazon analizza da anni i nostri comporta-
menti d'acquisto e fa suggerimenti sempre piu accurati. La polizia
deduce dai crimini commessi in quale via e quando più probabil-
mente awerrà il prossimo crimine. Negli Stati Uniti questa è una
tecnica ormai consueta a Los Angeles, Seattle e anche in altre citta.
E anche i servizi segreti e le unita antiterrorismo si affidano all'a-
nalisi di grandi quantità di dati per identificare tempestivamente i
potenziali terroristi.
Per effettuare delle previsioni non bisogna però mettere in rela›
zione solo singoli dati, bisogna anche collegarli ai profili degli
utenti. Per riconoscere un utente, cioe per aggregare i dati di un
profilo per un periodo piu lungo, i siti web salvano i cookie sul suo
computer. Anche i clic sul sito fanno parte di questi dati. Gli ad tra-
cker sfruttano inoltre i dati del browser trasmessi con il protocollo
Http all'apertura del sito. Le differenti versioni di plugfin ed esten†
sioni, in combinazione con i dati di visualizzazione e altre infor†
mazioni, generano un'impronta digitale unica.
Nel mondo offline i metodi sono meno tecnologici, ma non me-
no efficaci. Da informazioni di pubblico accesso o acquisite dalle
autorità si possono produrre insiemi di dati altrettanto validi. I
trafficanti di dati raccolgono queste informazioni e le vendono per
esempio ai mediatori assicurativi. Questi insiemi di dati, detti
leads, vengono filtrati sulla base di determinati criteri e contengo-
no nome, indirizzo, email e/o numero di telefono dei potenziali
clienti. Presso il venditore di dati Leadßutler, per esempio, per le
assicurazioni sanitarie private costano un minimo di 139 euro ale-
ad. Negli Stati Uniti questo commercio è anche più fiorente, grazie
a norme sulla privacy più lassiste. L'azienda statunitense Leads-
Please per esempio vende mailing list a prezzi concorrenziali:
1.000 indirizzi costano solo 85 dollari. E chi acquista 50.000 indi-
rizzi riceve il 40% di sconto sul prezzo. Oltre a nome e indirizzo gli
insiemi di dati contengono per ciascuna persona piu di una venti-
na di informazioni, per esempio una stima del reddito o se la per-
sona ama gli animali.
Informazioni digitali e analogiche
Para riflettere i consumatori (e interesserà gli analisti) l'abbina-
mento di dati online e offline. Uno dei precursori nel campo è l'a-
zienda statunitense Acxiom, attiva anche in Europa. Secondo le
sue stime, Acxiom e a conoscenza dei dati di oltre 500 milioni di
consumatori, per un totale di 1.500 dati singoli. La quantita di dati
è così grande perché combina un database offline vecchio di de-
cenni con i dati raccolti da oltre 75.000 siti.
In Germania, per esempio, la storia di Acxiom risale al 1962,
quando Direktmarketing GmbH creo un elenco di indirizzi per
aziende farmaceutiche e case editrici. Nel 1982 arrivò il marketing
telefonico e nel 2005 quello via email, un anno dopo il rilevamento
dell'azienda da parte di Acxiom. Anche senza l'associazione di dati
online e offline, vietata in Germania, si sa molto dei consumatori
tedeschi. “Possediamo più di 40 milioni di dati personali, che con-
sistono in nome e indirizzo postale”, dichiara Carsten Diepenbrock,
general manager di Acxiom Deutschland. A questo si aggiungono i
dati delle stime su reddito e utilizzo dei media, ricavabili dalle rile-
vazioni degli istituti statistici nazionali, regionali e locali. “Tuttavia
non fanno riferimento a persone singole, ma sono aggregati in
gruppi che variano da cinque a 1.000 famiglie". Questo significa
che Acxiom opera un calcolo statistico delle probabilità per sapere
quali prodotti venderà meglio in quali luoghi.
Gli onniscienti: i servizi segreti
Anche la Nsa e altri servizi segreti tentano di aggregare dati rac-
colti online e offline e di correlarvi degli individui. Quanto sia
estesa la raccolta dati effettuata con la scusa della lotta al terrori-
smo ha iniziato a svelarlo a spizzichi e bocconi a inizio giugno l'ex
analista della Nsa Edward Snowden. Una fonte sono gli internet
provider e quelli telefonici. Questi sono tenuti a fornire per le
vertenze penali i dati di connessione e a rendere possibile agli in-
vestigatori la sorveglianza di singole comunicazioni. I servizi di
messaggistica analizzano inoltre il flusso di dati, grazie alla Deep
Packet Inspection. Questa filtra per esempio le email e ignora i
dati di streaming e di P2P. In questo modo gli 007 cercano i termi-
ni legati a terrorismo o traffico d'armi, come il nome dei materia-
li perla fabbricazione di ordigni. La commissione parlamentare
GIO studia e approva ogni tre mesi i termini da filtrare. Nel ZO11
sono stati così analizzati quasi 3 milioni di email e telefonate,
I provider non sono pero l'unica fonte di dati. I servizi segreti
prelevano i dati anche dai nodi di rete e dai punti di collegamen-
to dei cavi subacquei. I gestori dei nodi più grandi del mondo,
quelli di DE-CIX di Francoforte, assicurano di non aver rilevato
alcun accesso. Se lo stesso si possa però dire anche degli altri cir-
ca 340 nodi al mondo, quasi 80 dei quali in Nord America, non
puo saperlo nessuno.
Secondo il quotidiano britannico Guardian, il programma di
sorveglianza britannico Tempora avrebbe accesso diretto ai cavi-
in fibra ottica transatlantici, le arterie principali che trasporta-
no i dati internet tra Europa e Usa. Tempora sarebbe in grado di
sorvegliare più di ZOO collegamenti in fibra ottica, di catturare
contemporaneamente il traffico dati di un massimo di 46 colle-
gamenti e di salvare i dati per un massimo di 30 giorni. L'accesso
awiene nel punto di passaggio dalla dorsale del provider ai cavi
sottomarini. Dai cavi sorvegliati dai servizi segreti britannici
Gchq, nei quali viaggia la maggior parte delle comunicazioni
online europee con gli Stati Uniti, sarebbero stati registrati quo-
tidianamente già nel 2011 fino a 39 miliardi di eventi, quindi più
dei programmi della Nsa,
La terza fonte di dati per chi ci sorveglia sono i gestori stessi
del servizio. Secondo Edward Snowden il programma Prism
avrebbe accesso diretto ai server di Google, Facebook, Microsoft,
Apple, Yahoo, Dropbox, Aol e Paltalk. Come questo awenga in
concreto, Snowden l'ha svelato a meta luglio. Microsoft avrebbe
quindi concesso alla Nsa un accesso diretto ai dati delle comuni-
cazioni, al contrario di quanto affermato in precedenza. Nel ca-
so di Outlook.com la Nsa preleverebbe i dati ancora prima della
loro cifratura. Dal servizio Voip Skype (che appartiene a Micro-
soft) può registrare audio e video. E anche i dati salvati online
con il backup remoto di SkyDrive sarebbero a sua disposizione.
Stando alle dichiarazioni di Microsoft e della Nsa questi accessi
awerrebbero però solo a seguito di decreti giudiziari.
Riguardo a questi dati, i servizi segreti si trovano di fronte al-
lo stesso problema che si pone a Google 81 Co.: come si elabora
questo gigantesco mucchio informe che contiene una grande
quantità di informazioni in diversi formati? Perché, un po' co-
me con il petrolio greggio, è necessaria una grossa spesa per
rendere utilizzabili i dati. Solo pochi anni fa queste analisi ri-
chiedevano talvolta delle settimane, ma oggi vengono svolte in
tempo reale. Infatti esiste un intero settore che in nome del Big
Data offre questi strumenti di analisi.
Dei potenti algoritmi filtra no i dati
L'analisi inizia con la distillazione dei dati. Da una massa infor-
me di stringhe di ricerca, dati di connessione, testo e altre infor-
mazioni si creano dei database strutturati facilmente consulta-
bili per rispondere a delle domande (chi parla con chi? Di cosa
parlano? Che sentimenti esprimono?). Analogo è anche il fun-
zionamento della nuova ricerca Graph Search di Facebook, Digi-
tando “amici di Milano nati a marzo”, un algoritmo di ricerca
screma di conseguenza i dati di Facebook.
Uno dei tool di Big Data più utilizzati è Hadoop, impiegato tra
gli altri anche da Facebook. Questo frame work permette di analiz-
zare petabyte di dati in diversi nodi. Questo procedimento si basa
su un algoritmo MapReduce sviluppato da Google (si veda il grafi-
co a pag. 20). Hadoop suddivide i dati in blocchi tipicamente di 64
Mb, che poi vengono ordinati singolarmente. I normali programmi
database possono elaborare per lo più blocchi di dati da un massi-
mo di 32 kb. Questa suddivisione dei dati può essere vista in questo
modo: un censimento richiederebbe un'eternità, se un solo funzio-
nario dovesse recarsi in ciascun luogo del Paese. Invece in ogni cit-
tà ne viene nominato uno (o più di uno) che invia i risultati al pun-
to centrale di raccolta. Nel caso di Hadoop questo processo richiede
poche frazioni di secondo. Il secondo step dell'analisi è creare dei
modelli di previsione, Per farlo vengono impiegati processi mate-
matici diversi a seconda dell'obiettivo. Tra di essi il riconoscimento
di anomalie, che identifica delle particolarità nelle serie di dati, op-
pure l'analisi dei gruppi. Il suo scopo è suddividere gli oggetti in
gruppi (cluster) accomunati da determinate caratteristiche o somi-
glianze. Cosi e possibile individuare delle reti sociali (grafi) a parti-
re da conversazioni telefoniche ed email. I servizi segreti lo sfrutta-
no per riconoscere il collegamento tra alcune persone, anche in più
Stati e nel corso di anni. Con tool online Immersion (immersion.
media.mit.edu) potrete testare in prima persona sul vostro ac-
count mail di Google se i dati della vostra posta elettronica identi-
ficano la vostra famiglia, i vostri amici o i vostri colleghi.
Secondo le affermazioni del vicedirettore della Nsa Iohn Inglis,
in questo modo vengono sottoposti a sorveglianza due o tre livelli
di conoscenze di una persona. Questo significa che se ciascun indi-
viduo conosce 100 persone, nel suo terzo livello di conoscenze si
troverà fino a 1 milione di individui (100 X100 x 100), che possono
essere poste sotto controllo partendo da un unico sospettato. Nei
servizi segreti, degli analisti intervengono poi sui dati aggregati
per trovare una determinata persona e indagare su di lei.
Da una navigazione trasparente
haflfl0 tutti da guadagnare
Il nucleo della questione dell'analisi dei dati e: cosa voglio dedurre
dai dati? Esistono numerose applicazioni positive che non sarebbe-
ro possibili senza la raccolta dei dati e che generano un valore im-
materiale per tutti. Le societa che emettono carte di credito sono
per esempio in grado di riconoscere in base al comportamento
dell'utente se la carta e stata rubata, Google prevede le epidemie
influenzali sulla base delle ricerche effettuate. E i ricercatori analiz-
zano il genoma umano, una delle fonti di dati piu complesse in as-
soluto, mirando al progresso medico.
Eppure, per quanto questo sia utile, l'altra faccia della medaglia
è minacciosa. Se Google mostra delle ricerche sbagliate o Amazon
consiglia un prodotto non succede nulla, Nel peggiore dei casi e ir-
ritante. Se i servizi segreti sospettano erroneamente di qualcuno
sulla base di un'analisi, per la società si tratta di una condizione
inaccettabile, e per il malcapitato di una catastrofe. Murat Kurnaz e
altre persone ingiustamente incarcerate a Guantanamo negli anni
passati con il sospetto di terrorismo sono un esempio di questo ti-
po di prevenzione del crimine.
Tra i due estremi si trova un'ampia zona grigia, di cui noi utenti
conosciamo ben poco, grazie alla quale altri lucrano. Per l'inclustria
pubblicitaria, per esempio, le informazioni sulla storia clinica, lo
stato di famiglia o l'attuale costruzione di una casa possono essere
più interessanti di dati personali come eta e indirizzo (si veda la
tabella a pag. 22). Per i cybercriminali hanno invece più valore le
informazioni personali. Il valore piu alto in assoluto ce l'hanno gli
insiemi di dati completi, i cosiddetti Fullz, Consistono per lo più
nel nome, coordinate bancarie e/o della carta di credito e informa-
zioni personali, come numero telefonico e indirizzo email. In com-
binazione con carte di credito o patenti false possono causare pa-
recchi problemi. il loro valore si attesta secondo Dell SecureWorks
intorno a un massimo di 1.000 euro a persona. I Fullz si possono
acquistare gia per 400 euro circa, a seconda del contenuto, Le in-
formazioni singole sono più convenienti: i dati d'accesso a un ac-
count di PayPal con del credito costano tra i 15 e i 150 euro, i dati
delle carte di credito, completi di numero di sicurezza, si possono
ottenere già con meno di 1 euro a carta.
Dietro a tutti questi dati, e questa è la buona notizia, si trovano i
nostri clic. Cio significa che ciascun utente puo decidere consape-
volmente di lasciarsi alle spalle meno tracce di dati. ln cambio di
una maggiore sicurezza dovrete solo rinunciare a un po' di como-
dità, come mostrano i consigli che trovate qui a destra. E
Nessun commento:
Posta un commento