FALSO

FAKE: I dati personali "resi anonimi" dalle aziende non sono identificabili

Francesco Malfetano 06 August 2019

Tra gli innumerevoli paletti stabiliti dal GDPR, il regolamento europeo per la privacy entrato in vigore nel maggio 2018, c’è che i dati sensibili raccolti dai siti o dalle app devono essere conservati in forma anonima. In pratica non è possibile per le aziende associare a un nome i suoi comportamenti, le sue abitudini di acquisto o i suoi spostamenti. Una misura che si ritiene - o forse riteneva - potesse limitare di molto la targhetizzazione degli utenti e quindi favorirne la privacy.

Eppure alcuni ricercatori hanno appena stabilito che attraverso una particolare Intelligenza Artificiale è facilissimo ricollegare i diversi frammenti. In pratica bastano pochi input e un computer può ricostruire il puzzle. Gli studiosi dell’Imperial College di Londra da poco hanno pubblicato sulla prestigiosa rivista di divulgazione scientifica “Nature”, i risultati di una ricerca che mostra quanto l’anonimizzazione dei dati sia inefficace. Fino a questo momento infatti, si riteneva di essere al sicuro grazie all’utilizzo di alcune specifiche tecniche come lo stripping. Un procedimento in cui i dati raccolti vengono letteralmente fatti a pezzi per essere poi archiviati solo dopo averli “mescolati”. Un metodo infallibile che per consentire di ricostruire le informazioni originarie prevedeva l’utilizzo di una chiave di cifratura, una password, senza di cui il quadro non poteva essere ricomposto. I ricercatori dell’Ateneo londinese hanno invece dimostrato come sia possibile ricostruire l’identità del cliente/utente partendo da uno di quei pezzi. Attraverso il machine learning, l’apprendimento automatizzato con cui un computer è in grado di migliorare le proprie capacità, sono riusciti a ricostruire le identità di alcuni cittadini statunitensi nel 99,8% dei tentativi realizzati. Un risultato che davvero non lascia spazio a repliche.

«Potrebbero esserci molte persone di sesso maschile che hanno trent’anni e vivono a New York City - ha spiegato Luc Rocher, uno degli studiosi che hanno redatto il report - molti meno sono nati il 5 gennaio, guidano un’auto sportiva rossa e vivono con due bambine e un cane». I ricercatori in pratica sono riusciti a sviluppare un software che è in grado di analizzare tutti i dati disponibili, incrociarne le compatibilità e, attraverso un calcolo delle probabilità, stabilire come ognuna delle caratteristiche presenti all’interno del database appartenga a una persona specifica piuttosto che a un’altra. Il bacino di dati di riferimento infatti è limitato dalle sole imposizioni normative, come il GDPR ad esempio, che però non prevedono l’anonimizzazione di tutti i dati ma solo di quelli personali. Per cui anche se all’interno di questi archivi non ci si troverà mai il proprio nome o il proprio indirizzo e-mail, il machine learning attingendo ad altri dettagli considerati secondari - dal colore dell’auto, alle scelte compiute in un gioco - può riuscire a identificare il soggetto originario a cui quei dati appartengono. «Queste sono informazioni standard che le aziende possono chiedere - ha invece spiegato Yves-Alexandre de Montjoye, lo studioso a capo dello studio - Sebbene siano vincolate dalle linee guida del GDPR, sono libere di circolare una volta anonimizzate. La nostra ricerca serve proprio a questo: mostra quanto facilmente – e con precisione – gli individui possano essere rintracciati una volta che ciò sia accaduto. Le aziende e i governi hanno minimizzato il rischio di ri-identificazione, sostenendo che i set di dati che vendono sono sempre incompleti. I nostri risultati contraddicono questo - ha concluso - e dimostrano che qualcuno potrebbe facilmente e con precisione stimare la probabilità che i dati in loro possesso appartengano alla persona che stanno cercando».

Non solo. I ricercatori inglesi non si sono limitati a sviluppare questa AI e quindi a rilevare una grave falla del sistema di gestione dei dati personali, ma hanno anche pubblicato in rete il codice del software. Una mossa che potenzialmente rende accessibile a tutti i dati conservati da app, servizi online e siti internet rendendo chiunque molto più vulnerabile. Non solo in caso di data breach (sottrazione illegittima di tali informazioni) e attacchi hacker di qualsiasi natura, ma anche nei confronti delle aziende che potrebbero tracciare profili sempre più definiti.