studio tarantelli, consulenza informatica, SEO e reti informatiche

Studio Tarantelli > Articoli Informatica > Big Data > Sicurezza APP Immuni tra anonimizzazione e pseudonimizzazione

Sicurezza APP Immuni tra anonimizzazione e pseudonimizzazione

anonimo e pseudonimo differenze


Molte persone chiedono spesso nelle consulenze la differenza tra anonimizzazione e pseudonimizzazione, visto che vengono intese come la medesima cosa, ma che al contrario rappresentano due processi totalmente differenti, seppur hanno come fine un obiettivo comune.

In questi giorni dove si parla spesso dell’APP Immuni, che dovrebbe tracciare la diffusione del contagio tra le persone nella fase 2 del coronavirus, è ancora più importante far chiarezza su questi aspetti e sulle differenze tecniche (concettuali) e pratiche dei due processi.

In un contesto dove i Big Data si scontrano con il diritto alla riservatezza e quindi alla privacy regolamentata nel nostro Paese dal Regolamento Europeo UE 2016/679, il cosiddetto GDPR, si vuole fare chiarezza in un ambito cruciale verso la sicurezza dei dati.

Di seguito vengono illustrate le principali peculiarità dei processi di anonimizzazione e pseudonimizzazione, con alcune considerazioni sulla sicurezza dei dati e sui quesiti che gli esperti dovrebbero porsi per l’APP Immuni.


Cosa significa dato anonimo

Un dato è anonimo quando non è riferibile ad un soggetto e quindi rende impossibile identificare una persona a partire da quel dato. E' importante sottolineare che anche se i singoli dati sono resi anonimi, in determinati casi è possibile risalirne al proprietario quando questi sono combinati con altri.

Quindi un dato è realmente anonimo quando è irreversibile, ovvero non è possibile risalirne al titolare, in nessun modo e con nessun processo.

Come si anonimizza un dato? Ci sono diversi processi e tecniche che con il passare del tempo sono sempre più efficaci e sono suddivisi in due categorie: randomizzazione e generalizzazione.

Randomizzazione, viene da "random", un termine spesso utilizzato in informatica e statistica che significa casuale, ovvero sostituire tutti quei dati che sono correlati in maniera casuale, così da eliminare ogni possibile correlazione che esiste con i dati originali.

Con la generalizzazione si ha un processo meno efficace della randomizzazione, visto che rende generico un dato, ma non riduce la possibile correlazione che esiste con l’originale.

Quale delle due scelte è la migliore? Dipende dalla "sensibilità" dei dati, dal contesto, dalla dimensione del dataset, dai costi che si vogliono sostenere. Di norma la randomizzazione è tradizionalmente più efficace, ma anch’essa presenta criticità e la scelta va verso la direzione di uno studio preventivo e valutazione del contesto con analisi dei rischi.


Cosa significa dato pseudonimizzato

Con la pseudonimizzazione si ha invece il mantenimento di un dato che viene sostituito con uno pseudonimo e realizzato con diverse tecniche come ad esempio la crittografia, hashing, etc., ma consente di mantenerne l’utilizzabilità senza annullare il dato originale.

In questo caso al contrario del dato che viene reso anonimo è possibile in maniera indiretta risalire al contenuto originale se si hanno le chiavi di decifratura dell’algoritmo utilizzato.

Un dato pseudonimizzato si basa prevalentemente su tre caratteristiche: la prima è l'individuazione, ovvero la possibilità di identificare i dati iniziali delle persone, la seconda è la correlabilità, dove se esiste un unico attributo pseudonimizzato è facile verificare la correlazione con il dato originale e la terza è la deduzione, qualora ad esempio l'attributo sostituito presenti delle analogie con l'originale, oppure integrando diversi dati si deduce quale è la fonte, etc.


Quanto sono sicuri questi processi di sicurezza?

Da studi scientifici è emerso che molti sistemi hanno delle vulnerabilità considerevoli, tanto che in un modello eseguito da due università europee e pubblicato su Nature Communication è risultato che il 99,98% degli americani verrebbe correttamente identificato in qualsiasi set di dati usando 15 attributi demografici.

I risultati suggeriscono che è improbabile anche con set di dati anonimizzati e fortemente campionati soddisfare i moderni standard di anonimizzazione stabiliti dal GDPR, che mettono seriamente in discussione l'adeguatezza tecnica e legale di questi processi.

In un altro studio precedente a quello sopra indicato ed eseguito sull'analisi dei metadati delle carte di credito è emerso che erano sufficienti solo quattro informazioni casuali per identificare il 90% degli acquirenti.

Come si può intuire l’incrocio dei dati, la scarsa attenzione nel gestirli e le tecniche non prettamente sicure, permettono con buona approssimazione di poter risalire al dato originale.


Alcune riflessioni sulla sicurezza dell'APP Immuni

Ad oggi sono ancora allo studio le tecniche da utilizzare per l'APP Immuni, che sicuramente è molto utile per verificare il contagio tra le persone, ma che, come più volte ribadito dagli esperti è necessario che sia utilizzato massivamente per avere dati corretti e non fuorvianti.

In questo contesto così incerto ed ancora in "working progress", si vogliono porre alcune riflessioni che sorgono "spontanee" e sulla quale è necessario dedicare la massima attenzione, almeno considerando quanto è noto fino ad oggi.

Si dice che i dati saranno anonimizzati e che questi verranno mantenuti all’interno di ciascun smartphone. Quindi considerando le tecniche sopra esposte, delinea la tipologia di approccio che si vuole utilizzare per la sicurezza dei dati.

Una prima riflessione è la seguente: visto che i dati risiederanno nel singolo telefono, anche se anonimi, potranno essere prelevati da altre APP che tradizionalmente richiedono l’accesso per usufruire del singolo software?

Se la risposta è si, ovviamente è preoccupante, visto che questi dati, seppur resi anonimi potrebbero essere presi da aziende di terze parti che incrociandoli con altri relativi al telefono, IP, scheda SIM, foto, etc. possono essere utilizzati in maniera impropria!

Qualora fosse concreto tale problema, poichè in ogni smartphone ci sono dati incrociati di tutte le persone con cui si è stati ad una certa distanza, si ha una possibilità che questi siano acquisiti da un soggetto mediante la concessione dell’autorizzazione di APP di terze parti.

Considerando lo studio pubblicato su Nature Communication sopra indicato, anche se i singoli dati sono crittografati, eseguendo una manipolazione di milioni di questi dati incrociati, non si può escludere che si possa risalire alle identità dei singoli e quindi avere anche dei dati sanitari sui contagi.

Una seconda riflessione già affrontata in un articolo di questo sito, è quella della carenza di sicurezza di un’APP nativa rispetto ad una PWA (Progressive Web App) che permette il passaggio dei dati senza il protocollo HTTPS. Quando i dati vengono trasmessi da un’APP al server e viceversa non avendo un canale di comunicazione sicuro, può sorgere il problema del furto di informazioni?

Una terza riflessione è quella di una possibile intrusione mediante il bluetooth di malintenzionati (sniffer) che possono intercettarne i dati. E' noto che il bluetooth sia un canale di comunicazione utilizzato non solo per interconnettere altri dispositivi come gli auricolari, ma in passato serviva anche per il passaggio di dati tra persone vicine. Quanto è sicuro questo canale di comunicazione in questo caso dell’APP Immuni? Sono state poste in essere soluzioni di sicurezza?

Una quarta riflessione è sul server che verrà utilizzato per immagazzinare i dati, che si dice giustamente debba risiedere in Italia, con la speranza che sia reso sicuro e gestito dalla PA e non da aziende specie se straniere che potrebbero averne accesso e prelevare i dati per altri scopi.

E' importante altresì che ci sia un protocollo di sicurezza associato a chi e perchè accede ai dati e che disponga di supervisione e reportistica.

Sicuramente questi sono alcuni dei punti di riflessione che gli addetti ai lavori dovrebbero aver preso in considerazione per poter offrire alla popolazione una soluzione flessibile, sicura e funzionale, con la speranza di tornare quanto prima ad un periodo "normale".


Condividi sui social se pensi che questo articolo sia utile!

condividi su facebookcondividi su linkedincondividi su twitter


16-05-2020

Autore: Mirko Tarantelli - consulente informatico e SEO - Data Scientist

© Tutti i diritti sono riservati. È vietato qualsiasi utilizzo, totale o parziale dei contenuti qui pubblicati.