Az persze nem veszélyes ránk nézve, ha tudják rólunk, mikor, milyen pizzát rendeltünk, vagy hol foglaltunk szállást a nyáron. Egészségügyi, jövedelmi és adózási jellemzőink, szexuális orientációink már érzékenyebb adatok, könnyű visszaélni velük. Ezeket viszont nevünk, lakcímünk, telefonszámunk, e-mail címünk és más, személyünket könnyen egyértelműen beazonosíthatóvá tevő adatok nélküli kérdőíveken gyűjtik, és tárolják. A számítógépes táblázatokban is ködösítenek, kevésbé pontosak a bevitt adatok, amiket „zajosítanak” is, és bizonyos oszlopokat eltávolítanak. Az adatvédelmi törvények – Európában a GDPR – biztosítanak arról, hogy nem fenyeget annak veszélye, hogy nyomon követhetők vagyunk egy adatbázisban.
A Londoni Imperial College és a Leuveni Katolikus Egyetem (Belgium) kutatói viszont bebizonyították, hogy ez nem így van. Egy gépi tanulási modellt alkottak, amely rámutatott, milyen könnyű azonosítani valakit egy névtelen adatbázisban. Amerikában az irányítószám, a nem és a születési idő lapján 81 százalékos eséllyel található meg valaki. Ezzel szemben egy Massachusettsben élő személy egy adatbázisban tárolt 15 demográfiai jellemzője révén már 99,98 százalékos eséllyel azonosítható.
Luc Rocher a Leuveni Egyetem kutatója így világította meg, miről van szó: „Míg sok harmincas éveit taposó férfi él New York-ban, sokkal kevesebb született január ötödikén, vezet piros sportkocsit, és van két kislánya”. Yves-Alexandre de Montjoye, az Imperial College kutatója pedig azt jelezte: „Ahogy gyűlnek az adatok, egyre kisebb az esélye, hogy nem vagyunk beazonosíthatók”. De nem minden esetben rossz ez: tavaly a visszaazonosítás módszerével követték nyomon a New York Times újságírói Donald Trump adóvisszatérítéseit 1984 és 1995 között, és az is kideríthető így, ha valaki személyazonossággal él vissza, vagy adatokat szerez meg zsarolás céljából. A kutatók azt mondják, eredményeik arra kell, hogy késztessék a politikusokat, hogy valóban hatékony adatvédelmi intézkedéseket hozzanak.