Tudomány;adatbázis;koronavírus;

- A névtelen adatbázisokból is azonosíthatóak vagyunk

A nagyvállalatok biztosítanak minket, hogy anonim módon tárolják, amit rólunk tudnak. A mesterséges intelligenciának azonban nem esik nehezére így sem kideríteni, kik vagyunk, derül ki az Imperial College kutatóinak tanulmányából.

Az persze nem veszélyes ránk nézve, ha tudják rólunk, mikor, milyen pizzát rendeltünk, vagy hol foglaltunk szállást a nyáron. Egészségügyi, jövedelmi és adózási jellemzőink, szexuális orientációink már érzékenyebb adatok, könnyű visszaélni velük. Ezeket viszont nevünk, lakcímünk, telefonszámunk, e-mail címünk és más, személyünket könnyen egyértelműen beazonosíthatóvá tevő adatok nélküli kérdőíveken gyűjtik, és tárolják. A számítógépes táblázatokban is ködösítenek, kevésbé pontosak a bevitt adatok, amiket „zajosítanak” is, és bizonyos oszlopokat eltávolítanak. Az adatvédelmi törvények – Európában a GDPR – biztosítanak arról, hogy nem fenyeget annak veszélye, hogy nyomon követhetők vagyunk egy adatbázisban.

A Londoni Imperial College és a Leuveni Katolikus Egyetem (Belgium) kutatói viszont bebizonyították, hogy ez nem így van. Egy gépi tanulási modellt alkottak, amely rámutatott, milyen könnyű azonosítani valakit egy névtelen adatbázisban. Amerikában az irányítószám, a nem és a születési idő lapján 81 százalékos eséllyel található meg valaki. Ezzel szemben egy Massachusettsben élő személy egy adatbázisban tárolt 15 demográfiai jellemzője révén már 99,98 százalékos eséllyel azonosítható.

Luc Rocher a Leuveni Egyetem kutatója így világította meg, miről van szó: „Míg sok harmincas éveit taposó férfi él New York-ban, sokkal kevesebb született január ötödikén, vezet piros sportkocsit, és van két kislánya”. Yves-Alexandre de Montjoye, az Imperial College kutatója pedig azt jelezte: „Ahogy gyűlnek az adatok, egyre kisebb az esélye, hogy nem vagyunk beazonosíthatók”. De nem minden esetben rossz ez: tavaly a visszaazonosítás módszerével követték nyomon a New York Times újságírói Donald Trump adóvisszatérítéseit 1984 és 1995 között, és az is kideríthető így, ha valaki személyazonossággal él vissza, vagy adatokat szerez meg zsarolás céljából. A kutatók azt mondják, eredményeik arra kell, hogy késztessék a politikusokat, hogy valóban hatékony adatvédelmi intézkedéseket hozzanak.  

Egy amerikai kutatás szerint ezer regisztrált koronavírusosra 40-80 ezer nem ismert beteg juthat.