Eine neue Studie zeigt, dass man auch aus anonymisierten Daten relativ leicht herausfiltern kann, um wen es sich handelt. Auch wenn die Ergebnisse Fragen aufwerfen, wie Daten besser geschützt werden können, ist der große Lauschangriff erst einmal nicht zu befürchten.
Individuelle Bewegungsmuster lassen Rückschlüsse zu
Forscher vom MIT und der Harvard University haben gemeinsam mit einem belgischen und chilenischen Kollegen die Bewegungsprofile von 1,5 Millionen Kunden eines europäischen Mobilfunkanbieter analysiert. Dieser hatte die anonymisierten Daten, die über 15 Monate erhoben wurden, den Forschern zur Verfügung gestellt. In der Datenbank wird gespeichert, wann und wo sich das Smartphone eines Kunden mit einer Funkzelle verbunden hat. Im Schnitt entstehen somit 114 Datenpunkte pro User und Monat, aus denen hervorgeht, wann er wo gewesen ist.
Da die einzelnen Bewegungsmuster äußerst unterschiedlich sind, lässt sich allein mit vier zufälligen Datenpunkten mit 95-prozentiger Genauigkeit herausfinden, um welche Person es sich handelt. Auch mit öffentlich zugänglichen Daten wie Twitter-Posts kann man die Datenbank de-anonymisieren. So weit, so schockierend.
Neue Stellenangebote
Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice |
||
Mitarbeiter*in (m/w/d) für Social Media, Öffentlichkeitsarbeit und Städtepartnerschaft (m/w/d) meinestadt.de in Sachsenheim |
||
Content Creator / Social Media / Marketing (m/w/d) Delitzscher Schokoladenfabrik GmbH in Delitzsch |
Datenbankabgleiche sind nicht neu
Auch wenn die Studie die Notwendigkeit des Datenschutz aufzeigt, muss man vorsichtig sein, nicht zu viel – aber auch nicht zu wenig – in die Ergebnisse zu interpretieren. Denn dass man beim Abgleich zweier Datensets einzelne Datensätze eindeutig zuordnen kann, ist nicht neu.
Schon aus den Daten des US-Zensus 1990 ließen sich 87 Prozent der Amerikaner allein anhand ihres Geschlechts, Geburtstags und der Postleitzahl identifizieren. Der CTO der CIA, Ira Hunt, hingegen gab vor wenigen Tagen sogar an, dass man sogar anhand von Schrittzählern und anderen Fitness-Messgeräten Personen eindeutig identifizieren könne.
Alle Beispiele, und auch die jüngste Studie zeigen, dass man zunächst die entsprechende Datenbank benötigt, um daraus Informationen zu gewinnen. Das hört sich zwar trivial an, heißt aber im Umkehrschluss, dass die Herausforderung weniger darin besteht, Daten zu anonymisieren (da eh kaum möglich), sondern dafür Sorge zu tragen, dass die Datensätze nicht in falsche Hände geraten.
Mindestens zwei relevante Datensätze nötig
Im Falle der Bewegungsmuster heißt das: Solange der Mobilfunkanbieter die Daten, welches Gerät sich wann mit welcher Funkzelle verbunden hat, nicht herausgibt, lässt sich damit auch nichts anstellen. Allerdings ist auch klar, dass heutzutage auch die Apples und Googles und zahlreiche Apps die Bewegungsmuster des Users aufzeichen. Dennoch ist eine zweite relevante Datenbank nötig, um die Daten zu dechiffrieren.
Hier bleiben die Forscher sehr vage, denn grundsätzlich haben sie nur gezeigt, dass aus vier Datenpunkten ein ganzer Datensatz innerhalb der gleichen Datenbank eindeutig erkannt wird. Die Erkenntnis an sich ist eigentlich wenig Besorgnis erregend.
Und auch wenn die Forscher angeben, dass man auch über Twitter-Posts solche Datenpunkte ermitteln kann, bleibt unklar, woher die Twitter-Daten kommen. Natürlich sind sie öffentlich – aber einen zufällig ausgewählten Twitter-User mit Daten von 1,5 Millionen Mobilfunkkunden abzugleichen ist ziemlich aufwändig und eher nutzlos.
Aufwand für reale De-Anonymisierung sehr hoch
Denn selbst wenn ich daran interessiert wäre, habe ich danach immer noch nicht viel gewonnen, denn ich kann nur nachvollziehen, wann und wo sich Twitter-User A aufgehalten hat. Solange es sich um anonymisierte Datensätze handelt habe ich nach wie vor keine private Adresse, keine IP- oder MAC-Adresse, keine Telefonnummer, kein Geburtsdatum – nichts, dass eine reale Person identifizieren würde.
Nicht zuletzt: Es ist unklar, wie lange die Forscher an der Studie gearbeitet haben – die Daten sind aus 2006/2007. Der Aufwand, einzelne Personen zu identifizieren ist jedenfalls sehr hoch und setzt ein hohes technisches Verständnis voraus.
Auch wenn klar ist, dass die CIA, die Forscher vom MIT oder ein technisch versierter Stalker herausfinden können, was man so den ganzen lieben Tag lang treibt – es ist unwahrscheinlich, dass Datenbankeinträge im großen Stil de-anonymisiert werden. Der Aufwand ist schlichtweg zu hoch und der Nutzen zu gering.
Selbst Google dürfte egal sein, wer tatsächlich Hans Müller ist und wo er sich an Heiligabend aufgehalten hat. Für Werbungtreibende ist lediglich wichtig, Werbung gezielt zu adressieren und Streuverluste zu verringern. Ob der User jetzt in der Hauptstraße 1 oder Talstraße 2 wohnt ist zumindest für Online-Werbung unerheblich.
Es bleibt also festzuhalten, dass es mit den richtigen Daten durchaus leicht ist, einzelne Datensätze zu identifizieren und miteinander zu verknüpfen. Der Fokus der Datenschützer muss also darauf liegen, dass Daten nicht in falsche Hände geraten und so wenig wie möglich mit nicht-anonymisierten Datensätzen abgeglichen werden. Eine Zuordnung realer Personen ist aber auch nach wie vor nicht so ohne Weiteres möglich und bleibt mit sehr hohem Aufwand verbunden.
Bild: Hacker using laptop / Shutterstock.com