Sonstiges

Data Mining: Facebook zwingt Crawler zur Löschung von 210 Millionen Profilen

Nein – es ist kein Aprilscherz. Und wenn, dann wäre er ein ganz übler, immerhin wurde die Meldung bereits von der „USA Today“ aufgegriffen, womit nun wohl halb Amerika davon Notiz genommen haben dürfte.

Vor einigen Wochen erregte Pete Warden einiges Aufsehen. Der US-Datenspezialist hatte über sein Blog verkündet, dass er mittels einer Crawler-Software die Profile von sage und schreibe 210 Millionen Facebook-Mitgliedern ausgelesen und gespeichert habe. Das Ereignis ist schon einige Zeit her, Mitte März hatte „DiePresse“ daraufhin ein Interview mit Warden geführt, in dem dieser ein wenig über die Hintergründe der Aktion erzählt. Die Facebook-Idee sei ihm nicht plötzlich gekommen, er habe schon zuvor einen Crawler benutzt, um Google-Profile zu farmen.

Warden hatte die Facebook-Daten dazu genutzt, um sie auszuwerten und zu visualisieren: eine Weltkarte gib Auskunft über Namen, Fan-Seiten und Aufenthaltsorte der Freunde. Das Projekt rief Interessenten auf den Plan, in erster Linie Wissenschaftler und Statistiker, die das Potenzial der Daten erkannten. Einige schlugen einen Abgleich mit Einwohnerverzeichnissen vor, um Faktoren wie Einkommen, Mobilität, Beschäftigung und soziale Beziehungsgefüge in Verbindung zu bringen. Warden erhielt rund 50 Anfragen und schließlich entschloss er sich dazu, die Informationen öffentlich zu machen. Zuvor wollte er aber die Namen der Mitglieder entfernen und weitere Angaben anonymisieren, um konkrete Zuordnungen unmöglich zu machen.

Wie „NewScientist“ nun berichtet und Warden auf seinem Blog bestätigt, ist Facebook aber in letzter Sekunde dazwischen gesprungen beziehungsweise hat seine Anwälte dazwischen geworfen. Das soziale Netzwerk habe ihm mit schweren juristischen Konsequenzen gedroht, sofern die Daten an die Öffentlichkeit kommen. Warden hat das Angebot deshalb kurzfristig zurückgezogen und darüber hinaus auch die eigenen Kopien der Datenbestände umgehend vernichtet. Laut Facebook habe er gegen die AGB der Plattform verstoßen: „Warden war uns gegenüber extrem kooperativ“, sagte eine Sprecherin des Unternehmens. Bei Warden klingt das anders:

Wie ihr euch vorstellen könnt, bin ich nicht gerade glücklich über die Sache. Besonders deshalb, weil bislang niemand behauptet hat, dass die Regeln des Webs, die es gibt, seit es Crawler gibt, nicht mehr gelten. Ich folgte den Anweisungen ihrer robot.txt (Hinweis: Facebook sperrt keine Crawler aus). Wortwörtlich Hunderte kommerzieller Suchmaschinen benutzten exakt denselben Pfad und haben dieselben Daten. Man kann sich die Informationen ja sogar auch über den Google Cache besorgen, wenn man nicht auf Facebook-Server treffen möchte. Also, warum zerstöre ich nun die Daten? Weil dieses Feld niemals vor Gericht prozessiert wurde und ich nicht genug Geld habe, um die Probe aufs Exempel zu machen.

Bevor sich Warden zurückzog, hat er eine Seite mit Links publik gemacht, auf der Nutzer fündig werden, die auf Data Mining in sozialen Netzwerken stehen.

Ich weiß gerade nicht, was mich mehr irritiert: Die Normalität in der Stimme Wardens, mit der er sein Recht zum Profilsaugen zu verteidigen versucht – oder Facebooks Aktion. Ich habe nun in mehreren Quellen gelesen, dass das Netzwerk derlei Untersuchungen (gerne auch externe) unterstützt und dabei eine Gratwanderung zwischen Datenschutz und profitablem Targeting anstrebt. „Facebook könnte Angst gehabt haben, dass die Nutzer eine Gegenreaktion zum Thema Privacy starten oder dass die Daten missbraucht werden. Ein Marketing-Unternehmen hätte versuchen können, die Daten zu deanonymisieren, um zielgerichtete Werbung zu streuen“, so der „NewScientist“.

Warden ist übrigens zwischenzeitlich nun ein Haus weitergegangen: Mit seinem Google-Profil-Crawler sei es kinderleicht, zum Beispiel Twitter auszulesen. Er selbst habe aber anderes vor: „Ich stecke gerade in der Mitte zu einer neuen Untersuchung, die auf den öffentlichen Informationen von Buzz-Mitgliedern basiert.“ Auch schön…

(André Vatter / Foto: Flickr – Fotograf: alancleaver )

Über den Autor

André Vatter

André Vatter ist Journalist, Blogger und Social Median aus Hamburg. Er hat von 2009 bis 2010 über 1.000 Artikel für BASIC thinking geschrieben.

10 Kommentare

  • Wie wäre es mit einer Freundin? Nee mal im Ernst, andere Seiten zu crawlen macht für einen Index Sinn, wo viele Seiten enthalten sind, aber eine? Ich kannn Facebooks Stellungnahme nachvollziehen.

    Was hätte denn in der robots.txt stehen sollen? Der Warden darf hier nicht crawlen?

  • in der robots.txt könnte zB stehen, dass die Profile nicht von Crawlern (egal ob google oder irgendwer privat) abgerufen werden darf.

    Interessant finde ich den Artikel von seinem Blog, dass USAInfo für ein paar Tausend Dollars Email Listen beziehungsweise Listen mit Informationen über Bürger verkauft (Name, Anschrift, Geb. Datum, …) … und nicht über ein paar Registrierte sondern von mehreren Millionen Bürgern …

  • @Stefan „Was hätte denn in der robots.txt stehen sollen? Der Warden darf hier nicht crawlen?“

    Etwas polemisch, sogar sehr, vielleicht sogar unkonstruktiv, meinst du nicht?!

  • @Stefan „Was hätte denn in der robots.txt stehen sollen? Der Warden darf hier nicht crawlen?“

    Etwas polemisch, sogar sehr, vielleicht sogar unkonstruktiv, meinst du nicht?!

  • @Dominic: ?? seit wann ist das Crawlen von öffentlich zugänglichen Webseiten verboten? Suchmaschinen machen doch nichts anderes und die Listen auch – oh Wunder – öffentliche Facebook Profile auf …

  • In meinen Augen wird immer den Falschen auf die Finger geklopft: Statt den Sammlern solcher Daten ständig die Hölle heiß zu machen, sollte man sich endlich darauf spezialisieren, den Usern beizubringen, welche Infos sie lieber für sich behalten, weil sie ihnen das gesamte Leben versauen könnten.

    Es gibt Weiber, die sich selbst halbnackig im Schlafzimmer vorm Spiegel oder im Badezimmer von oben in den Ausschnitt fotografieren und diese Fotos dann zu Facebook, MySpace, irgendwasVZ usw. hochladen – die wundern sich, warum sie keinen Job bekommen…

    Das ist garantiert nicht die Schuld von Warden, Google oder sonstwem…

  • Find ich teilweise erschrekend! Wenn facebook tatsächlich solche Vorgänge von sich aus unterstützt, nun aber auf Datenschutz macht, dann ist das Scheinheiligkeit. Ich wäre sogar bereit für communitys zu zahlen, wenn es eine Garantie geben würde, dass mit meinen Daten kein Unfug getrieben wird.