Technologie

Was ist Data Scraping – und warum ist es so gefährlich?

Daten, Big Data, Data Scraping, Laptop
Unsplash / Carlos Muza
geschrieben von Marinela Potor

Data Scraping wird zunehmend beliebter im Internet, um wichtige Daten von Websites, Programmen oder Plattformen zu erhalten. Doch die Praxis birgt auch Gefahren. Wir erklären dir, was sich hinter dem Begriff verbirgt und wie du dich schützt.

Was tun Menschen wann, wie und warum auf einer Website? Diese Fragen treiben Marketer um, genauso wie Content Creator oder Designer von Benutzeroberflächen. Eine sehr effektive Möglichkeit, um diese zu beantworten, liegt im Data Scraping oder Web Scraping.

So funktioniert Data Scraping

Ganz grundlegend ist das Scraping nichts anderes als Informationen von einer Website in eine Datenbank zu übertragen. Wenn du also beispielsweise schon einmal E-Mail-Adressen von einer Website in eine Kontaktliste kopiert hast, hast du Daten gescrapt.

Unternehmen, die mit Big Data arbeiten, machen dies natürlich nicht manuell, sondern setzen Software oder Bots dafür ein, um so bestimmte Informationen von einer Website zu extrahieren. Es gibt auch Web Crawler, die auf Basis von Künstlicher Intelligenz Daten entnehmen.

Daten sind dabei nicht immer lesbare Daten, wie Telefonnummern oder Namen. Tatsächlich bedeutet Scraping oftmals auch, dass man unstrukturierte Daten von einem Portal entnimmt und diese in einer Datenbank eingibt, um sie dann zu analysieren.

Was tut man mit den Daten?

Daraus lässt sich dann zum Beispiel ableiten, an welchen Punkten Nutzer:innen einen Kaufvorgang abbrechen, an welchem Punkt der Customer Journey Interessierte auf die Website gelangen oder welche Inhalte besonderes Interesse hervorrufen. Es ist auch möglich, E-Mail-Kontakte in eine Kundendatei für den Vertrieb zu übertragen.

Mit anderen Worten: Data Scraping bietet Unternehmen, Marketern, Kreativen sowie Designern viele Möglichkeiten der Datenanalyse.

Sofern User über diese Nutzung ihrer Daten informiert werden und dem zustimmen, ist Data Scraping an sich kein Problem. Doch natürlich eignet sich die Technologie auch wunderbar dazu, um ohne das Wissen von Nutzer:innen illegal an ihre persönliche Daten heranzukommen.

So nutzen Hacker Data Scraping

Hacker nutzen beispielsweise Data Scraping, um so persönliche User-Daten von Social-Media-Seiten zu extrahieren.

Dabei können sie selbst Scraper auf die Website schicken, um Daten zu erhalten oder auch, wenn diese nicht gut genug gesichert ist, die Datenbank hacken, in der die Daten nach dem Scraping landen. Mit diesen Daten können Cyberkriminelle verschiedene Angriffe starten.

Wenn sie beispielsweise an E-Mail-Adressen gelangen, ist dies eine ideale Ausgangslage, um Phishing-Attacken zu starten. Sie haben in der Regel auch Zugang zu anderen persönlichen Daten, sodass sie ihre Phishing-Mails sehr echt wirken lassen können. So kommen sie über betrügerische Mails an sensible Informationen.

Es ist ebenfalls möglich an Passwörter heranzukommen. Viele Menschen nutzen schließlich ihre Straßennamen oder Geburtsdaten als Passwörter. Wenn Hacker über Web Scraping an diese Daten herankommen, braucht es nicht viele Versuche, um ein derartiges Passwort zu knacken.

Theoretisch lassen sich große Datenbanken auch gewinnbringend im Dark Web verkaufen.

So lässt sich unerwünschtes Scraping verhindern

Als Web-Nutzer:in kann man sich gegen das Scraping nur bedingt schützen. Die Verantwortung liegt eher bei den Website-Betreibern.

Data Scraping kann auf verschiedene Arten und Weisen erfolgen. Es ist also nicht ganz leicht, sich generell davor zu schützen. Eine vollständige Sicherheit gibt es natürlich nie. Doch es gibt durchaus Möglichkeiten, um unerwünschtes Scraping zumindest in großen Teilen zu verhindern.

Aktivitäten beobachten

So kann man ein Portal so einrichten, dass lediglich eine bestimmte Anzahl von Aktivitäten in einem bestimmten Zeitrahmen von einer IP-Adresse aus erlaubt ist. Das könnte beispielsweise für Suchanfragen gelten. Das ist eine Methode, die Scraper nutzen.

Natürlich kann man so ebenfalls an Informationen kommen, aber sehr viel langsamer. Und je schwieriger es für Hacker ist, Informationen zu scrapen, desto schneller geben sie auf.

Andere Sicherheitsmaßnahmen können auch darin bestehen, Prozesse wie den Zeitaufwand bei der Eingabe von Daten zu beobachten. Bots agieren hier sehr viel schneller als menschliche User. Genauso können Captcha-Checks helfen, um Bot-Zugriffe auf eine Website zu reduzieren.

Honeypots

Einige Websites arbeiten auch mit „Honeypots“ – also mit Honigtöpfen. Dabei präsentieren sie für Scraper interessante Daten, wie eine E-Mail-Adresse und lassen diese bewusst scrapen. Für menschliche Nutzer:innen wird aber deutlich gemacht, dass es sich nicht um eine echte Mail-Adresse handelt.

So kann man dann diejenigen IP-Adressen ausmachen, die diese E-Mail-Adresse extrahieren, die Scraper entlarven und sie blocken. Es gibt auch kommerzielle Dienste, die Scraping-Schutz anbieten.

Wichtig ist aber vor allem, dass sich Website-Betreiber des Risikos bewusst sind und die Daten auf ihrer Seite vor unerlaubten Zugriffen schützen.

Auch interessant:

Über den Autor

Marinela Potor

Marinela Potor ist Journalistin mit einer Leidenschaft für alles, was mobil ist. Sie selbst pendelt regelmäßig vorwiegend zwischen Europa, Südamerika und den USA hin und her und berichtet über Mobilitäts- und Technologietrends aus der ganzen Welt.