- Warum auf Web Scraping zurückgreifen? Web Scraping hilft Ihnen beim Erfassen großer Datenmengen aus Websites und das völlig automatisch. Der Eigenaufwand ist dabei verschwinden gering.
- Wie sieht es mit den Kosten aus? Bei den Kosten gibt es zwar erhebliche Unterschiede, einen soliden Web Scraping Dienst gibt es aber schon in einer Preisspanne von kostenlos bis 50 Dollar.
- Welcher Anbieter passt zu Ihnen? Das hängt völlig von Ihrem Vorhaben ab, so ist nicht jedes Web Scraping Tool cloudbasiert und kann mit dynamischen Inhalten umgehen.
Was ist Web Scraping?
Unter Web Scraping versteht man gemeinhin das automatisierte Auslesen von Information aus Websites. Diese Informationen können nicht nur Bilder und Texte sein, sondern auch URL’s oder dynamische Inhalte wie aus einem CMS, PHP und JavaScript.
So funktioniert Web Scraping
Im Großen und Ganzen besteht Web Scraping aus zwei Schritten: Zuerst einmal das Herunterladen einer Website und anschließend das Extrahieren der gewünschten Informationen.
Website speichern
Es gibt Websites, die nur statische oder nur dynamische Inhalte enthalten. Genauso gibt es aber auch Websites, die sich sowohl aus statischen als auch dynamischen Inhalten zusammensetzen.
Nicht jedes Web Scraping Tool kommt mit dynamischen Inhalten zurecht, wogegen statische Websites kein Problem darstellen.
Statische Websites
Auf einer statischen Website sind keine Datenbanken eingebunden. Sie bietet daher keine Eingabe- oder Auswahlfelder und eine Interaktion auf der Website ist nicht möglich. Informationen wie Texte und Bilder sind damit quasi starr auf der Website eingebunden und stehen lediglich zum Abruf bereit. Für ein Web Scraping Tool ist es daher leicht, Daten aus solch einer Website zu extrahieren.
Dynamische Websites
Anders ist es bei einer dynamischen Website. Diese ist keinesfalls starr, sondern wird erst bei Abruf zusammengesetzt. Hierzu greift ein Content Management System wie beispielsweise WordPress, auf eine Datenbank zu und fügt alle Elemente wie Bilder und Texte zu einer Website zusammen.
Andere Inhalte, wie aus PHP und JavaScript, sind dynamisch und bereiten einem Web Scraping Tool große Probleme.
Hierbei werden die Daten nämlich nicht mittels URL übergeben, sondern nur innerhalb des jeweiligen Elements auf der Website, welches die dynamischen Inhalte generiert. Diese werden von einigen Web Scraping Tools schlicht nicht erkannt.
Relevante Daten extrahieren
Ist die Website erst einmal heruntergeladen, muss das Web Scraping Tool immernoch die gewünschten Daten extrahieren und diese in einer separaten Datei ablegen. Eine entsprechende Vorauswahl findet vor dem Herunterladen statt. Ein Web Scraping Tool bietet hierzu eine Point & Click Oberfläche, mit der Sie die gewünschten Informationen ganz einfach über die Maus auswählen. Speichern können Sie die extrahierten Daten in verschiedenen Dateiformaten.
Die wichtigsten Funktionen im Überblick
Verschiedene Informationen extrahieren und exportieren
Export Dateitypen
Für den Export stehen mehrere Dateitypen zur Auswahl, so CSV, XML, JSON und SQL.
Ein Web Scraping Tool kann verschiedene Arten an Informationen extrahieren und diese wiederum in verschiedenen Dateitypen ausgeben.
So können neben reinem Text beispielsweise auch Bilder und Videos oder E-Mail Adressen und URL’s extrahiert werden.
Captchas lösen
Oftmals wird eine Website durch Captchas geschützt. Diese sind gerade dazu da, um den automatischen Abruf durch Programme zu verhindern. Hierzu wird die Eingabe einer Buchstaben- und Zahlenfolge verlangt, welche vorher auf einem Bild angezeigt wird.
Für einen Menschen ist das kein Problem, die meisten Web Scraping Tools scheitern jedoch an dieser Stelle. Nichtsdestotrotz sind mittlerweile auch einige wenige Web Scraping Tools dazu in der Lage, Captchas zu lösen.
Weitere Vorteile beim Web Scraping
Einmal eingerichtet und eine Vorauswahl an gewünschten Informationen getroffen, findet die Extraktion der Daten automatisiert statt. Sie müssen diese nicht mühselig einzeln per Hand auslesen. Frei von lästigen Unterbrechungen oder Systemausfällen findet das Extrahieren der Daten bei einem cloudbasierten Web Scraping Tool reibungslos statt.
Sie sind ideal vor Datenverlust geschützt und können von überall auf Ihre Daten zugreifen.
Nachteile beim Web Scraping
Datenchaos
Ein Web Scraping Tool kann zwar möglichst präzise konfiguriert werden, die gesammelten Informationen werden allerdings nicht immer sauber und korrekt in eine neue Datei exportiert. Stattdessen haben Sie in einem solchen Fall einen Wirrwarr an Daten und müssen erst noch den Feinschliff vornehmen.
Rechtliche Grauzone
Rechtlich gesehen ist es völlig in Ordnung, wenn jemand ein Web Scraping Tool zur Verfügung stellt. Bei der Nutzung beginnen jedoch die Probleme. Hierbei muss nämlich stets das jeweilige Urheberrecht eingehalten werden, insbesondere beim Extrahieren von Daten fremder Websites und dem Einbinden auf der eigenen Website. Von einigen Betreibern wird das automatische Auslesen von Daten sogar explizit über die Nutzungsbedingungen ausgeschlossen.
Weitere Probleme ergeben sich durch die Vorgehensweise eines Web Scraping Tools. Diese können beispielsweise automatisch den Haftungsausschluss oder die AGB eines Website-Betreibers bestätigen, ohne das der Nutzer diese je gelesen oder gar gesehen hat. Neben rechtlich relevanten Informationen können zudem auch Werbung und andere Inhalte automatisch ausgeblendet werden, was ebenfalls umstritten ist.
Was kostet Web Scraping?
Einige Anbieter stellen ihre Web Scraping Tools völlig kostenlos zur Verfügung. Diese sind allerdings in den seltensten Fällen cloudbasiert und sowohl die Bedienung als auch der Funktionsumfang lassen eher zu Wünschen übrig. Die günstigsten Web Scraping Dienste mit mehr Komfort starten bei ca. 50$, wogegen die teuersten mit einem größeren Funktionsumfang bei um die 400$ liegen.
Worauf sollten Sie bei der Anbieterauswahl achten?
Sicherlich werden Sie mit jedem Web Scraping Tool Informationen aus Websites extrahieren können, doch der Komfort und die Funktionen sind längst nicht überall gleich. Neben den unterschiedlichen Arten an Informationen, wie Bilder und Texte, muss ein gutes Web Scraping Tool auch mit dynamischen Inhalten umgehen können. Weiterhin sollte die Bedienung keinesfalls zu schwerfällig von der Hand gehen, das würde die Nutzung im Alltag unnötig ausbremsen.
Ein weiterer entscheidender Faktor ist die Plattform. Eine cloudbasierte Software bietet Ihnen zahlreiche Vorteile im Vergleich zur lokalen Desktop Variante. Gerade wenn die zu extrahierende Website etwas größer ist, kann es Stunden dauern, bis diese vollständig ausgelesen wurde. Ihren eigenen Computer möchten Sie vermutlich nicht unbedingt solange laufen lassen, weil dies Stromkosten verursacht und bei einem Systemabsturz mit einem erneuten Versuch verbunden ist.
In einer Cloud sind Ihre Daten sicher: Einmal gestartet, wird das Web Scraping stets zu Ende geführt.
Für wen ist Web Scraping geeignet?
Grundsätzlich eignet sich Web Scraping für jeden der eine hohe Menge an Daten aus Websites erheben möchte. Hierzu benötigen Sie allerdings stets die Erlaubnis des jeweiligen Website-Betreibers. Das Katalogisieren von Produkten wie bei einem Online Shop oder das Sammeln von Kontakten zu Umfragezwecken ist dabei besonders einfach und erfolgt automatisiert.
Web Scraping im trusted.de Vergleich
In unserem Vergleich für Web Scraping Tools finden Sie die derzeit beliebtesten Anbieter. Jedes dieser Tools haben wir anhand verschiedener Faktoren verglichen, beispielsweise Preis und Funktionsumfang. Auf diese Weise finden Sie schnell den richtigen Anbieter für Ihr Vorhaben.
- dexi.io
- Hetag-cloud-itemum Scraper
- import.io
- OutWit Hub
- Scrapy
- Screen Scraper
- Visual Web Ripper
- Web Scraper
- WebHarvy
Haben Sie bereits eigene Erfahrungen mit einem Web Scraping Tool sammeln können und würden diese gern mit anderen teilen? Mit Hilfe unserer Bewertungsfunktion können Sie genau dies tun. Berichten Sie uns und anderen trusted.de Nutzern von Ihren Erlebnissen.
Fazit
Beim Web Scraping gibt es erhebliche Preisunterschiede. Abhängig von Ihrem Vorhaben, können Sie jedoch hohe Kosten sparen. Als Privatnutzer werden Sie vermutlich nicht so viele Daten zu bewältigen haben und auf Grund der geringen Nutzung können Sie vielleicht auf die eine oder andere Funktion verzichten. Sollten Sie häufiger Web Scraping betreiben oder das Tool gewerblich nutzen, so empfehlen wir zumindest eine cloudbasierte Lösung, die auch mit dynamischen Inhalten umgehen kann.