Crawlbarkeitstest

Ein Crawler ist eine Software, die das Internet durchsucht und dessen Inhalte analysiert. Sie wird vor allem von Suchmaschinen für die Indizierung von Webseiten verwendet. Darüber hinaus werden Webcrawler aber auch für die Datensammlung genutzt, z.B. für Web-Feeds oder, besonders im Marketing, E-Mail-Adressen. Crawler zählen zu den Bots, also Programmen, die automatisch definierte, sich wiederholende Aufgaben erledigen. Der erste Webcrawler hieß World Wide Web Wanderer und wurde ab 1993 zur Messung des Internetwachstums genutzt. Ein Jahr später startete die erste Internetsuchmaschine unter dem Namen Webcrawler und gab somit dieser Art von Programmen ihren Namen. Heute sind solche Bots der Hauptgrund, warum Suchmaschinenoptimierung (SEO) beim internetbasierten Marketing im Vordergrund steht. Für erfolgreiches SEO ist somit die Kenntnis über die Arbeitsweise dieser Programme von Vorteil, weshalb im Folgenden näher auf dieses Thema eingegangen wird.

Geben Sie oben eine Website ein, um zu beginnen.

Arbeitsweise von Webcrawlern

Ein Crawler findet neue Webseiten wie ein User beim Internetsurfen durch Hyperlinks. Wird eine Seite geöffnet, untersucht er sie und speichert alle enthaltenen URLs. Danach öffnet er nach und nach jede der gespeicherten URLs, um den Vorgang zu wiederholen: Er analysiert und speichert weitere URLs. Auf diese Art nutzen Suchmaschinen Bots, um verlinkte Seiten im Web zu finden. Meist werden jedoch nicht alle URLs durch den Crawler abgearbeitet, sondern durch eine Auswahl begrenzt. Irgendwann wird der Vorgang gestoppt und neu eingeleitet. Die gesammelten Informationen werden in der Regel via Indizierung ausgewertet und gespeichert, damit sie sich schnell finden lassen.

Anweisungen an Webcrawler

Websitebetreiber können die Robots Exclusion Standards nutzen, um Crawlern mitzuteilen, welche Seiten indiziert werden sollen und welche nicht. Diese Anweisungen werden in einer Datei namens robots.txt platziert oder können auch via Meta-Tags im HTML-Header mitgeteilt werden. Dabei ist jedoch zu beachten, dass sich Crawler nicht immer an diese Anweisungen halten.

Anwendungsszenarien von Crawler-Lösungen

Crawler finden ein breites Anwendungsspektrum und werden oft als Funktion eines Softwarepakets angeboten. Neben der für Suchmaschinen relevanten Indizierung des Webs, können die Programme genutzt werden, um thematisch fokussierte Informationen zu Sammeln. Wird die Suche des Crawlers durch Klassifizierung einer Website oder eines Links eingegrenzt, lassen sich ausschließlich thematisch relevante Seiten im Web finden. Darüber hinaus können Crawler für Data-Mining und Webometrie verwendet werden. Beim Data-Mining werden durch Bots Informationen aus großen Datenbeständen gesammelt, um Trends und Querverbindungen zu identifizieren. Durch die Verwendung von Bots lassen sich so relevante Datenbanken erstellen und zielgemäß auswerten. Die Webometrie befasst sich hingegen mit der Untersuchung des Internets auf Inhalte, Eigenschaften, Strukturen und das Userverhalten.

Eine besondere Art von Webcrawlern sind sogenannte Harvester („Erntemaschinen“). Diese Bezeichnung bezieht sich auf Programme, die das Web nach E-Mail-Adressen absuchen und diese „ernten“, also auf eine Liste für Aktivitäten wie Marketing oder Spamversand speichern.