Suchmaschinenoptimierung

Robots.txt

12.2.2011 von Steven Broschart

ca. 3:25 Min
Ratgeber
  1. SEO: Interne Links
  2. Mehrere Links
  3. Robots.txt
  4. Wordpress-Plugin

Sollen grundsätzlich spezielle Dokumente von der Indexierung ausgeschlossen werden, können Sie dies auch elegant über die Datei robots.txt lösen. Dies kann etwa erforderlich sein, wenn sichergestellt werden soll, dass veraltete Inhalte nicht mehr aufzufinden sind oder durch Robots generierter Traffic eingedämmt werden soll.Bei der robots.txt handelt es sich um eine Textdatei, die im Basisverzeichnis des Servers abgelegt werden muss. Der Name der Datei muss robots.txt lauten. Der Robot einer Suchmaschine liest diese vor einem versuchten Indexierungsvorgang aus und prüft dabei, ob sein Vorhaben zulässig ist oder nicht.Jede Zeile der robots.txt besteht aus einer Anweisung und einem Wert, die über einen Doppelpunkt voneinander getrennt werden. Die Ausschlussanweisungen werden in Blöcken organisiert. Ein Block beginnt in der Regel über die Angabe des Useragents, dem ein oder mehrere Ausschlussregeln folgen. Hier ein Beispiel:

User-agent: looksmart
Disallow: /
User-agent: *
Disallow: /download

Über den ersten Block wird dem Looksmart- Robot die Indexierung aller Dateien untersagt. Der zweite Block definiert für alle Robots (*) die Indexierung des Ordners download.Für die Robots von Google, Yahoo und MSN kann das Zeichen * auch innerhalb des Disallow-Wertes verwendet werden, um beispielsweise einzelne Dateitypen zu ignorieren:

Disallow: /*.pdf$

Mit dem Dollarzeichen wird das Ende des Strings (ähnlich wie bei einem regulären Ausdruck1) markiert.

Achtung: Reihenfolge

Die Daten der robots.txt werden von oben nach unten gelesen. Sobald ein Robot auf eine Anweisung stößt, die ihn selbst betrifft, liest er keine weiteren Blöcke ein. Es ist deshalb zu empfehlen, speziellere Anweisungen oberhalb der allgemeineren Direktiven zu platzieren.

image.jpg
Die robots.txt kann mit Hilfe der Google Webmaster-Tools erstellt werden.
© Internet Magazin

Würden Sie die Blöcke des eben genannten Beispiels tauschen, so würde auch für den looksmart-Robot nur das download- Verzeichnis gesperrt sein.In jedem Fall sollten Sie die robots.txt auf eine valide Syntax prüfen. Enthält diese Elemente, die nicht interpretiert werden können, gefährden Sie die Indexierung der kompletten Website. Der Verzicht auf eine robots.txt ist deshalb der Bereitstellung einer fehlerhaften Datei vorzuziehen.Aufgrund der großen Bedeutung dieser Datei bietet Google eine entsprechende Hilfestellung: Über die Google Webmaster Tools (Website-Konfiguration > Crawler-Zugriff) können Sie eine robots.txt mit einem Assistenten erstellen und testen.Auch Forecheck leistet hier Hilfestellung und erklärt, welche Seiten laut Vorgabe indexiert werden sollen, und welche nicht. Wird über die robots.txt Widersprüchliches zu den Angaben der Metatags definiert, lässt sich auch dies sofort erkennen. Über den Reiter "Robots" können Sie übrigens den Inhalt der robots.txt prüfen.

Linkgruppierung

Rechnen wir mal kurz anhand der Empfehlung von Google aus, wie viele Einzeldokumente wir anlegen könnten, wenn jedes Dokument mit jedem anderen verlinkt wäre. Für den Robot müsste dies doch als optimale Voraussetzung gelten, um mit möglichst wenig Klicks zu jeder Seite zu gelangen.Ganz klar, bei einer solchen zweistufigen Hierarchie können wir insgesamt 100 Dokumente anlegen, denn Google empfiehlt, maximal 100 Links innerhalb eines HTML-Dokumentes anzulegen.

Weitere Informationen zu diesem Thema finden Sie bei

www.google.com/webmasters/tools/docs/de/protocol.html www.bing.com/webmaster siteexplorer.search.yahoo.com/

Wenn wir einen Blick auf Nachrichtenportale oder Blogs werfen, stoßen wir ebenfalls auf ein solchen Informationskonzept: Die Startseite enthält mit ihren Teasern Links zu den entsprechenden Unterdokumenten. Was passiert aber, wenn mehr als 100 Artikel geschrieben wurden?In der Praxis handelt es sich meistens um wesentlich weniger Teaser und damit auch weniger Links. Ältere Links fallen damit auf eine zweite Seite zurück und sind so nicht mehr direkt von der Startseite aus verlinkt.Wichtige Artikel, die die Präsenz relevanter Schlüsselbegriffe gewährleisten, sollten in einem solchen Fall manuell verlinkt werden. In diesem Augenblick sorgen Sie für einen zusätzlichen Linkeingang.Bisher waren alle Dokumente in Hinblick auf die aus- und eingehenden Links identisch. Für den Robot gab es damit auch keinen Hinweis auf mögliche Themenschwerpunkte. Durch den zusätzlichen Direktlink haben Sie einen ersten Hinweis in diese Richtung gesetzt.Bei mehreren Tausend Dokumenten stellt sich die Frage, wie diese miteinander verlinkt werden. Hier bietet sich eine Gruppierung nach Themen an. Dies deckt sich wieder hierarchischen Struktur, allgemeine Aspekte weiter oben, Spezifischeres in die Tiefe zu platzieren.Bietet man mit der Startseite also eine Übersicht der Kategorien an, können diese in nächster Ebene spezifiziert werden und in einer weiteren Ebene zu den ausformulierten Inhalten führen. Auch auf Artikelebene scheint eine thematische Gruppierung sinnvoll.In der Praxis finden Sie dies realisiert über Querverweise der Art "Diese Artikel könnten Sie auch interessieren". Eine solche Verlinkung themenverwandter Dokumente sorgt für weitere Transparenz in der Abbildung von Schwerpunkten. Erhalten bestimmte Dokumente mehr interne Links als andere, sind diese auch für Menschen leichter zu erreichen.Das PageRank-Konzept begünstigt solche Dokumente und setzt damit die erwähnten Schwerpunkte. Natürlich ist ein solcher Aufbau aber auch sonst wieder ganz im Sinne des Nutzers und unterstützt damit eine positive User Experience.

Mehr lesen

Chronologische Liste und Netflix-Links

Marvel-Filme- und -Serien: Das ist die richtige Reihenfolge

Neuerscheinungen in der Übersicht

Netflix: Neue Filme und Serien

Vorschau auf Film- und Serien-Highlights

Amazon Prime Video: Neuheiten

Weiter zur Startseite  

Mehr zum Thema

internet, webdesign, adobe,  Illustrator, CS6

Webdesign

Webdesign in Adobe Illustrator CS6

Adobe Illustrator wird im Webdesign immer beliebter. Wie Sie das Tool richtig einsetzen, erfahren Sie hier.

Facebook stellte die neue Suche

Facebook

Facebooks Social Graph Search

Was sind die Implikationen für Unternehmen und Endanwender bei Facebooks neuer Suche Graph Search?

Der BGH erklärt das Internet zur Lebensgrundlage.

Online-Recht

Darauf müssen Sie bei den AGB achten

Allgemeine Geschäftsbedingungen liest sich niemand gerne durch. Sie sind jedoch notwendig und äußerst sinnvoll. Worauf sie achten sollten.

Online-Urheberrecht: Unser Ratgeber bietet Tipps für das Cloud-Recht.

Online-Recht in der Cloud

Wie sieht das Urheberrecht in der Wolke aus?

Dateien werden immer häufiger in der Cloud bereitgestellt. Rechtlich ist das jedoch durchaus problematisch. Wir klären über das Urheberrecht in der…

Logistik im E-Commerce: Prozesse rund um die Logistik.

E-Commerce-Logistik

Logistik im E-Commerce

Für den Erfolg eines Online-Shops sind zahlreiche Faktoren verantwortlich. Neben Produktvielfalt und Darstellung der Waren gehört auch die Logistik.