Die robots.txt ist ein mächtiges Hilfsmittel, wenn es darum geht, die Indexierung der eigenen Webseite durch Suchmaschinen effektiv zu steuern. Wie kann man bei WordPress eine robots.txt erstellen und bearbeiten? Das erklären wir hier.
Inhaltsverzeichnis
Was ist eigentlich eine robots.txt?
Jede Webseite sollte sie besitzen — die robots.txt. Dabei handelt es sich um eine Textdatei im Hauptverzeichnis einer Webseite, über die der Crawler einer Suchmaschine zentral gesteuert werden kann. So ist es beispielsweise möglich, einzelne Dateien, Verzeichnisse oder die gesamte Webseite bei Google, Bing und Co. auszuschließen. Auch die Steuerung der verschiedenen Crawler kann über die robots.txt realisiert werden, möchte man beispielsweise nur den Bing-Bot auf seiner Webseite zulassen und Google gänzlich aussperren.
Außerdem kann ein Verweis auf die XML-Sitemap, sofern vorhanden, in der robots.txt gesetzt werden, um dem Crawler mitzuteilen, wo sich die Sitemap befindet. Diese Angabe ist zwar nicht zwingend notwendig, doch bekanntlich möchte man es dem Crawler stets möglichst machen.
WordPress und die robots.txt
Seit Version 3.6.1 verfügt WordPress ebenfalls standardmäßig über eine robots.txt. Wer im Hauptverzeichnis seiner Installation sucht, wird allerdings nicht fündig. Das ist der Tatsache geschuldet, dass WordPress mit einer „virtuellen“ robots.txt arbeitet, auf die man so ohne Weiteres keinen Zugriff hat. Diese wird über die wp-functions.php erstellt und ausgeliefert. Doch selbstverständlich gibt es diverse Mittel und Wege, die robots.txt zu modifizieren oder die Datei gegen eine eigens erstellte robots.txt zu ersetzen.
„Ab Werk“ ist der Inhalt der virtuellen Robots.txt von WordPress sehr dürftig. Das ist auch nicht weiter schlimm — im Gegenteil. Natürlich sollten sich in dieser Datei nur Regeln befinden, die auch wirklich sinnvoll sind und benötigt werden. Je mehr Regeln, desto höher ist auch das Fehlerrisiko. So sieht die robots.txt üblicherweise aus:
Grundlagen der robots.txt
Am Beispiel der obigen Standard-Robots.txt von WordPress möchten wir kurz noch auf die Basics einer solchen Datei eingehen, um für etwas mehr Verständnis zu sorgen.
- User-Agent: Damit ist der Crawler gemeint, also z.B. ein Suchmaschinen-Bot. Ein Stern-Symbol (*) hinter dieser Anweisung bedeutet, dass die nachfolgenden Regeln für alle User-Agents gelten.
- Disallow: Dateien oder Pfade hinter dieser Anweisung sind für die zuvor spezifizierten User-Agents nicht zugänglich und werden ignoriert. Im Falle der WordPress-Robots würde also das Backend ausgeschlossen werden — durchaus sinnvoll, immerhin muss das nicht bei Google zu finden sein.
- Allow: Dateien oder Pfade hinter dieser Anweisung sind für die zuvor spezifizierten User-Agents zugänglich.
Tipp: Anders als noch vor einigen Jahren, sollten etwaige Assets einer Webseite wie Scripte und CSS-Dateien nicht mehr mittels robots.txt ausgeschlossen werden. Zum einen ist es so, dass Google diese Art von Dateien gar nicht indexiert. Der eigentliche Grund ist aber, dass der Google Crawler inzwischen in der Lage, nicht mehr nur Text zu erkennen und zu lesen. Inzwischen rendert der Crawler die Webseite wie ein normaler Browser. Somit kann sich Google ein Bild von der Webseite machen — wie sieht die Webseite aus, wie nutzerfreundlich ist die Webseite. Das sollte man natürlich nicht unterbinden.
WordPress: eigene robots.txt erstellen
Die wohl einfachste Möglichkeit, Einfluss auf die robots.txt zu nehmen, ist es, eine robots.txt-Datei mit dem Editor seiner Wahl zu erstellen und im Hauptverzeichnis der WordPress-Installation abzulegen. Damit wird die „virtuelle“ Datei, die WordPress sonst ausliefert, überschrieben. Voraussetzung ist Zugang zum Filesystem des Webservers mittels SFTP oder FTP.
Die Vor- und Nachteile liegen auf der Hand: Auf der einen Seite hat man damit uneingeschränkten Zugriff auf den Inhalt der robots.txt, auf der anderen Seite erfolgt keine dynamische Befüllung mehr seitens WordPress. Einige Plugins und WordPress selbst nehmen bekanntlich Einfluss auf den Inhalt der robots.txt, was im Falle einer eigenen, statischen Datei nicht mehr gewährleistet wird. Etwaige Einträge — beispielsweise der Hinweis auf eine Sitemap — müssen dann stets selbst ergänzt werden, womit man sich allerdings auch sicher über den tatsächlichen Inhalt der robots-File sein kann.
Robots.txt im Backend bearbeiten
Wer beispielsweise das SEO-Plugin Yoast verwendet, hat darüber hinaus die Möglichkeit, die robots.txt über das WordPress-Backend zu erstellen und zu bearbeiten. Das ist mittels mit Yoast-eigenen Datei-Editor möglich, über den man z.B. auch die .htaccess Datei bearbeiten kann. Der Datei Editor findet sich unter SEO -> Werkzeuge -> Datei-Editor. Übrigens: Im Datei-Editor erscheint der Hinweis „Du hast keine robots.txt Datei, erstelle hier eine“. Das bedeutet natürlich nicht, dass die Webseite nicht über eine robots.txt verfügt — nur gibt es bislang eben lediglich die WordPress-eigene, virtuelle Datei.
Auch einige Plugins zum Bearbeiten der robots.txt finden sich im offiziellen Plugin-Pool von WordPress. Ein häufig genutztes Plugin hört auf den Namen „Virtual Robots.txt“.
WordPress robots.txt bearbeiten — Fazit
Wer die robots.txt bearbeiten möchte, sollte dies auf manuellem Wege machen und die virtuelle File von WordPress überschreiben — unsere Empfehlung. Von der Verwendung von Plugins für diese Tätigkeit möchten wir an dieser Stelle aufgrund der Brisanz der robots.txt abraten.
Ein kleiner Fehler kann dazu führen, dass die gesamte Webseite nicht mehr bei Google gefunden wird. Daher empfehlen wir diese wichtige Datei nicht über ein Plugin zu steuern.