robots.txt
Einführung
Die robots.txt-Datei ist eine Textdatei im Stammverzeichnis einer Website. Sie dient dazu, Webcrawlern und Bots Anweisungen zu geben, welche Bereiche der Website sie crawlen dürfen und welche nicht. Obwohl sie ein mächtiges Werkzeug für die Steuerung von Crawlern ist, handelt es sich lediglich um Empfehlungen, die von gutartigen Bots respektiert werden.
Funktionalität von robots.txt
Syntax und Regeln
Die robots.txt-Datei verwendet ein einfaches Syntaxformat. Jede Regel besteht aus einem oder mehreren User-Agent-Zeilen, gefolgt von einer oder mehreren Anweisungen wie Disallow oder Allow.
User-Agent-Spezifikation
Die User-agent-Zeile spezifiziert, auf welchen Crawler sich die nachfolgenden Anweisungen beziehen. Zum Beispiel:
User-agent: *
Dieser Eintrag richtet sich an alle Crawler.
Disallow- und Allow-Direktiven
Die Disallow-Direktive gibt an, welche Pfade nicht gecrawlt werden dürfen. Die Allow-Direktive erlaubt spezifische Unterpfade trotz einer generellen Disallow-Anweisung.
Beispiel:
User-agent: *
Disallow: /private/
Allow: /private/public-info.html
Crawl-delay-Direktive
Die Crawl-delay-Anweisung steuert die Zeit in Sekunden, die ein Crawler zwischen Anfragen warten soll. Allerdings wird diese Anweisung nicht von allen Crawlern unterstützt.
Best Practices
Platzierung und Zugänglichkeit
Die robots.txt-Datei muss im Stammverzeichnis der Website liegen und unter https://www.example.com/robots.txt erreichbar sein.
Testing von robots.txt
Es ist ratsam, die robots.txt-Einstellungen mit Tools wie der Google Search Console oder anderen Validatoren zu testen, um sicherzustellen, dass die Anweisungen korrekt interpretiert werden.
Einschränkungen und Überlegungen
- Nicht verpflichtend: Die Einhaltung der
robots.txt-Anweisungen ist freiwillig. Bösartige Crawler können die Regeln ignorieren. - Sicherheitsrisiken: Sensible Informationen sollten nicht durch
Disallowverborgen werden, da die Pfade dennoch öffentlich sind. - Noindex: Um Seiten aus Suchergebnissen zu entfernen, sollte das
noindex-Meta-Tag verwendet werden, daDisallowallein nicht ausreichend ist.