robots.txt

Einführung

Die robots.txt-Datei ist eine Textdatei im Stammverzeichnis einer Website. Sie dient dazu, Webcrawlern und Bots Anweisungen zu geben, welche Bereiche der Website sie crawlen dürfen und welche nicht. Obwohl sie ein mächtiges Werkzeug für die Steuerung von Crawlern ist, handelt es sich lediglich um Empfehlungen, die von gutartigen Bots respektiert werden.

Funktionalität von robots.txt

Syntax und Regeln

Die robots.txt-Datei verwendet ein einfaches Syntaxformat. Jede Regel besteht aus einem oder mehreren User-Agent-Zeilen, gefolgt von einer oder mehreren Anweisungen wie Disallow oder Allow.

User-Agent-Spezifikation

Die User-agent-Zeile spezifiziert, auf welchen Crawler sich die nachfolgenden Anweisungen beziehen. Zum Beispiel:

User-agent: *

Dieser Eintrag richtet sich an alle Crawler.

Disallow- und Allow-Direktiven

Die Disallow-Direktive gibt an, welche Pfade nicht gecrawlt werden dürfen. Die Allow-Direktive erlaubt spezifische Unterpfade trotz einer generellen Disallow-Anweisung.

Beispiel:

User-agent: *
Disallow: /private/
Allow: /private/public-info.html

Crawl-delay-Direktive

Die Crawl-delay-Anweisung steuert die Zeit in Sekunden, die ein Crawler zwischen Anfragen warten soll. Allerdings wird diese Anweisung nicht von allen Crawlern unterstützt.

Best Practices

Platzierung und Zugänglichkeit

Die robots.txt-Datei muss im Stammverzeichnis der Website liegen und unter https://www.example.com/robots.txt erreichbar sein.

Testing von robots.txt

Es ist ratsam, die robots.txt-Einstellungen mit Tools wie der Google Search Console oder anderen Validatoren zu testen, um sicherzustellen, dass die Anweisungen korrekt interpretiert werden.

Einschränkungen und Überlegungen

  • Nicht verpflichtend: Die Einhaltung der robots.txt-Anweisungen ist freiwillig. Bösartige Crawler können die Regeln ignorieren.
  • Sicherheitsrisiken: Sensible Informationen sollten nicht durch Disallow verborgen werden, da die Pfade dennoch öffentlich sind.
  • Noindex: Um Seiten aus Suchergebnissen zu entfernen, sollte das noindex-Meta-Tag verwendet werden, da Disallow allein nicht ausreichend ist.

Tags

Gehacktes-Overview