Lernen
Robots.txt Best Practices: Crawling steuern, ohne SEO zu blockieren
Robots.txt steuert Crawling, nicht Indexierung. Nutzen Sie es, ohne wichtige Seiten versehentlich vor Suchmaschinen zu verstecken.
Starte ein frisches DomainLens-Audit und nutze den Report als Prioritätenliste.
Was robots.txt wirklich macht
Robots.txt ist eine Datei zur Crawl-Steuerung. Sie sagt kooperativen Crawlern, welche Pfade angefragt werden dürfen, entfernt URLs aber nicht selbst aus dem Index.
Dieser Unterschied ist entscheidend. Eine in robots.txt blockierte URL kann über Links entdeckt und mit wenig Information in der Suche erscheinen. Für Indexentfernung nutzen Sie noindex oder Weiterleitungen.
Sichere Regeln
- Die Datei sollte unter /robots.txt erreichbar sein und 200 zurückgeben.
- Deklarieren Sie die XML-Sitemap, damit Crawler Canonical-URLs schneller finden.
- Blockieren Sie Crawl-Traps, interne Suche und endlose Parameterkombinationen.
- Blockieren Sie kein CSS, JavaScript, keine Bilder und keine Ressourcen, die Google fürs Rendering braucht.
Häufige Fehler
- Disallow: / aus der Staging-Umgebung nach dem Launch stehen lassen.
- Seiten blockieren, die Canonical- oder Noindex-Signale liefern sollen.
- Robots.txt als Sicherheitsfunktion für private URLs betrachten.
- Nur die Startseite testen und blockierte Templates tiefer im System übersehen.
Änderungen validieren
Nach Änderungen starten Sie ein DomainLens-Audit und prüfen wichtige URLs in der Google Search Console. Gerenderte Seite, Canonical-Ziel, Sitemap und Robots-Regeln sollten zusammenpassen.
Bei großen Seiten lohnt ein Blick in Serverlogs. Eine gute robots.txt reduziert unnötiges Crawling, ohne rankende Seiten zu verstecken.