DomainLens

Apprendre

Robots.txt : bonnes pratiques pour contrôler le crawl sans bloquer le SEO

Robots.txt contrôle le crawl, pas l’indexation. Utilisez-le sans masquer accidentellement des pages importantes.

Vérifiez votre site avant de corriger

Lancez un audit DomainLens frais et utilisez le rapport comme liste de priorités.

Lancer un audit SEO gratuit

Ce que fait vraiment robots.txt

Robots.txt est un fichier de contrôle du crawl. Il indique aux crawlers respectueux quels chemins ils peuvent demander, mais il ne retire pas les URL de l’index à lui seul.

Cette nuance est essentielle. Une URL bloquée dans robots.txt peut être découverte via des liens et apparaître en recherche avec peu d’informations. Pour retirer une page de l’index, utilisez noindex ou une redirection.

Règles sûres

  • Gardez le fichier disponible sur /robots.txt avec une réponse 200.
  • Déclarez le sitemap XML pour aider les crawlers à trouver les URL canoniques.
  • Bloquez les pièges de crawl, recherches internes et combinaisons infinies de paramètres.
  • Ne bloquez pas CSS, JavaScript, images ou ressources nécessaires au rendu.

Erreurs fréquentes

  • Laisser Disallow: / après la mise en production.
  • Bloquer des pages qui doivent transmettre des signaux canonical ou noindex.
  • Considérer robots.txt comme une protection pour des URL privées.
  • Tester seulement la page d’accueil et manquer des templates bloqués plus profonds.

Valider les changements

Après modification, lancez un audit DomainLens et inspectez les URL importantes dans Google Search Console. La page rendue, la canonical, le sitemap et les règles robots doivent être cohérents.

Sur les grands sites, consultez les logs serveur après déploiement. Un bon robots.txt réduit le crawl inutile sans cacher les pages qui doivent se classer.

Ressources associées