Apprendre
Robots.txt : bonnes pratiques pour contrôler le crawl sans bloquer le SEO
Robots.txt contrôle le crawl, pas l’indexation. Utilisez-le sans masquer accidentellement des pages importantes.
Lancez un audit DomainLens frais et utilisez le rapport comme liste de priorités.
Ce que fait vraiment robots.txt
Robots.txt est un fichier de contrôle du crawl. Il indique aux crawlers respectueux quels chemins ils peuvent demander, mais il ne retire pas les URL de l’index à lui seul.
Cette nuance est essentielle. Une URL bloquée dans robots.txt peut être découverte via des liens et apparaître en recherche avec peu d’informations. Pour retirer une page de l’index, utilisez noindex ou une redirection.
Règles sûres
- Gardez le fichier disponible sur /robots.txt avec une réponse 200.
- Déclarez le sitemap XML pour aider les crawlers à trouver les URL canoniques.
- Bloquez les pièges de crawl, recherches internes et combinaisons infinies de paramètres.
- Ne bloquez pas CSS, JavaScript, images ou ressources nécessaires au rendu.
Erreurs fréquentes
- Laisser Disallow: / après la mise en production.
- Bloquer des pages qui doivent transmettre des signaux canonical ou noindex.
- Considérer robots.txt comme une protection pour des URL privées.
- Tester seulement la page d’accueil et manquer des templates bloqués plus profonds.
Valider les changements
Après modification, lancez un audit DomainLens et inspectez les URL importantes dans Google Search Console. La page rendue, la canonical, le sitemap et les règles robots doivent être cohérents.
Sur les grands sites, consultez les logs serveur après déploiement. Un bon robots.txt réduit le crawl inutile sans cacher les pages qui doivent se classer.