Aprender
Robots.txt: buenas prácticas para controlar el rastreo sin bloquear el SEO
Robots.txt controla el rastreo, no la indexación. Úsalo sin ocultar por accidente páginas importantes a los buscadores.
Ejecuta una auditoría nueva en DomainLens y usa el informe como lista de prioridades.
Qué hace realmente robots.txt
Robots.txt es un archivo de control de rastreo. Indica a los crawlers que respetan reglas qué rutas pueden solicitar, pero no elimina URL del índice por sí solo.
La diferencia importa. Una URL bloqueada en robots.txt puede descubrirse por enlaces y aparecer en búsqueda con información limitada. Para sacarla del índice usa noindex o redirecciones.
Reglas seguras
- Mantén el archivo disponible en /robots.txt y con respuesta 200.
- Declara el sitemap XML para que los crawlers encuentren antes las URL canónicas.
- Bloquea trampas de rastreo, búsquedas internas y combinaciones infinitas de parámetros.
- No bloquees CSS, JavaScript, imágenes ni recursos que Google necesita para renderizar.
Errores comunes
- Dejar Disallow: / de staging después del lanzamiento.
- Bloquear páginas que deberían transmitir señales canonical o noindex.
- Tratar robots.txt como una función de seguridad para URL privadas.
- Probar solo la home y no detectar plantillas bloqueadas más profundas.
Cómo validar cambios
Tras editar robots.txt, ejecuta una auditoría DomainLens e inspecciona URL importantes en Google Search Console. Página renderizada, canonical, sitemap y reglas robots deben decir lo mismo.
En sitios grandes, revisa logs del servidor tras desplegar. Un buen robots.txt reduce rastreo desperdiciado sin ocultar páginas que deben posicionar.