Навчання
Robots.txt best practices: керуй crawling без шкоди для SEO
Robots.txt керує crawling, а не індексацією. Цей гайд пояснює, як не заблокувати важливі сторінки для пошуковиків.
Запусти свіжий аудит DomainLens і використовуй звіт як список пріоритетів.
Що насправді робить robots.txt
Robots.txt — це файл для контролю crawling. Він каже сумлінним crawlers, які paths можна запитувати, але сам по собі не видаляє URL з індексу.
Це важлива різниця. URL, заблокований у robots.txt, усе одно можуть знайти через посилання й показати в пошуку з обмеженою інформацією. Для видалення з індексу використовуй noindex або redirects.
Безпечні правила
- Файл має бути доступний за /robots.txt і повертати 200 response.
- Додай XML sitemap, щоб crawlers швидше знаходили canonical URLs.
- Блокуй crawl traps, internal search pages і нескінченні parameter combinations.
- Не блокуй CSS, JavaScript, images або rendered resources, які Google потрібні для оцінки сторінки.
Типові помилки
- Залишити Disallow: / зі staging після запуску.
- Блокувати сторінки, які мають передати canonical або noindex signals.
- Вважати robots.txt security feature для приватних URL.
- Тестувати тільки homepage і не помітити заблоковані templates глибше на сайті.
Як перевірити зміни
Після редагування robots.txt запусти свіжий DomainLens audit і перевір важливі URL у Google Search Console. Rendered page, canonical target, sitemap і robots rules мають не суперечити одне одному.
Для великих сайтів після деплою переглянь server logs. Хороший robots.txt зменшує wasted crawling, але не ховає сторінки, які мають ранжуватися.