Что такое robots.txt и как он работает
Файл /robots.txt — первое, что запрашивают большинство поисковых роботов перед сканированием сайта. Он содержит инструкции: какие разделы сканировать разрешено, а какие — нет. Стандарт описан в RFC 9309 (Robots Exclusion Protocol).
Файл состоит из блоков, каждый начинается с директивы User-agent (кому), за которой следуют Allow и Disallow (что):
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search?
Allow: /search/
User-agent: GPTBot
Disallow: /
Sitemap: https://example.com/sitemap_index.xml
* означает «все роботы». Конкретные User-agent переопределяют правила для отдельных ботов.
Ключевое ограничение: не путать краулинг и индексацию
robots.txt управляет краулингом — посещением страниц ботом. Он не управляет индексацией напрямую.
| Что нужно | Инструмент |
|---|---|
| Не сканировать страницу | Disallow в robots.txt |
| Не индексировать страницу | <meta name="noindex"> или X-Robots-Tag: noindex |
| И не сканировать, и не индексировать | Noindex-тег (robots.txt не поможет — бот не увидит мету, если заблокировал краулинг) |
Страница, закрытая Disallow, может попасть в индекс через внешние ссылки: Googlebot узнаёт о ней, но не посещает и индексирует как «URL без контента».
Что закрывать в e-commerce
Обязательно закрыть:
— /cart/, /checkout/, /account/, /login/ — технические страницы без SEO-ценности
— /search?q= — результаты внутреннего поиска создают тысячи дублирующих URL
— Параметры сортировки и фильтров, если порождают дубли (?sort=price, ?color=red&size=M)
— UTM-параметры (?utm_source=, ?utm_medium=)
Не закрывать:
— Категорийные страницы с SEO-ценностью
— Страницы товаров
— Статические лендинги, блог, кейсы
Важно: закрытие через robots.txt не избавляет от уже проиндексированных страниц. Для удаления существующих URL используйте инструмент удаления в Google Search Console или тег noindex.
robots.txt для ИИ-краулеров
В 2023–2025 годах появились боты от OpenAI, Anthropic, Perplexity, Apple и других ИИ-компаний. Они уважают robots.txt, но по умолчанию имеют право сканировать. Если вы хотите закрыть доступ к контенту для обучения LLM:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
Обратная стратегия (для AEO и GEO): явно разрешить AI-краулерам доступ к экспертному контенту — документации, кейсам, глоссариям — чтобы он цитировался в ответах ChatGPT, Perplexity, Claude.
Типичные ошибки
- Закрыть CSS/JS файлы. Если Googlebot не может загрузить стили и скрипты страницы — он не видит, как она рендерится, и может занизить её ранжирование.
- Закрыть весь сайт по ошибке.
Disallow: /блокирует всё сканирование — распространённая ошибка при настройке staging-окружения. Проверяйте robots.txt на prod и dev раздельно. - Считать robots.txt защитой. Файл публичен и доступен любому человеку по прямому URL. Конфиденциальный контент защищается аутентификацией, а не robots.txt.