Что такое robots.txt и как он работает

Файл /robots.txt — первое, что запрашивают большинство поисковых роботов перед сканированием сайта. Он содержит инструкции: какие разделы сканировать разрешено, а какие — нет. Стандарт описан в RFC 9309 (Robots Exclusion Protocol).

Файл состоит из блоков, каждый начинается с директивы User-agent (кому), за которой следуют Allow и Disallow (что):

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search?
Allow: /search/

User-agent: GPTBot
Disallow: /

Sitemap: https://example.com/sitemap_index.xml

* означает «все роботы». Конкретные User-agent переопределяют правила для отдельных ботов.

Ключевое ограничение: не путать краулинг и индексацию

robots.txt управляет краулингом — посещением страниц ботом. Он не управляет индексацией напрямую.

Что нужно Инструмент
Не сканировать страницу Disallow в robots.txt
Не индексировать страницу <meta name="noindex"> или X-Robots-Tag: noindex
И не сканировать, и не индексировать Noindex-тег (robots.txt не поможет — бот не увидит мету, если заблокировал краулинг)

Страница, закрытая Disallow, может попасть в индекс через внешние ссылки: Googlebot узнаёт о ней, но не посещает и индексирует как «URL без контента».

Что закрывать в e-commerce

Обязательно закрыть:
/cart/, /checkout/, /account/, /login/ — технические страницы без SEO-ценности
/search?q= — результаты внутреннего поиска создают тысячи дублирующих URL
— Параметры сортировки и фильтров, если порождают дубли (?sort=price, ?color=red&size=M)
— UTM-параметры (?utm_source=, ?utm_medium=)

Не закрывать:
— Категорийные страницы с SEO-ценностью
— Страницы товаров
— Статические лендинги, блог, кейсы

Важно: закрытие через robots.txt не избавляет от уже проиндексированных страниц. Для удаления существующих URL используйте инструмент удаления в Google Search Console или тег noindex.

robots.txt для ИИ-краулеров

В 2023–2025 годах появились боты от OpenAI, Anthropic, Perplexity, Apple и других ИИ-компаний. Они уважают robots.txt, но по умолчанию имеют право сканировать. Если вы хотите закрыть доступ к контенту для обучения LLM:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

Обратная стратегия (для AEO и GEO): явно разрешить AI-краулерам доступ к экспертному контенту — документации, кейсам, глоссариям — чтобы он цитировался в ответах ChatGPT, Perplexity, Claude.

Типичные ошибки

  • Закрыть CSS/JS файлы. Если Googlebot не может загрузить стили и скрипты страницы — он не видит, как она рендерится, и может занизить её ранжирование.
  • Закрыть весь сайт по ошибке. Disallow: / блокирует всё сканирование — распространённая ошибка при настройке staging-окружения. Проверяйте robots.txt на prod и dev раздельно.
  • Считать robots.txt защитой. Файл публичен и доступен любому человеку по прямому URL. Конфиденциальный контент защищается аутентификацией, а не robots.txt.