🔍 SEO / GEO

robots.txt

robots.txt · файл robots · директивы краулера

Определение

robots.txt — стандартный текстовый файл в корне сайта, содержащий директивы Allow/Disallow для поисковых и иных ботов, регулирующий доступ к разделам сайта при краулинге.

Что такое robots.txt и как он работает

Файл /robots.txt — первое, что запрашивают большинство поисковых роботов перед сканированием сайта. Он содержит инструкции: какие разделы сканировать разрешено, а какие — нет. Стандарт описан в RFC 9309 (Robots Exclusion Protocol).

Файл состоит из блоков, каждый начинается с директивы User-agent (кому), за которой следуют Allow и Disallow (что):

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search?
Allow: /search/

User-agent: GPTBot
Disallow: /

Sitemap: https://example.com/sitemap_index.xml

* означает «все роботы». Конкретные User-agent переопределяют правила для отдельных ботов.

Ключевое ограничение: не путать краулинг и индексацию

robots.txt управляет краулингом — посещением страниц ботом. Он не управляет индексацией напрямую.

Что нужно	Инструмент
Не сканировать страницу	Disallow в robots.txt
Не индексировать страницу	`<meta name="noindex">` или `X-Robots-Tag: noindex`
И не сканировать, и не индексировать	Noindex-тег (robots.txt не поможет — бот не увидит мету, если заблокировал краулинг)

Страница, закрытая Disallow, может попасть в индекс через внешние ссылки: Googlebot узнаёт о ней, но не посещает и индексирует как «URL без контента».

Что закрывать в e-commerce

Обязательно закрыть:
— /cart/, /checkout/, /account/, /login/ — технические страницы без SEO-ценности
— /search?q= — результаты внутреннего поиска создают тысячи дублирующих URL
— Параметры сортировки и фильтров, если порождают дубли (?sort=price, ?color=red&size=M)
— UTM-параметры (?utm_source=, ?utm_medium=)

Не закрывать:
— Категорийные страницы с SEO-ценностью
— Страницы товаров
— Статические лендинги, блог, кейсы

Важно: закрытие через robots.txt не избавляет от уже проиндексированных страниц. Для удаления существующих URL используйте инструмент удаления в Google Search Console или тег noindex.

robots.txt для ИИ-краулеров

В 2023–2025 годах появились боты от OpenAI, Anthropic, Perplexity, Apple и других ИИ-компаний. Они уважают robots.txt, но по умолчанию имеют право сканировать. Если вы хотите закрыть доступ к контенту для обучения LLM:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

Обратная стратегия (для AEO и GEO): явно разрешить AI-краулерам доступ к экспертному контенту — документации, кейсам, глоссариям — чтобы он цитировался в ответах ChatGPT, Perplexity, Claude.

Типичные ошибки

Закрыть CSS/JS файлы. Если Googlebot не может загрузить стили и скрипты страницы — он не видит, как она рендерится, и может занизить её ранжирование.
Закрыть весь сайт по ошибке. Disallow: / блокирует всё сканирование — распространённая ошибка при настройке staging-окружения. Проверяйте robots.txt на prod и dev раздельно.
Считать robots.txt защитой. Файл публичен и доступен любому человеку по прямому URL. Конфиденциальный контент защищается аутентификацией, а не robots.txt.

Частые вопросы

Блокирует ли robots.txt страницы от индексации?

Нет. robots.txt управляет краулингом (сканированием), но не индексацией. Страница, закрытая Disallow, может попасть в индекс через обратные ссылки — Googlebot узнает о ней, но не посетит. Чтобы исключить страницу из индекса, нужен тег noindex в мете или заголовке X-Robots-Tag, а не robots.txt.

Что закрывать в robots.txt для e-commerce?

Технические страницы без ценности для SEO: корзина, чекаут, личный кабинет, страницы входа. URL с параметрами, порождающие дубли: сортировка (?sort=price), фильтры с пустой выдачей, UTM-метки. Внутренний поиск (/search?q=...). Пагинация после определённой глубины (опционально).

Как настроить robots.txt для ИИ-краулеров?

GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot и другие ИИ-агрегаторы уважают robots.txt. Для закрытия достаточно: `User-agent: GPTBot` → `Disallow: /`. Это актуально для контента, который не хотите использовать для обучения LLM. Для AEO и GEO-стратегии, наоборот, открывайте AI-краулерам доступ к ценным материалам.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →