Что такое краулинговый бюджет

Поисковые боты (Googlebot, Яндексбот) не могут сканировать весь интернет без ограничений — они распределяют ресурсы между сайтами. Краулинговый бюджет — это количество страниц, которое бот выделяет на конкретный сайт за период (обычно день или неделю).

Бюджет складывается из двух составляющих:
Crawl Rate Limit — как быстро бот сканирует сайт, не перегружая сервер.
Crawl Demand — насколько бот считает страницы ценными для сканирования (на основе авторитетности и частоты изменений).

Почему это важно для e-commerce

Интернет-магазин с 200 000 SKU генерирует миллионы URL через фасеты, сортировку, пагинацию и параметры. Если бот тратит большую часть бюджета на технические дубли, новые страницы товаров и категорий могут ждать индексации неделями.

Ситуация:
- Реальных страниц: 250 000
- Технических дублей (фасеты + сортировка): 1 800 000
- Краулинговый бюджет: 100 000 страниц/день
- Результат: новые товары ждут индексации 2–3 недели

Основные «пожиратели» краулингового бюджета

Источник Что порождает Решение
Фасетный поиск Тысячи URL ?color=red&size=M Canonical + noindex / robots.txt disallow
Пагинация /page/1, /page/2… Canonical на первую страницу или rel=prev/next
Параметры сортировки ?sort=price_asc Параметры URL в GSC → настроить как дубли
UTM и рекламные параметры ?utm_source=… Robots.txt disallow или canonical
Редиректы-цепочки 301→302→200 Сократить до одного перехода
Страницы результатов поиска /search?q=… Закрыть noindex

Важно: используйте Google Search Console → раздел «Устранение проблем с индексацией» для мониторинга того, какие страницы бот реально сканирует и как часто.

Как улучшить использование бюджета

  1. Закрыть технические URL через robots.txt или noindex — начните с параметрических страниц.
  2. Расставить canonical — на страницах с похожим контентом укажите, какой URL является каноничным.
  3. Оптимизировать скорость — бот сканирует быстрые сайты активнее; TTFB >1 сек снижает crawl rate.
  4. Обновлять sitemap — включайте только индексируемые, уникальные страницы с приоритетами.
  5. Ссылочная структура — страницы без внутренних ссылок (orphan pages) сканируются редко.