Что такое краулинговый бюджет
Поисковые боты (Googlebot, Яндексбот) не могут сканировать весь интернет без ограничений — они распределяют ресурсы между сайтами. Краулинговый бюджет — это количество страниц, которое бот выделяет на конкретный сайт за период (обычно день или неделю).
Бюджет складывается из двух составляющих:
— Crawl Rate Limit — как быстро бот сканирует сайт, не перегружая сервер.
— Crawl Demand — насколько бот считает страницы ценными для сканирования (на основе авторитетности и частоты изменений).
Почему это важно для e-commerce
Интернет-магазин с 200 000 SKU генерирует миллионы URL через фасеты, сортировку, пагинацию и параметры. Если бот тратит большую часть бюджета на технические дубли, новые страницы товаров и категорий могут ждать индексации неделями.
Ситуация:
- Реальных страниц: 250 000
- Технических дублей (фасеты + сортировка): 1 800 000
- Краулинговый бюджет: 100 000 страниц/день
- Результат: новые товары ждут индексации 2–3 недели
Основные «пожиратели» краулингового бюджета
| Источник | Что порождает | Решение |
|---|---|---|
| Фасетный поиск | Тысячи URL ?color=red&size=M | Canonical + noindex / robots.txt disallow |
| Пагинация | /page/1, /page/2… | Canonical на первую страницу или rel=prev/next |
| Параметры сортировки | ?sort=price_asc | Параметры URL в GSC → настроить как дубли |
| UTM и рекламные параметры | ?utm_source=… | Robots.txt disallow или canonical |
| Редиректы-цепочки | 301→302→200 | Сократить до одного перехода |
| Страницы результатов поиска | /search?q=… | Закрыть noindex |
Важно: используйте Google Search Console → раздел «Устранение проблем с индексацией» для мониторинга того, какие страницы бот реально сканирует и как часто.
Как улучшить использование бюджета
- Закрыть технические URL через robots.txt или noindex — начните с параметрических страниц.
- Расставить canonical — на страницах с похожим контентом укажите, какой URL является каноничным.
- Оптимизировать скорость — бот сканирует быстрые сайты активнее; TTFB >1 сек снижает crawl rate.
- Обновлять sitemap — включайте только индексируемые, уникальные страницы с приоритетами.
- Ссылочная структура — страницы без внутренних ссылок (orphan pages) сканируются редко.