Как работает краулинг

Поисковый бот (Googlebot, Яндекс.Бот) начинает с набора известных URL — своеобразного «посевного» списка. Переходя по ссылкам со страницы на страницу, он скачивает HTML, фиксирует статус-коды (200, 301, 404, 500) и передаёт контент системе индексирования. Весь этот процесс — краулинг.

Скорость обхода регулируется: бот отслеживает скорость ответа сервера и снижает частоту запросов, если сайт отвечает медленно. Google делает это автоматически, Яндекс допускает ручную настройку через Яндекс.Вебмастер.

Что влияет на эффективность краулинга в e-commerce

У крупного интернет-магазина потенциально миллионы URL — товары, фильтры, сортировки, пагинация, параметрические комбинации. Если не управлять краулингом, бот распыляет бюджет на малоценные страницы и не успевает добраться до новых товаров или важных категорий.

Основные факторы:

Фактор Влияние на краулинг
Скорость ответа сервера Низкий TTFB замедляет обход и сокращает бюджет
Redirect-цепочки Каждый редирект тратит бюджет, 3+ редиректа подряд бот может проигнорировать
Внутренняя перелинковка Страницы без входящих ссылок бот «не видит»
XML Sitemap Помогает ботам найти новые и обновлённые URL быстрее
Параметрические URL Тысячи ?sort=price&color=red создают дубли — нужно закрывать через robots.txt или canonical

Управление crawl-зоной

Не все страницы нужно сканировать. Исключайте из краулинга:

  • Страницы фильтров и сортировки (?sort=, ?page=, ?color=)
  • Корзину, личный кабинет, чекаут
  • Технические эндпоинты (/api/, /admin/)
  • Дублирующиеся версии контента (print-версии, amp-дубли)

Инструменты управления: robots.txt (запрет на уровне URL-шаблона), мета-тег noindex (позволить сканирование, но не индексировать), canonical (сигнал о предпочтительном URL при дублировании).

Типичные проблемы

Бот застревает в ловушке. Динамически генерируемые страницы (например, поиск по запросу или бесконечная пагинация) могут создать сотни тысяч URL. Закрывайте их в robots.txt.

JavaScript-контент не виден. Рекомендательные виджеты, цены и описания, загружаемые через JS после инициализации страницы, бот получит с задержкой — или не получит вовсе. Критически важный контент должен присутствовать в начальном HTML-ответе.

Страницы новых товаров не обходятся вовремя. Решение: добавить раздел <url> в Sitemap с <lastmod> при публикации нового товара — это приоритет для бота.

Важно: краулинг — не то же самое, что индексация. Просканированная страница может не попасть в индекс, если её контент расценён как дублирующий или низкокачественный. Проверяйте статус конкретных URL в Google Search Console и Яндекс.Вебмастер.