Как работает краулинг
Поисковый бот (Googlebot, Яндекс.Бот) начинает с набора известных URL — своеобразного «посевного» списка. Переходя по ссылкам со страницы на страницу, он скачивает HTML, фиксирует статус-коды (200, 301, 404, 500) и передаёт контент системе индексирования. Весь этот процесс — краулинг.
Скорость обхода регулируется: бот отслеживает скорость ответа сервера и снижает частоту запросов, если сайт отвечает медленно. Google делает это автоматически, Яндекс допускает ручную настройку через Яндекс.Вебмастер.
Что влияет на эффективность краулинга в e-commerce
У крупного интернет-магазина потенциально миллионы URL — товары, фильтры, сортировки, пагинация, параметрические комбинации. Если не управлять краулингом, бот распыляет бюджет на малоценные страницы и не успевает добраться до новых товаров или важных категорий.
Основные факторы:
| Фактор | Влияние на краулинг |
|---|---|
| Скорость ответа сервера | Низкий TTFB замедляет обход и сокращает бюджет |
| Redirect-цепочки | Каждый редирект тратит бюджет, 3+ редиректа подряд бот может проигнорировать |
| Внутренняя перелинковка | Страницы без входящих ссылок бот «не видит» |
| XML Sitemap | Помогает ботам найти новые и обновлённые URL быстрее |
| Параметрические URL | Тысячи ?sort=price&color=red создают дубли — нужно закрывать через robots.txt или canonical |
Управление crawl-зоной
Не все страницы нужно сканировать. Исключайте из краулинга:
- Страницы фильтров и сортировки (
?sort=,?page=,?color=) - Корзину, личный кабинет, чекаут
- Технические эндпоинты (
/api/,/admin/) - Дублирующиеся версии контента (print-версии, amp-дубли)
Инструменты управления: robots.txt (запрет на уровне URL-шаблона), мета-тег noindex (позволить сканирование, но не индексировать), canonical (сигнал о предпочтительном URL при дублировании).
Типичные проблемы
Бот застревает в ловушке. Динамически генерируемые страницы (например, поиск по запросу или бесконечная пагинация) могут создать сотни тысяч URL. Закрывайте их в robots.txt.
JavaScript-контент не виден. Рекомендательные виджеты, цены и описания, загружаемые через JS после инициализации страницы, бот получит с задержкой — или не получит вовсе. Критически важный контент должен присутствовать в начальном HTML-ответе.
Страницы новых товаров не обходятся вовремя. Решение: добавить раздел <url> в Sitemap с <lastmod> при публикации нового товара — это приоритет для бота.
Важно: краулинг — не то же самое, что индексация. Просканированная страница может не попасть в индекс, если её контент расценён как дублирующий или низкокачественный. Проверяйте статус конкретных URL в Google Search Console и Яндекс.Вебмастер.