🔍 SEO / GEO

Краулинг

Crawling · сканирование · обход сайта · web crawling

Определение

Краулинг — автоматизированный процесс обхода страниц сайта поисковым роботом по гиперссылкам с целью сбора контента для последующей индексации.

Как работает краулинг

Поисковый бот (Googlebot, Яндекс.Бот) начинает с набора известных URL — своеобразного «посевного» списка. Переходя по ссылкам со страницы на страницу, он скачивает HTML, фиксирует статус-коды (200, 301, 404, 500) и передаёт контент системе индексирования. Весь этот процесс — краулинг.

Скорость обхода регулируется: бот отслеживает скорость ответа сервера и снижает частоту запросов, если сайт отвечает медленно. Google делает это автоматически, Яндекс допускает ручную настройку через Яндекс.Вебмастер.

Что влияет на эффективность краулинга в e-commerce

У крупного интернет-магазина потенциально миллионы URL — товары, фильтры, сортировки, пагинация, параметрические комбинации. Если не управлять краулингом, бот распыляет бюджет на малоценные страницы и не успевает добраться до новых товаров или важных категорий.

Основные факторы:

Фактор	Влияние на краулинг
Скорость ответа сервера	Низкий TTFB замедляет обход и сокращает бюджет
Redirect-цепочки	Каждый редирект тратит бюджет, 3+ редиректа подряд бот может проигнорировать
Внутренняя перелинковка	Страницы без входящих ссылок бот «не видит»
XML Sitemap	Помогает ботам найти новые и обновлённые URL быстрее
Параметрические URL	Тысячи ?sort=price&color=red создают дубли — нужно закрывать через robots.txt или canonical

Управление crawl-зоной

Не все страницы нужно сканировать. Исключайте из краулинга:

Страницы фильтров и сортировки (?sort=, ?page=, ?color=)
Корзину, личный кабинет, чекаут
Технические эндпоинты (/api/, /admin/)
Дублирующиеся версии контента (print-версии, amp-дубли)

Инструменты управления: robots.txt (запрет на уровне URL-шаблона), мета-тег noindex (позволить сканирование, но не индексировать), canonical (сигнал о предпочтительном URL при дублировании).

Типичные проблемы

Бот застревает в ловушке. Динамически генерируемые страницы (например, поиск по запросу или бесконечная пагинация) могут создать сотни тысяч URL. Закрывайте их в robots.txt.

JavaScript-контент не виден. Рекомендательные виджеты, цены и описания, загружаемые через JS после инициализации страницы, бот получит с задержкой — или не получит вовсе. Критически важный контент должен присутствовать в начальном HTML-ответе.

Страницы новых товаров не обходятся вовремя. Решение: добавить раздел <url> в Sitemap с <lastmod> при публикации нового товара — это приоритет для бота.

Важно: краулинг — не то же самое, что индексация. Просканированная страница может не попасть в индекс, если её контент расценён как дублирующий или низкокачественный. Проверяйте статус конкретных URL в Google Search Console и Яндекс.Вебмастер.

Частые вопросы

Чем краулинг отличается от индексации?

Краулинг — это сбор контента ботом. Индексация — обработка собранного контента и добавление страниц в поисковую базу. Краулинг предшествует индексации, но не гарантирует её — страница может быть просканирована, но не проиндексирована (например, из-за тега noindex или низкого качества контента).

Что такое краулинговый бюджет и почему он важен для e-commerce?

Краулинговый бюджет — лимит страниц, которые бот готов обходить за единицу времени. Для крупного интернет-магазина с миллионами SKU это критично — если бот тратит бюджет на фильтры, параметрические URL и дубли, он может не добраться до новых товаров. Управляйте бюджетом через robots.txt, canonical и правильную внутреннюю перелинковку.

Как ускорить краулинг сайта?

Ускорить краулинг помогают быстрый ответ сервера (TTFB < 200 мс), простая структура ссылок без глубоких вложенностей, минимум redirect-цепочек и корректный XML-sitemap. Уберите из crawl-зоны параметрические и дублирующие URL через robots.txt или теги noindex.

Могут ли JavaScript-рендеринг и SPA навредить краулингу?

Да. Если контент загружается через JS после первоначальной отрисовки, бот может не дождаться его и зафиксировать пустую страницу. Googlebot умеет рендерить JS, но в очереди — с задержкой в дни и недели. Критически важный контент должен присутствовать в начальном HTML.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →