Что такое индексация и зачем она нужна

Поисковая система не показывает страницы «напрямую» — она работает с предварительно созданным индексом. Индекс — это гигантская база данных, где каждой странице соответствует набор ключевых слов, метрик авторитетности и технических характеристик.

Путь страницы в выдачу выглядит так:

Обнаружение → Краулинг → Рендеринг → Индексация → Ранжирование
     ↑               ↑           ↑            ↑
 sitemap /         Googlebot    JavaScript    Поисковый
внутренние      скачивает HTML  выполнен     индекс
  ссылки

Страница, не прошедшая любой из этапов, не попадёт в выдачу — независимо от качества контента.

Что мешает индексации

Технические блокировки

robots.txt — файл с инструкциями для ботов. Disallow: /page запрещает краулинг, но не гарантирует отсутствие в индексе (страница может быть проиндексирована по внешним ссылкам без посещения бота).

Мета-тег noindex — надёжный способ исключить страницу из индекса:

<meta name="robots" content="noindex, nofollow">

Проблемы с рендерингом — если контент генерируется JavaScript и бот не дождался его выполнения, страница попадёт в индекс как пустая.

Структурные проблемы

Проблема Описание Решение
Страница-сирота Нет входящих внутренних ссылок Добавить ссылки из разделов сайта
Дублирование Несколько URL с одинаковым контентом Canonical-тег на мастер-версию
Пагинация /page=2, /page=3 индексируются отдельно rel=»canonical» или rel=»next/prev»
URL с параметрами ?sort=price&filter=new — миллионы вариаций Disallow в robots.txt на параметры

Индексация в e-commerce: специфика

Интернет-магазины сталкиваются с уникальными проблемами:

Страницы фасетного поиска/category?color=red&size=M&brand=Nike могут генерировать тысячи страниц с дублирующимся контентом. Их массовая индексация растрачивает crawl budget и создаёт дублирование.

Страницы товаров «не в наличии» — удалять из индекса или оставлять? Если товар временно отсутствует — оставлять. Если снят с продажи навсегда — 301-редирект на ближайший аналог или категорию.

Карточки товаров без описания — бот индексирует страницу с одним изображением и SKU. Ценности для SEO ноль, но расходует crawl budget.

Важно: в Яндексе и Google логика приоритизации индексации различается. Яндекс более консервативен: новые страницы могут ждать обхода дольше. Sitemap с <lastmod> помогает ускорить переиндексацию при обновлении контента.

Мониторинг статуса индексации

Google Search Console — раздел «Охват» (Coverage): показывает количество проиндексированных страниц, исключённых и ошибок. «Проверка URL» позволяет проверить статус конкретной страницы.

Яндекс.Вебмастер — «Индексирование» → «Страницы в поиске» показывает историю изменений индекса. Инструмент «Переобход страниц» ускоряет обновление изменённых страниц.

Регулярный мониторинг позволяет вовремя заметить, если новые страницы перестали индексироваться или из индекса выпал важный раздел сайта.