Что такое индексация и зачем она нужна
Поисковая система не показывает страницы «напрямую» — она работает с предварительно созданным индексом. Индекс — это гигантская база данных, где каждой странице соответствует набор ключевых слов, метрик авторитетности и технических характеристик.
Путь страницы в выдачу выглядит так:
Обнаружение → Краулинг → Рендеринг → Индексация → Ранжирование
↑ ↑ ↑ ↑
sitemap / Googlebot JavaScript Поисковый
внутренние скачивает HTML выполнен индекс
ссылки
Страница, не прошедшая любой из этапов, не попадёт в выдачу — независимо от качества контента.
Что мешает индексации
Технические блокировки
robots.txt — файл с инструкциями для ботов. Disallow: /page запрещает краулинг, но не гарантирует отсутствие в индексе (страница может быть проиндексирована по внешним ссылкам без посещения бота).
Мета-тег noindex — надёжный способ исключить страницу из индекса:
<meta name="robots" content="noindex, nofollow">
Проблемы с рендерингом — если контент генерируется JavaScript и бот не дождался его выполнения, страница попадёт в индекс как пустая.
Структурные проблемы
| Проблема | Описание | Решение |
|---|---|---|
| Страница-сирота | Нет входящих внутренних ссылок | Добавить ссылки из разделов сайта |
| Дублирование | Несколько URL с одинаковым контентом | Canonical-тег на мастер-версию |
| Пагинация | /page=2, /page=3 индексируются отдельно | rel=»canonical» или rel=»next/prev» |
| URL с параметрами | ?sort=price&filter=new — миллионы вариаций | Disallow в robots.txt на параметры |
Индексация в e-commerce: специфика
Интернет-магазины сталкиваются с уникальными проблемами:
Страницы фасетного поиска — /category?color=red&size=M&brand=Nike могут генерировать тысячи страниц с дублирующимся контентом. Их массовая индексация растрачивает crawl budget и создаёт дублирование.
Страницы товаров «не в наличии» — удалять из индекса или оставлять? Если товар временно отсутствует — оставлять. Если снят с продажи навсегда — 301-редирект на ближайший аналог или категорию.
Карточки товаров без описания — бот индексирует страницу с одним изображением и SKU. Ценности для SEO ноль, но расходует crawl budget.
Важно: в Яндексе и Google логика приоритизации индексации различается. Яндекс более консервативен: новые страницы могут ждать обхода дольше. Sitemap с
<lastmod>помогает ускорить переиндексацию при обновлении контента.
Мониторинг статуса индексации
Google Search Console — раздел «Охват» (Coverage): показывает количество проиндексированных страниц, исключённых и ошибок. «Проверка URL» позволяет проверить статус конкретной страницы.
Яндекс.Вебмастер — «Индексирование» → «Страницы в поиске» показывает историю изменений индекса. Инструмент «Переобход страниц» ускоряет обновление изменённых страниц.
Регулярный мониторинг позволяет вовремя заметить, если новые страницы перестали индексироваться или из индекса выпал важный раздел сайта.