Почему имплицитные, а не эксплицитные

Netflix и Amazon давно решили одну проблему: пользователи смотрят фильмы и покупают товары охотно, но оценивают их редко. По данным исследований, явные оценки оставляют менее 1% пользователей. На таком объёме данных рекомендательную модель не обучить.

Имплицитные сигналы решают проблему охвата: каждый визит, каждый клик, каждый просмотр — это данные. Их на несколько порядков больше, чем явных оценок, и они не требуют от пользователя никаких действий.

Иерархия сигналов в e-commerce

Не все имплицитные сигналы одинаково ценны. Практическая иерархия по силе сигнала:

Сигнал Интерпретация Вес
Покупка Максимальный интерес ★★★★★
Добавление в корзину Сильный интерес ★★★★☆
Добавление в вишлист Интерес без готовности купить ★★★☆☆
Длинный просмотр (>15 с) Изучение товара ★★★☆☆
Клик в листинге Базовый интерес ★★☆☆☆
Просмотр карточки Слабый сигнал ★☆☆☆☆

Рекомендательные движки присваивают этим сигналам численные веса и агрегируют их в профиль пользователя.

Проблема зашумлённости

Главный недостаток имплицитных данных — они не дают явного «мне не нравится». Отсутствие взаимодействия (non-click) трактуется как слабый негативный сигнал, но это неточно: пользователь мог просто не увидеть товар, потому что он был внизу страницы.

Качественные реализации учитывают позиционный bias — товары на первых позициях кликают чаще, просто потому что они видны. Это не означает, что они в 5 раз интереснее товаров на пятой позиции. Модели с позиционной коррекцией (unbiased learning-to-rank) дают более точные рекомендации.

Совет: при сборе имплицитных данных обязательно логируйте не только событие, но и контекст показа — позицию, стратегию, страницу. Без контекста невозможно корректно взвесить сигнал при обучении модели.

Использование в сессионных рекомендациях

Имплицитные сигналы текущей сессии позволяют строить рекомендации без истории — это решение для анонимных пользователей и проблемы холодного старта. Пользователь просмотрел три кроссовки → система делает вывод о категориальном интересе и рекомендует похожие. Это происходит в реальном времени, за секунды, без авторизации.

Типичные ошибки при работе с имплицитными данными

  • Равный вес всем событиям: покупка и просмотр — принципиально разные сигналы; одинаковый вес даёт плохие рекомендации
  • Игнорирование позиционного bias: высокий CTR топ-позиций не означает релевантность
  • Дублирование событий: один просмотр записывается несколько раз при повторной загрузке страницы — без дедупликации профиль искажается
  • Слишком короткое окно данных: сигналы за неделю дают другую картину, чем за 90 дней; важно выбрать адекватный горизонт