Почему имплицитные, а не эксплицитные
Netflix и Amazon давно решили одну проблему: пользователи смотрят фильмы и покупают товары охотно, но оценивают их редко. По данным исследований, явные оценки оставляют менее 1% пользователей. На таком объёме данных рекомендательную модель не обучить.
Имплицитные сигналы решают проблему охвата: каждый визит, каждый клик, каждый просмотр — это данные. Их на несколько порядков больше, чем явных оценок, и они не требуют от пользователя никаких действий.
Иерархия сигналов в e-commerce
Не все имплицитные сигналы одинаково ценны. Практическая иерархия по силе сигнала:
| Сигнал | Интерпретация | Вес |
|---|---|---|
| Покупка | Максимальный интерес | ★★★★★ |
| Добавление в корзину | Сильный интерес | ★★★★☆ |
| Добавление в вишлист | Интерес без готовности купить | ★★★☆☆ |
| Длинный просмотр (>15 с) | Изучение товара | ★★★☆☆ |
| Клик в листинге | Базовый интерес | ★★☆☆☆ |
| Просмотр карточки | Слабый сигнал | ★☆☆☆☆ |
Рекомендательные движки присваивают этим сигналам численные веса и агрегируют их в профиль пользователя.
Проблема зашумлённости
Главный недостаток имплицитных данных — они не дают явного «мне не нравится». Отсутствие взаимодействия (non-click) трактуется как слабый негативный сигнал, но это неточно: пользователь мог просто не увидеть товар, потому что он был внизу страницы.
Качественные реализации учитывают позиционный bias — товары на первых позициях кликают чаще, просто потому что они видны. Это не означает, что они в 5 раз интереснее товаров на пятой позиции. Модели с позиционной коррекцией (unbiased learning-to-rank) дают более точные рекомендации.
Совет: при сборе имплицитных данных обязательно логируйте не только событие, но и контекст показа — позицию, стратегию, страницу. Без контекста невозможно корректно взвесить сигнал при обучении модели.
Использование в сессионных рекомендациях
Имплицитные сигналы текущей сессии позволяют строить рекомендации без истории — это решение для анонимных пользователей и проблемы холодного старта. Пользователь просмотрел три кроссовки → система делает вывод о категориальном интересе и рекомендует похожие. Это происходит в реальном времени, за секунды, без авторизации.
Типичные ошибки при работе с имплицитными данными
- Равный вес всем событиям: покупка и просмотр — принципиально разные сигналы; одинаковый вес даёт плохие рекомендации
- Игнорирование позиционного bias: высокий CTR топ-позиций не означает релевантность
- Дублирование событий: один просмотр записывается несколько раз при повторной загрузке страницы — без дедупликации профиль искажается
- Слишком короткое окно данных: сигналы за неделю дают другую картину, чем за 90 дней; важно выбрать адекватный горизонт