🤖 AI / ML

Коллаборативная фильтрация

Collaborative Filtering · CF · коллаборативные рекомендации

Определение

Коллаборативная фильтрация — алгоритм рекомендаций, который прогнозирует предпочтения пользователя на основе поведения похожих пользователей или паттернов совместного потребления товаров.

Принцип работы

Коллаборативная фильтрация опирается на один ключевой инсайт: люди со схожим прошлым поведением имеют схожие вкусы. Если пользователи A и B купили одни и те же 10 товаров, то товары, купленные A, но не купленные B — хорошая рекомендация для B.

Математически это выражается через матрицу взаимодействий:

          Товар 1  Товар 2  Товар 3  Товар 4
Польз. A     1        1        0        1
Польз. B     1        1        0        ?
Польз. C     0        1        1        1

CF предсказывает: B вероятно купит Товар 4 (как A, с которым B похож).

Две архитектуры CF

Memory-based CF — ищет похожих пользователей/товары напрямую через косинусное сходство или корреляцию Пирсона. Работает для небольших каталогов, не масштабируется на миллионы пользователей.

Model-based CF — обучает модель (матричная факторизация, нейронные сети), которая сжимает матрицу взаимодействий в компактные векторы (латентные факторы). Масштабируется на большие каталоги, работает быстрее при инференсе.

Параметр	Memory-based	Model-based
Масштабируемость	Ограниченная	Высокая
Холодный старт	Не решает	Частично решает
Скорость обучения	Нет обучения	Требует регулярного переобучения
Объяснимость	Высокая («похожи на вас»)	Низкая (латентные факторы)

Item-based CF на практике

В e-commerce item-based CF предпочтительнее user-based по нескольким причинам:

Товаров на несколько порядков меньше, чем пользователей — матрица управляемее
Сходство товаров стабильнее во времени: «кофемашина + капсулы» — стабильная пара
Не требует поиска похожих пользователей в реальном времени — результаты предрассчитаны

Совет: для блока «Часто покупают вместе» используйте item-based CF по паттернам co-purchase. Для блока «Вам может понравиться» — user-based или model-based с учётом всей истории просмотров.

Ограничения

Холодный старт — нет истории = нет рекомендаций. Решение: content-based как fallback.
Разреженность матрицы — в крупных каталогах большинство ячеек пусты. Решение: матричная факторизация.
Popularity bias — алгоритм склонен рекомендовать популярные товары, игнорируя длинный хвост. Решение: диверсификация, explorative стратегии.
Фильтрационный пузырь — пользователь видит только то, что похоже на прошлый опыт. Решение: добавление novelty-компонента.

Частые вопросы

Чем user-based CF отличается от item-based CF?

User-based CF ищет пользователей, похожих на целевого, и рекомендует то, что им понравилось. Item-based CF ищет товары, похожие по паттернам совместного потребления — «люди, купившие A, также брали B». В промышленных системах item-based CF предпочтительнее: он стабильнее (товаров меньше, чем пользователей), лучше масштабируется и не страдает от «дрейфа» пользовательских интересов.

Какие данные нужны для коллаборативной фильтрации?

Матрица взаимодействий «пользователь–товар»: просмотры, добавления в корзину, покупки. Покупки — самый сильный сигнал, но их мало. Просмотры — слабый сигнал, но их много. Большинство систем комбинируют: взвешивают разные типы событий (покупка = 5, добавление в корзину = 3, просмотр = 1).

Как коллаборативная фильтрация работает в связке с content-based?

Гибридная рекомендательная система объединяет оба подхода. Для пользователей с историей — CF даёт точные рекомендации. Для новых пользователей и новых товаров — content-based решает холодный старт. Большинство production-систем являются гибридными.

Gravity Field

Коллаборативная фильтрация

Принцип работы

Две архитектуры CF

Item-based CF на практике

Ограничения

Частые вопросы

Рекомендательные алгоритмы в Gravity Field

Связанные термины

Мы получили вашу заявку