Content-based фильтрация

Content-based Filtering · Контентная фильтрация · Content-based Recommendations

Определение

Content-based filtering: каждый товар описывается вектором атрибутов. Профиль пользователя строится как взвешенное среднее атрибутов просмотренных/купленных им товаров. Рекомендуются товары с максимальным косинусным сходством между вектором товара и профилем пользователя.

Как работает алгоритм

1. Каталог: каждый товар → вектор атрибутов
   Кроссовки Nike Air Max: {бренд: Nike, категория: кроссовки,
                             цвет: белый, цена: 9000, материал: сетка}

2. Профиль пользователя: взвешенное среднее атрибутов просмотренных товаров
   User_123: {бренд: Nike ×0.6, Adidas ×0.3, категория: кроссовки ×0.8,
               ценовой диапазон: 7000–12000}

3. Рекомендация: товары с максимальным сходством с профилем
   → Cosine similarity(User_123, Товар_A) = 0.91 ✓
   → Cosine similarity(User_123, Товар_B) = 0.34 ✗

Content-based vs Коллаборативная фильтрация

Параметр	Content-based	Коллаборативная
Основа	Атрибуты товаров	Поведение похожих пользователей
Холодный старт	✓ Работает	✗ Проблема
Новые товары	✓ Работает	✗ Нет данных
Serendipity	✗ Предсказуем	✓ Находит неожиданное
Точность при большом объёме данных	Средняя	Высокая

Гибридный подход

Большинство production-систем комбинируют алгоритмы:

Новый пользователь (< 5 событий):  Content-based (100%)
Возвращающийся (5–20 событий):     Content-based (60%) + Collaborative (40%)
Активный (20+ событий):            Collaborative (70%) + Content-based (30%)
Новый товар (< 10 продаж):         Content-based (80%) + Popularity (20%)

Гибридный подход устраняет недостатки каждого алгоритма в отдельности.

Частые вопросы

Чем content-based фильтрация отличается от коллаборативной?

Content-based использует атрибуты товаров и профиль одного пользователя — не зависит от данных других покупателей. Коллаборативная фильтрация использует паттерны поведения похожих пользователей («Те, кто купил это, также купили…»). Content-based лучше при холодном старте и для нишевых товаров; коллаборативная — точнее при большом объёме данных.

Когда content-based фильтрация предпочтительнее?

При холодном старте нового пользователя (мало данных для коллаборативной). Для новых товаров без истории продаж. Для нишевых или кастомных товаров с уникальными атрибутами. Когда нужна объяснимость рекомендаций: «Вам рекомендуется, потому что вы интересовались спортивной обувью Nike».

Какой недостаток у content-based фильтрации?

Serendipity problem (проблема предсказуемости): алгоритм рекомендует только то, что похоже на уже просмотренное. Пользователь, искавший кроссовки, всегда будет видеть кроссовки — без неожиданных релевантных находок. Для разнообразия рекомендаций комбинируют с коллаборативной фильтрацией (гибридный подход).

Gravity Field