Как работает алгоритм

1. Каталог: каждый товар → вектор атрибутов
   Кроссовки Nike Air Max: {бренд: Nike, категория: кроссовки,
                             цвет: белый, цена: 9000, материал: сетка}

2. Профиль пользователя: взвешенное среднее атрибутов просмотренных товаров
   User_123: {бренд: Nike ×0.6, Adidas ×0.3, категория: кроссовки ×0.8,
               ценовой диапазон: 7000–12000}

3. Рекомендация: товары с максимальным сходством с профилем
   → Cosine similarity(User_123, Товар_A) = 0.91 ✓
   → Cosine similarity(User_123, Товар_B) = 0.34 ✗

Content-based vs Коллаборативная фильтрация

Параметр Content-based Коллаборативная
Основа Атрибуты товаров Поведение похожих пользователей
Холодный старт ✓ Работает ✗ Проблема
Новые товары ✓ Работает ✗ Нет данных
Serendipity ✗ Предсказуем ✓ Находит неожиданное
Точность при большом объёме данных Средняя Высокая

Гибридный подход

Большинство production-систем комбинируют алгоритмы:

Новый пользователь (< 5 событий):  Content-based (100%)
Возвращающийся (5–20 событий):     Content-based (60%) + Collaborative (40%)
Активный (20+ событий):            Collaborative (70%) + Content-based (30%)
Новый товар (< 10 продаж):         Content-based (80%) + Popularity (20%)

Гибридный подход устраняет недостатки каждого алгоритма в отдельности.