Как работает алгоритм
1. Каталог: каждый товар → вектор атрибутов
Кроссовки Nike Air Max: {бренд: Nike, категория: кроссовки,
цвет: белый, цена: 9000, материал: сетка}
2. Профиль пользователя: взвешенное среднее атрибутов просмотренных товаров
User_123: {бренд: Nike ×0.6, Adidas ×0.3, категория: кроссовки ×0.8,
ценовой диапазон: 7000–12000}
3. Рекомендация: товары с максимальным сходством с профилем
→ Cosine similarity(User_123, Товар_A) = 0.91 ✓
→ Cosine similarity(User_123, Товар_B) = 0.34 ✗
Content-based vs Коллаборативная фильтрация
| Параметр | Content-based | Коллаборативная |
|---|---|---|
| Основа | Атрибуты товаров | Поведение похожих пользователей |
| Холодный старт | ✓ Работает | ✗ Проблема |
| Новые товары | ✓ Работает | ✗ Нет данных |
| Serendipity | ✗ Предсказуем | ✓ Находит неожиданное |
| Точность при большом объёме данных | Средняя | Высокая |
Гибридный подход
Большинство production-систем комбинируют алгоритмы:
Новый пользователь (< 5 событий): Content-based (100%)
Возвращающийся (5–20 событий): Content-based (60%) + Collaborative (40%)
Активный (20+ событий): Collaborative (70%) + Content-based (30%)
Новый товар (< 10 продаж): Content-based (80%) + Popularity (20%)
Гибридный подход устраняет недостатки каждого алгоритма в отдельности.