🤖 AI / ML

Матричная факторизация

Matrix Factorization · MF · разложение матриц · латентные факторы

Определение

Матричная факторизация — класс алгоритмов, разлагающих матрицу взаимодействий пользователь–товар в произведение двух матриц меньшей размерности, что позволяет моделировать скрытые предпочтения и находить релевантные товары.

Суть метода

В e-commerce есть матрица взаимодействий: строки — пользователи, столбцы — товары, значения — оценки, клики или покупки. Матрица разреженная: большинство пользователей взаимодействовало лишь с малой долей каталога.

Матричная факторизация разлагает эту матрицу R на произведение двух матриц меньшей размерности:

R ≈ U × V^T

U — матрица пользователей [N × K]
V — матрица товаров      [M × K]
K — число латентных факторов (10–200)

Предсказание для пользователя u и товара i:
r̂(u,i) = U[u] · V[i]

Модель обучается так, чтобы скалярное произведение векторов как можно точнее воспроизводило известные взаимодействия.

Основные алгоритмы

Алгоритм	Тип данных	Особенность
SVD / SVD++	Явные оценки (1–5)	Классика, основа Netflix Prize
ALS	Неявные данные (клики, просмотры)	Параллелизуется, хорошо на больших данных
NMF	Любые неотрицательные	Интерпретируемые факторы
BPR (Bayesian Personalized Ranking)	Неявные данные	Оптимизирует ранжирование напрямую

В e-commerce данные преимущественно неявные (пользователь не ставит оценок — он смотрит и покупает), поэтому ALS и BPR используются чаще SVD.

Как интерпретировать результат

После обучения каждый пользователь и каждый товар представлен вектором из K чисел. Товары с похожими векторами схожи по паттернам взаимодействия. Пользователю рекомендуют товары, чей вектор имеет наибольшее скалярное произведение с его вектором.

Важно: латентные факторы не имеют явной семантики. Нельзя сказать «фактор №3 — это интерес к электронике». Алгоритм сам находит абстрактные измерения, описывающие данные.

Место MF среди современных алгоритмов

Матричная факторизация остаётся сильным baseline — она работает хорошо, интерпретируема в достаточной мере и вычислительно предсказуема. Современные нейросетевые подходы (Two-Tower, Item2Vec, трансформеры) превосходят её в точности при достаточном объёме данных, но требуют больше ресурсов на обучение и инференс. В большинстве e-commerce сценариев MF + ALS — разумный старт перед усложнением архитектуры.

Частые вопросы

Чем матричная факторизация отличается от коллаборативной фильтрации?

Коллаборативная фильтрация — более широкое понятие (методология). Матричная факторизация — один из способов её реализации. User-based CF ищет похожих пользователей напрямую, факторизация работает через скрытые векторные представления.

Что такое латентные факторы?

Скрытые измерения, автоматически извлекаемые из данных. Для e-commerce их можно интерпретировать как абстрактные предпочтения — «склонность к премиум-товарам», «интерес к определённой категории» — хотя алгоритм не присваивает им явных названий.

Как матричная факторизация решает проблему холодного старта?

Никак в базовом варианте — для нового пользователя без истории взаимодействий вектор предпочтений неизвестен. Холодный старт решается отдельно: через популярные товары, контентную информацию или гибридные модели.

Какой алгоритм факторизации выбрать?

ALS (Alternating Least Squares) хорошо работает на неявных данных (клики, просмотры) и параллелизуется на GPU/кластерах. SVD оптимален для явных рейтингов. NMF даёт неотрицательные векторы, что облегчает интерпретацию.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →