Принцип работы

В обучении с учителем модель получает датасет пар: входной вектор признаков X и целевое значение y. Задача — научиться функции f(X) → y, которая минимизирует ошибку предсказания на новых данных.

В e-commerce это выглядит так:
X — история покупок, просмотры, демография, время с последней покупки
y — факт покупки (1/0), вероятность оттока (0–1), ожидаемый чек

Вход (признаки): [7 покупок за 90 дней, последняя — 14 дней назад, 3 категории, средний чек 2400 ₽]
Целевое значение: churn = 0  (не ушёл в ближайшие 30 дней)

Две основные задачи

Классификация — предсказание категориального ответа (да/нет, класс A/B/C). Примеры: купит / не купит, уйдёт / останется, намерение поиска — транзакционное / информационное.

Регрессия — предсказание числового значения. Примеры: ожидаемый LTV, прогноз среднего чека следующей покупки, вероятность возврата товара.

Применение в персонализации

Алгоритмы рекомендаций, основанные на обучении с учителем, обучаются предсказывать вероятность взаимодействия (клик, покупка) для пары «пользователь–товар»:

Задача Признаки (X) Метка (y)
Рекомендации Профиль пользователя + характеристики товара Клик или покупка
Churn prediction RFM-признаки + поведение Уход в следующие 30 дней
Ранжирование PLP Пользователь + позиция + товар CTR или CR

Критическая зависимость от данных

Качество разметки определяет качество модели. Типичные проблемы в e-commerce:

  • Смещение выборки: модель обучена только на купленных товарах — не видит товары, которые пользователь просмотрел и не купил из-за плохой страницы
  • Data leakage: в признаки случайно попали данные из будущего (после целевого события)
  • Дисбаланс классов: покупка происходит в 2–3% случаев — модель «ленится» предсказывать редкий класс