Принцип работы
В обучении с учителем модель получает датасет пар: входной вектор признаков X и целевое значение y. Задача — научиться функции f(X) → y, которая минимизирует ошибку предсказания на новых данных.
В e-commerce это выглядит так:
— X — история покупок, просмотры, демография, время с последней покупки
— y — факт покупки (1/0), вероятность оттока (0–1), ожидаемый чек
Вход (признаки): [7 покупок за 90 дней, последняя — 14 дней назад, 3 категории, средний чек 2400 ₽]
Целевое значение: churn = 0 (не ушёл в ближайшие 30 дней)
Две основные задачи
Классификация — предсказание категориального ответа (да/нет, класс A/B/C). Примеры: купит / не купит, уйдёт / останется, намерение поиска — транзакционное / информационное.
Регрессия — предсказание числового значения. Примеры: ожидаемый LTV, прогноз среднего чека следующей покупки, вероятность возврата товара.
Применение в персонализации
Алгоритмы рекомендаций, основанные на обучении с учителем, обучаются предсказывать вероятность взаимодействия (клик, покупка) для пары «пользователь–товар»:
| Задача | Признаки (X) | Метка (y) |
|---|---|---|
| Рекомендации | Профиль пользователя + характеристики товара | Клик или покупка |
| Churn prediction | RFM-признаки + поведение | Уход в следующие 30 дней |
| Ранжирование PLP | Пользователь + позиция + товар | CTR или CR |
Критическая зависимость от данных
Качество разметки определяет качество модели. Типичные проблемы в e-commerce:
- Смещение выборки: модель обучена только на купленных товарах — не видит товары, которые пользователь просмотрел и не купил из-за плохой страницы
- Data leakage: в признаки случайно попали данные из будущего (после целевого события)
- Дисбаланс классов: покупка происходит в 2–3% случаев — модель «ленится» предсказывать редкий класс