Суть обучения без учителя

В большинстве e-commerce задач данные не размечены: у нас есть миллионы событий — просмотры, добавления в корзину, покупки — но нет явного «ответа» на вопрос «какой сегмент этот пользователь?» или «аномальна ли эта транзакция?». Обучение без учителя находит скрытую структуру в таких данных самостоятельно.

Три главные задачи

Кластеризация — разбивает объекты на группы с высоким внутренним сходством. Покупатели с похожим поведением попадают в один кластер. Результат — аудиторные сегменты, которым можно назначить разные стратегии.

Снижение размерности — сжимает высокоразмерные данные (например, вектор покупок из 50 000 товаров) до компактного представления (10–50 признаков). Алгоритмы: PCA, t-SNE, UMAP, автоэнкодеры. Применяется для визуализации сегментов и предобработки перед обучением.

Обнаружение аномалий — выявляет точки, не вписывающиеся в общую структуру. В e-commerce — мошеннические заказы, накрутка отзывов, бот-трафик.

Применение в сегментации аудиторий

Кластеризация по RFM (Recency, Frequency, Monetary) — классический пример. Алгоритм k-means (или DBSCAN, если кластеры нестандартной формы) делит покупателей на сегменты без заранее заданных правил:

Кластер 1: высокая F, высокая M → VIP-покупатели
Кластер 2: высокая R, низкая F → новые покупатели
Кластер 3: низкая R, была высокая F → риск оттока

Результат — сегменты, которые можно использовать для персонализации контента, триггерных коммуникаций и разных офферов.

Совет: результаты кластеризации нужно интерпретировать вручную. Алгоритм найдёт группы — но назвать их («лояльные», «отток», «новые») должен аналитик. Без бизнес-интерпретации кластеры остаются просто цифрами.