🤖 AI / ML

Feature Engineering

Feature Engineering · feature engineering · конструирование признаков

Определение

Признаковая инженерия — процесс извлечения, преобразования и создания входных переменных (признаков) из сырых данных для повышения предсказательной способности модели машинного обучения.

Что такое Feature Engineering

Feature engineering — это преобразование сырых данных в числовые представления, пригодные для обучения модели. Модель машинного обучения не умеет работать с текстом «последний визит — позавчера», но отлично работает с числом 2 (дней с последнего визита).

В e-commerce типичный набор сырых данных — это логи кликов, транзакции, атрибуты товаров и профили пользователей. Инженер признаков превращает их в информативные переменные:

Сырые данные → Признаки
─────────────────────────────────────────
Лог кликов        → просмотры/нед, CTR по категориям
История покупок   → R (recency), F (frequency), M (monetary)
Атрибуты товара   → категория (one-hot), бренд, ценовой бин
Сессионные данные → глубина просмотра, время на странице

Виды преобразований

Агрегация поведенческих данных

Самый важный класс признаков для рекомендаций — агрегаты поведения с временным весом. Событие «купил 14 дней назад» значит больше, чем «купил полгода назад». Типичный паттерн — скользящие окна (7 дней, 30 дней, 90 дней):

Признак	Описание
purchase_cnt_30d	Количество покупок за 30 дней
avg_order_value_90d	Средний чек за 90 дней
days_since_last_visit	Давность последнего визита
top_category_share	Доля топ-категории в покупках

Кодирование категориальных переменных

Категориальные атрибуты (бренд, категория) нельзя передать в модель напрямую. Основные подходы:
— One-hot encoding — для признаков с небольшой кардинальностью (тип устройства, пол)
— Target encoding — среднее значение целевой метрики по категории (подходит для брендов, категорий с тысячами значений)
— Embeddings — для сущностей с очень высокой кардинальностью (товарные ID, пользователи)

Feature Engineering vs автоматические подходы

Deep learning на неструктурированных данных (тексты, изображения) самостоятельно извлекает признаки. На табличных структурированных данных ручной feature engineering по-прежнему критичен.

Совет: Всегда проверяй feature importance после обучения. В реальных e-commerce задачах 80% предсказательной силы даёт 20% признаков — остальные добавляют шум и замедляют инференс.

Типичные ошибки

Data leakage: признак включает информацию из будущего (например, «куплено» в момент предсказания покупки)
Слишком высокая кардинальность без кодирования: user_id как категориальный признак без эмбеддингов
Игнорирование временной динамики: усреднение всей истории вместо взвешенного по давности

Частые вопросы

Зачем заниматься feature engineering, если есть deep learning?

Deep learning снижает потребность в ручном конструировании признаков для задач с неструктурированными данными (текст, изображения). Но в табличных задачах e-commerce (рекомендации, RFM, churn) ручной feature engineering по-прежнему даёт ощутимый прирост: доменные признаки вроде «дней с последней покупки в категории» модель из сырых логов вывести самостоятельно не сможет.

Какие признаки важнее всего для рекомендательных систем?

Поведенческие: история просмотров, добавления в корзину, покупок (с временным весом). Контекстные: время суток, день недели, устройство. Атрибутивные: категория, бренд, ценовой сегмент. Совместные (для коллаборативной фильтрации): матрица взаимодействий пользователь–товар.

Что такое feature importance?

Метрика, показывающая, насколько каждый признак вносит вклад в предсказание модели. Позволяет отсеять бесполезные признаки, ускорить инференс и объяснить логику модели бизнес-пользователям.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →