🤖 AI / ML

Переобучение

Overfitting · overfitting · перефиттинг

Определение

Переобучение — явление, при котором модель оптимизируется под обучающую выборку настолько, что теряет способность к обобщению: ошибка на тренировочных данных низкая, а на новых — значительно выше.

Почему переобучение — практическая проблема для рекомендаций

Переобучение — не теоретическая концепция, а реальная причина деградации рекомендательных систем в продакшне. Модель, переобученная на исторических данных, воспроизводит прошлое вместо того, чтобы предсказывать будущее.

В e-commerce это выглядит как:
— Рекомендации «залипли» на хитах продаж полугодовой давности
— Пользователю снова и снова рекомендуют уже купленный товар
— Новые товары в каталоге не попадают в рекомендации (модель их не «видела» при обучении)

Компромисс смещение–дисперсия

Простая модель:       высокое смещение (bias) → недообучение
Сложная модель:       высокая дисперсия (variance) → переобучение
Оптимальная модель:   баланс между bias и variance

Задача обучения — найти «сладкую точку», где модель уловила настоящие паттерны, но не выучила шум.

Методы борьбы с переобучением

Регуляризация — добавление штрафа на сложность модели (L1, L2, Dropout в нейронных сетях). Не даёт отдельным весам становиться слишком большими.

Правильный сплит данных — разделение на train/validation/test без утечки данных будущего в обучение. В рекомендациях важен temporal split: обучать на прошлом, тестировать на следующем периоде.

Early stopping — остановка обучения нейронной сети, когда метрика на валидационной выборке перестаёт улучшаться.

Уменьшение сложности — сократить количество слоёв, снизить размерность эмбеддингов, упростить архитектуру.

Совет: регулярно переобучайте модели на свежих данных. Поведение пользователей меняется, и модель, не обновлявшаяся несколько месяцев, неизбежно деградирует — даже без классического переобучения.

Частые вопросы

Как обнаружить переобучение?

Классический признак — большой разрыв между метриками на обучающей и тестовой выборках. Если на train NDCG@10 = 0.85, а на test = 0.52 — модель переобучилась. В продакшне симптомы: рекомендации сузились до узкого набора популярных товаров, новые пользователи получают нерелевантные результаты.

Чем переобучение отличается от недообучения?

Переобучение (overfitting) — модель слишком сложная, выучила шум. Недообучение (underfitting) — модель слишком простая, не уловила паттерны. Метрика на train низкая при недообучении; при переобучении — высокая на train, низкая на test.

Как регуляризация борется с переобучением?

Регуляризация добавляет штраф за большие веса модели (L1/L2 регуляризация), что не даёт модели слишком «специализироваться» под обучающие примеры. В матричной факторизации и нейронных сетях это один из ключевых гиперпараметров.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →