🤖 AI / ML

Компромисс смещение–дисперсия

Bias-Variance Tradeoff · bias-variance tradeoff · underfitting-overfitting balance

Определение

Компромисс смещение–дисперсия — фундаментальный принцип, утверждающий, что ошибка модели определяется суммой систематической ошибки (bias) и чувствительности к данным (variance), и их нельзя одновременно минимизировать без привлечения дополнительных данных или ансамблирования.

Декомпозиция ошибки модели

Ожидаемая ошибка предсказания раскладывается на три компонента:

Ошибка = Смещение² + Дисперсия + Нередуцируемый шум

Смещение (Bias) — систематическое отклонение предсказаний от истинных значений. Причина: слишком простые предположения модели о данных.
Дисперсия (Variance) — чувствительность предсказаний к конкретной обучающей выборке. Причина: слишком сложная модель, запомнившая шум.
Нередуцируемый шум — случайная составляющая данных, которую нельзя предсказать никакой моделью.

Визуализация компромисса

Ошибка
  │          Суммарная ошибка
  │        ╲             ╱
  │         ╲    min   ╱
  │ Смещение² ╲       ╱ Дисперсия
  │             ╲   ╱
  │              ╲ ╱
  └─────────────────── Сложность модели
   Простая            Сложная

Оптимум находится там, где суммарная ошибка минимальна — не при максимальной и не при минимальной сложности.

Практическое применение в рекомендациях

Ситуация	Проблема	Решение
Линейная модель не улавливает паттерны	Высокое смещение	Перейти на матричную факторизацию или двухбашенную модель
Модель отлично работает на истории, плохо на новых данных	Высокая дисперсия	Усилить регуляризацию, добавить данные
Редкие товары предсказываются плохо	Высокая дисперсия для малого числа наблюдений	Content-based фолбэк для холодного старта

Ансамблирование как баланс

Ансамблевые методы — Random Forest, Gradient Boosting — работают именно с этим компромиссом:

Bagging (Random Forest): обучает много деревьев на подвыборках и усредняет → снижает дисперсию, смещение не растёт
Boosting (XGBoost, LightGBM): последовательно исправляет ошибки → снижает смещение, дисперсия контролируется регуляризацией

Совет: в рекомендательных системах «mixing strategies» — объединение popularity, коллаборативной фильтрации и content-based — это, по сути, ансамблирование. Каждая модель имеет свой bias-variance профиль, а смешивание нивелирует слабости каждой.

Частые вопросы

Как понять, что у модели высокое смещение vs. высокая дисперсия?

Высокое смещение (underfitting): ошибка высока и на обучающей выборке, и на тестовой — модель не уловила паттерны данных. Высокая дисперсия (overfitting): ошибка низка на обучающей выборке, но высока на тестовой — модель заучила шум. Разрыв между train loss и validation loss — ключевой диагностический сигнал.

Как снизить смещение?

Увеличить сложность модели — добавить слои в нейросеть, снизить регуляризацию, использовать более мощную архитектуру. Добавить признаки, которые модель не учитывала. В рекомендациях: перейти от простой popularity-модели к матричной факторизации или нейросети.

Как снизить дисперсию?

Добавить больше обучающих данных — самый надёжный метод. Усилить регуляризацию (L1, L2, dropout). Упростить модель. Использовать ансамблирование — усреднение нескольких моделей снижает дисперсию при сохранении смещения.

Какое отношение компромисс имеет к рекомендательным системам?

Прямое. Матричная факторизация с большим числом латентных факторов — высокая дисперсия, переобучение на редких товарах (cold start проблема). Слишком мало факторов — высокое смещение, модель не улавливает нюансы вкусов. Ансамблирование моделей (mixing strategies) — стандартный способ балансировки в продакшн-рекомендательных системах.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →