Автопилот (MAB)

Multi-Armed Bandit · MAB · Multi-Armed Bandit · Мульти-армед бандит

Определение

Multi-Armed Bandit решает задачу exploration/exploitation: балансирует между исследованием новых вариантов (exploration) и эксплуатацией лучшего найденного (exploitation). Чем яснее один вариант лидирует, тем больше трафика он получает автоматически.

Exploration vs Exploitation

Классический A/B тест — это чистая exploration: мы «тратим» одинаковое количество трафика на оба варианта до финального решения. MAB балансирует:

Exploration — продолжает пробовать слабый вариант с небольшой долей трафика (на случай, если данных ещё мало)
Exploitation — отдаёт большую часть трафика лидирующему варианту уже в процессе теста

День 1:  A — 50%,  B — 50%  (данных ещё мало)
День 5:  A — 35%,  B — 65%  (B начинает лидировать)
День 10: A — 10%,  B — 90%  (B явно лучше)
День 14: A — 3%,   B — 97%  (B почти монополизировал трафик)

Thompson Sampling — как работает алгоритм

Для каждого варианта ведётся бета-распределение: Beta(α, β), где α = конверсии, β = не-конверсии
При каждом новом посетителе алгоритм сэмплирует значение из распределения каждого варианта
Посетителю показывается вариант с наибольшим сэмпленным значением
По мере накопления данных распределение сужается → лидер получает всё больше трафика

Когда MAB лучше классического A/B

Сценарий	Классический A/B	MAB
Длинный тест, большой трафик	✓ Предпочтительно	Подойдёт
Короткий сезонный тест	Может не набрать выборку	✓ Оптимально
3+ варианта	Требует поправки Bonferroni	✓ Нативно
Строгая p-value значимость нужна	✓ Предпочтительно	Не гарантирует
Рекомендательные алгоритмы	Подойдёт	✓ Оптимально

Ограничения MAB

MAB не идеален. Его ограничения:
— Не гарантирует строгого statistical significance в классическом смысле
— Может «слишком быстро» выбрать победителя при малом трафике (ранние флуктуации)
— Сложнее интерпретировать финальный результат для документации решений

Частые вопросы

Чем MAB отличается от классического A/B теста?

Классический A/B тест: фиксированный split 50/50 до конца. MAB: трафик динамически перераспределяется в пользу лучшего варианта. Результат: MAB минимизирует потери конверсий на слабом варианте. Но MAB менее строг статистически — не всегда гарантирует заданный уровень significance.

Что такое Thompson Sampling?

Thompson Sampling — алгоритм MAB. Для каждого варианта поддерживается бета-распределение вероятности конверсии. При каждом новом посетителе алгоритм «сэмплирует» значение из распределения каждого варианта и показывает тот, у которого вышло наибольшее значение. Со временем лидирующий вариант получает трафик всё чаще.

Когда лучше использовать MAB вместо A/B?

MAB оптимален когда: (1) тест короткий или сезонный — нет времени ждать классической выборки; (2) цена ошибки высока — каждый день на слабом варианте стоит дорого; (3) вариантов больше двух — MAB масштабируется лучше; (4) нет строгого требования к statistical significance.

Можно ли использовать MAB для рекомендательных алгоритмов?

Да — это один из лучших сценариев. MAB автоматически перераспределяет трафик между алгоритмами в пользу того, что даёт больше конверсий прямо сейчас. При смене сезона или ассортимента MAB адаптируется быстрее, чем классический A/B тест.

Gravity Field