Exploration vs Exploitation

Классический A/B тест — это чистая exploration: мы «тратим» одинаковое количество трафика на оба варианта до финального решения. MAB балансирует:

  • Exploration — продолжает пробовать слабый вариант с небольшой долей трафика (на случай, если данных ещё мало)
  • Exploitation — отдаёт большую часть трафика лидирующему варианту уже в процессе теста
День 1:  A — 50%,  B — 50%  (данных ещё мало)
День 5:  A — 35%,  B — 65%  (B начинает лидировать)
День 10: A — 10%,  B — 90%  (B явно лучше)
День 14: A — 3%,   B — 97%  (B почти монополизировал трафик)

Thompson Sampling — как работает алгоритм

  1. Для каждого варианта ведётся бета-распределение: Beta(α, β), где α = конверсии, β = не-конверсии
  2. При каждом новом посетителе алгоритм сэмплирует значение из распределения каждого варианта
  3. Посетителю показывается вариант с наибольшим сэмпленным значением
  4. По мере накопления данных распределение сужается → лидер получает всё больше трафика

Когда MAB лучше классического A/B

Сценарий Классический A/B MAB
Длинный тест, большой трафик ✓ Предпочтительно Подойдёт
Короткий сезонный тест Может не набрать выборку ✓ Оптимально
3+ варианта Требует поправки Bonferroni ✓ Нативно
Строгая p-value значимость нужна ✓ Предпочтительно Не гарантирует
Рекомендательные алгоритмы Подойдёт ✓ Оптимально

Ограничения MAB

MAB не идеален. Его ограничения:
— Не гарантирует строгого statistical significance в классическом смысле
— Может «слишком быстро» выбрать победителя при малом трафике (ранние флуктуации)
— Сложнее интерпретировать финальный результат для документации решений