Exploration vs Exploitation
Классический A/B тест — это чистая exploration: мы «тратим» одинаковое количество трафика на оба варианта до финального решения. MAB балансирует:
- Exploration — продолжает пробовать слабый вариант с небольшой долей трафика (на случай, если данных ещё мало)
- Exploitation — отдаёт большую часть трафика лидирующему варианту уже в процессе теста
День 1: A — 50%, B — 50% (данных ещё мало)
День 5: A — 35%, B — 65% (B начинает лидировать)
День 10: A — 10%, B — 90% (B явно лучше)
День 14: A — 3%, B — 97% (B почти монополизировал трафик)
Thompson Sampling — как работает алгоритм
- Для каждого варианта ведётся бета-распределение: Beta(α, β), где α = конверсии, β = не-конверсии
- При каждом новом посетителе алгоритм сэмплирует значение из распределения каждого варианта
- Посетителю показывается вариант с наибольшим сэмпленным значением
- По мере накопления данных распределение сужается → лидер получает всё больше трафика
Когда MAB лучше классического A/B
| Сценарий | Классический A/B | MAB |
|---|---|---|
| Длинный тест, большой трафик | ✓ Предпочтительно | Подойдёт |
| Короткий сезонный тест | Может не набрать выборку | ✓ Оптимально |
| 3+ варианта | Требует поправки Bonferroni | ✓ Нативно |
| Строгая p-value значимость нужна | ✓ Предпочтительно | Не гарантирует |
| Рекомендательные алгоритмы | Подойдёт | ✓ Оптимально |
Ограничения MAB
MAB не идеален. Его ограничения:
— Не гарантирует строгого statistical significance в классическом смысле
— Может «слишком быстро» выбрать победителя при малом трафике (ранние флуктуации)
— Сложнее интерпретировать финальный результат для документации решений