Теорема Байеса и обновление убеждений
В основе байесовской статистики лежит простая идея: мы начинаем с некоторым убеждением (prior), наблюдаем данные и обновляем убеждение в соответствии с новыми свидетельствами (posterior).
Применительно к A/B-тесту:
Prior (до теста): «Конверсия обычно 2–3%»
Данные (из теста): контроль CR=2.1%, вариант CR=2.5%, выборка 10K
Posterior: «Вариант B лучше контроля с вероятностью 91.7%»
Это не требует порогового p-value и фиксированного размера выборки.
Байесовский подход в A/B-тестировании
В e-commerce A/B-тестировании байесовская модель с Beta-распределением стала стандартом для продуктовых команд. Вместо бинарного «значимо / незначимо» вы получаете:
| Метрика | Frequentist | Bayesian |
|---|---|---|
| Основной результат | p-value < 0.05? | «Prob. to be best» = X% |
| Досрочная остановка | Нарушает статистику | Допустима |
| Expected Loss | Не вычисляется | Можно вычислить |
| Интуитивность | Низкая | Высокая |
Expected Loss — ожидаемые потери от выбора неправильного варианта — особенно полезная метрика: она позволяет принять решение «достаточно хорошо» даже при 85% уверенности, если цена ошибки невелика.
Beta-распределение для конверсионных метрик
Beta-распределение Beta(α, β) — естественная модель для конверсионных метрик (CR — значение от 0 до 1). Параметры обновляются по мере накопления данных:
Изначально: Beta(1, 1) — равномерное, «не знаем ничего»
После 100 конверсий и 4900 отказов: Beta(101, 4901) — CR ≈ 2%
При сравнении двух Beta-распределений (контроль vs. вариант) вычисляется вероятность того, что одно значение больше другого — это и есть «вероятность быть лучшим».
MAB как байесовская оптимизация
Multi-Armed Bandit работает по тому же принципу: каждый вариант описывается Beta-распределением, и алгоритм Thompson Sampling выбирает вариант для следующего пользователя с вероятностью, пропорциональной его текущему posterior. Это означает, что трафик автоматически перетекает к лучшим вариантам.
Совет: байесовский подход не отменяет необходимость планирования размера выборки. Устанавливайте минимальный срок теста (2 недели) и минимальный объём трафика на вариант — даже при «высокой вероятности» после 100 пользователей данных недостаточно для производственного решения.