Теорема Байеса и обновление убеждений

В основе байесовской статистики лежит простая идея: мы начинаем с некоторым убеждением (prior), наблюдаем данные и обновляем убеждение в соответствии с новыми свидетельствами (posterior).

Применительно к A/B-тесту:

Prior (до теста): «Конверсия обычно 2–3%»
Данные (из теста): контроль CR=2.1%, вариант CR=2.5%, выборка 10K
Posterior: «Вариант B лучше контроля с вероятностью 91.7%»

Это не требует порогового p-value и фиксированного размера выборки.

Байесовский подход в A/B-тестировании

В e-commerce A/B-тестировании байесовская модель с Beta-распределением стала стандартом для продуктовых команд. Вместо бинарного «значимо / незначимо» вы получаете:

Метрика Frequentist Bayesian
Основной результат p-value < 0.05? «Prob. to be best» = X%
Досрочная остановка Нарушает статистику Допустима
Expected Loss Не вычисляется Можно вычислить
Интуитивность Низкая Высокая

Expected Loss — ожидаемые потери от выбора неправильного варианта — особенно полезная метрика: она позволяет принять решение «достаточно хорошо» даже при 85% уверенности, если цена ошибки невелика.

Beta-распределение для конверсионных метрик

Beta-распределение Beta(α, β) — естественная модель для конверсионных метрик (CR — значение от 0 до 1). Параметры обновляются по мере накопления данных:

Изначально: Beta(1, 1) — равномерное, «не знаем ничего»
После 100 конверсий и 4900 отказов: Beta(101, 4901) — CR ≈ 2%

При сравнении двух Beta-распределений (контроль vs. вариант) вычисляется вероятность того, что одно значение больше другого — это и есть «вероятность быть лучшим».

MAB как байесовская оптимизация

Multi-Armed Bandit работает по тому же принципу: каждый вариант описывается Beta-распределением, и алгоритм Thompson Sampling выбирает вариант для следующего пользователя с вероятностью, пропорциональной его текущему posterior. Это означает, что трафик автоматически перетекает к лучшим вариантам.

Совет: байесовский подход не отменяет необходимость планирования размера выборки. Устанавливайте минимальный срок теста (2 недели) и минимальный объём трафика на вариант — даже при «высокой вероятности» после 100 пользователей данных недостаточно для производственного решения.