Байесовская статистика

Bayesian Statistics · bayesian testing · bayesian ab testing · байесов подход

Определение

Байесовская статистика в A/B-тестировании — подход, выражающий результат как вероятность превосходства варианта над контролем, позволяющий принимать решения по мере накопления данных без строгого порога p-value.

Теорема Байеса и обновление убеждений

В основе байесовской статистики лежит простая идея: мы начинаем с некоторым убеждением (prior), наблюдаем данные и обновляем убеждение в соответствии с новыми свидетельствами (posterior).

Применительно к A/B-тесту:

Prior (до теста): «Конверсия обычно 2–3%»
Данные (из теста): контроль CR=2.1%, вариант CR=2.5%, выборка 10K
Posterior: «Вариант B лучше контроля с вероятностью 91.7%»

Это не требует порогового p-value и фиксированного размера выборки.

Байесовский подход в A/B-тестировании

В e-commerce A/B-тестировании байесовская модель с Beta-распределением стала стандартом для продуктовых команд. Вместо бинарного «значимо / незначимо» вы получаете:

Метрика	Frequentist	Bayesian
Основной результат	p-value < 0.05?	«Prob. to be best» = X%
Досрочная остановка	Нарушает статистику	Допустима
Expected Loss	Не вычисляется	Можно вычислить
Интуитивность	Низкая	Высокая

Expected Loss — ожидаемые потери от выбора неправильного варианта — особенно полезная метрика: она позволяет принять решение «достаточно хорошо» даже при 85% уверенности, если цена ошибки невелика.

Beta-распределение для конверсионных метрик

Beta-распределение Beta(α, β) — естественная модель для конверсионных метрик (CR — значение от 0 до 1). Параметры обновляются по мере накопления данных:

Изначально: Beta(1, 1) — равномерное, «не знаем ничего»
После 100 конверсий и 4900 отказов: Beta(101, 4901) — CR ≈ 2%

При сравнении двух Beta-распределений (контроль vs. вариант) вычисляется вероятность того, что одно значение больше другого — это и есть «вероятность быть лучшим».

MAB как байесовская оптимизация

Multi-Armed Bandit работает по тому же принципу: каждый вариант описывается Beta-распределением, и алгоритм Thompson Sampling выбирает вариант для следующего пользователя с вероятностью, пропорциональной его текущему posterior. Это означает, что трафик автоматически перетекает к лучшим вариантам.

Совет: байесовский подход не отменяет необходимость планирования размера выборки. Устанавливайте минимальный срок теста (2 недели) и минимальный объём трафика на вариант — даже при «высокой вероятности» после 100 пользователей данных недостаточно для производственного решения.

Частые вопросы

В чём главное отличие байесовской и частотной (frequentist) статистики?

Frequentist: «При истинном нулевом отличии мы наблюдали бы такой результат в менее 5% случаев» (p < 0.05). Bayesian: «С вероятностью 94.5% вариант B лучше контроля». Байесовский результат понятен без статистического образования. Frequentist строже в смысле контроля ошибки первого рода при фиксированном размере выборки.

Можно ли смотреть на байесовский тест до его окончания?

Да — это одно из ключевых практических преимуществ. Байесовский подход не предполагает фиксированного размера выборки заранее, поэтому промежуточные просмотры не нарушают статистику. Однако очень ранняя остановка при недостаточных данных всё равно риск — устанавливайте минимальный порог выборки.

Что такое prior (априорное распределение) и как его выбирать?

Prior — начальное предположение о значении метрики до начала теста. Неинформативный prior (Beta(1,1)) означает «мы ничего не знаем». Информативный prior использует исторические данные о конверсии. Для A/B-тестирования в e-commerce Beta-распределение с параметрами, основанными на исторической конверсии, — стандартная практика.

При каком пороге «вероятности быть лучшим» останавливать тест?

Зависит от цены ошибки. Стандарты отрасли: 95% — для изменений с умеренным риском (UI-элемент, баннер); 98–99% — для изменений с высокой ценой ошибки (алгоритм ценообразования, ключевой алгоритм рекомендаций). Всегда учитывайте Expected Loss — ожидаемые потери от выбора неправильного варианта.

Gravity Field