Что такое мощность теста

Мощность (power, 1−β) — это вероятность того, что тест правильно обнаружит реальный эффект. Её противоположность — β — вероятность ошибки второго рода (false negative): упустить реальное улучшение.

Реальность:          Вариант B лучше       Вариант B не лучше
Тест говорит "лучше":  Верно (Power)        Ошибка I рода (α)
Тест говорит "нет":    Ошибка II рода (β)   Верно

Стандарт индустрии: мощность ≥ 80% (β ≤ 20%) при α = 0.05. Это означает: из 100 тестов, где вариант B реально лучше, мы правильно это определим в 80 случаях и пропустим в 20.

Что влияет на мощность

Размер выборки. Главный рычаг. Больше пользователей в тесте → меньше случайный шум → выше шанс увидеть реальный эффект.

Размер эффекта (MDE). Крупный эффект (+20% CR) легче обнаружить при той же выборке, чем малый (+3%). Поэтому перед запуском теста важно реалистично оценить минимально значимый эффект.

Базовая метрика. При конверсии 5% дисперсия меньше, чем при конверсии 0.5% — значит, нужна меньшая выборка для той же мощности.

Как рассчитать нужный размер выборки

Для стандартного теста с α = 0.05 и мощностью 80% формула требует задать:
— базовый CR (текущая конверсия)
— MDE (минимальный детектируемый эффект, например 10%)

Приблизительная зависимость:

Базовый CR MDE Трафик/вариацию
2% 15% ~6 500
2% 10% ~14 700
1% 15% ~13 000
1% 10% ~29 400

Важно: эти числа — на вариацию. При двух вариациях (A и B) нужно суммарно удвоить.

Мощность и байесовская статистика

Классическое понятие мощности — инструмент frequentist-подхода. Байесовская статистика не требует заранее фиксировать мощность: вместо этого накапливаются доказательства в пользу каждой гипотезы. Метрика «вероятность быть лучшим» (Probability to be best) растёт по мере накопления данных — без риска peeking и без необходимости планировать размер выборки по формуле.

Для команд с ограниченным трафиком байесовский подход позволяет принимать обоснованные решения раньше — когда данных ещё недостаточно для 80% frequentist-мощности, но уже достаточно для уверенной вероятностной оценки.