Что такое мощность теста
Мощность (power, 1−β) — это вероятность того, что тест правильно обнаружит реальный эффект. Её противоположность — β — вероятность ошибки второго рода (false negative): упустить реальное улучшение.
Реальность: Вариант B лучше Вариант B не лучше
Тест говорит "лучше": Верно (Power) Ошибка I рода (α)
Тест говорит "нет": Ошибка II рода (β) Верно
Стандарт индустрии: мощность ≥ 80% (β ≤ 20%) при α = 0.05. Это означает: из 100 тестов, где вариант B реально лучше, мы правильно это определим в 80 случаях и пропустим в 20.
Что влияет на мощность
Размер выборки. Главный рычаг. Больше пользователей в тесте → меньше случайный шум → выше шанс увидеть реальный эффект.
Размер эффекта (MDE). Крупный эффект (+20% CR) легче обнаружить при той же выборке, чем малый (+3%). Поэтому перед запуском теста важно реалистично оценить минимально значимый эффект.
Базовая метрика. При конверсии 5% дисперсия меньше, чем при конверсии 0.5% — значит, нужна меньшая выборка для той же мощности.
Как рассчитать нужный размер выборки
Для стандартного теста с α = 0.05 и мощностью 80% формула требует задать:
— базовый CR (текущая конверсия)
— MDE (минимальный детектируемый эффект, например 10%)
Приблизительная зависимость:
| Базовый CR | MDE | Трафик/вариацию |
|---|---|---|
| 2% | 15% | ~6 500 |
| 2% | 10% | ~14 700 |
| 1% | 15% | ~13 000 |
| 1% | 10% | ~29 400 |
Важно: эти числа — на вариацию. При двух вариациях (A и B) нужно суммарно удвоить.
Мощность и байесовская статистика
Классическое понятие мощности — инструмент frequentist-подхода. Байесовская статистика не требует заранее фиксировать мощность: вместо этого накапливаются доказательства в пользу каждой гипотезы. Метрика «вероятность быть лучшим» (Probability to be best) растёт по мере накопления данных — без риска peeking и без необходимости планировать размер выборки по формуле.
Для команд с ограниченным трафиком байесовский подход позволяет принимать обоснованные решения раньше — когда данных ещё недостаточно для 80% frequentist-мощности, но уже достаточно для уверенной вероятностной оценки.