Мощность теста

Statistical Power · statistical power · мощность статистического критерия · 1-beta

Определение

Статистическая мощность (1−β) — вероятность того, что тест обнаружит реальный эффект, если тот существует; стандарт — не ниже 80%.

Что такое мощность теста

Мощность (power, 1−β) — это вероятность того, что тест правильно обнаружит реальный эффект. Её противоположность — β — вероятность ошибки второго рода (false negative): упустить реальное улучшение.

Реальность:          Вариант B лучше       Вариант B не лучше
Тест говорит "лучше":  Верно (Power)        Ошибка I рода (α)
Тест говорит "нет":    Ошибка II рода (β)   Верно

Стандарт индустрии: мощность ≥ 80% (β ≤ 20%) при α = 0.05. Это означает: из 100 тестов, где вариант B реально лучше, мы правильно это определим в 80 случаях и пропустим в 20.

Что влияет на мощность

Размер выборки. Главный рычаг. Больше пользователей в тесте → меньше случайный шум → выше шанс увидеть реальный эффект.

Размер эффекта (MDE). Крупный эффект (+20% CR) легче обнаружить при той же выборке, чем малый (+3%). Поэтому перед запуском теста важно реалистично оценить минимально значимый эффект.

Базовая метрика. При конверсии 5% дисперсия меньше, чем при конверсии 0.5% — значит, нужна меньшая выборка для той же мощности.

Как рассчитать нужный размер выборки

Для стандартного теста с α = 0.05 и мощностью 80% формула требует задать:
— базовый CR (текущая конверсия)
— MDE (минимальный детектируемый эффект, например 10%)

Приблизительная зависимость:

Базовый CR	MDE	Трафик/вариацию
2%	15%	~6 500
2%	10%	~14 700
1%	15%	~13 000
1%	10%	~29 400

Важно: эти числа — на вариацию. При двух вариациях (A и B) нужно суммарно удвоить.

Мощность и байесовская статистика

Классическое понятие мощности — инструмент frequentist-подхода. Байесовская статистика не требует заранее фиксировать мощность: вместо этого накапливаются доказательства в пользу каждой гипотезы. Метрика «вероятность быть лучшим» (Probability to be best) растёт по мере накопления данных — без риска peeking и без необходимости планировать размер выборки по формуле.

Для команд с ограниченным трафиком байесовский подход позволяет принимать обоснованные решения раньше — когда данных ещё недостаточно для 80% frequentist-мощности, но уже достаточно для уверенной вероятностной оценки.

Частые вопросы

Что значит мощность теста 80%?

Если реальный эффект существует (вариант B действительно лучше A), тест с мощностью 80% обнаружит его в 80% случаев. В 20% случаев тест «не заметит» реального улучшения и ошибочно оставит контроль — это ошибка второго рода (Type II Error / ложноотрицательный результат).

Как мощность теста связана с размером выборки?

Прямая зависимость. Больше выборка → выше мощность при том же MDE. Для повышения мощности с 80% до 90% нужно примерно на 35% увеличить размер выборки. Именно поэтому калькулятор размера выборки учитывает мощность как один из ключевых параметров.

В чём разница между мощностью и статистической значимостью?

Статистическая значимость (p-value / confidence level) — вероятность ошибочно объявить победителя, когда его нет (ошибка первого рода). Мощность — вероятность найти победителя, когда он есть (защита от ошибки второго рода). Хороший тест контролирует оба риска: обычно α = 0.05 и мощность ≥ 80%.

Почему в e-commerce часто проводят «недостаточно мощные» тесты?

Из-за ограниченного трафика. При CR 1% и трафике 5K/день для MDE 10% нужен 21+ день на 80% мощности — это нереалистичный срок для команды, хотящей результатов быстрее. Следствие — тесты с мощностью 40–60%, которые регулярно «не видят» реальных эффектов.

Gravity Field