Зачем рассчитывать выборку заранее

Размер выборки — не техническая деталь, а фундамент корректного теста. Если запустить тест и остановить его, когда результат «понравился», вероятность ложноположительного вывода резко возрастает. При 20 промежуточных проверках теста она превышает 60%, даже если реального эффекта нет.

Расчёт выборки до запуска задаёт объективный горизонт: тест работает ровно столько, сколько нужно — не меньше и не больше.

Формула и ключевые параметры

Для двухвыборочного теста пропорций размер выборки на вариант:

n = 2 × (z_α/2 + z_β)² × p̄(1 − p̄) / δ²

z_α/2 = 1.96  (α = 0.05, двусторонний тест)
z_β   = 0.84  (мощность 80%)
p̄    = (p_A + p_B) / 2
δ     = |p_B − p_A|  (MDE)
Базовый CR MDE (относит.) n на вариант Дней при 5К/сут
2% 10% ~37 600 ~15
2% 5% ~150 000 ~60
5% 10% ~14 200 ~6
5% 5% ~56 900 ~23

Важно: чем меньше MDE и ниже базовая конверсия — тем дольше тест. Запрашивать «хотим обнаруживать +1% роста» при CR 2% означает тест на сотни тысяч пользователей.

Три входных параметра, которые определяют выборку

1. Базовая конверсия (baseline CR). Чем ниже — тем больше нужно наблюдений для надёжного измерения. CR 0.5% требует в 4 раза больше выборки, чем CR 2%.

2. Минимальный детектируемый эффект (MDE). Какой минимальный прирост имеет практическую ценность для бизнеса? MDE 5% требует в 4 раза больше данных, чем MDE 10%. Бизнес задаёт MDE из экономики, не из статистики.

3. Уровни ошибок α и β. Стандарт: α = 0.05 (5% риск ложноположительного результата), мощность 1−β = 80%. Для критичных решений (изменение главной страницы) разумно поднять мощность до 90%.

Типичные ошибки

  • Рассчитать выборку постфактум. Если тест уже дал значимый результат — смысла в ретроспективном расчёте нет. Расчёт — это документ намерений до запуска.
  • Игнорировать количество вариантов. При A/B/C тесте нужно учитывать поправку на множественные сравнения, иначе суммарная ошибка первого рода вырастет с 5% до ~14%.
  • Путать абсолютный и относительный MDE. «Рост на 0.2 п.п.» при CR 2% — это 10% относительный прирост, а не 0.2%. Разница в итоговой выборке — четырёхкратная.
  • Не учитывать двустороннее тестирование. Если тест проверяет «лучше или хуже», z_α/2 = 1.96; если только «лучше» — z_α = 1.645. Использование одностороннего теста без явного обоснования — методологически рискованно.