Размер выборки

Sample Size · sample size · объём выборки · n-size

Определение

Размер выборки — минимальное число наблюдений на каждый вариант A/B-теста, обеспечивающее обнаружение целевого эффекта с заданной статистической мощностью.

Зачем рассчитывать выборку заранее

Размер выборки — не техническая деталь, а фундамент корректного теста. Если запустить тест и остановить его, когда результат «понравился», вероятность ложноположительного вывода резко возрастает. При 20 промежуточных проверках теста она превышает 60%, даже если реального эффекта нет.

Расчёт выборки до запуска задаёт объективный горизонт: тест работает ровно столько, сколько нужно — не меньше и не больше.

Формула и ключевые параметры

Для двухвыборочного теста пропорций размер выборки на вариант:

n = 2 × (z_α/2 + z_β)² × p̄(1 − p̄) / δ²

z_α/2 = 1.96  (α = 0.05, двусторонний тест)
z_β   = 0.84  (мощность 80%)
p̄    = (p_A + p_B) / 2
δ     = |p_B − p_A|  (MDE)

Базовый CR	MDE (относит.)	n на вариант	Дней при 5К/сут
2%	10%	~37 600	~15
2%	5%	~150 000	~60
5%	10%	~14 200	~6
5%	5%	~56 900	~23

Важно: чем меньше MDE и ниже базовая конверсия — тем дольше тест. Запрашивать «хотим обнаруживать +1% роста» при CR 2% означает тест на сотни тысяч пользователей.

Три входных параметра, которые определяют выборку

1. Базовая конверсия (baseline CR). Чем ниже — тем больше нужно наблюдений для надёжного измерения. CR 0.5% требует в 4 раза больше выборки, чем CR 2%.

2. Минимальный детектируемый эффект (MDE). Какой минимальный прирост имеет практическую ценность для бизнеса? MDE 5% требует в 4 раза больше данных, чем MDE 10%. Бизнес задаёт MDE из экономики, не из статистики.

3. Уровни ошибок α и β. Стандарт: α = 0.05 (5% риск ложноположительного результата), мощность 1−β = 80%. Для критичных решений (изменение главной страницы) разумно поднять мощность до 90%.

Типичные ошибки

Рассчитать выборку постфактум. Если тест уже дал значимый результат — смысла в ретроспективном расчёте нет. Расчёт — это документ намерений до запуска.
Игнорировать количество вариантов. При A/B/C тесте нужно учитывать поправку на множественные сравнения, иначе суммарная ошибка первого рода вырастет с 5% до ~14%.
Путать абсолютный и относительный MDE. «Рост на 0.2 п.п.» при CR 2% — это 10% относительный прирост, а не 0.2%. Разница в итоговой выборке — четырёхкратная.
Не учитывать двустороннее тестирование. Если тест проверяет «лучше или хуже», z_α/2 = 1.96; если только «лучше» — z_α = 1.645. Использование одностороннего теста без явного обоснования — методологически рискованно.

Частые вопросы

Как рассчитать нужный размер выборки?

Для двухвыборочного теста пропорций используют формулу: n = 2 × (z_α + z_β)² × p̄(1−p̄) / (p_B − p_A)², где p̄ — средняя конверсия, p_B − p_A — минимальный детектируемый эффект. На практике проще воспользоваться онлайн-калькуляторами (например, Evan Miller's A/B test calculator). Всегда задавайте требования до запуска, не после.

Что произойдёт, если выборка окажется меньше нужной?

Тест потеряет мощность — вероятность пропустить реальный эффект (ошибка второго рода) вырастет. Тест завершится без значимого результата, хотя улучшение реально существует. Кроме того, при малых выборках случайные колебания чаще создают ложноположительные сигналы.

Влияет ли количество вариантов на размер выборки?

Да. При трёх и более вариантах (A/B/n) общий размер выборки растёт пропорционально числу сравнений с контролем. Нужно учитывать поправку на множественные сравнения (Bonferroni или аналог) — иначе суммарный уровень ошибки первого рода превысит α.

Можно ли остановить тест досрочно, если результат «очевидно» значимый?

В классическом frequentist-подходе — нет: это «peeking», который инфлирует ошибку первого рода. Альтернативы: байесовский тест (останавливается по вероятности лучшего варианта) или sequential testing (e-values, SPRT) — они проектируются именно под постоянный мониторинг.

Gravity Field

Расчёт выборки в Gravity Field

Gravity Field показывает расчётную длительность теста до запуска — на основе текущего трафика, baseline-конверсии и заданного MDE.

✦Автоматический расчёт необходимого объёма выборки перед запуском теста

✦Индикатор достаточности данных в интерфейсе теста

✦Предупреждение о недостаточной мощности при малом трафике

Посмотреть функциональность →