Зачем рассчитывать выборку заранее
Размер выборки — не техническая деталь, а фундамент корректного теста. Если запустить тест и остановить его, когда результат «понравился», вероятность ложноположительного вывода резко возрастает. При 20 промежуточных проверках теста она превышает 60%, даже если реального эффекта нет.
Расчёт выборки до запуска задаёт объективный горизонт: тест работает ровно столько, сколько нужно — не меньше и не больше.
Формула и ключевые параметры
Для двухвыборочного теста пропорций размер выборки на вариант:
n = 2 × (z_α/2 + z_β)² × p̄(1 − p̄) / δ²
z_α/2 = 1.96 (α = 0.05, двусторонний тест)
z_β = 0.84 (мощность 80%)
p̄ = (p_A + p_B) / 2
δ = |p_B − p_A| (MDE)
| Базовый CR | MDE (относит.) | n на вариант | Дней при 5К/сут |
|---|---|---|---|
| 2% | 10% | ~37 600 | ~15 |
| 2% | 5% | ~150 000 | ~60 |
| 5% | 10% | ~14 200 | ~6 |
| 5% | 5% | ~56 900 | ~23 |
Важно: чем меньше MDE и ниже базовая конверсия — тем дольше тест. Запрашивать «хотим обнаруживать +1% роста» при CR 2% означает тест на сотни тысяч пользователей.
Три входных параметра, которые определяют выборку
1. Базовая конверсия (baseline CR). Чем ниже — тем больше нужно наблюдений для надёжного измерения. CR 0.5% требует в 4 раза больше выборки, чем CR 2%.
2. Минимальный детектируемый эффект (MDE). Какой минимальный прирост имеет практическую ценность для бизнеса? MDE 5% требует в 4 раза больше данных, чем MDE 10%. Бизнес задаёт MDE из экономики, не из статистики.
3. Уровни ошибок α и β. Стандарт: α = 0.05 (5% риск ложноположительного результата), мощность 1−β = 80%. Для критичных решений (изменение главной страницы) разумно поднять мощность до 90%.
Типичные ошибки
- Рассчитать выборку постфактум. Если тест уже дал значимый результат — смысла в ретроспективном расчёте нет. Расчёт — это документ намерений до запуска.
- Игнорировать количество вариантов. При A/B/C тесте нужно учитывать поправку на множественные сравнения, иначе суммарная ошибка первого рода вырастет с 5% до ~14%.
- Путать абсолютный и относительный MDE. «Рост на 0.2 п.п.» при CR 2% — это 10% относительный прирост, а не 0.2%. Разница в итоговой выборке — четырёхкратная.
- Не учитывать двустороннее тестирование. Если тест проверяет «лучше или хуже», z_α/2 = 1.96; если только «лучше» — z_α = 1.645. Использование одностороннего теста без явного обоснования — методологически рискованно.