Что такое Frequentist-статистика
Frequentist-подход — это классическая интерпретация вероятности: вероятность события определяется как доля случаев, когда оно наступает при многократном повторении эксперимента. Это «объективистская» статистика — она не включает предшествующих убеждений (prior), опирается только на наблюдаемые данные.
В A/B тестировании frequentist-подход реализуется через трёхшаговую процедуру:
- До теста: задаёшь α (уровень значимости, обычно 0.05) и β (допустимую ошибку II рода, обычно 0.2 = power 80%), вычисляешь необходимый sample size по формуле
- Во время теста: ждёшь без вмешательства до набора полной выборки
- После теста: смотришь на p-value, принимаешь решение
Ключевые метрики
H₀ (нулевая гипотеза): CR(A) = CR(B), разницы нет
H₁ (альтернативная): CR(B) ≠ CR(A)
α = 0.05 (ошибка I рода — ложноположительный результат)
β = 0.20 (ошибка II рода — ложноотрицательный результат)
Power = 1 − β = 0.80
p-value < α → отклоняем H₀ → результат «статистически значим»
| Метрика | Что означает |
|---|---|
| p-value | Вероятность получить такие данные при условии отсутствия эффекта |
| α (alpha) | Порог ложного срабатывания (стандарт: 0.05) |
| Power (мощность) | Шанс обнаружить реальный эффект, если он есть |
| Confidence Interval | Диапазон, в который попадает истинная разница с вероятностью (1−α) |
Ключевая дисциплина: запрет на peeking
Главное правило frequentist-тестирования — никаких промежуточных решений. Если смотреть на результаты каждый день и останавливать тест при «красивой» разнице — вы инфлируете Type I error:
Промежуточных просмотров: 1 5 10 20
Реальная ошибка I рода: ~5% ~14% ~19% ~25–30%
(при номинальном α = 0.05)
Решение — либо строгая дисциплина без промежуточных просмотров, либо переход на sequential testing с корректированными границами.
Frequentist vs Bayesian: когда что выбирать
Обе парадигмы решают одну задачу, но по-разному:
| Критерий | Frequentist | Bayesian |
|---|---|---|
| Интерпретируемость для бизнеса | Сложнее (p-value интуитивно непрост) | Проще («вероятность, что B лучше») |
| Досрочная остановка | Требует sequential testing | Допустима нативно |
| MAB / автопилот | Не совместим напрямую | Нативная поддержка |
| Регуляторные требования | Стандарт в фарме/финансах | Менее принят |
| Репрозводимость | Высокая | Зависит от prior |
Совет: Для большинства e-commerce экспериментов байесовский подход практичнее — он позволяет реагировать быстрее, не требует строгой дисциплины peeking и нативно поддерживает автоматическую аллокацию. Frequentist предпочтителен, когда нужна формальная воспроизводимость или интеграция с внешними аудиторами.