Что такое Frequentist-статистика

Frequentist-подход — это классическая интерпретация вероятности: вероятность события определяется как доля случаев, когда оно наступает при многократном повторении эксперимента. Это «объективистская» статистика — она не включает предшествующих убеждений (prior), опирается только на наблюдаемые данные.

В A/B тестировании frequentist-подход реализуется через трёхшаговую процедуру:

  1. До теста: задаёшь α (уровень значимости, обычно 0.05) и β (допустимую ошибку II рода, обычно 0.2 = power 80%), вычисляешь необходимый sample size по формуле
  2. Во время теста: ждёшь без вмешательства до набора полной выборки
  3. После теста: смотришь на p-value, принимаешь решение

Ключевые метрики

H₀ (нулевая гипотеза):  CR(A) = CR(B), разницы нет
H₁ (альтернативная):    CR(B) ≠ CR(A)

α = 0.05 (ошибка I рода — ложноположительный результат)
β = 0.20 (ошибка II рода — ложноотрицательный результат)
Power = 1 − β = 0.80

p-value < α → отклоняем H₀ → результат «статистически значим»
Метрика Что означает
p-value Вероятность получить такие данные при условии отсутствия эффекта
α (alpha) Порог ложного срабатывания (стандарт: 0.05)
Power (мощность) Шанс обнаружить реальный эффект, если он есть
Confidence Interval Диапазон, в который попадает истинная разница с вероятностью (1−α)

Ключевая дисциплина: запрет на peeking

Главное правило frequentist-тестирования — никаких промежуточных решений. Если смотреть на результаты каждый день и останавливать тест при «красивой» разнице — вы инфлируете Type I error:

Промежуточных просмотров:  1    5    10    20
Реальная ошибка I рода:  ~5%  ~14%  ~19%  ~25–30%
(при номинальном α = 0.05)

Решение — либо строгая дисциплина без промежуточных просмотров, либо переход на sequential testing с корректированными границами.

Frequentist vs Bayesian: когда что выбирать

Обе парадигмы решают одну задачу, но по-разному:

Критерий Frequentist Bayesian
Интерпретируемость для бизнеса Сложнее (p-value интуитивно непрост) Проще («вероятность, что B лучше»)
Досрочная остановка Требует sequential testing Допустима нативно
MAB / автопилот Не совместим напрямую Нативная поддержка
Регуляторные требования Стандарт в фарме/финансах Менее принят
Репрозводимость Высокая Зависит от prior

Совет: Для большинства e-commerce экспериментов байесовский подход практичнее — он позволяет реагировать быстрее, не требует строгой дисциплины peeking и нативно поддерживает автоматическую аллокацию. Frequentist предпочтителен, когда нужна формальная воспроизводимость или интеграция с внешними аудиторами.