Частотная статистика

Frequentist Statistics · frequentist approach · классическая статистика · frequentist ab testing

Определение

Frequentist-статистика — подход к тестированию на основе p-value и заранее определённой выборки, где вероятность трактуется как долгосрочная частота событий при многократных повторениях.

Что такое Frequentist-статистика

Frequentist-подход — это классическая интерпретация вероятности: вероятность события определяется как доля случаев, когда оно наступает при многократном повторении эксперимента. Это «объективистская» статистика — она не включает предшествующих убеждений (prior), опирается только на наблюдаемые данные.

В A/B тестировании frequentist-подход реализуется через трёхшаговую процедуру:

До теста: задаёшь α (уровень значимости, обычно 0.05) и β (допустимую ошибку II рода, обычно 0.2 = power 80%), вычисляешь необходимый sample size по формуле
Во время теста: ждёшь без вмешательства до набора полной выборки
После теста: смотришь на p-value, принимаешь решение

Ключевые метрики

H₀ (нулевая гипотеза):  CR(A) = CR(B), разницы нет
H₁ (альтернативная):    CR(B) ≠ CR(A)

α = 0.05 (ошибка I рода — ложноположительный результат)
β = 0.20 (ошибка II рода — ложноотрицательный результат)
Power = 1 − β = 0.80

p-value < α → отклоняем H₀ → результат «статистически значим»

Метрика	Что означает
p-value	Вероятность получить такие данные при условии отсутствия эффекта
α (alpha)	Порог ложного срабатывания (стандарт: 0.05)
Power (мощность)	Шанс обнаружить реальный эффект, если он есть
Confidence Interval	Диапазон, в который попадает истинная разница с вероятностью (1−α)

Ключевая дисциплина: запрет на peeking

Главное правило frequentist-тестирования — никаких промежуточных решений. Если смотреть на результаты каждый день и останавливать тест при «красивой» разнице — вы инфлируете Type I error:

Промежуточных просмотров:  1    5    10    20
Реальная ошибка I рода:  ~5%  ~14%  ~19%  ~25–30%
(при номинальном α = 0.05)

Решение — либо строгая дисциплина без промежуточных просмотров, либо переход на sequential testing с корректированными границами.

Frequentist vs Bayesian: когда что выбирать

Обе парадигмы решают одну задачу, но по-разному:

Критерий	Frequentist	Bayesian
Интерпретируемость для бизнеса	Сложнее (p-value интуитивно непрост)	Проще («вероятность, что B лучше»)
Досрочная остановка	Требует sequential testing	Допустима нативно
MAB / автопилот	Не совместим напрямую	Нативная поддержка
Регуляторные требования	Стандарт в фарме/финансах	Менее принят
Репрозводимость	Высокая	Зависит от prior

Совет: Для большинства e-commerce экспериментов байесовский подход практичнее — он позволяет реагировать быстрее, не требует строгой дисциплины peeking и нативно поддерживает автоматическую аллокацию. Frequentist предпочтителен, когда нужна формальная воспроизводимость или интеграция с внешними аудиторами.

Частые вопросы

Что такое p-value и почему p < 0.05?

P-value — вероятность получить наблюдаемый результат (или более экстремальный) при условии, что нулевая гипотеза верна (то есть разницы нет). P < 0.05 означает: вероятность случайно получить такую разницу — меньше 5%. Порог 5% — исторически принятый компромисс, а не физический закон. Для критичных решений используют α = 0.01.

Почему нельзя смотреть на результаты до окончания теста?

Это называется peeking. При каждом промежуточном просмотре вы де-факто проводите дополнительный тест. Если смотреть каждый день на 20-дневном тесте, реальная вероятность ложного срабатывания вырастает с 5% до ~30–65%. Это называется multiple testing problem.

Когда frequentist-подход предпочтительнее байесовского?

Когда нужна воспроизводимость и прозрачность для стейкхолдеров: p-value и confidence interval легче объяснить руководству, чем Posterior probability. Когда важна регуляторная совместимость: в фарме и финансах frequentist — стандарт. Когда тест запускается строго один раз без промежуточных просмотров.

Что такое sequential testing в контексте frequentist-статистики?

Sequential testing — расширение frequentist-подхода, позволяющее корректно останавливать тест досрочно. Использует скорректированные границы (Wald's SPRT, mSPRT), которые учитывают накопленные данные. Решает проблему peeking без перехода на байесовскую парадигму.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →