Проблема peeking — почему нельзя просто «посмотреть»

В классическом frequentist A/B тесте нужно заранее задать размер выборки и дождаться её набора. Смотреть на промежуточные результаты и останавливать тест «когда стало значимо» — это «peeking». Вот почему это проблема:

При пороге p < 0.05 вероятность ложноположительного результата фиксирована в 5% — при одной проверке. При повторных проверках вероятность накапливается:

Проверок 1  → ложноположительных ~5%
Проверок 5  → ложноположительных ~19%
Проверок 10 → ложноположительных ~30%
Проверок 20 → ложноположительных ~54%

Команды, которые смотрят на дашборд ежедневно и останавливают тест «при значимости», фактически принимают решения на основе зашумлённых данных.

Как работает sequential testing

Sequential testing решает задачу «смотреть в любой момент, не нарушая статистику» двумя способами:

1. Alpha spending function (границы Ланна–ДеМетца)

Суммарная ошибка первого рода α = 0.05 «расходуется» по заданной функции на каждой промежуточной проверке. Каждая проверка использует более жёсткую границу p, чем одиночная: суммарный «расход» не превышает 0.05.

2. E-values / Always-Valid Inference

E-value — накапливаемая мера доказательств:

e_t = e_{t-1} × LR_t  (произведение likelihood ratio на каждом шаге)

Тест можно останавливать, когда e_t ≥ 1/α. Ключевое свойство: корректность гарантирована при любой стратегии остановки — не только по правилу, но и по усмотрению.

Sequential testing vs Bayesian early stopping

Параметр Sequential (e-values) Bayesian
Контроль ошибки I рода Строгий frequentist Вероятностный
Интерпретация «Доказательств достаточно» «Вероятность победы B = X%»
Понятность для бизнеса Средняя Высокая
Математическая строгость Очень высокая Зависит от prior

Для большинства продуктовых команд байесовский подход понятнее и достаточен. Sequential testing с e-values — инструмент для data science команд с высокими требованиями к формальным гарантиям.

Когда использовать

  • Высокоприоритетные тесты, где ошибки дорого стоят (главная страница, чекаут)
  • Тесты с нестабильным трафиком (сезонность, акции)
  • Команды, где невозможно дождаться фиксированной даты окончания теста
  • Продуктовые организации с зрелой культурой A/B тестирования