Проблема peeking — почему нельзя просто «посмотреть»
В классическом frequentist A/B тесте нужно заранее задать размер выборки и дождаться её набора. Смотреть на промежуточные результаты и останавливать тест «когда стало значимо» — это «peeking». Вот почему это проблема:
При пороге p < 0.05 вероятность ложноположительного результата фиксирована в 5% — при одной проверке. При повторных проверках вероятность накапливается:
Проверок 1 → ложноположительных ~5%
Проверок 5 → ложноположительных ~19%
Проверок 10 → ложноположительных ~30%
Проверок 20 → ложноположительных ~54%
Команды, которые смотрят на дашборд ежедневно и останавливают тест «при значимости», фактически принимают решения на основе зашумлённых данных.
Как работает sequential testing
Sequential testing решает задачу «смотреть в любой момент, не нарушая статистику» двумя способами:
1. Alpha spending function (границы Ланна–ДеМетца)
Суммарная ошибка первого рода α = 0.05 «расходуется» по заданной функции на каждой промежуточной проверке. Каждая проверка использует более жёсткую границу p, чем одиночная: суммарный «расход» не превышает 0.05.
2. E-values / Always-Valid Inference
E-value — накапливаемая мера доказательств:
e_t = e_{t-1} × LR_t (произведение likelihood ratio на каждом шаге)
Тест можно останавливать, когда e_t ≥ 1/α. Ключевое свойство: корректность гарантирована при любой стратегии остановки — не только по правилу, но и по усмотрению.
Sequential testing vs Bayesian early stopping
| Параметр | Sequential (e-values) | Bayesian |
|---|---|---|
| Контроль ошибки I рода | Строгий frequentist | Вероятностный |
| Интерпретация | «Доказательств достаточно» | «Вероятность победы B = X%» |
| Понятность для бизнеса | Средняя | Высокая |
| Математическая строгость | Очень высокая | Зависит от prior |
Для большинства продуктовых команд байесовский подход понятнее и достаточен. Sequential testing с e-values — инструмент для data science команд с высокими требованиями к формальным гарантиям.
Когда использовать
- Высокоприоритетные тесты, где ошибки дорого стоят (главная страница, чекаут)
- Тесты с нестабильным трафиком (сезонность, акции)
- Команды, где невозможно дождаться фиксированной даты окончания теста
- Продуктовые организации с зрелой культурой A/B тестирования