Последовательное тестирование

Sequential Testing · sequential test · always-valid inference · непрерывный мониторинг

Определение

Последовательное тестирование — статистический подход, допускающий промежуточный анализ данных A/B-теста и раннюю остановку без раздувания ошибки первого рода.

Проблема peeking — почему нельзя просто «посмотреть»

В классическом frequentist A/B тесте нужно заранее задать размер выборки и дождаться её набора. Смотреть на промежуточные результаты и останавливать тест «когда стало значимо» — это «peeking». Вот почему это проблема:

При пороге p < 0.05 вероятность ложноположительного результата фиксирована в 5% — при одной проверке. При повторных проверках вероятность накапливается:

Проверок 1  → ложноположительных ~5%
Проверок 5  → ложноположительных ~19%
Проверок 10 → ложноположительных ~30%
Проверок 20 → ложноположительных ~54%

Команды, которые смотрят на дашборд ежедневно и останавливают тест «при значимости», фактически принимают решения на основе зашумлённых данных.

Как работает sequential testing

Sequential testing решает задачу «смотреть в любой момент, не нарушая статистику» двумя способами:

1. Alpha spending function (границы Ланна–ДеМетца)

Суммарная ошибка первого рода α = 0.05 «расходуется» по заданной функции на каждой промежуточной проверке. Каждая проверка использует более жёсткую границу p, чем одиночная: суммарный «расход» не превышает 0.05.

2. E-values / Always-Valid Inference

E-value — накапливаемая мера доказательств:

e_t = e_{t-1} × LR_t  (произведение likelihood ratio на каждом шаге)

Тест можно останавливать, когда e_t ≥ 1/α. Ключевое свойство: корректность гарантирована при любой стратегии остановки — не только по правилу, но и по усмотрению.

Sequential testing vs Bayesian early stopping

Параметр	Sequential (e-values)	Bayesian
Контроль ошибки I рода	Строгий frequentist	Вероятностный
Интерпретация	«Доказательств достаточно»	«Вероятность победы B = X%»
Понятность для бизнеса	Средняя	Высокая
Математическая строгость	Очень высокая	Зависит от prior

Для большинства продуктовых команд байесовский подход понятнее и достаточен. Sequential testing с e-values — инструмент для data science команд с высокими требованиями к формальным гарантиям.

Когда использовать

Высокоприоритетные тесты, где ошибки дорого стоят (главная страница, чекаут)
Тесты с нестабильным трафиком (сезонность, акции)
Команды, где невозможно дождаться фиксированной даты окончания теста
Продуктовые организации с зрелой культурой A/B тестирования

Частые вопросы

Чем sequential testing отличается от обычного A/B теста с ранней остановкой?

Ранняя остановка классического frequentist-теста — это «peeking»: ошибка первого рода инфлируется с 5% до 30–60% при 10–20 проверках. Sequential testing с самого начала проектируется под постоянный мониторинг: критические границы (spending function) или e-values контролируют суммарную ошибку типа I по всему горизонту теста.

Что такое e-values и чем они лучше p-values для sequential testing?

E-value (evidence value) — мера доказательств, мультипликативно обновляемая при каждом новом наблюдении. В отличие от p-value, e-values сохраняют корректность при любой остановке теста: можно остановить тест, когда захочется, без поправок. E-values также поддерживают корректное «накопление» доказательств из нескольких тестов.

Когда лучше использовать sequential testing вместо байесовского подхода?

Оба метода допускают раннюю остановку. Байесовский подход интуитивнее для бизнеса («вероятность, что B лучше A = 97%»). Sequential testing с e-values ближе к классическому frequentist-мышлению и имеет строгие формальные гарантии ошибки первого рода. При наличии опытной data science команды e-values дают больший контроль.

Подходит ли sequential testing для e-commerce с сезонными пиками?

Да — это одно из ключевых преимуществ. Если трафик резко вырос (Чёрная пятница), sequential testing позволяет остановить тест быстрее при достижении нужной мощности, а не ждать заранее запланированную дату. Главное — не форсировать остановку из-за давления, а полагаться на статистический критерий.

Gravity Field

A/B тестирование в Gravity Field

Gravity Field поддерживает байесовский подход, совместимый с непрерывным мониторингом и ранней остановкой — как альтернативу frequentist sequential testing.

✦Байесовская статистика с метрикой «Probability to be best»

✦Автопилот (MAB) — динамическая аллокация без фиксированного срока

✦Мониторинг результатов в реальном времени без раздувания ошибки

Посмотреть функциональность →