Как работает A/B тест
В классическом тесте есть два варианта: контрольный (A) — текущая версия — и тестовый (B) — изменённая. Посетители случайно распределяются между группами через cookie или серверную привязку: попав в группу однажды, пользователь всегда видит один и тот же вариант.
После накопления достаточной выборки результаты сравниваются по ключевой метрике. Если разница статистически значима (обычно p < 0.05 или «вероятность быть лучшим» ≥ 95%), победитель внедряется как новая версия.
CR(A) = 2.1% → CR(B) = 2.5% Lift = +19%
RPV(A) = 450 ₽ → RPV(B) = 527 ₽ Lift = +17%
Совет: используйте RPV (Revenue per Visitor) как основную метрику — она учитывает одновременно конверсию и средний чек.
Frequentist vs Bayesian: два подхода
| Параметр | Frequentist | Bayesian |
|---|---|---|
| Основная метрика | p-value | Probability to be best |
| Досрочная остановка | Недопустима | Допустима |
| Совместимость с MAB | ✗ | ✓ |
| Скорость принятия решений | Медленнее | Быстрее при большой разнице |
Для e-commerce байесовский подход предпочтителен — он позволяет реагировать быстрее и нативно совместим с автоматической аллокацией (MAB). Gravity Field использует байесовский подход по умолчанию.
Автопилот: Multi-Armed Bandit (MAB)
Multi-Armed Bandit — расширение A/B тестирования. Вместо фиксированного split 50/50 алгоритм динамически перераспределяет трафик в пользу побеждающего варианта прямо в процессе теста. Это снижает потери конверсий на 30–50% по сравнению с классическим подходом.
A/B тесты для рекомендаций и персонализации
В e-commerce A/B тесты чаще всего запускают не только для UI-элементов, но и для рекомендательных стратегий: сравниваются алгоритмы, конфигурации виджетов и позиционирование блоков рекомендаций. Ключевая метрика — атрибутированная выручка с учётом attribution window (7–14 дней).
Типичные ошибки
- Peek-and-stop: остановить тест при первой «красивой» разнице — путь к ложным выводам. При 20 промежуточных проверках вероятность случайно увидеть p < 0.05 превышает 60%.
- Несколько переменных сразу: если изменить заголовок + цвет кнопки + фото — невозможно определить причину результата.
- Слишком маленькая выборка: при CR 1% и трафике 10К/день для MDE 15% нужно около 17–21 дней.
- Игнорирование сезонности: тест накануне распродажи даёт нерепрезентативную аудиторию.