Как работает A/B тест

В классическом тесте есть два варианта: контрольный (A) — текущая версия — и тестовый (B) — изменённая. Посетители случайно распределяются между группами через cookie или серверную привязку: попав в группу однажды, пользователь всегда видит один и тот же вариант.

После накопления достаточной выборки результаты сравниваются по ключевой метрике. Если разница статистически значима (обычно p < 0.05 или «вероятность быть лучшим» ≥ 95%), победитель внедряется как новая версия.

CR(A) = 2.1%  →  CR(B) = 2.5%   Lift = +19%
RPV(A) = 450 ₽ →  RPV(B) = 527 ₽  Lift = +17%

Совет: используйте RPV (Revenue per Visitor) как основную метрику — она учитывает одновременно конверсию и средний чек.

Frequentist vs Bayesian: два подхода

Параметр Frequentist Bayesian
Основная метрика p-value Probability to be best
Досрочная остановка Недопустима Допустима
Совместимость с MAB
Скорость принятия решений Медленнее Быстрее при большой разнице

Для e-commerce байесовский подход предпочтителен — он позволяет реагировать быстрее и нативно совместим с автоматической аллокацией (MAB). Gravity Field использует байесовский подход по умолчанию.

Автопилот: Multi-Armed Bandit (MAB)

Multi-Armed Bandit — расширение A/B тестирования. Вместо фиксированного split 50/50 алгоритм динамически перераспределяет трафик в пользу побеждающего варианта прямо в процессе теста. Это снижает потери конверсий на 30–50% по сравнению с классическим подходом.

A/B тесты для рекомендаций и персонализации

В e-commerce A/B тесты чаще всего запускают не только для UI-элементов, но и для рекомендательных стратегий: сравниваются алгоритмы, конфигурации виджетов и позиционирование блоков рекомендаций. Ключевая метрика — атрибутированная выручка с учётом attribution window (7–14 дней).

Типичные ошибки

  • Peek-and-stop: остановить тест при первой «красивой» разнице — путь к ложным выводам. При 20 промежуточных проверках вероятность случайно увидеть p < 0.05 превышает 60%.
  • Несколько переменных сразу: если изменить заголовок + цвет кнопки + фото — невозможно определить причину результата.
  • Слишком маленькая выборка: при CR 1% и трафике 10К/день для MDE 15% нужно около 17–21 дней.
  • Игнорирование сезонности: тест накануне распродажи даёт нерепрезентативную аудиторию.