A/B тестирование

A/B Testing · Split Testing · Сплит-тестирование

Определение

A/B тест — контролируемый статистический эксперимент, в котором единственная переменная изменяется между двумя версиями, а все прочие факторы остаются одинаковыми. Это позволяет установить причинно-следственную связь между изменением и результатом — в отличие от корреляционного анализа.

Как работает A/B тест

В классическом тесте есть два варианта: контрольный (A) — текущая версия — и тестовый (B) — изменённая. Посетители случайно распределяются между группами через cookie или серверную привязку: попав в группу однажды, пользователь всегда видит один и тот же вариант.

После накопления достаточной выборки результаты сравниваются по ключевой метрике. Если разница статистически значима (обычно p < 0.05 или «вероятность быть лучшим» ≥ 95%), победитель внедряется как новая версия.

CR(A) = 2.1%  →  CR(B) = 2.5%   Lift = +19%
RPV(A) = 450 ₽ →  RPV(B) = 527 ₽  Lift = +17%

Совет: используйте RPV (Revenue per Visitor) как основную метрику — она учитывает одновременно конверсию и средний чек.

Frequentist vs Bayesian: два подхода

Параметр	Frequentist	Bayesian
Основная метрика	p-value	Probability to be best
Досрочная остановка	Недопустима	Допустима
Совместимость с MAB	✗	✓
Скорость принятия решений	Медленнее	Быстрее при большой разнице

Для e-commerce байесовский подход предпочтителен — он позволяет реагировать быстрее и нативно совместим с автоматической аллокацией (MAB). Gravity Field использует байесовский подход по умолчанию.

Автопилот: Multi-Armed Bandit (MAB)

Multi-Armed Bandit — расширение A/B тестирования. Вместо фиксированного split 50/50 алгоритм динамически перераспределяет трафик в пользу побеждающего варианта прямо в процессе теста. Это снижает потери конверсий на 30–50% по сравнению с классическим подходом.

A/B тесты для рекомендаций и персонализации

В e-commerce A/B тесты чаще всего запускают не только для UI-элементов, но и для рекомендательных стратегий: сравниваются алгоритмы, конфигурации виджетов и позиционирование блоков рекомендаций. Ключевая метрика — атрибутированная выручка с учётом attribution window (7–14 дней).

Типичные ошибки

Peek-and-stop: остановить тест при первой «красивой» разнице — путь к ложным выводам. При 20 промежуточных проверках вероятность случайно увидеть p < 0.05 превышает 60%.
Несколько переменных сразу: если изменить заголовок + цвет кнопки + фото — невозможно определить причину результата.
Слишком маленькая выборка: при CR 1% и трафике 10К/день для MDE 15% нужно около 17–21 дней.
Игнорирование сезонности: тест накануне распродажи даёт нерепрезентативную аудиторию.

Частые вопросы

Как долго должен длиться A/B тест?

Минимум 2 полные недели — чтобы охватить полный цикл покупательского поведения (будни + выходные) дважды. При конверсии 1–2% и трафике 10К уникальных посетителей в сутки типичный тест требует 14–21 день для достижения 95% confidence.

Чем A/B тест отличается от MVT?

A/B тест проверяет одну переменную в двух вариантах. MVT (Multivariate Testing) одновременно тестирует несколько элементов во всех комбинациях. MVT требует в 4–8 раз больше трафика, но позволяет выявить синергетические эффекты между элементами страницы.

Что такое holdout group в A/B тестировании?

Holdout group — группа пользователей, намеренно исключённая из персонализации на длительный период (3–6 месяцев). Позволяет измерить суммарный эффект всех персонализационных изменений за период, а не только отдельного теста.

Можно ли тестировать рекомендательные алгоритмы через A/B тест?

Да — это один из самых ценных сценариев в e-commerce. Сравниваются рекомендательные стратегии (например, «Коллаборативная фильтрация» vs «User Affinity»), конфигурации виджетов или позиции блоков. Ключевая метрика — атрибутированная выручка с учётом окна атрибуции (7–14 дней).

Gravity Field