Что такое контрольная группа
В любом A/B-тесте есть как минимум два сегмента: контрольная группа (группа A) видит текущую версию страницы или алгоритма, тестовая группа (группа B) — изменённую. Разница в метриках между ними и есть измеримый эффект изменения.
Без контрольной группы любой наблюдаемый рост метрики может объясняться внешними факторами: началом сезона, новой рекламной кампанией или просто случайными флуктуациями трафика.
Требования к корректной контрольной группе
- Одновременный набор трафика с тестовой группой — разновременные периоды несопоставимы.
- Один источник — контроль и тест должны получать трафик из одних и тех же каналов.
- Неизменность — контрольный вариант не должен меняться в процессе теста.
- Sticky assignment — один пользователь всегда попадает в одну и ту же группу при каждом визите.
Важно: если один и тот же пользователь в разные сессии видит разные варианты, данные теста будут «загрязнены» и выводы ненадёжны.
Размер контрольной группы
Стандартный сплит 50/50 — разумный выбор по умолчанию, но не единственный.
| Сценарий | Рекомендуемый сплит |
|---|---|
| Классический A/B тест | 50/50 |
| A/B/C тест (три варианта) | 34/33/33 |
| Дорогостоящее изменение (риск регрессии) | 80/20 (80% контроль) |
| MAB-автопилот | Динамический, контроль ≥10% |
| Holdout (долгосрочный) | 90/10 (10% в holdout) |
Контрольная группа vs Holdout
Контрольная группа — это базовый вариант внутри конкретного теста. Holdout-группа — это расширение концепции: сегмент, намеренно исключённый из всей персонализации на длительный срок (3–6 месяцев). Holdout позволяет измерить совокупный эффект всех изменений, а не эффект отдельного эксперимента.
Типичные ошибки
- Изменение контроля в процессе теста — например, обновление основного шаблона страницы во время теста сводит результаты на нет.
- Несбалансированный трафик — если реклама ведёт трафик только на тестовую страницу, распределение по группам будет некорректным.
- Слишком маленькая контрольная группа — при агрессивной аллокации в пользу «победителя» контроль может получить недостаточно трафика для достоверных выводов.