Что такое ошибка второго рода
В A/B тестировании ошибка второго рода — это принятие нулевой гипотезы (H₀: «варианты одинаковы»), когда вариант B на самом деле лучше. Тест говорит «нет разницы», хотя разница есть.
Обозначается β. Дополняет мощность теста: Мощность = 1 − β. При стандартной мощности 80%:
β = 0.20 → каждый 5-й тест с реальным эффектом даст «нет результата»
Почему возникает
Главная причина — недостаточная выборка. Если трафика мало или тест остановлен слишком рано, статистика не успевает «увидеть» реальный эффект. Это особенно критично для малых эффектов: улучшение CR на 3% (небольшое, но ценное) требует в разы больше данных, чем улучшение на 15%.
Вторая причина — неудачный выбор метрики. Конверсия (CR) — нестабильная метрика с высокой дисперсией. Более чувствительная альтернатива — RPV (Revenue per Visitor): она одновременно учитывает конверсию и средний чек, что снижает β при том же объёме выборки.
Как снизить ошибку второго рода
Увеличить выборку. Самый прямой путь: дольше собирать данные или выбрать более высокотрафичные страницы для теста.
Выбрать более чувствительную метрику. RPV вместо CR, AOV для товарных тестов, атрибутированная выручка для рекомендаций.
Снизить MDE. Иногда вопрос не «увеличить выборку», а «какой минимальный эффект нам интересен». Если 2% прирост конверсии слишком мал, чтобы оправдать объём теста — возможно, задача неправильно сформулирована.
Использовать CUPED (Controlled-experiment Using Pre-Experiment Data). Метод снижает дисперсию метрики за счёт ковариатной корректировки на предэкспериментальные данные, повышая мощность при той же выборке.
Важно: снижение β всегда «торгует» с α. Если повысить мощность за счёт снижения α — ошибка первого рода вырастет. Стандарт отрасли: α = 0.05, β = 0.20 (мощность 80%). Отклоняться от него стоит осознанно.
Сравнение двух типов ошибок
| Параметр | Тип I (α) | Тип II (β) |
|---|---|---|
| Что «неверно сделали» | Внедрили нейтральное изменение | Не внедрили хорошее изменение |
| Влияет на… | Продукт (нейтральные изменения) | Рост (упущенные улучшения) |
| Контроль | Порог значимости α | Мощность теста = 1 − β |
| Снижается | Sequential testing, меньший α | Больший N, лучшая метрика, CUPED |