Ошибка второго рода

Type II Error (False Negative) · false negative · ошибка второго рода · ложноотрицательный результат · beta error

Определение

Ошибка второго рода — ложноотрицательный вывод теста: реальное улучшение варианта не обнаружено из-за недостаточного объёма данных; вероятность ошибки равна 1 минус мощность теста.

Что такое ошибка второго рода

В A/B тестировании ошибка второго рода — это принятие нулевой гипотезы (H₀: «варианты одинаковы»), когда вариант B на самом деле лучше. Тест говорит «нет разницы», хотя разница есть.

Обозначается β. Дополняет мощность теста: Мощность = 1 − β. При стандартной мощности 80%:

β = 0.20 → каждый 5-й тест с реальным эффектом даст «нет результата»

Почему возникает

Главная причина — недостаточная выборка. Если трафика мало или тест остановлен слишком рано, статистика не успевает «увидеть» реальный эффект. Это особенно критично для малых эффектов: улучшение CR на 3% (небольшое, но ценное) требует в разы больше данных, чем улучшение на 15%.

Вторая причина — неудачный выбор метрики. Конверсия (CR) — нестабильная метрика с высокой дисперсией. Более чувствительная альтернатива — RPV (Revenue per Visitor): она одновременно учитывает конверсию и средний чек, что снижает β при том же объёме выборки.

Как снизить ошибку второго рода

Увеличить выборку. Самый прямой путь: дольше собирать данные или выбрать более высокотрафичные страницы для теста.

Выбрать более чувствительную метрику. RPV вместо CR, AOV для товарных тестов, атрибутированная выручка для рекомендаций.

Снизить MDE. Иногда вопрос не «увеличить выборку», а «какой минимальный эффект нам интересен». Если 2% прирост конверсии слишком мал, чтобы оправдать объём теста — возможно, задача неправильно сформулирована.

Использовать CUPED (Controlled-experiment Using Pre-Experiment Data). Метод снижает дисперсию метрики за счёт ковариатной корректировки на предэкспериментальные данные, повышая мощность при той же выборке.

Важно: снижение β всегда «торгует» с α. Если повысить мощность за счёт снижения α — ошибка первого рода вырастет. Стандарт отрасли: α = 0.05, β = 0.20 (мощность 80%). Отклоняться от него стоит осознанно.

Сравнение двух типов ошибок

Параметр	Тип I (α)	Тип II (β)
Что «неверно сделали»	Внедрили нейтральное изменение	Не внедрили хорошее изменение
Влияет на…	Продукт (нейтральные изменения)	Рост (упущенные улучшения)
Контроль	Порог значимости α	Мощность теста = 1 − β
Снижается	Sequential testing, меньший α	Больший N, лучшая метрика, CUPED

Частые вопросы

Как связаны ошибка второго рода и мощность теста?

Мощность (statistical power) = 1 − β. При стандартной мощности 80% (β = 0.20) каждый пятый тест с реальным эффектом даст ложноотрицательный результат. Это означает: хорошее изменение будет отвергнуто в 20% случаев. Для снижения β нужно увеличить выборку или выбрать более чувствительную метрику.

Что такое MDE и как он связан с ошибкой второго рода?

MDE (Minimum Detectable Effect) — наименьший эффект, который тест способен зафиксировать при заданных α и β. Чем меньше ожидаемый эффект, тем больше нужна выборка. Если реальный эффект меньше MDE, тест даст ошибку второго рода даже при правильной настройке.

Как выбрать между чувствительностью к ошибке I и II рода?

Зависит от цены каждой ошибки. Внедрение нейтрального изменения (I рода) — потраченное время разработки. Пропуск улучшения (II рода) — упущенная выручка. В e-commerce обычно важнее снизить II рода: при маленьком трафике стоит прирасти до достаточной выборки, а не останавливать тест рано.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →