Что такое ошибка первого рода

В A/B тестировании нулевая гипотеза (H₀) утверждает: «варианты A и B одинаковы». Ошибка первого рода — это отклонение H₀, когда она на самом деле верна. Проще говоря: тест «нашёл победителя», которого нет.

Параметр α контролирует допустимую вероятность этой ошибки. При α = 0.05 и тесте без реального эффекта один из 20 экспериментов даст ложноположительный результат чисто случайно.

Практические последствия

Для команды, запускающей 40 тестов в год при α = 0.05:

Ожидаемое число ложных «побед» = 40 × 0.05 = 2 в год

Это означает два внедрения изменений, которые на самом деле не улучшают продукт. При небольшом MDE (минимальный обнаруживаемый эффект) и низком трафике реальная доля ложноположительных может быть ещё выше.

Главные усилители ошибки первого рода

Peeking. Если проверять результаты теста ежедневно и останавливать при первом p < 0.05, реальная вероятность ошибки первого рода при 20 промежуточных проверках превысит 30% — при заявленном α = 0.05. Это самая распространённая ошибка в A/B тестировании.

Множественные метрики без поправки. Если тест оценивается по 10 метрикам, вероятность случайного значимого результата хотя бы по одной — уже около 40%. Решение: выбирать одну первичную метрику заранее, для остальных применять поправку Бонферрони или FDR-контроль.

Sample Ratio Mismatch (SRM). Если фактическое соотношение групп отличается от запланированного, результаты теста искажены — значимость может быть ложной.

Совет: байесовский подход не использует p-value и порог α напрямую — вместо этого оценивается «вероятность быть лучшим». Это не устраняет ошибку первого рода полностью, но делает её менее зависимой от числа промежуточных проверок.

Ошибка первого рода vs второго рода

Ошибка I рода (α) Ошибка II рода (β)
Что происходит Внедряем плохое изменение Отвергаем хорошее изменение
Контролируется Уровнем α Мощностью теста (1 − β)
Снижается Меньшим α, sequential testing Больше трафика, меньше MDE
Компромисс Строже α → выше β Строже β → выше α