Ошибка первого рода

Type I Error (False Positive) · false positive · ошибка первого рода · ложноположительный результат · alpha error

Определение

Ошибка первого рода — ложноположительный вывод теста: вариант признаётся лучше контроля, хотя реальной разницы нет; вероятность ошибки контролируется порогом α.

Что такое ошибка первого рода

В A/B тестировании нулевая гипотеза (H₀) утверждает: «варианты A и B одинаковы». Ошибка первого рода — это отклонение H₀, когда она на самом деле верна. Проще говоря: тест «нашёл победителя», которого нет.

Параметр α контролирует допустимую вероятность этой ошибки. При α = 0.05 и тесте без реального эффекта один из 20 экспериментов даст ложноположительный результат чисто случайно.

Практические последствия

Для команды, запускающей 40 тестов в год при α = 0.05:

Ожидаемое число ложных «побед» = 40 × 0.05 = 2 в год

Это означает два внедрения изменений, которые на самом деле не улучшают продукт. При небольшом MDE (минимальный обнаруживаемый эффект) и низком трафике реальная доля ложноположительных может быть ещё выше.

Главные усилители ошибки первого рода

Peeking. Если проверять результаты теста ежедневно и останавливать при первом p < 0.05, реальная вероятность ошибки первого рода при 20 промежуточных проверках превысит 30% — при заявленном α = 0.05. Это самая распространённая ошибка в A/B тестировании.

Множественные метрики без поправки. Если тест оценивается по 10 метрикам, вероятность случайного значимого результата хотя бы по одной — уже около 40%. Решение: выбирать одну первичную метрику заранее, для остальных применять поправку Бонферрони или FDR-контроль.

Sample Ratio Mismatch (SRM). Если фактическое соотношение групп отличается от запланированного, результаты теста искажены — значимость может быть ложной.

Совет: байесовский подход не использует p-value и порог α напрямую — вместо этого оценивается «вероятность быть лучшим». Это не устраняет ошибку первого рода полностью, но делает её менее зависимой от числа промежуточных проверок.

Ошибка первого рода vs второго рода

	Ошибка I рода (α)	Ошибка II рода (β)
Что происходит	Внедряем плохое изменение	Отвергаем хорошее изменение
Контролируется	Уровнем α	Мощностью теста (1 − β)
Снижается	Меньшим α, sequential testing	Больше трафика, меньше MDE
Компромисс	Строже α → выше β	Строже β → выше α

Частые вопросы

Что такое уровень α и как его выбирать?

α — допустимая вероятность ошибки первого рода. При α = 0.05 мы принимаем, что 1 из 20 тестов без реального эффекта может дать «значимый» результат случайно. Для e-commerce стандарт — α = 0.05. Если цена ошибки высока (масштабные изменения алгоритма), используют α = 0.01.

Почему peeking увеличивает ошибку первого рода?

При каждой промежуточной проверке есть шанс случайно увидеть p < 0.05. Если проверять тест 20 раз, суммарная вероятность ложноположительного результата существенно выше заявленного α = 0.05. Решения — sequential testing, поправка Бонферрони или байесовский подход.

Как ошибка первого рода связана с A/A тестом?

A/A тест проверяет, не генерирует ли платформа ложноположительные результаты систематически. Если A/A тест даёт значимый результат, значит, в системе есть структурная проблема (SRM, некорректная рандомизация), и реальная ошибка первого рода выше заявленного α.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →