Что такое p-value и как его интерпретировать
P-value — вероятность получить наблюдаемый результат (или более крайний) при условии, что нулевая гипотеза верна. Нулевая гипотеза в A/B тесте — «между вариантом A и вариантом B нет разницы».
Формально: p = 0.03 означает, что если бы разницы действительно не было, мы увидели бы такой же или более выраженный эффект случайно в 3% повторных экспериментов.
Что p-value НЕ означает:
— «96% вероятность, что вариант B лучше» — нет
— «Нулевая гипотеза ложна с вероятностью 96%» — нет
— «Эффект практически значим» — нет, только статистически
Три вещи, которые ломают интерпретацию p-value
Peeking — проверка промежуточных результатов с готовностью остановить тест. При каждой дополнительной проверке вы фактически проводите ещё один тест на тех же данных, что раздувает реальный уровень ошибки. 20 проверок × 5% риска = ~64% вероятность получить p < 0.05 случайно.
Маленькая выборка — при недостаточном размере выборки высокая p-value не означает «нет эффекта», только «нет достаточных данных для его обнаружения». Это ошибка второго рода (Type II Error).
Множественные гипотезы — если проверять 20 разных метрик одновременно при уровне p < 0.05, в среднем 1 из них окажется «значимой» случайно. Бонферрони и другие поправки для множественных сравнений снижают этот риск.
Frequentist vs Bayesian: принципиальная разница
| Характеристика | Frequentist (p-value) | Bayesian (Prob to be best) |
|---|---|---|
| Что измеряет | Вероятность данных при H₀ | Вероятность того, что B > A |
| Интерпретация | Техническая, часто неверно понимается | Интуитивная |
| Досрочная остановка | Некорректна | Корректна |
| Размер выборки | Нужно определить заранее | Гибко |
Важно: p-value ≠ «вероятность победы». Это разные концепции. Байесовский подход даёт именно вероятность победы, что проще в интерпретации и безопаснее при досрочном просмотре результатов.