Что такое p-value и как его интерпретировать

P-value — вероятность получить наблюдаемый результат (или более крайний) при условии, что нулевая гипотеза верна. Нулевая гипотеза в A/B тесте — «между вариантом A и вариантом B нет разницы».

Формально: p = 0.03 означает, что если бы разницы действительно не было, мы увидели бы такой же или более выраженный эффект случайно в 3% повторных экспериментов.

Что p-value НЕ означает:
— «96% вероятность, что вариант B лучше» — нет
— «Нулевая гипотеза ложна с вероятностью 96%» — нет
— «Эффект практически значим» — нет, только статистически

Три вещи, которые ломают интерпретацию p-value

Peeking — проверка промежуточных результатов с готовностью остановить тест. При каждой дополнительной проверке вы фактически проводите ещё один тест на тех же данных, что раздувает реальный уровень ошибки. 20 проверок × 5% риска = ~64% вероятность получить p < 0.05 случайно.

Маленькая выборка — при недостаточном размере выборки высокая p-value не означает «нет эффекта», только «нет достаточных данных для его обнаружения». Это ошибка второго рода (Type II Error).

Множественные гипотезы — если проверять 20 разных метрик одновременно при уровне p < 0.05, в среднем 1 из них окажется «значимой» случайно. Бонферрони и другие поправки для множественных сравнений снижают этот риск.

Frequentist vs Bayesian: принципиальная разница

Характеристика Frequentist (p-value) Bayesian (Prob to be best)
Что измеряет Вероятность данных при H₀ Вероятность того, что B > A
Интерпретация Техническая, часто неверно понимается Интуитивная
Досрочная остановка Некорректна Корректна
Размер выборки Нужно определить заранее Гибко

Важно: p-value ≠ «вероятность победы». Это разные концепции. Байесовский подход даёт именно вероятность победы, что проще в интерпретации и безопаснее при досрочном просмотре результатов.