P-value

P-value · p-значение · уровень значимости

Определение

P-value — вероятность получить наблюдаемые или более экстремальные данные при истинной нулевой гипотезе; используется для принятия решения об отклонении нулевой гипотезы в А/Б-тесте.

Что такое p-value и как его интерпретировать

P-value — вероятность получить наблюдаемый результат (или более крайний) при условии, что нулевая гипотеза верна. Нулевая гипотеза в A/B тесте — «между вариантом A и вариантом B нет разницы».

Формально: p = 0.03 означает, что если бы разницы действительно не было, мы увидели бы такой же или более выраженный эффект случайно в 3% повторных экспериментов.

Что p-value НЕ означает:
— «96% вероятность, что вариант B лучше» — нет
— «Нулевая гипотеза ложна с вероятностью 96%» — нет
— «Эффект практически значим» — нет, только статистически

Три вещи, которые ломают интерпретацию p-value

Peeking — проверка промежуточных результатов с готовностью остановить тест. При каждой дополнительной проверке вы фактически проводите ещё один тест на тех же данных, что раздувает реальный уровень ошибки. 20 проверок × 5% риска = ~64% вероятность получить p < 0.05 случайно.

Маленькая выборка — при недостаточном размере выборки высокая p-value не означает «нет эффекта», только «нет достаточных данных для его обнаружения». Это ошибка второго рода (Type II Error).

Множественные гипотезы — если проверять 20 разных метрик одновременно при уровне p < 0.05, в среднем 1 из них окажется «значимой» случайно. Бонферрони и другие поправки для множественных сравнений снижают этот риск.

Frequentist vs Bayesian: принципиальная разница

Характеристика	Frequentist (p-value)	Bayesian (Prob to be best)
Что измеряет	Вероятность данных при H₀	Вероятность того, что B > A
Интерпретация	Техническая, часто неверно понимается	Интуитивная
Досрочная остановка	Некорректна	Корректна
Размер выборки	Нужно определить заранее	Гибко

Важно: p-value ≠ «вероятность победы». Это разные концепции. Байесовский подход даёт именно вероятность победы, что проще в интерпретации и безопаснее при досрочном просмотре результатов.

Частые вопросы

P-value = 0.04 означает, что вариант победил с вероятностью 96%?

Нет — это распространённое заблуждение. P = 0.04 означает: если нулевая гипотеза верна (разницы нет), вероятность случайно получить такой же или более выраженный результат — 4%. Это не вероятность того, что вариант «лучше». Вероятность победы варианта — другая концепция, реализованная в байесовском подходе.

Почему порог p < 0.05 именно такой?

Исторически — условность, введённая Фишером в 1920-х. Она означает 5% вероятность ошибки первого рода (ложноположительного результата). В медицинских исследованиях часто требуется p < 0.01 или даже p < 0.001. В A/B тестировании продуктов p < 0.05 — стандарт, но некоторые команды используют p < 0.10 для более быстрых решений при осознанном принятии риска.

Как peeking влияет на p-value?

При 20 промежуточных проверках теста вероятность случайно увидеть p < 0.05 хотя бы раз составляет около 64% — даже если реальной разницы нет. Каждая проверка «потребляет» часть допустимого уровня ошибки. Sequential testing или байесовский подход — правильные решения, если нужно смотреть на результаты досрочно.

Чем байесовский подход отличается от p-value?

В байесовском подходе вместо p-value используется «вероятность того, что вариант лучше контроля» (Probability to be Best). Это интуитивно понятная метрика, допускает корректную интерпретацию на любом этапе теста и не требует фиксации размера выборки заранее.

Gravity Field

Статистика A/B тестов в Gravity Field

Gravity Field использует байесовский подход по умолчанию — вместо p-value метрика «Probability to be Best», что позволяет корректно интерпретировать результаты на любом этапе теста.

✦Байесовская статистика: Probability to be Best вместо p-value

✦Встроенная защита от peeking через байесовский фреймворк

✦Frequentist-режим доступен для команд, предпочитающих p-value

✦Автоматическое определение статистической значимости при достижении выборки

Посмотреть функциональность →