Статистическая значимость

Statistical Significance · значимость результата · significance level · уровень значимости

Определение

Статистическая значимость — степень уверенности в том, что разница между вариантами A/B-теста реальна, а не является результатом случайных флуктуаций; обычно требуется p < 0.05.

Что такое статистическая значимость

Статистическая значимость отвечает на вопрос: «Могла ли наблюдаемая разница между вариантами возникнуть случайно?» Если вероятность случайности мала — результат считается значимым.

Математически это выражается через p-value. p < 0.05 означает: при условии, что реального эффекта нет, вероятность получить такое (или более экстремальное) расхождение составляет менее 5%.

Вариант A: CR = 2.10% (n = 12 400)
Вариант B: CR = 2.47% (n = 12 500)
Разница: +0.37 п.п., лифт +17.6%
p-value = 0.031  →  значимо при α = 0.05

Важно: значимость подтверждает надёжность факта различия, но не его важность. Разница может быть статистически значимой и коммерчески незначимой.

Два подхода: частотный и байесовский

Параметр	Частотный (Frequentist)	Байесовский (Bayesian)
Основная метрика	p-value	Probability to be best
Порог	p < 0.05 (α = 0.05)	≥ 95% вероятности
Досрочная остановка	Недопустима	Допустима
Интерпретация	Техническая	Интуитивная

В e-commerce байесовский подход предпочтителен: он позволяет корректно останавливать тест досрочно при явном победителе и не требует понимания концепции p-value от маркетинговой команды.

Уровень значимости и мощность теста

Два ключевых параметра при планировании эксперимента:

Уровень значимости (α) — допустимая вероятность ошибки первого рода (ложноположительного). Стандарт: α = 0.05.
Мощность теста (1 − β) — вероятность обнаружить реальный эффект, если он есть. Стандарт: 80%.

Эти параметры задаются до начала теста и напрямую определяют требуемый размер выборки. Изменение порогов постфактум, чтобы «протащить» результат, — манипуляция данными.

Значимость и MDE: связь понятий

Статистическая значимость неотделима от минимального детектируемого эффекта (MDE). Если ожидаемый прирост CR — 5%, нужно одно количество участников. Если 2% — в разы больше. При заниженном трафике тест завершится «незначимым» результатом, даже если реальный эффект существует — это ошибка второго рода.

Типичные ошибки

Остановка по первой «красивой» цифре (peeking). При 20 промежуточных проверках вероятность случайно увидеть p < 0.05 превышает 60%.
Пересчёт порога постфактум. «Результат почти значим» — это незначимый результат.
Путаница значимости с величиной эффекта. CR +0.1% может быть значимым и при этом не стоить внедрения.
Игнорирование SRM. Если фактическое соотношение групп отличается от заданного — значимость не имеет смысла.

Частые вопросы

Что означает p-value < 0.05?

p-value — вероятность получить наблюдаемую или более экстремальную разницу в метриках, если реального эффекта нет (нулевая гипотеза верна). p < 0.05 означает: такая разница случайно возникает менее чем в 5 случаях из 100. Это не гарантирует реальности эффекта, но является стандартным порогом для принятия решений.

Значимость достигнута — можно останавливать тест?

Остановка теста сразу после первого достижения p < 0.05 — классическая ошибка peeking. При многократных промежуточных проверках вероятность ложноположительного результата резко растёт. Нужно дождаться расчётного объёма выборки или использовать методы последовательного тестирования.

Чем статистическая значимость отличается от практической значимости?

Статистическая значимость говорит о надёжности различия, но не о его масштабе. Тест с выборкой 500K человек может показать значимый прирост CR на 0.02% — это реальный эффект, но коммерчески бессмысленный. Практическая значимость определяется минимальным детектируемым эффектом (MDE), установленным до теста.

Байесовский подход — это та же значимость?

Нет. В байесовском подходе вместо p-value используется «вероятность быть лучшим» (Probability to be best). Порог обычно 95–99% — интерпретация интуитивнее: «с вероятностью 97% вариант B лучше, чем A». Можно корректно останавливать тест досрочно при достижении порога.

Gravity Field