Что такое статистическая значимость

Статистическая значимость отвечает на вопрос: «Могла ли наблюдаемая разница между вариантами возникнуть случайно?» Если вероятность случайности мала — результат считается значимым.

Математически это выражается через p-value. p < 0.05 означает: при условии, что реального эффекта нет, вероятность получить такое (или более экстремальное) расхождение составляет менее 5%.

Вариант A: CR = 2.10% (n = 12 400)
Вариант B: CR = 2.47% (n = 12 500)
Разница: +0.37 п.п., лифт +17.6%
p-value = 0.031  →  значимо при α = 0.05

Важно: значимость подтверждает надёжность факта различия, но не его важность. Разница может быть статистически значимой и коммерчески незначимой.

Два подхода: частотный и байесовский

Параметр Частотный (Frequentist) Байесовский (Bayesian)
Основная метрика p-value Probability to be best
Порог p < 0.05 (α = 0.05) ≥ 95% вероятности
Досрочная остановка Недопустима Допустима
Интерпретация Техническая Интуитивная

В e-commerce байесовский подход предпочтителен: он позволяет корректно останавливать тест досрочно при явном победителе и не требует понимания концепции p-value от маркетинговой команды.

Уровень значимости и мощность теста

Два ключевых параметра при планировании эксперимента:

  • Уровень значимости (α) — допустимая вероятность ошибки первого рода (ложноположительного). Стандарт: α = 0.05.
  • Мощность теста (1 − β) — вероятность обнаружить реальный эффект, если он есть. Стандарт: 80%.

Эти параметры задаются до начала теста и напрямую определяют требуемый размер выборки. Изменение порогов постфактум, чтобы «протащить» результат, — манипуляция данными.

Значимость и MDE: связь понятий

Статистическая значимость неотделима от минимального детектируемого эффекта (MDE). Если ожидаемый прирост CR — 5%, нужно одно количество участников. Если 2% — в разы больше. При заниженном трафике тест завершится «незначимым» результатом, даже если реальный эффект существует — это ошибка второго рода.

Типичные ошибки

  • Остановка по первой «красивой» цифре (peeking). При 20 промежуточных проверках вероятность случайно увидеть p < 0.05 превышает 60%.
  • Пересчёт порога постфактум. «Результат почти значим» — это незначимый результат.
  • Путаница значимости с величиной эффекта. CR +0.1% может быть значимым и при этом не стоить внедрения.
  • Игнорирование SRM. Если фактическое соотношение групп отличается от заданного — значимость не имеет смысла.