Что такое статистическая значимость
Статистическая значимость отвечает на вопрос: «Могла ли наблюдаемая разница между вариантами возникнуть случайно?» Если вероятность случайности мала — результат считается значимым.
Математически это выражается через p-value. p < 0.05 означает: при условии, что реального эффекта нет, вероятность получить такое (или более экстремальное) расхождение составляет менее 5%.
Вариант A: CR = 2.10% (n = 12 400)
Вариант B: CR = 2.47% (n = 12 500)
Разница: +0.37 п.п., лифт +17.6%
p-value = 0.031 → значимо при α = 0.05
Важно: значимость подтверждает надёжность факта различия, но не его важность. Разница может быть статистически значимой и коммерчески незначимой.
Два подхода: частотный и байесовский
| Параметр | Частотный (Frequentist) | Байесовский (Bayesian) |
|---|---|---|
| Основная метрика | p-value | Probability to be best |
| Порог | p < 0.05 (α = 0.05) | ≥ 95% вероятности |
| Досрочная остановка | Недопустима | Допустима |
| Интерпретация | Техническая | Интуитивная |
В e-commerce байесовский подход предпочтителен: он позволяет корректно останавливать тест досрочно при явном победителе и не требует понимания концепции p-value от маркетинговой команды.
Уровень значимости и мощность теста
Два ключевых параметра при планировании эксперимента:
- Уровень значимости (α) — допустимая вероятность ошибки первого рода (ложноположительного). Стандарт: α = 0.05.
- Мощность теста (1 − β) — вероятность обнаружить реальный эффект, если он есть. Стандарт: 80%.
Эти параметры задаются до начала теста и напрямую определяют требуемый размер выборки. Изменение порогов постфактум, чтобы «протащить» результат, — манипуляция данными.
Значимость и MDE: связь понятий
Статистическая значимость неотделима от минимального детектируемого эффекта (MDE). Если ожидаемый прирост CR — 5%, нужно одно количество участников. Если 2% — в разы больше. При заниженном трафике тест завершится «незначимым» результатом, даже если реальный эффект существует — это ошибка второго рода.
Типичные ошибки
- Остановка по первой «красивой» цифре (peeking). При 20 промежуточных проверках вероятность случайно увидеть p < 0.05 превышает 60%.
- Пересчёт порога постфактум. «Результат почти значим» — это незначимый результат.
- Путаница значимости с величиной эффекта. CR +0.1% может быть значимым и при этом не стоить внедрения.
- Игнорирование SRM. Если фактическое соотношение групп отличается от заданного — значимость не имеет смысла.