Что такое доверительный интервал
Любое значение, полученное в эксперименте — это оценка, а не точная истина. Измеренный прирост CR на 2% содержит погрешность: реальный эффект мог быть чуть больше или чуть меньше. Доверительный интервал формализует эту погрешность.
95% CI прироста CR: [+0.8%, +3.4%]
→ Истинный эффект, вероятнее всего, лежит между +0.8% и +3.4%
→ Нижняя граница > 0 → разница значима (нет пересечения с нулём)
95% — стандартный уровень доверия в A/B-тестировании. Он соответствует порогу p < 0.05 в частотной статистике.
Почему ДИ лучше p-value
p-value отвечает на один вопрос: «Есть ли разница?». Доверительный интервал отвечает на два: «Есть ли разница?» и «Насколько она большая?»
| Ситуация | p-value | ДИ | Вывод |
|---|---|---|---|
| Большой эффект, большая выборка | p < 0.001 | [+5%, +9%] | Значимо и практически важно |
| Малый эффект, огромная выборка | p = 0.03 | [+0.01%, +0.3%] | Значимо, но практически несущественно |
| Нет эффекта | p = 0.52 | [-2%, +3%] | Незначимо, эффект неопределён |
Практически незначимый результат при огромной выборке — частая ловушка в e-commerce. p-value покажет «победителя», а ДИ раскроет, что реальный прирост так мал, что не окупит затраты на внедрение.
Как читать ДИ в контексте A/B-теста
ДИ не включает 0 → разница статистически значима. Вариант B отличается от A.
ДИ включает 0 → нет оснований утверждать, что B лучше A. Либо ждите накопления выборки, либо тест нужно остановить.
Совет: смотрите на нижнюю границу ДИ как на «пессимистичный сценарий». Если даже при худшем раскладе прирост выручки достаточен, чтобы окупить изменение — внедряйте.
Ширина интервала и размер выборки
Ширина ДИ обратно пропорциональна корню из числа наблюдений. Это значит:
- При 1 000 пользователях в группе ДИ может быть шириной ±5%
- При 10 000 — ±1.6%
- При 100 000 — ±0.5%
Недостаточная выборка = широкий ДИ = невозможность сделать чёткий вывод. Именно поэтому расчёт размера выборки до старта теста — обязательный шаг, а не опция.
Типичные ошибки интерпретации
- «ДИ с 95% вероятностью содержит истинное значение» — неточная формулировка. Правильно: при многократном повторении эксперимента 95% построенных интервалов будут содержать истинный параметр.
- Игнорирование ширины интервала — смотреть только на точечную оценку (+2.1%), не замечая, что ДИ [-0.5%, +4.7%] включает отрицательные значения.
- Остановка теста при первом «красивом» ДИ — при пикинге ДИ временно сужается и может не включать 0, но это артефакт малой выборки.