Что такое доверительный интервал

Любое значение, полученное в эксперименте — это оценка, а не точная истина. Измеренный прирост CR на 2% содержит погрешность: реальный эффект мог быть чуть больше или чуть меньше. Доверительный интервал формализует эту погрешность.

95% CI прироста CR: [+0.8%, +3.4%]
→ Истинный эффект, вероятнее всего, лежит между +0.8% и +3.4%
→ Нижняя граница > 0 → разница значима (нет пересечения с нулём)

95% — стандартный уровень доверия в A/B-тестировании. Он соответствует порогу p < 0.05 в частотной статистике.

Почему ДИ лучше p-value

p-value отвечает на один вопрос: «Есть ли разница?». Доверительный интервал отвечает на два: «Есть ли разница?» и «Насколько она большая?»

Ситуация p-value ДИ Вывод
Большой эффект, большая выборка p < 0.001 [+5%, +9%] Значимо и практически важно
Малый эффект, огромная выборка p = 0.03 [+0.01%, +0.3%] Значимо, но практически несущественно
Нет эффекта p = 0.52 [-2%, +3%] Незначимо, эффект неопределён

Практически незначимый результат при огромной выборке — частая ловушка в e-commerce. p-value покажет «победителя», а ДИ раскроет, что реальный прирост так мал, что не окупит затраты на внедрение.

Как читать ДИ в контексте A/B-теста

ДИ не включает 0 → разница статистически значима. Вариант B отличается от A.

ДИ включает 0 → нет оснований утверждать, что B лучше A. Либо ждите накопления выборки, либо тест нужно остановить.

Совет: смотрите на нижнюю границу ДИ как на «пессимистичный сценарий». Если даже при худшем раскладе прирост выручки достаточен, чтобы окупить изменение — внедряйте.

Ширина интервала и размер выборки

Ширина ДИ обратно пропорциональна корню из числа наблюдений. Это значит:

  • При 1 000 пользователях в группе ДИ может быть шириной ±5%
  • При 10 000 — ±1.6%
  • При 100 000 — ±0.5%

Недостаточная выборка = широкий ДИ = невозможность сделать чёткий вывод. Именно поэтому расчёт размера выборки до старта теста — обязательный шаг, а не опция.

Типичные ошибки интерпретации

  • «ДИ с 95% вероятностью содержит истинное значение» — неточная формулировка. Правильно: при многократном повторении эксперимента 95% построенных интервалов будут содержать истинный параметр.
  • Игнорирование ширины интервала — смотреть только на точечную оценку (+2.1%), не замечая, что ДИ [-0.5%, +4.7%] включает отрицательные значения.
  • Остановка теста при первом «красивом» ДИ — при пикинге ДИ временно сужается и может не включать 0, но это артефакт малой выборки.