Доверительный интервал

Confidence Interval · CI · confidence interval · интервальная оценка

Определение

Доверительный интервал — диапазон значений, внутри которого с выбранной вероятностью (обычно 95%) находится истинный параметр генеральной совокупности; в A/B-тестах используется для оценки точности измеренного эффекта.

Что такое доверительный интервал

Любое значение, полученное в эксперименте — это оценка, а не точная истина. Измеренный прирост CR на 2% содержит погрешность: реальный эффект мог быть чуть больше или чуть меньше. Доверительный интервал формализует эту погрешность.

95% CI прироста CR: [+0.8%, +3.4%]
→ Истинный эффект, вероятнее всего, лежит между +0.8% и +3.4%
→ Нижняя граница > 0 → разница значима (нет пересечения с нулём)

95% — стандартный уровень доверия в A/B-тестировании. Он соответствует порогу p < 0.05 в частотной статистике.

Почему ДИ лучше p-value

p-value отвечает на один вопрос: «Есть ли разница?». Доверительный интервал отвечает на два: «Есть ли разница?» и «Насколько она большая?»

Ситуация	p-value	ДИ	Вывод
Большой эффект, большая выборка	p < 0.001	[+5%, +9%]	Значимо и практически важно
Малый эффект, огромная выборка	p = 0.03	[+0.01%, +0.3%]	Значимо, но практически несущественно
Нет эффекта	p = 0.52	[-2%, +3%]	Незначимо, эффект неопределён

Практически незначимый результат при огромной выборке — частая ловушка в e-commerce. p-value покажет «победителя», а ДИ раскроет, что реальный прирост так мал, что не окупит затраты на внедрение.

Как читать ДИ в контексте A/B-теста

ДИ не включает 0 → разница статистически значима. Вариант B отличается от A.

ДИ включает 0 → нет оснований утверждать, что B лучше A. Либо ждите накопления выборки, либо тест нужно остановить.

Совет: смотрите на нижнюю границу ДИ как на «пессимистичный сценарий». Если даже при худшем раскладе прирост выручки достаточен, чтобы окупить изменение — внедряйте.

Ширина интервала и размер выборки

Ширина ДИ обратно пропорциональна корню из числа наблюдений. Это значит:

При 1 000 пользователях в группе ДИ может быть шириной ±5%
При 10 000 — ±1.6%
При 100 000 — ±0.5%

Недостаточная выборка = широкий ДИ = невозможность сделать чёткий вывод. Именно поэтому расчёт размера выборки до старта теста — обязательный шаг, а не опция.

Типичные ошибки интерпретации

«ДИ с 95% вероятностью содержит истинное значение» — неточная формулировка. Правильно: при многократном повторении эксперимента 95% построенных интервалов будут содержать истинный параметр.
Игнорирование ширины интервала — смотреть только на точечную оценку (+2.1%), не замечая, что ДИ [-0.5%, +4.7%] включает отрицательные значения.
Остановка теста при первом «красивом» ДИ — при пикинге ДИ временно сужается и может не включать 0, но это артефакт малой выборки.

Частые вопросы

Что означает «95% доверительный интервал»?

Если бы эксперимент повторяли 100 раз, в 95 случаях построенный интервал содержал бы истинное значение параметра. Это не означает 95% вероятность для конкретного интервала — истинный параметр либо попадает в него, либо нет.

Как доверительный интервал связан с p-value?

Если 95% ДИ для разницы между вариантами не включает 0, это соответствует p < 0.05. ДИ содержит больше информации: он показывает минимально ожидаемый и максимально возможный эффект, а не только факт значимости.

Как уменьшить ширину доверительного интервала?

Увеличить размер выборки — это главный инструмент. Ширина ДИ пропорциональна 1/√n. Удвоение выборки сужает ДИ примерно на 30%. Снизить дисперсию метрики также помогает стратификация.

Почему широкий CI — проблема для бизнес-решений?

Широкий CI означает неопределённость. Если ДИ прироста RPV составляет [-5%, +25%], нельзя уверенно инвестировать в масштабирование изменения: сценарии «убыток 5%» и «рост 25%» одинаково правдоподобны.

Gravity Field

A/B тестирование в Gravity Field

Gravity Field отображает доверительные интервалы и вероятностные метрики для каждой вариации теста, позволяя принимать решения на основе полной картины эффекта, а не только точечной оценки.

✦Байесовская статистика: метрика «Probability to be best» вместо p-value

✦Визуализация диапазона эффекта для каждой метрики теста

✦Настраиваемые уровни уверенности: 90%, 95%, 99%

✦Автоматическое предупреждение при недостаточной выборке

Посмотреть функциональность →