Бесплатный инструмент

Калькулятор A/B/n‑тестов

Проверьте статистическую значимость результатов эксперимента — до 4 вариаций, два метода: частотный (p-value, ДИ) и байесовский (вероятность победы).

  1. 01
    Введите данные Посетители и конверсии для каждой вариации
  2. 02
    Выберите метод Частотный — строже, байесовский — быстрее
  3. 03
    Читайте результат Зелёный = значимо, жёлтый = данных пока мало

Результаты теста

Параметры анализа

Данные вариаций A — контрольная

2 из 4
Вариация Посетители Конверсии CR, %

Максимум 4 вариации (A, B, C, D). При 3+ вариациях учитывайте поправку на множественные сравнения.

Результаты сравнение с контрольной A

Планирование теста

Расчёт выборки до старта теста

Необходимая выборка

Методология

Байесовский vs Частотный

Байесовский · Beta-Binomial

Оперативное принятие решений

  • Отвечает: «с какой вероятностью B лучше A?»
  • Порог решения — P(B > A) ≥ 95%
  • Можно оценивать на любом этапе накопления данных
  • Prior — равномерный Beta(1,1), нейтральный
  • Ожидаемый uplift считается по 20 000 симуляциям

Лучше для: быстрых решений в e-commerce, малых и средних выборок.

Частотный · z-тест пропорций

Строгая проверка гипотезы

  • Даёт p-value: вероятность случайного различия при H₀
  • Доверительный интервал для абсолютного эффекта
  • Объём выборки должен быть определён до старта
  • Нельзя останавливать досрочно — уровень ошибки вырастет
  • Нейтрален к предшествующим знаниям о конверсии

Лучше для: крупных выборок, строгих финансовых или регуляторных решений.

FAQ

Частые вопросы

p-value — вероятность получить наблюдаемое различие (или более экстремальное) случайно, при условии что между вариациями нет реального эффекта (нулевая гипотеза). При p < 0,05 принято говорить о статистической значимости: вероятность случайного результата менее 5%. Важно: p-value не показывает размер эффекта и не говорит о практической значимости.

Это означает, что при текущем объёме данных нельзя уверенно утверждать, что различие не случайно. Это не означает, что вариация хуже или что тест провалился — только то, что вывод делать рано. Соберите больше данных или пересмотрите минимально значимый эффект.

Минимальный размер выборки зависит от базовой конверсии, ожидаемого минимального эффекта (MDE) и уровня значимости. Для типичного e-commerce (CR ~2–5%, MDE ~10–15%) нужно от 5 000 до 20 000 посетителей на вариацию. Используйте раздел «Расчёт выборки» выше — он посчитает нужный объём автоматически.

Частотный подход предполагает фиксированный объём выборки, определённый заранее. Если проверять результаты в процессе и останавливать при p < 0,05 — реальный уровень ошибки первого рода оказывается выше заявленного α. При 5 промежуточных проверках риск ложного срабатывания вырастает с 5% до ~22%. Байесовский подход позволяет принимать решения в любой момент.

ДИ 95% означает: если повторить тест много раз, в 95% случаев интервал накроет истинный абсолютный эффект. Если интервал не пересекает ноль — эффект статистически значим. Чем уже интервал — тем точнее оценка, что обычно достигается большим объёмом выборки.

При одновременном сравнении A vs B, A vs C, A vs D вероятность получить хотя бы одно ложное срабатывание растёт. При трёх тестах с α = 5% суммарный риск ложной значимости — до 14%. Стандартная поправка — Бонферрони: делите α на число сравнений. Для трёх вариаций используйте α / 2 = 2,5%. Калькулятор показывает предупреждение при 3+ вариациях.

MDE (Minimum Detectable Effect) — минимальный относительный прирост конверсии, который практически значим для бизнеса. Например, если вам важно зафиксировать рост CR с 6,5% до 7,15% — MDE составит 10%. Чем меньше MDE, тем больше выборка. Обычно в e-commerce задают MDE 5–15%: меньший эффект трудно зафиксировать без очень длинного теста.

Инструмент реализует двухвыборочный z-тест для пропорций и байесовский Beta-Binomial подход. Он подходит только для бинарных метрик (конверсия, клик, покупка). Не поддерживает: непрерывные метрики (средний чек), CUPED и методы снижения дисперсии. При базовой конверсии менее 1% или выборках < 100 на вариацию нормальное приближение ненадёжно.

Блог

Как правильно проводить A/B-тесты

Все статьи
Гайды 2 сентября 2025 7 мин

Как реализовать механику «Повтори последний заказ» для роста ключевых метрик в e-grocery, FoodTech, FMCG, аптечном приложении?

В нише продуктов питания и товаров ежедневного спроса потребительское поведение сильно отличается от, скажем, рынка электроники или моды. Пользователи часто покупают один и тот же набор товаров: молоко, хлеб, яйца, вода, любимые йогурты, стиральные порошки, витамины или корм для питомца. Это формирует привычку и ритуал. Задача продакт-менеджера — увидеть такое поведение и максимально сократить путь […]
Читать
Аналитика 1 августа 2025 5 мин

Что такое BDUI и как он помогает расти e‑commerce

Вы, скорее всего, замечали: иногда открываешь знакомое приложение — а оно выглядит по‑новому. Хотя обновления в сторе не было. Появились новые блоки, изменилась структура страницы, всплыло предложение. Это и есть результат Backend-Driven UI (BDUI) — подхода, при котором приложение получает интерфейс с сервера. BDUI позволяет управлять интерфейсом приложения через LMP(Layout Management Tool). Вы определяете, какие […]
Читать
Подборки 31 июля 2025 5 мин

Лучшие практики настройки рекомендательных блоков в мобильном eCommerce-приложении

Рекомендательные виджеты — это инструмент, который помогает пользователям быстрее находить нужные товары, а бизнесу — увеличивать средний чек и удерживать клиентов. Но их эффективность зависит от трех факторов: В этой статье — проверенные практики размещения, настройки и визуального оформления товарных рекомендаций в мобильных приложениях. Все советы основаны на опыте Gravity Field и десятках запусков с […]
Читать
Gravity Field

Нужна платформа для A/B-тестов в e-commerce?

Gravity Field встраивает A/B-движок в контур персонализации: сегментация аудитории, автоматическое распределение трафика, real-time аналитика результатов.

Запросить демо