🤖 AI / ML

Обучение с подкреплением

Reinforcement Learning · RL · reinforcement learning · RL-персонализация

Определение

Обучение с подкреплением — парадигма машинного обучения, в которой агент обучается оптимальной стратегии действий через взаимодействие со средой и максимизацию накопленной функции вознаграждения.

Основные понятия RL

Обучение с подкреплением строится вокруг взаимодействия агента и среды:

Агент — система, принимающая решения (рекомендательный движок, диалоговый ассистент).
Среда — контекст взаимодействия (пользователь на сайте, его сессия, история).
Состояние (state) — текущий контекст: страница, история пользователя, время суток.
Действие (action) — выбор системы: показать товар A или B, задать вопрос X или Y.
Награда (reward) — сигнал обратной связи: клик = +0.1, покупка = +1.0, уход = 0.
Политика (policy) — стратегия выбора действий, которую агент оптимизирует.

Цикл RL:
State → Agent → Action → Environment → Reward + New State
                   ↑_______________|

Multi-Armed Bandit: RL в A/B тестировании

MAB — самое распространённое применение RL в e-commerce. Название — аналогия с игровым автоматом: у «игрока» несколько рычагов (вариантов A/B теста), каждый с неизвестной вероятностью выигрыша (конверсии). Задача — максимизировать суммарный выигрыш, исследуя варианты.

Алгоритм MAB	Принцип	Особенность
ε-greedy	Exploit лучший с вероятностью 1-ε, explore случайно с вероятностью ε	Простой, субоптимальный
UCB	Explore варианты с высокой неопределённостью	Детерминированный, хорошо при малом трафике
Thompson Sampling	Байесовская оценка вероятностей, семплирование	Быстрая конвергенция, часто лучший на практике

Совет: Thompson Sampling предпочтителен для e-commerce — он быстро концентрирует трафик на победителе при большой разнице вариантов, но продолжает исследование при неопределённости. Это снижает потери конверсии по сравнению с классическим A/B при неравных вариантах.

Exploration vs Exploitation: практически

Дилемма RL в контексте рекомендаций: показывать пользователю уже понравившиеся типы товаров (exploitation) или пробовать новые категории (exploration)?

Только exploitation: пользователь видит одно и то же, плохо открывает новые категории, низкое разнообразие.
Только exploration: показываем нерелевантные товары ради «разведки» — теряем конверсию здесь и сейчас.

На практике для рекомендательных систем используют мягкие стратегии: 80–90% позиций из exploitation (релевантные), 10–20% из exploration (новые категории по affinity-сигналам).

Глубокое RL (Deep RL)

Для сложных систем — диалоговых ассистентов, управления маркетинговыми кампаниями — используют Deep RL: нейронная сеть аппроксимирует функцию ценности (Q-function) или политику. Позволяет учитывать сложные состояния и отложенные награды (купил не сразу после клика, а через 3 дня). Требует значительно больше данных и вычислений, чем MAB.

Частые вопросы

Чем RL отличается от обычного supervised learning?

В supervised learning модель учится на размеченных примерах «вход → правильный выход». В RL правильного ответа нет — есть только сигнал вознаграждения после действия. Модель учится методом проб и ошибок: пробует разные действия, наблюдает за наградой и постепенно корректирует стратегию. Это позволяет оптимизировать долгосрочные результаты, а не только точность предсказания.

Что такое Multi-Armed Bandit и как он связан с RL?

Multi-Armed Bandit (MAB) — упрощённая форма RL без состояния: агент выбирает действие (вариант A/B теста) и получает мгновенную награду (клик, конверсия). Нет истории состояний, нет отложенного вознаграждения. MAB оптимален для A/B-оптимизации, где цель — максимизировать суммарные конверсии при поиске лучшего варианта.

Что такое exploration vs exploitation в RL?

Дилемма RL: агент может либо эксплуатировать лучшее известное действие (exploitation), либо пробовать новые для уточнения оценок (exploration). Слишком много exploitation — застрять в локальном оптимуме. Слишком много exploration — терять выручку на неоптимальных вариантах. В MAB баланс регулируется через ε-greedy, UCB (Upper Confidence Bound) или Thompson Sampling.

Где RL применяется в e-commerce помимо A/B тестов?

Ранжирование в поиске с учётом долгосрочных метрик (не только клик, но и покупка после возврата), управление частотой показа рекламы с учётом усталости, диалоговое управление в AI-ассистентах (какой вопрос задать следующим для уточнения намерения), оптимизация времени отправки push-уведомлений.

Gravity Field

RL в Gravity Field

Gravity Field использует принципы обучения с подкреплением в алгоритме Multi-Armed Bandit (Автопилот) для динамического распределения трафика между вариантами A/B тестов.

✦MAB (Автопилот) с динамическим перераспределением трафика в пользу победителя

✦Thompson Sampling — байесовский вариант MAB для быстрой конвергенции

✦{'Совместная работа с A/B тестами': 'плавный переход от exploration к exploitation'}

✦Настройка функции вознаграждения (CR, AOV, RPV, кастомные события)

Посмотреть функциональность →