Основные понятия RL

Обучение с подкреплением строится вокруг взаимодействия агента и среды:

  • Агент — система, принимающая решения (рекомендательный движок, диалоговый ассистент).
  • Среда — контекст взаимодействия (пользователь на сайте, его сессия, история).
  • Состояние (state) — текущий контекст: страница, история пользователя, время суток.
  • Действие (action) — выбор системы: показать товар A или B, задать вопрос X или Y.
  • Награда (reward) — сигнал обратной связи: клик = +0.1, покупка = +1.0, уход = 0.
  • Политика (policy) — стратегия выбора действий, которую агент оптимизирует.
Цикл RL:
State → Agent → Action → Environment → Reward + New State
                   ↑_______________|

Multi-Armed Bandit: RL в A/B тестировании

MAB — самое распространённое применение RL в e-commerce. Название — аналогия с игровым автоматом: у «игрока» несколько рычагов (вариантов A/B теста), каждый с неизвестной вероятностью выигрыша (конверсии). Задача — максимизировать суммарный выигрыш, исследуя варианты.

Алгоритм MAB Принцип Особенность
ε-greedy Exploit лучший с вероятностью 1-ε, explore случайно с вероятностью ε Простой, субоптимальный
UCB Explore варианты с высокой неопределённостью Детерминированный, хорошо при малом трафике
Thompson Sampling Байесовская оценка вероятностей, семплирование Быстрая конвергенция, часто лучший на практике

Совет: Thompson Sampling предпочтителен для e-commerce — он быстро концентрирует трафик на победителе при большой разнице вариантов, но продолжает исследование при неопределённости. Это снижает потери конверсии по сравнению с классическим A/B при неравных вариантах.

Exploration vs Exploitation: практически

Дилемма RL в контексте рекомендаций: показывать пользователю уже понравившиеся типы товаров (exploitation) или пробовать новые категории (exploration)?

Только exploitation: пользователь видит одно и то же, плохо открывает новые категории, низкое разнообразие.
Только exploration: показываем нерелевантные товары ради «разведки» — теряем конверсию здесь и сейчас.

На практике для рекомендательных систем используют мягкие стратегии: 80–90% позиций из exploitation (релевантные), 10–20% из exploration (новые категории по affinity-сигналам).

Глубокое RL (Deep RL)

Для сложных систем — диалоговых ассистентов, управления маркетинговыми кампаниями — используют Deep RL: нейронная сеть аппроксимирует функцию ценности (Q-function) или политику. Позволяет учитывать сложные состояния и отложенные награды (купил не сразу после клика, а через 3 дня). Требует значительно больше данных и вычислений, чем MAB.