Основные понятия RL
Обучение с подкреплением строится вокруг взаимодействия агента и среды:
- Агент — система, принимающая решения (рекомендательный движок, диалоговый ассистент).
- Среда — контекст взаимодействия (пользователь на сайте, его сессия, история).
- Состояние (state) — текущий контекст: страница, история пользователя, время суток.
- Действие (action) — выбор системы: показать товар A или B, задать вопрос X или Y.
- Награда (reward) — сигнал обратной связи: клик = +0.1, покупка = +1.0, уход = 0.
- Политика (policy) — стратегия выбора действий, которую агент оптимизирует.
Цикл RL:
State → Agent → Action → Environment → Reward + New State
↑_______________|
Multi-Armed Bandit: RL в A/B тестировании
MAB — самое распространённое применение RL в e-commerce. Название — аналогия с игровым автоматом: у «игрока» несколько рычагов (вариантов A/B теста), каждый с неизвестной вероятностью выигрыша (конверсии). Задача — максимизировать суммарный выигрыш, исследуя варианты.
| Алгоритм MAB | Принцип | Особенность |
|---|---|---|
| ε-greedy | Exploit лучший с вероятностью 1-ε, explore случайно с вероятностью ε | Простой, субоптимальный |
| UCB | Explore варианты с высокой неопределённостью | Детерминированный, хорошо при малом трафике |
| Thompson Sampling | Байесовская оценка вероятностей, семплирование | Быстрая конвергенция, часто лучший на практике |
Совет: Thompson Sampling предпочтителен для e-commerce — он быстро концентрирует трафик на победителе при большой разнице вариантов, но продолжает исследование при неопределённости. Это снижает потери конверсии по сравнению с классическим A/B при неравных вариантах.
Exploration vs Exploitation: практически
Дилемма RL в контексте рекомендаций: показывать пользователю уже понравившиеся типы товаров (exploitation) или пробовать новые категории (exploration)?
Только exploitation: пользователь видит одно и то же, плохо открывает новые категории, низкое разнообразие.
Только exploration: показываем нерелевантные товары ради «разведки» — теряем конверсию здесь и сейчас.
На практике для рекомендательных систем используют мягкие стратегии: 80–90% позиций из exploitation (релевантные), 10–20% из exploration (новые категории по affinity-сигналам).
Глубокое RL (Deep RL)
Для сложных систем — диалоговых ассистентов, управления маркетинговыми кампаниями — используют Deep RL: нейронная сеть аппроксимирует функцию ценности (Q-function) или политику. Позволяет учитывать сложные состояния и отложенные награды (купил не сразу после клика, а через 3 дня). Требует значительно больше данных и вычислений, чем MAB.