Rate limiting

Rate Limiting / Rate Limit · Ограничение запросов · throttling · квота API

Определение

Rate limiting — механизм ограничения количества API-запросов за период времени; при превышении возвращает HTTP 429; требует от интеграций реализации очередей и кэширования для работы в рамках квот.

Что такое rate limiting и зачем он нужен

Rate limiting — политика, ограничивающая число запросов от клиента за заданный период. Цели:

Защита от перегрузки — предотвращает деградацию сервиса при резком росте трафика.
Справедливое распределение ресурсов — один клиент не может занять всю пропускную способность.
Защита от злоупотреблений — DDoS-атаки, скрейпинг, credential stuffing.

При превышении лимита API возвращает:

HTTP/1.1 429 Too Many Requests
Retry-After: 30
X-RateLimit-Limit: 1000
X-RateLimit-Remaining: 0
X-RateLimit-Reset: 1716300000

Алгоритмы rate limiting

Алгоритм	Принцип	Особенность
Fixed Window	Счётчик за фиксированный период (минута, час)	Burst на границе окна
Sliding Window	Скользящее окно без фиксированных границ	Более точный, нет всплесков
Token Bucket	Бакет пополняется с заданной скоростью	Допускает burst в пределах размера бакета
Leaky Bucket	Очередь с фиксированной скоростью вытекания	Строго равномерная обработка

Rate limiting в интеграциях e-commerce

Интернет-магазин с платформой персонализации делает запросы к API при каждом просмотре страницы: PDP запрашивает рекомендации, PLP — ранжирование, главная — баннеры. При трафике 100K MUV/день это ~3–5 млн API-запросов в сутки с пиками в несколько тысяч RPS.

Практические правила для интеграций:

Кэшировать на стороне клиента. Рекомендации для конкретного userId редко меняются за одну сессию — кэш с TTL 5–15 минут снижает число запросов в 3–5 раз.
Использовать batch-запросы. Если API поддерживает — запрашивать рекомендации для нескольких виджетов за один вызов.
Circuit breaker. При серии ошибок 429 автоматически переключаться на fallback (популярные товары из локального кэша).
Exponential backoff. При повторе после 429 не делать немедленный retry.

import time

def api_request_with_retry(url, max_retries=3):
    for attempt in range(max_retries):
        response = requests.get(url)
        if response.status_code == 429:
            wait = 2 ** attempt  # 1, 2, 4 секунды
            time.sleep(wait)
            continue
        return response
    return None  # fallback

Совет: перед flash-sale или Чёрной пятницей заранее уведомляйте вендора о прогнозируемом росте трафика — большинство платформ позволяют временно увеличить лимиты.

Типичные ошибки при работе с rate limits

Не читать заголовки ответа — лимиты и остатки квоты в X-RateLimit-* есть почти везде.
Retry без backoff — немедленный повтор после 429 гарантированно снова вызывает 429.
Игнорировать лимиты до запуска — обнаруживать 429 в продакшне под реальной нагрузкой дорого.
Не предусмотреть fallback — при недоступности API рекомендации должны падать gracefully (популярные/bestsellers), а не ломать страницу.

Частые вопросы

Что делать при получении HTTP 429?

Читать заголовок Retry-After — он указывает, через сколько секунд можно повторить запрос. Если заголовка нет — использовать exponential backoff: ждать 1 с, затем 2 с, 4 с и т.д. Не повторять запросы немедленно в цикле — это усугубляет ситуацию и может привести к временной блокировке IP.

Как различаются алгоритмы rate limiting?

Token Bucket — пополняемый бакет токенов, допускает кратковременные всплески. Leaky Bucket — равномерная обработка, всплески сглаживаются. Fixed Window — счётчик сбрасывается в начале каждого периода (уязвим к burst на границе окна). Sliding Window — скользящее окно без граничных всплесков. Для API персонализации важнее всего sliding window или token bucket, так как трафик e-commerce неравномерен.

Как избежать 429 при пиковых нагрузках (flash-sale, Чёрная пятница)?

Кэшировать ответы API на стороне клиента с TTL, пропорциональным частоте изменений данных. Использовать очереди для неприоритетных запросов. Заранее согласовывать с вендором повышенные лимиты на период акции. Внедрить circuit breaker: при серии 429 временно переключаться на fallback (кэш или базовые рекомендации).

В чём разница между rate limiting и throttling?

Rate limiting — жёсткий отказ при превышении (429). Throttling — плавное замедление: запросы не отклоняются, но обрабатываются медленнее. Throttling мягче с точки зрения клиентского опыта, но менее предсказуем. В API персонализации обычно используется rate limiting с явными лимитами в документации.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →