Ключевые параметры SLA

Стандартный SLA для платформы персонализации включает несколько измеримых параметров:

Параметр Типичный порог Что означает
Uptime 99.9–99.99% Доля времени, когда сервис доступен
API p99 latency ≤ 100–300 мс 99% запросов быстрее этого порога
API p95 latency ≤ 50–150 мс 95% запросов быстрее этого порога
Время реакции поддержки 1–4 часа (P1) Критические инциденты
RPO / RTO 1–4 часа Восстановление данных / сервиса после сбоя

Для виджетов рекомендаций, встроенных в синхронный HTTP-запрос страницы, p99 latency ≤ 100 мс — критичное требование. Медленный API рекомендаций замедляет загрузку страницы целиком.

Graceful Degradation при нарушении SLA

Правильная интеграция платформы персонализации строится с расчётом на то, что SLA может нарушиться. Паттерны защиты:

Таймаут + fallback. Запрос к API персонализации ограничен 200–300 мс. Если ответ не получен — показывается fallback (бестселлеры, популярные в категории, кешированные рекомендации).

Асинхронная загрузка. Виджет рекомендаций подгружается после основного контента страницы (lazy loading через JavaScript). Нарушение SLA не влияет на загрузку ключевого контента.

Кеш рекомендаций. Рекомендации кешируются на CDN или уровне приложения на 5–15 минут. При недоступности API возвращается кеш — слегка устаревший, но не пустой.

Совет: при выборе платформы персонализации запрашивайте не только uptime, но и историю инцидентов за последние 12 месяцев и среднее время восстановления (MTTR). SLA — это обещание; MTTR — реальность.

SLA и распродажи

Пиковая нагрузка на распродажах (Black Friday, 11.11) — испытание для SLA. В это время нарушение SLA наиболее болезненно: трафик максимальный, цена каждой конверсии высока. Перед крупными распродажами стоит заблаговременно:
— подтвердить у провайдера готовность к нагрузке;
— настроить агрессивный кеш рекомендаций;
— проверить работу fallback на staging-среде.