🤖 AI / ML

Инференс

Model Inference · inference · predict · scoring · модельный скоринг

Определение

Инференс — применение обученной модели к новым входным данным для получения предсказаний без изменения её параметров; происходит в продакшне в режиме реального времени.

Инференс: от обучения к предсказанию

ML-модель проходит два принципиально разных этапа. Обучение (training) — модель изучает паттерны на исторических данных и подбирает параметры. Инференс (inference) — готовая модель применяется к новым данным для получения предсказаний.

В продакшне работает только инференс. Пользователь открыл страницу категории — система запускает инференс рекомендательной модели и за десятки миллисекунд возвращает персонализированный список товаров.

Требования к инференсу в e-commerce

Онлайн-инференс работает под жёсткими ограничениями по времени:

Сценарий	Допустимая латентность	Причина
Рекомендации на PDP	< 50–100 мс	Блокирует рендеринг страницы
Персонализация категорий	< 100 мс	Загружается вместе со списком товаров
AI Shopping Assistant	< 2–3 сек	Пользователь ожидает ответ
Batch-скоринг сегментов	Нет ограничений	Офлайн-обработка

Превышение лимита латентности для первых двух сценариев означает fallback — показ дефолтных рекомендаций без персонализации или задержку рендеринга, что влияет на конверсию.

Online vs Batch инференс

Online inference — синхронный: запрос пришёл → модель отработала → ответ вернулся. Используется для персонализации, рекомендаций, поиска в реальном времени. Требует высокодоступной inference-инфраструктуры.

Batch inference — асинхронный: модель периодически обрабатывает большие массивы данных и сохраняет результаты в базу. При запросе страницы система читает предвычисленный результат — это быстро, но данные могут быть устаревшими.

На практике рекомендательные системы часто комбинируют оба подхода: batch для долгосрочных предпочтений (affinity-профиль, пересчитывается раз в несколько часов) + online для краткосрочных (сессионные сигналы в реальном времени).

Совет: кэшируйте результаты инференса для типичных сценариев (bestsellers, trending) — это снижает нагрузку на инференс-сервер на 60–80%, не жертвуя качеством для большинства пользователей.

Инференс LLM: особые требования

Для больших языковых моделей инференс на порядок ресурсоёмче, чем для классических ML-моделей. Один токен в ответе GPT-класса модели требует операций на уровне гигафлопс. Отсюда:

Специализированные GPU/TPU-сервера для инференса
Квантизация — снижение точности чисел для ускорения без заметной потери качества
Streaming output — токены отправляются пользователю по мере генерации, не ждя полного ответа
Кэширование KV-cache для ускорения повторяющихся запросов

Частые вопросы

Чем инференс отличается от обучения модели?

Обучение — итеративный процесс подбора параметров модели на исторических данных; может занимать часы и дни, происходит периодически. Инференс — разовое применение уже обученной модели к новому запросу; должен укладываться в миллисекунды для онлайн-сценариев.

Что такое латентность инференса?

Время от получения запроса до возврата предсказания. Для рекомендательных систем в e-commerce — критическая метрика: задержка >100–150 мс начинает влиять на конверсию. Для AI-ответа LLM-ассистента допустимы секунды — пользователь ожидает размышление.

Какие методы ускоряют инференс?

Квантизация (замена float32 на int8 снижает вес модели в 4 раза), дистилляция (обучение маленькой модели имитировать большую), батчинг (обработка нескольких запросов одновременно), кэширование результатов для повторяющихся входных данных, использование специализированных ускорителей (GPU/TPU).

Что такое batch inference vs online inference?

Online (real-time) inference — предсказание по одному запросу в реальном времени. Используется для рекомендаций при открытии страницы. Batch inference — массовая обработка данных по расписанию; используется для предварительного вычисления рекомендаций или скоров для всей базы пользователей.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →