🤖 AI / ML

RAG

Retrieval-Augmented Generation · Retrieval-Augmented Generation · поиск с дополненной генерацией

Определение

RAG (Retrieval-Augmented Generation) — архитектура AI-системы, при которой языковая модель дополняется этапом поиска: релевантные документы извлекаются из внешнего хранилища и передаются в контекст LLM для формирования точного ответа.

Как работает RAG

RAG решает фундаментальную проблему LLM: языковая модель знает мир по состоянию на дату обучения и не имеет доступа к вашему конкретному каталогу, ценам и наличию. RAG добавляет к LLM этап поиска по актуальной базе знаний.

Схема обработки запроса:

Запрос пользователя → Embedding запроса
                         ↓
                  Векторный поиск в базе (Top-K документов)
                         ↓
      LLM: [системный промпт] + [найденные документы] + [запрос]
                         ↓
                    Ответ пользователю

Всё происходит за одну задержку запроса — типично 500–2000 мс для полного цикла.

Компоненты RAG-системы

Индексация (offline):
— Документы каталога разбиваются на чанки — структурированные фрагменты (карточка товара, раздел FAQ, описание категории).
— Каждый чанк преобразуется в вектор через модель эмбеддингов.
— Векторы сохраняются в векторной базе данных вместе с метаданными (price, availability, category).

Поиск и генерация (online, на каждый запрос):
— Запрос пользователя переводится в вектор той же моделью.
— Система находит Top-K ближайших векторов (обычно 5–10 документов).
— Найденные документы + запрос передаются в LLM как контекст.
— LLM генерирует ответ, основанный на предоставленных данных.

Важно: качество RAG определяется качеством поискового этапа. Если нужный документ не попал в Top-K — LLM не сможет дать правильный ответ, сколько бы мощной она ни была.

RAG в e-commerce

В торговле RAG решает три задачи:

Задача	Без RAG	С RAG
«Есть ли в наличии iPhone 15 Pro 256 ГБ?»	Галлюцинация или «не знаю»	Проверка реального наличия из каталога
«Посоветуй матрас для спины»	Общие рекомендации без привязки к ассортименту	Конкретные модели с ценами из каталога
«Чем отличается модель A от B?»	Смешивание характеристик	Сравнение на основе реальных карточек товаров

Ограничения и практические нюансы

Размер контекста: в промпт передаётся ограниченное число документов. При большом каталоге критично качество ранжирования на поисковом этапе.
Актуальность: база знаний должна синхронизироваться с изменениями каталога (цены, наличие) — для e-commerce часто в реальном времени.
Обработка «пустого» результата: если поиск не нашёл релевантных товаров, модель должна честно сообщить об этом, а не «придумывать» похожие.

Частые вопросы

Зачем нужен RAG, если можно дообучить LLM на каталоге?

Fine-tuning встраивает знания в веса модели — это дорого и медленно. При изменении каталога (новые товары, изменение цен) модель устаревает. RAG читает актуальные данные при каждом запросе: поиск выбирает релевантные документы в реальном времени, LLM генерирует ответ на их основе. Обновление базы знаний занимает минуты, а не дни переобучения.

Как RAG предотвращает галлюцинации?

LLM без контекста «додумывает» факты — цены, характеристики, наличие — на основе статистических паттернов обучения. RAG передаёт в промпт конкретные фрагменты из реального каталога: модель генерирует ответ на основе этих данных, а не своих весов. При правильной инструкции системного промпта модель отвечает «не знаю», если нужный товар не найден в базе.

Что такое векторный поиск в контексте RAG?

Документы каталога преобразуются в векторные представления (эмбеддинги) и хранятся в векторной базе данных. При запросе пользователя его текст тоже переводится в вектор, и система находит ближайшие по смыслу документы — даже если слова не совпадают буквально. Это позволяет найти «беговые кроссовки» при запросе «обувь для марафона».

Какой размер базы знаний поддерживает RAG?

Современные векторные базы (Pinecone, Weaviate, pgvector) масштабируются до миллионов документов. Для каталога из 100 000 SKU это не предел. Ключевые параметры — качество эмбеддингов, размер чанков и релевантность метаданных (цена, категория, наличие) для фильтрации перед генерацией.

Gravity Field

RAG в Gravity Field

AI Shopping Assistant Gravity Field построен на RAG-архитектуре — ассистент ищет релевантные товары в каталоге через векторный поиск и генерирует точные ответы без галлюцинаций о характеристиках и ценах.

✦Векторный поиск по каталогу с семантическим соответствием запросу

✦Передача актуальных данных о товарах (цена, наличие, характеристики) в контекст LLM

✦Синхронизация базы знаний с product feed в реальном времени

✦Ограничение ответов рамками реального каталога для предотвращения галлюцинаций

Посмотреть функциональность →

RAG