Что такое токен
Языковая модель не работает с буквами или словами напрямую. Текст сначала разбивается на токены — субсловные единицы, определённые алгоритмом токенизации (BPE, WordPiece, SentencePiece). Токен — это «словарная единица» конкретной модели.
Слово: "персонализация"
Токены (пример): ["персон", "али", "зация"] → 3 токена
Слово: "cat"
Токены: ["cat"] → 1 токен
Русский язык токенизируется менее эффективно, чем английский: сложная морфология (падежи, виды, спряжения) порождает больше уникальных форм, и словарь токенайзера, обученный преимущественно на английском, разбивает русские слова на более мелкие части.
Контекстное окно и его ограничения
Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (вход + выход вместе). Это фундаментальное ограничение архитектуры.
| Модель | Контекстное окно |
|---|---|
| GPT-3.5 | 16K токенов |
| GPT-4 | 128K токенов |
| Claude 3 | 200K+ токенов |
Даже 128K токенов — это примерно 100 000 слов. Для каталога из 100 000+ SKU этого недостаточно. Поэтому в e-commerce AI Shopping Assistant не «знает» весь каталог из промпта — он использует RAG: векторный поиск по каталогу, извлечение релевантных товаров и подачу их в контекст запроса.
Практические следствия для e-commerce AI
Оптимизация стоимости. При интеграции LLM в e-commerce (AI Shopping Assistant, генерация описаний товаров) стоимость = количество токенов × цена за 1K. Компактные промпты и структурированные данные вместо длинных описаний снижают расходы.
Ограничения контекста. Нельзя передать всю историю покупок и весь каталог в один промпт. RAG решает задачу: сначала поиск, потом подача в LLM только релевантного подмножества.
Русский язык — дороже. Токенизация русского текста даёт примерно в 1.5–2 раза больше токенов, чем аналогичный по смыслу английский текст. Это нужно учитывать при оценке стоимости русскоязычных AI-функций.