Что такое токен

Языковая модель не работает с буквами или словами напрямую. Текст сначала разбивается на токены — субсловные единицы, определённые алгоритмом токенизации (BPE, WordPiece, SentencePiece). Токен — это «словарная единица» конкретной модели.

Слово: "персонализация"
Токены (пример): ["персон", "али", "зация"]  →  3 токена

Слово: "cat"
Токены: ["cat"]  →  1 токен

Русский язык токенизируется менее эффективно, чем английский: сложная морфология (падежи, виды, спряжения) порождает больше уникальных форм, и словарь токенайзера, обученный преимущественно на английском, разбивает русские слова на более мелкие части.

Контекстное окно и его ограничения

Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (вход + выход вместе). Это фундаментальное ограничение архитектуры.

Модель Контекстное окно
GPT-3.5 16K токенов
GPT-4 128K токенов
Claude 3 200K+ токенов

Даже 128K токенов — это примерно 100 000 слов. Для каталога из 100 000+ SKU этого недостаточно. Поэтому в e-commerce AI Shopping Assistant не «знает» весь каталог из промпта — он использует RAG: векторный поиск по каталогу, извлечение релевантных товаров и подачу их в контекст запроса.

Практические следствия для e-commerce AI

Оптимизация стоимости. При интеграции LLM в e-commerce (AI Shopping Assistant, генерация описаний товаров) стоимость = количество токенов × цена за 1K. Компактные промпты и структурированные данные вместо длинных описаний снижают расходы.

Ограничения контекста. Нельзя передать всю историю покупок и весь каталог в один промпт. RAG решает задачу: сначала поиск, потом подача в LLM только релевантного подмножества.

Русский язык — дороже. Токенизация русского текста даёт примерно в 1.5–2 раза больше токенов, чем аналогичный по смыслу английский текст. Это нужно учитывать при оценке стоимости русскоязычных AI-функций.