🤖 AI / ML

Токенизация

Tokenization · tokenization · BPE · токены · токен

Определение

Токенизация — разбиение текста на минимальные единицы обработки (токены) для подачи в языковую модель; стандартные методы — BPE и SentencePiece — работают на уровне субслов.

Что такое токен

Языковая модель не работает с буквами или словами напрямую. Текст сначала разбивается на токены — субсловные единицы, определённые алгоритмом токенизации (BPE, WordPiece, SentencePiece). Токен — это «словарная единица» конкретной модели.

Слово: "персонализация"
Токены (пример): ["персон", "али", "зация"]  →  3 токена

Слово: "cat"
Токены: ["cat"]  →  1 токен

Русский язык токенизируется менее эффективно, чем английский: сложная морфология (падежи, виды, спряжения) порождает больше уникальных форм, и словарь токенайзера, обученный преимущественно на английском, разбивает русские слова на более мелкие части.

Контекстное окно и его ограничения

Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (вход + выход вместе). Это фундаментальное ограничение архитектуры.

Модель	Контекстное окно
GPT-3.5	16K токенов
GPT-4	128K токенов
Claude 3	200K+ токенов

Даже 128K токенов — это примерно 100 000 слов. Для каталога из 100 000+ SKU этого недостаточно. Поэтому в e-commerce AI Shopping Assistant не «знает» весь каталог из промпта — он использует RAG: векторный поиск по каталогу, извлечение релевантных товаров и подачу их в контекст запроса.

Практические следствия для e-commerce AI

Оптимизация стоимости. При интеграции LLM в e-commerce (AI Shopping Assistant, генерация описаний товаров) стоимость = количество токенов × цена за 1K. Компактные промпты и структурированные данные вместо длинных описаний снижают расходы.

Ограничения контекста. Нельзя передать всю историю покупок и весь каталог в один промпт. RAG решает задачу: сначала поиск, потом подача в LLM только релевантного подмножества.

Русский язык — дороже. Токенизация русского текста даёт примерно в 1.5–2 раза больше токенов, чем аналогичный по смыслу английский текст. Это нужно учитывать при оценке стоимости русскоязычных AI-функций.

Частые вопросы

Сколько токенов в слове?

В среднем 1–2 токена на слово в английском. В русском — больше: флективный язык с падежными окончаниями разбивается менее эффективно. Эмпирическое правило: 1 токен ≈ 4 символа для английского, ≈ 3 символа для русского. Символы, пробелы и пунктуация тоже считаются.

Почему контекстное окно LLM ограничено?

Механизм attention в трансформерах вычисляет попарные зависимости между всеми токенами — сложность растёт квадратично с длиной последовательности. Ограничение контекстного окна — компромисс между объёмом обрабатываемого текста и вычислительными ресурсами. Современные модели имеют окна от 32K до 1M+ токенов.

Как токенизация влияет на стоимость работы с LLM в e-commerce?

Прямо. Большинство провайдеров LLM API берут плату за входные и выходные токены. Оптимизация промптов — сжатие описаний товаров, удаление повторяющегося контекста — напрямую снижает стоимость каждого обращения к модели.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →