🤖 AI / ML

Трансформер

Transformer · transformer architecture · attention model · BERT · GPT architecture

Определение

Трансформер — архитектура нейронной сети с механизмом многоголового self-attention, позволяющим параллельно моделировать зависимости между всеми токенами последовательности.

Откуда взялся трансформер

До 2017 года доминировали рекуррентные нейронные сети (RNN/LSTM): они обрабатывали текст последовательно — слово за словом. Это создавало два ограничения: медленное обучение (нельзя распараллелить) и «забывание» контекста из начала длинного текста.

Статья «Attention is All You Need» (Vaswani et al., 2017) предложила обойтись без рекурсии вовсе: взять только механизм внимания, применить его ко всем позициям одновременно и добавить позиционные кодировки для сохранения порядка токенов.

Как работает self-attention

Для каждого токена модель вычисляет три вектора: Query (Q), Key (K) и Value (V). Внимание токена A к токену B — это скалярное произведение Q_A и K_B, нормированное softmax. Результат — взвешенная сумма V всех токенов. Иначе говоря: каждый токен «голосует», какие другие токены важны для его интерпретации.

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

Многоголовое внимание запускает этот процесс параллельно в нескольких «проекциях» и конкатенирует результаты — это позволяет улавливать разные типы зависимостей одновременно.

Энкодеры и декодеры в e-commerce

Тип	Примеры	Применение в e-commerce
Encoder-only	BERT, RoBERTa	Семантический поиск, матчинг запрос–товар
Decoder-only	GPT, LLaMA	AI Shopping Assistant, генерация описаний
Encoder-decoder	T5, BART	Саммаризация отзывов, мультиязычный поиск

Для поисковых задач обычно используют энкодеры: они превращают запрос пользователя и описание товара в векторы, которые можно сравнивать через косинусное сходство. Для диалоговых сценариев — декодеры или encoder-decoder модели.

Типичные ошибки при внедрении

Переоценка размера модели. Для рекомендательных задач BERT-base (110M параметров) часто достаточно — тяжёлые модели на 7B+ параметров дают прирост качества, но проигрывают по задержке инференса.
Игнорирование длины контекста. У большинства трансформеров есть ограничение на длину входной последовательности (512, 2048 токенов). Длинные описания товаров или истории пользователей требуют усечения или специальных архитектур.
Дообучение без данных предметной области. Общий BERT плохо понимает специфическую терминологию категорий. Fine-tuning на товарных описаниях и поисковых запросах существенно улучшает качество.

Частые вопросы

Чем трансформер лучше рекуррентных сетей?

Рекуррентные сети обрабатывают последовательность токен за токеном — медленно и с трудом удерживают долгосрочные зависимости. Трансформер обрабатывает все токены параллельно и механизмом внимания явно моделирует зависимость между любыми двумя позициями в тексте. Это и ускорило обучение, и улучшило качество на длинных текстах.

Что такое энкодер и декодер в трансформере?

Энкодер превращает входную последовательность в векторное представление (embedding) — используется в задачах понимания текста (BERT, поисковые модели). Декодер генерирует текст токен за токеном, используя внимание к уже сгенерированному тексту (GPT-архитектуры). Модели типа T5 или BART используют оба блока.

Как трансформеры применяются в рекомендательных системах?

Напрямую — в сессионных рекомендациях, где история кликов пользователя рассматривается как последовательность «токенов», а трансформер предсказывает следующий товар. Косвенно — через векторные представления (embeddings) из BERT-подобных моделей для семантического поиска и матчинга.

Что означает «многоголовое внимание» (multi-head attention)?

Модель параллельно применяет несколько «голов» внимания, каждая из которых фокусируется на разных типах зависимостей. Одна голова может учить синтаксические связи, другая — семантические. Результаты всех голов объединяются и проецируются.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →