🤖 AI / ML

Механизм внимания

Attention Mechanism · self-attention · multi-head attention · attention

Определение

Механизм внимания (attention) — операция в нейронных сетях, вычисляющая взвешенную сумму векторов значений на основе попарных сходств между запросом и ключами, позволяя модели динамически фокусироваться на релевантных частях входа.

Как работает механизм внимания

Attention оперирует тремя матрицами, которые вычисляются из входных векторов: Query (Q), Key (K) и Value (V). Для каждого токена вычисляется сходство его Query с Keys всех остальных токенов — это и есть «веса внимания». Взвешенная сумма Values даёт контекстно-обогащённое представление токена.

Формула scaled dot-product attention:

Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V

Деление на √d_k предотвращает исчезновение градиентов при большой размерности.

Зачем это важно

До attention нейронные сети обрабатывали последовательности постепенно — каждый токен передавал информацию следующему. При длинных текстах контекст «размывался»: модель плохо помнила начало предложения к его концу.

Attention позволил каждому токену напрямую «видеть» любой другой токен в последовательности. Это дало три принципиальных улучшения:

Длинные зависимости — модель одинаково хорошо учитывает токены в начале и конце последовательности.
Параллелизм — вся матрица весов вычисляется за один шаг, что позволяет обучать на GPU эффективнее, чем RNN.
Интерпретируемость — веса внимания можно визуализировать и понять, на что «смотрит» модель при обработке конкретного токена.

Multi-Head Attention

Параметр	Значение
Количество голов (стандарт)	8–16
Что изучает каждая голова	Разные аспекты: синтаксис, семантика, кореференция
Выход	Конкатенация выходов голов → линейная проекция

Разные головы специализируются: одна отслеживает синтаксические зависимости, другая — семантическое сходство, третья — позиционные паттерны.

Применение в рекомендациях и поиске

В системах рекомендаций attention применяется для моделирования сессионного поведения: модель взвешивает, какие предыдущие просмотры товаров наиболее релевантны для предсказания следующего. В отличие от простого усреднения эмбеддингов, attention учитывает порядок и контекст взаимодействий.

Важно: attention — вычислительно дорогая операция. Инференс трансформер-моделей требует значительных ресурсов, что влияет на latency рекомендательных API в реальном времени.

Частые вопросы

Чем self-attention отличается от обычного attention?

В обычном attention запрос и ключи приходят из разных источников (например, encoder и decoder). В self-attention запрос, ключи и значения — всё из одной последовательности. Это позволяет каждому токену «смотреть» на любой другой токен в той же последовательности и строить контекстно-зависимые представления.

Что такое multi-head attention?

Несколько параллельных механизмов внимания с разными проекционными матрицами. Каждая «голова» учится обращать внимание на разные аспекты — синтаксические, семантические, позиционные. Их выходы конкатенируются и проецируются в итоговое представление. Стандартный трансформер использует 8–16 голов.

Какова вычислительная сложность attention?

O(n²·d) по количеству токенов n, что при длинных последовательностях становится узким местом. Именно поэтому LLM имеют ограничение контекстного окна. Современные оптимизации — FlashAttention, sparse attention, sliding window — снижают эту сложность.

Как механизм внимания улучшает поиск в e-commerce?

Трансформер с attention понимает сложные составные запросы («синяя куртка не пуховик до 5000 рублей размер М»), учитывая все атрибуты одновременно. RNN-модели обрабатывали такие запросы последовательно и теряли контекст при длинных фразах.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →