Что такое эмбеддинги

Компьютер не понимает слова «кроссовки» и «беговая обувь» как связанные понятия. Чтобы он мог находить семантически похожие объекты, нужно представить их в виде чисел — причём так, чтобы близкие по смыслу объекты были близки и в числовом пространстве.

Эмбеддинг — это вектор (список чисел), кодирующий объект. Например:

кроссовки Nike Air Max  → [0.23, -0.11, 0.87, ..., 0.04]  # 128 чисел
беговые кроссовки Adidas → [0.21, -0.09, 0.91, ..., 0.07]  # близко
смартфон iPhone         → [-0.85, 0.62, -0.31, ..., 0.55]  # далеко

Расстояние между векторами (косинусное или евклидово) отражает семантическое сходство. Поиск «похожих товаров» — это поиск векторов, ближайших к вектору текущего товара.

Как обучают эмбеддинги в e-commerce

На основе поведения (Item2Vec). Берут последовательности сессий: пользователь просмотрел [A, B, C, D]. Обучают модель предсказывать контекст — товары, которые просматривают вместе, получают близкие векторы. Это поведенческое сходство ловит паттерны, которые не видны из описаний.

На основе текста. LLM или специализированная модель кодирует описание товара в вектор. Хорошо для семантического поиска: запрос «лёгкие кроссовки для летних пробежек» находит релевантные товары, даже если это сочетание слов не встречается в описании.

Двухбашенная модель (Two-Tower). Отдельные эмбеддинги для пользователей и товаров. Близость пользователь-товар = персонализированная релевантность. Это основа современных рекомендательных систем.

Применение в e-commerce

Сценарий Что кодируется Задача
Похожие товары Товары Поиск ближайших соседей по вектору
Семантический поиск Запрос + товары Сопоставление запроса и каталога
Персональные рекомендации Пользователи + товары Two-Tower matching
Профиль интересов История поведения Средний вектор просмотров = вкус

Совет: средний вектор просмотренных товаров пользователя — простой и рабочий способ построить «вкусовой профиль». Ближайшие к этому среднему товары, которые пользователь ещё не видел, — отличные рекомендации для холодного старта.

Типичные ошибки

  • Обучение только на кликах. Клики — шумный сигнал. Лучше дообучать на покупках или добавлениях в корзину, взвешивая события по силе сигнала.
  • Одни и те же эмбеддинги для поиска и рекомендаций. Это разные задачи: поиск оптимизирует релевантность запросу, рекомендации — вовлечение и конверсию.
  • Нет регулярного переобучения. Каталог обновляется, поведение меняется. Эмбеддинги, обученные полгода назад, не отражают сезонные тренды и новинки.