Что такое эмбеддинги
Компьютер не понимает слова «кроссовки» и «беговая обувь» как связанные понятия. Чтобы он мог находить семантически похожие объекты, нужно представить их в виде чисел — причём так, чтобы близкие по смыслу объекты были близки и в числовом пространстве.
Эмбеддинг — это вектор (список чисел), кодирующий объект. Например:
кроссовки Nike Air Max → [0.23, -0.11, 0.87, ..., 0.04] # 128 чисел
беговые кроссовки Adidas → [0.21, -0.09, 0.91, ..., 0.07] # близко
смартфон iPhone → [-0.85, 0.62, -0.31, ..., 0.55] # далеко
Расстояние между векторами (косинусное или евклидово) отражает семантическое сходство. Поиск «похожих товаров» — это поиск векторов, ближайших к вектору текущего товара.
Как обучают эмбеддинги в e-commerce
На основе поведения (Item2Vec). Берут последовательности сессий: пользователь просмотрел [A, B, C, D]. Обучают модель предсказывать контекст — товары, которые просматривают вместе, получают близкие векторы. Это поведенческое сходство ловит паттерны, которые не видны из описаний.
На основе текста. LLM или специализированная модель кодирует описание товара в вектор. Хорошо для семантического поиска: запрос «лёгкие кроссовки для летних пробежек» находит релевантные товары, даже если это сочетание слов не встречается в описании.
Двухбашенная модель (Two-Tower). Отдельные эмбеддинги для пользователей и товаров. Близость пользователь-товар = персонализированная релевантность. Это основа современных рекомендательных систем.
Применение в e-commerce
| Сценарий | Что кодируется | Задача |
|---|---|---|
| Похожие товары | Товары | Поиск ближайших соседей по вектору |
| Семантический поиск | Запрос + товары | Сопоставление запроса и каталога |
| Персональные рекомендации | Пользователи + товары | Two-Tower matching |
| Профиль интересов | История поведения | Средний вектор просмотров = вкус |
Совет: средний вектор просмотренных товаров пользователя — простой и рабочий способ построить «вкусовой профиль». Ближайшие к этому среднему товары, которые пользователь ещё не видел, — отличные рекомендации для холодного старта.
Типичные ошибки
- Обучение только на кликах. Клики — шумный сигнал. Лучше дообучать на покупках или добавлениях в корзину, взвешивая события по силе сигнала.
- Одни и те же эмбеддинги для поиска и рекомендаций. Это разные задачи: поиск оптимизирует релевантность запросу, рекомендации — вовлечение и конверсию.
- Нет регулярного переобучения. Каталог обновляется, поведение меняется. Эмбеддинги, обученные полгода назад, не отражают сезонные тренды и новинки.