Как работает мультимодальный AI
Классические AI-системы работают с одной модальностью: текстовая модель обрабатывает текст, компьютерное зрение — изображения. Мультимодальные модели кодируют данные разной природы в общее векторное пространство, где близкие векторы означают семантически схожие объекты — независимо от того, текст это или изображение.
Ключевой принцип: «красная спортивная куртка» как текстовая строка и фотография красной куртки проецируются в пространстве рядом, потому что описывают одно и то же. Это делает возможным поиск «текст → изображение» и «изображение → текст».
Запрос: [фото кроссовок] → embedding: [0.82, -0.14, ..., 0.39]
Товар в каталоге: "Nike Air Max" → embedding: [0.79, -0.11, ..., 0.41]
Косинусное сходство: 0.97 → релевантный результат
Применения в e-commerce
Визуальный поиск. Пользователь загружает фото — система находит визуально похожие товары. Особенно актуально в fashion, где «похожее платье» сложно описать словами.
Автоматическая тегация каталога. Модель анализирует изображения товаров и автоматически определяет атрибуты: цвет, стиль, паттерн, материал (визуально). Сокращает ручную работу по заполнению каталога.
Генерация описаний. Vision-language модели могут создавать текстовые описания товаров по их фотографиям. Полезно для новых позиций или плохо заполненных карточек.
Обогащение рекомендаций. Content-based фильтрация традиционно работает с текстовыми атрибутами. Добавление визуальных эмбеддингов позволяет находить похожие товары по внешнему виду — там, где текстовые характеристики бедны или не совпадают.
Ключевые модели и технологии
| Модель | Разработчик | Основное применение в e-comm |
|---|---|---|
| CLIP | OpenAI | Визуальный поиск, тегация |
| GPT-4V | OpenAI | Описания товаров, диалоговый ассистент с фото |
| LLaVA | Open Source | Fine-tuning для специфических каталогов |
| Gemini Vision | Мультимодальные рекомендации |
Важно: Мультимодальный AI увеличивает латентность поиска по сравнению с текстовым — запрос фотографии требует инференса модели перед поиском в векторной базе. Оптимизация через кеширование эмбеддингов каталога критична для production.