🤖 AI / ML

Дообучение

Fine-tuning · fine-tuning · файн-тюнинг · дообучение модели

Определение

Дообучение (fine-tuning) — метод трансферного обучения, при котором предобученная модель продолжает оптимизацию на специализированной целевой выборке для адаптации к конкретной задаче или домену.

Что такое Fine-tuning

Предобученная модель (LLM, энкодер для эмбеддингов, vision-модель) обучена на общих данных и обладает широкими знаниями. Fine-tuning — второй этап обучения на специализированной выборке. Цель: адаптировать модель к конкретной задаче, домену или стилю без обучения с нуля.

Это выгоднее по ресурсам: большая часть знаний уже «вшита» в веса из предобучения, нужно лишь «подправить» их под конкретный домен.

Варианты дообучения

Подход	Описание	Когда применять
Full fine-tuning	Обновляются все веса модели	Много данных, высокая специализация
LoRA / PEFT	Обновляется малая доля весов	Ограниченные вычислительные ресурсы
Instruction tuning	Обучение на парах инструкция–ответ	Изменение поведения и стиля
RLHF	Обучение с подкреплением от людей-оценщиков	Выравнивание с человеческими предпочтениями

Fine-tuning в e-commerce

Основные применения в ритейле:

AI Shopping Assistant: дообучение на исторических диалогах с покупателями и продуктовой документации позволяет модели использовать правильную терминологию, придерживаться тональности бренда и реже давать нерелевантные ответы.

Эмбеддинги товаров: fine-tuning мультиязычных энкодеров на парах (запрос → релевантный товар) улучшает качество семантического поиска и рекомендаций в специфичных категориях (мода, DIY, ювелирка).

Классификация намерений: точная настройка небольших классификаторов под категории намерений конкретного магазина.

Важно: fine-tuning — не замена RAG для обновляемых данных. Каталог меняется каждый день; вшивать его в веса модели нецелесообразно. RAG обновляет знания в реальном времени, fine-tuning меняет поведение и стиль модели.

Типичные ошибки

Catastrophic forgetting: дообучение на узком датасете может «вытеснить» общие знания модели. Решение — использовать PEFT или смешивать целевые данные с частью общих.
Переобучение на малой выборке: маленький датасет + много эпох = отличный результат на обучении и плохой на реальных запросах. Контролируй метрики на validation set.
Качество данных важнее объёма: зашумлённые или противоречивые примеры обучения ухудшают модель. Invest в аннотацию, не в количество.

Частые вопросы

Чем fine-tuning отличается от RAG?

RAG (Retrieval-Augmented Generation) дополняет запрос к модели релевантными документами в рантайме — модель при этом не меняется. Fine-tuning меняет веса самой модели через переобучение. RAG проще и дешевле для обновляемых знаний (каталог товаров); fine-tuning эффективнее для изменения стиля ответов или специализированных задач.

Сколько данных нужно для fine-tuning LLM?

Зависит от задачи. Для адаптации стиля и тональности (instruction fine-tuning) хватает 500–5000 примеров «вопрос→ответ». Для доменного знания нужны тысячи примеров. Главное условие — высокое качество данных: 1000 чистых примеров лучше 10 000 зашумлённых.

Что такое PEFT и LoRA?

Parameter-Efficient Fine-Tuning (PEFT) — методы дообучения, обновляющие малую долю весов модели. LoRA (Low-Rank Adaptation) — наиболее распространённый PEFT: добавляет низкоранговые матрицы к слоям модели. Это снижает вычислительные затраты в 10–100 раз по сравнению с полным fine-tuning.

Когда не нужен fine-tuning?

Если задача решается правильно составленным промптом или RAG — нет смысла в fine-tuning. Дообучение оправдано, когда нужно изменить базовое поведение модели, специализировать её под узкий домен или снизить стоимость инференса за счёт меньшей модели.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →