🤖 AI / ML

Точность и полнота

Precision and Recall · precision · recall · точность · полнота · F1-score

Определение

Точность (precision) — доля корректных положительных предсказаний среди всех положительных предсказаний модели; полнота (recall) — доля корректных положительных предсказаний среди всех реально положительных примеров.

Задача: как измерить, насколько хороши рекомендации

Рекомендательная система выдаёт список из K товаров. Как понять, насколько список хороший? Для этого используют пару метрик: precision и recall.

Точность (Precision) отвечает на вопрос: «Сколько из рекомендованных товаров оказались релевантными?»

Полнота (Recall) отвечает на вопрос: «Сколько из всех релевантных для пользователя товаров система нашла и показала?»

Пример:
Всего релевантных товаров для пользователя: 20
Система рекомендовала: 10 товаров
Из них релевантных: 7

Precision = 7 / 10 = 0.70 (70% рекомендаций попали в цель)
Recall    = 7 / 20 = 0.35 (35% от всего релевантного охвачено)

Компромисс precision vs recall

Между этими метриками существует фундаментальный компромисс. Чтобы повысить recall (охватить больше релевантных товаров), система должна рекомендовать больше товаров или быть менее строгой в фильтрации — и тогда среди них появляется больше нерелевантных, точность падает.

Сценарий	Что меняется	Эффект
Увеличить K (больше рекомендаций)	↑ Recall	↓ Precision
Ужесточить пороговый скор	↑ Precision	↓ Recall
Показывать только бестселлеры	↑ Precision	↓ Recall (длинный хвост пропадает)

Precision@K и Recall@K

В рекомендательных системах метрики всегда считаются при фиксированном K — числе позиций в виджете:

Precision@5 — для виджетов на главной с 5 слотами
Precision@10 — для горизонтального виджета на PDP
Recall@20 — для поиска или email-подборки

Это делает метрики сопоставимыми и привязанными к реальным условиям интерфейса.

F1-score: когда нужен баланс

F1-score — гармоническое среднее precision и recall. Полезен, когда нет явного приоритета и нужно сравнивать несколько моделей единым числом.

F1 = 2 × (Precision × Recall) / (Precision + Recall)

Модель A: Precision 0.80, Recall 0.80 → F1 = 0.80
Модель B: Precision 0.95, Recall 0.20 → F1 = 0.33

Модель B выглядит «точной», но охватывает только 20% релевантного — F1 честно показывает её слабость.

Совет: precision и recall — офлайн-метрики, рассчитываемые на исторических данных. Для окончательной оценки рекомендательного алгоритма их нужно подтверждать онлайн-метриками в A/B тесте: CTR виджета и атрибутированной выручкой.

Частые вопросы

Что важнее для рекомендательной системы: точность или полнота?

Зависит от задачи. Для блока «Похожие товары» на PDP важнее точность — пользователь видит 5–10 товаров, каждый должен быть релевантным. Для поисковой выдачи или email-рекомендаций важна полнота — нужно охватить максимум подходящих товаров из большого каталога.

Что такое precision@K и recall@K?

Метрики, вычисляемые по топ-K рекомендациям. Precision@10 = доля релевантных товаров среди первых 10 рекомендаций. Recall@10 = доля показанных релевантных товаров среди всех реально релевантных для пользователя. K выбирается равным реальному числу позиций в виджете.

Как определить «релевантный» товар для расчёта метрик?

Обычно через ground truth из исторических данных: товар считается релевантным, если пользователь его купил или добавил в корзину в течение окна оценки. Альтернативы: клик (более слабый сигнал) или экспертная разметка (для небольших датасетов).

Как F1-score связан с precision и recall?

F1 = 2 × (Precision × Recall) / (Precision + Recall) — гармоническое среднее. Наказывает за дисбаланс: модель с precision 0.9 и recall 0.1 получит F1 = 0.18, а не 0.5. Удобна для единого сравнения моделей, когда нет явного приоритета между precision и recall.

Gravity Field

Персонализация для e-commerce — на одной платформе

Gravity Field помогает онлайн-ритейлерам растить конверсию, средний чек и удержание за счёт персонализации на всех этапах пути покупателя — без перегрузки IT.

✦Товарные рекомендации и merchandising-правила

✦A/B-тесты с байесовской статистикой и автопилотом (MAB)

✦Персонализация контента, PLP и сегментация аудитории

✦AI Shopping Assistant с доказанным ростом выручки на визит

Запросить демо →