Что такое computer use

Классические ИИ-агенты взаимодействуют с сервисами через API или специализированные протоколы. Computer use — принципиально другой подход: агент получает скриншот экрана, анализирует его как зрительный образ и управляет указателем и клавиатурой, точно так же как это делает человек.

С точки зрения сайта такой агент неотличим от реального посетителя в браузере — он открывает страницы, прокручивает их, кликает по кнопкам, заполняет формы и проходит обычный процесс оформления заказа.

Как работает технически

  1. Захват экрана — агент получает скриншот текущего состояния браузера.
  2. Распознавание интерфейса — мультимодальная модель определяет элементы: кнопки, поля, текст, цены.
  3. Планирование действия — агент решает, что нужно сделать дальше для достижения цели (добавить в корзину, перейти к оплате).
  4. Выполнение — отправка команды: click(x, y), type(«Иван»), scroll(down, 300px).
  5. Верификация — следующий скриншот подтверждает, что действие выполнено корректно.

Важно: каждый шаг требует отдельного обращения к модели. Типичная покупка из 10–15 шагов занимает значительно больше времени, чем транзакция через API.

Сравнение с протоколами

Параметр Computer Use Протоколы (ACP/YCP)
Требует интеграции от магазина Нет Да
Надёжность Средняя Высокая
Скорость транзакции Секунды–минуты Миллисекунды
Совместимость с CAPTCHA Ограничена N/A
Поддержка 3DS/банковской авторизации Проблематична Через payment mandate
Изменение верстки ломает агента Да Нет

Место в экосистеме агентной коммерции

Computer use — это переходный механизм. Он позволяет агентам работать с существующим веб без какой-либо подготовки со стороны ритейлера. По мере того как индустрия принимает стандарты (ACP, MCP, YCP), необходимость в browser-агентах будет снижаться.

Для ритейлера это означает: магазины, не внедрившие агентных протоколов, всё равно могут оказаться в сценариях покупок AI-агентов — просто с более низкой надёжностью и без контроля над процессом.

Барьеры и ограничения

  • Антибот-защита — Cloudflare, reCAPTCHA и аналоги блокируют автоматизированный доступ.
  • 3DS и банковская верификация — требуют действий, недоступных браузерному агенту.
  • Хрупкость — редизайн страницы ломает сценарий; нет стандарта разметки для агентов.
  • ToS — автоматизированный доступ часто запрещён пользовательскими соглашениями.
  • Производительность — нагрузка на инфраструктуру AI значительно выше, чем при API-вызовах.