Что такое computer use
Классические ИИ-агенты взаимодействуют с сервисами через API или специализированные протоколы. Computer use — принципиально другой подход: агент получает скриншот экрана, анализирует его как зрительный образ и управляет указателем и клавиатурой, точно так же как это делает человек.
С точки зрения сайта такой агент неотличим от реального посетителя в браузере — он открывает страницы, прокручивает их, кликает по кнопкам, заполняет формы и проходит обычный процесс оформления заказа.
Как работает технически
- Захват экрана — агент получает скриншот текущего состояния браузера.
- Распознавание интерфейса — мультимодальная модель определяет элементы: кнопки, поля, текст, цены.
- Планирование действия — агент решает, что нужно сделать дальше для достижения цели (добавить в корзину, перейти к оплате).
- Выполнение — отправка команды: click(x, y), type(«Иван»), scroll(down, 300px).
- Верификация — следующий скриншот подтверждает, что действие выполнено корректно.
Важно: каждый шаг требует отдельного обращения к модели. Типичная покупка из 10–15 шагов занимает значительно больше времени, чем транзакция через API.
Сравнение с протоколами
| Параметр | Computer Use | Протоколы (ACP/YCP) |
|---|---|---|
| Требует интеграции от магазина | Нет | Да |
| Надёжность | Средняя | Высокая |
| Скорость транзакции | Секунды–минуты | Миллисекунды |
| Совместимость с CAPTCHA | Ограничена | N/A |
| Поддержка 3DS/банковской авторизации | Проблематична | Через payment mandate |
| Изменение верстки ломает агента | Да | Нет |
Место в экосистеме агентной коммерции
Computer use — это переходный механизм. Он позволяет агентам работать с существующим веб без какой-либо подготовки со стороны ритейлера. По мере того как индустрия принимает стандарты (ACP, MCP, YCP), необходимость в browser-агентах будет снижаться.
Для ритейлера это означает: магазины, не внедрившие агентных протоколов, всё равно могут оказаться в сценариях покупок AI-агентов — просто с более низкой надёжностью и без контроля над процессом.
Барьеры и ограничения
- Антибот-защита — Cloudflare, reCAPTCHA и аналоги блокируют автоматизированный доступ.
- 3DS и банковская верификация — требуют действий, недоступных браузерному агенту.
- Хрупкость — редизайн страницы ломает сценарий; нет стандарта разметки для агентов.
- ToS — автоматизированный доступ часто запрещён пользовательскими соглашениями.
- Производительность — нагрузка на инфраструктуру AI значительно выше, чем при API-вызовах.