Computer Use

computer use — ИИ-агент, который смотрит на экран и сам двигает мышь, как человек

Раздел
Языковые модели
Сокращ.
Computer-Using Agent (CUA)
Обновлено
04.06.26

Computer Use (CUA, компьютерный агент) — ИИ-агент, который управляет компьютером как человек: делает скриншот экрана, «видит» интерфейс, двигает курсор, кликает и печатает в реальных приложениях и браузере — без специальных API. Первым в публичную бету его вывел Anthropic (Claude Computer Use, октябрь 2024), следом OpenAI выпустила Operator (январь 2025). На этой технологии построены агентные браузеры Perplexity Comet и ChatGPT Atlas. Пока работает медленно, ошибается и уязвим для нового класса атак — через содержимое экрана.

Коротко

Коротко. Computer Use — это языковая модель, которой дали мышь и глаза. Раньше ИИ умел только говорить: отвечать текстом, писать код в окне чата. Компьютерный агент делает скриншот экрана, «смотрит» на него как на картинку, решает, куда кликнуть, и нажимает — в любом приложении, даже без API. Первым технологию в публичную бету вывел Anthropic в октябре 2024-го, OpenAI ответила Operator в январе 2025-го. За два года агенты на эталонном тесте OSWorld выросли с 12% до человеческих 72%. Но они всё ещё медленные, хрупкие и опасно доверчивые.

Что это такое

До октября 2024-го у всех языковых моделей была одна и та же немота особого рода: они умели рассуждать о чём угодно, но не могли нажать ни одной кнопки. Модель могла объяснить, как забронировать столик, но не забронировать его. Между «знать» и «сделать» лежала стена.

Anthropic пробила эту стену, дав Claude доступ к скриншоту и виртуальной мыши. Модель начала видеть экран и действовать на нём — двигать курсор, кликать, печатать, прокручивать. Не через хитрые программные интерфейсы, а ровно так, как это делает человек за клавиатурой: смотрит на пиксели, целится в кнопку, жмёт.

Это принципиально меняет охват. Обычный ИИ-агент работает там, где у сервиса есть API — программная «розетка», в которую можно воткнуться. Компьютерный агент работает везде, где есть экран: в старой бухгалтерской программе без всякого API, в корпоративном портале, в окне, которое никто не проектировал под автоматизацию. Для машины это та же поверхность, что и для вас.

Термин CUA — computer-using agent — ввела OpenAI в январе 2025-го, выпустив Operator. Но первой в публичную бету вышла Anthropic тремя месяцами раньше, честно назвав свою функцию «экспериментальной, временами неуклюжей и склонной к ошибкам».

Как это работает

Внутри — простой на вид цикл, который крутится десятки раз за задачу:

  1. Скриншот. Агент делает снимок экрана.
  2. Зрение. Мультимодальная модель «смотрит» на картинку интерфейса: где кнопки, поля, текст.
  3. Решение. Модель выбирает следующее действие: кликнуть в точку (x, y), напечатать текст, прокрутить, нажать сочетание клавиш.
  4. Действие. Команда выполняется через реальные системные вызовы.
  5. Новый скриншот — и цикл повторяется с учётом того, что изменилось.

Ключевая деталь: модель не видит ни HTML-кода страницы, ни внутренних структур приложения — только пиксели. Чтобы кликнуть по нужной кнопке, она должна «прицелиться» к её визуальному положению на скриншоте. Это называется grounding, и это нетривиально: промахнулся на двадцать пикселей — нажал не туда.

Из-за этого агент медленный и хрупкий. Простой запрос (узнать погоду) — 15–30 секунд. Средний (найти вакансию) — 5–10 минут. Сложная форма — больше двадцати. Поменять межстрочный интервал в документе агент может за 12 минут — человек делает это за полминуты. Хуже того, из-за случайности генерации одна и та же задача может пройти с первого раза и провалиться со второго.

Из соображений безопасности агентам встроили тормоз: перед действиями с последствиями — оплатой, отправкой письма, удалением файла — модель останавливается и спрашивает подтверждение. Anthropic по умолчанию вообще блокирует целые категории вроде банкинга.

Пример на практике

Январь 2025-го, демонстрация Operator. Пользователь просит забронировать столик. Агент сам открывает OpenTable, вводит район, число гостей и время, заполняет форму, подтверждает — семь шагов за пару минут. В других демо он покупает билеты на StubHub и собирает продуктовую корзину в Instacart по фотографии рукописного списка. Человек справился бы за минуту, но человек при этом был бы занят, а агент — нет.

Цифры прогресса говорят сами за себя. Есть эталонный тест OSWorld, где агент должен выполнять реальные задачи в настольной системе. В апреле 2024-го лучший ИИ брал на нём 12%, человек — 72%. К октябрю Claude Computer Use дотянул до 22%, к январю 2025-го Operator — до 38%. А к 2026-му Claude Opus 4.6 вышел на 72,7% — впервые вровень с человеком. За два года — рост впятеро.

Технология быстро ушла в продукты. В июле 2025-го Perplexity выпустила браузер Comet, в октябре OpenAI — ChatGPT Atlas: оба на движке Chromium, оба с агентным режимом, в котором ИИ перехватывает управление и сам ходит по сайтам.

С чем часто путают

  • Computer Use и обычный AI Agent с tool calling — агент с tool calling вызывает заранее описанные функции через API: чисто, быстро, надёжно, но только там, где API есть. Компьютерный агент не знает об API вообще — он смотрит на экран и кликает. Это открывает легаси-системы, но обрушивает скорость и надёжность.
  • Computer Use и RPA — классическая RPA автоматизирует интерфейс по жёстким правилам (координаты, селекторы). Сдвинули кнопку — RPA сломалась. Агент адаптируется, потому что понимает смысл интерфейса.
  • Computer Use и агентный браузер — Comet и Atlas это не отдельная технология, а продуктовая упаковка: браузер, в который встроен компьютерный агент в роли «пилота».
  • Computer Use и скрипт/макрос — макрос — заранее записанная последовательность шагов, не понимающая контекста. Агент сам планирует шаги из задачи на естественном языке и исправляется на ходу.
  • Computer Use и API-интеграция — интеграция через API быстра и детерминирована, но требует, чтобы сервис её предоставлял. Агент работает там, где API нет совсем.

Частые ошибки и заблуждения

  • «Агенту уже можно доверить всё, это виртуальный сотрудник». Даже лучшие модели в начале 2025-го справлялись с третью задач. К 2026-му дошли до человеческого уровня — но в контролируемой среде. В реальном вебе с капчами, всплывашками и сбоями надёжность ниже, а необратимые действия (переводы денег) требуют надзора.
  • «Это просто продвинутые макросы». Макрос сломается от любого изменения интерфейса. Агент планирует многошаговую стратегию из описания цели, замечает ошибку на экране и переписывает план. Другой класс систем.
  • «Работает надёжно, как человек». Нет. Он в 10–20 раз медленнее и страдает от случайности: успех с первого раза не гарантирует успех со второго. Anthropic честно называет функцию экспериментальной.
  • «Раз он просто смотрит на экран, это безопасно». Наоборот. Именно то, что агент читает весь экран, создаёт новую угрозу.

Связанные термины

  • AI Agent — общая категория автономных систем; компьютерный агент — частный случай с управлением через GUI.
  • Agentic AI — парадигма, где модель действует итеративно и сама, а не отвечает на один запрос.
  • Tool Calling / Function Calling — альтернативный способ действовать: через API, а не через экран.
  • MCP — открытый протокол для подключения инструментов; может работать вместе с компьютерным агентом или вместо него.
  • Prompt Injection — атака через данные; для компьютерного агента это её визуальный вариант — инструкции прямо на экране.
  • Reasoning Models — компьютерные агенты строятся поверх «думающих» моделей: OpenAI CUA сделан на базе GPT-4o с обучением, как у o-серии.

Частые вопросы

Чем компьютерный агент отличается от обычного бота? Обычный бот действует через API или жёсткие скрипты. Компьютерный агент смотрит на экран и кликает, как человек, поэтому работает там, где API нет, но платит за это скоростью и надёжностью.

Кто сделал это первым? Anthropic — Claude Computer Use в публичной бете 22 октября 2024-го. OpenAI ответила Operator 23 января 2025-го и ввела сам термин CUA.

Можно ли уже доверить ему свою почту и банк? Осторожно. Из-за визуального prompt injection и хрупкости агента важные действия должны идти с подтверждением человека. Anthropic по умолчанию блокирует банкинг и подобные категории.

Почему он такой медленный? Каждый шаг — это «скриншот → подумать → действие → новый скриншот». Планирование съедает большую часть времени, а целиться курсором по пикселям трудно. Отсюда минуты там, где человек тратит секунды.

Чем это отличается от агентных браузеров Comet и Atlas? Ничем по сути: агентный браузер — это продукт, внутри которого работает компьютерный агент. Atlas, например, построен на той же CUA-технологии, что и Operator.

Главное

Computer Use дал языковой модели то, чего у неё никогда не было, — руки. Вместо того чтобы рассуждать о действиях, агент смотрит на скриншот, целится курсором и нажимает кнопки в любых приложениях, даже без API. Это снимает старое ограничение «работаем только там, где есть программный интерфейс» и открывает агентам весь софт мира — ценой скорости и надёжности. За два года технология прошла путь от 12% до человеческих 72% на тесте OSWorld и ушла в продукты — агентные браузеры Comet и Atlas. Но трезвость важнее восторга: агент медленный, хрупкий и доверчивый, а его новая суперспособность читать экран породила новый класс угроз — визуальный prompt injection, против которого пока нет надёжной защиты. Поэтому правильное место компьютерного агента в 2026-м — помощник под присмотром, а не автопилот без руля.