AI Agent

ai agent — модель, которая выбирает действия и пользуется инструментами

Раздел
Языковые модели
Обновлено
18.05.26

AI Agent (AI-агент) — это LLM, которая не просто отвечает на вопрос, а решает задачу через несколько шагов и использует внешние инструменты. У агента есть цель, доступные действия (поиск, код, файлы, API) и цикл «выбрать следующий шаг → выполнить → посмотреть результат → следующий шаг». Простой пример: «найди лучший рейс на пятницу и сохрани в календарь» — агент сам ищет, сравнивает, выбирает, добавляет в календарь.

Коротко

Коротко. AI Agent — это LLM с инструментами и циклом действий. В отличие от обычного чата, агент не отвечает за одно сообщение: он получает цель, разбивает её на шаги, выбирает нужный инструмент (поиск, код, файл, API), выполняет, смотрит результат и решает, что делать дальше. Цикл повторяется, пока цель не достигнута. Так работают современные code-помощники, исследовательские агенты, операторы интерфейсов.

Что это такое

Конец 2023-го. Anthropic выкатывает функцию tool use в Claude. OpenAI — function calling. Сразу после этого появляются первые «настоящие агенты»: вместо одного ответа на запрос модель сама ходит в интернет, читает страницы, пишет код, запускает его, видит ошибку, исправляет, отчитывается о результате. К 2025-му этот паттерн расходится по всем продуктам: Claude Code, Cursor, Codex, Devin, MCP-серверы, Manus.

AI Agent — это не отдельная модель и не отдельная технология. Это паттерн использования LLM: вместо «один промпт — один ответ» появляется «цель — серия действий — результат».

Базовая конструкция:

  1. Цель — то, что нужно достичь.
  2. Инструменты — что агент умеет делать (вызывать функции).
  3. Цикл рассуждения — модель сама решает, какой следующий шаг сделать.
  4. Контекст — память между шагами (что уже сделано, что узнали).

Это превращает LLM из «отвечающего на вопросы» в «решающего задачи». И открывает целый класс задач, которые одним ответом не решаются.

К 2026-му агентные системы — главный технологический тренд после самих LLM. Сложность сместилась: раньше было «как заставить модель отвечать правильно», теперь — «как заставить модель планировать и не ломать систему».

Как это работает

Базовый агентный цикл (ReAct = Reason + Act):

  1. Цель и инструменты передаются в system prompt. Список доступных функций: search_web, read_file, run_python, add_to_calendar, send_message.
  2. Модель рассуждает. «Чтобы решить задачу, мне нужно сначала найти X, потом проверить Y, потом обновить Z».
  3. Модель выбирает инструмент и передаёт ему параметры в структурированном виде (JSON): {"tool": "search_web", "query": "лучшие рейсы Москва-Берлин пятница"}.
  4. Runtime выполняет действие и возвращает результат: список рейсов, текст файла, вывод кода.
  5. Модель наблюдает результат и решает следующий шаг: «Из этих рейсов самый дешёвый — Y, проверю расписание возврата».
  6. Цикл повторяется до достижения цели или предела шагов.

Каждый шаг — это один inference-запрос к LLM. Поэтому агент с 10 шагами — это 10 API-запросов, обычно с расширяющимся контекстом (история всех предыдущих шагов).

Типичные категории агентов:

  • Code agents. Claude Code, Cursor, Devin. Цель — изменить кодовую базу. Инструменты: чтение/запись файлов, выполнение команд, тесты, git.
  • Research agents. Perplexity (упрощённый), GPT-4 Deep Research. Цель — собрать и синтезировать информацию. Инструменты: web search, browser, scraper.
  • Computer use agents. Claude Computer Use, OpenAI Operator. Цель — управлять компьютером как пользователь. Инструменты: скриншоты, клики, ввод текста.
  • Workflow agents. Zapier AI, n8n + LLM. Цель — автоматизировать процессы. Инструменты: триггеры из API, отправка в Slack/email.
  • Multi-agent systems. Несколько LLM играют разные роли (planner, executor, reviewer) и общаются между собой.

Современный стандарт интеграции — MCP (Model Context Protocol). Это открытый протокол от Anthropic, позволяющий подключать к агентам любые инструменты (БД, файловые системы, API) без специальной интеграции.

Пример на практике

Видеомонтажёр хочет автоматизировать рутину: каждое утро агент должен проверить почту, найти запросы на правки от клиентов, открыть соответствующие проекты в DaVinci и составить план работы на день.

Стек на 2026-м:

  • LLM: Claude 4.5 Sonnet (хорошо работает с длинной цепочкой шагов).
  • Tools: чтение Gmail (через MCP-server), чтение файловой системы, обращение к DaVinci API через скрипты.
  • Runtime: Claude Code (запускается локально, виден весь процесс).

Шаги одного утра:

  1. Цель: «Проверь почту за вчера, найди запросы на правки видео, открой соответствующие .drp файлы, составь план».
  2. Шаг 1: агент вызывает gmail.search(query="from:* subject:правки after:2026-05-12"). Получает 5 писем.
  3. Шаг 2: агент читает каждое письмо через gmail.get_message(id). Извлекает имя проекта, типы правок.
  4. Шаг 3: агент ищет файлы проектов: fs.list("/Projects/2026/*"). Сопоставляет имена.
  5. Шаг 4: для каждого проекта читает заметки в notes.md (где видеомонтажёр пишет о состоянии каждого проекта).
  6. Шаг 5: агент рассуждает: «Проект A — простая правка (30 мин), проект B — пересборка (3 часа), проект C — ждёт ответа от клиента (отложить)».
  7. Шаг 6: агент формирует план и отправляет в Telegram: «На сегодня: A (30мин, утром), B (3ч, после обеда), C — ждать клиента».

Это всё — один промпт пользователя, дальше 6 итераций между моделью и инструментами, итог в полминуты.

Тот же подход в ComfyUI: LLM-нода с инструментами-нодами вокруг (Image Loader, File Saver, Web Search). Workflow становится «полу-агентным» — модель решает, какую ноду использовать в зависимости от входа.

С чем часто путают

  • Agent и Chatbot — chatbot отвечает на сообщения, agent выполняет действия. Граница условная: ChatGPT с включёнными «функциями» — это уже агент.
  • Agent и Multi-agent system — простой агент это одна LLM с инструментами. Multi-agent — несколько LLM с разными ролями, общающихся между собой. Сложнее в разработке, не всегда лучше работает.
  • Agent и Workflow — workflow это заранее определённая последовательность шагов. Agent выбирает шаги динамически. Workflow надёжнее, agent гибче.
  • Tool use и Function calling — function calling это конкретный API-стандарт (OpenAI) для tool use. Tool use — общий термин для возможности модели вызывать функции.
  • MCP и LangChain — MCP это протокол подключения инструментов. LangChain — фреймворк сборки агентов (может использовать MCP внутри).

Частые ошибки и заблуждения

  • «Agent — это автономный AI». Не совсем. Современные агенты работают в рамках, заданных разработчиком: набор инструментов, ограничения, мониторинг. «Автономия» — это автономия в выборе шагов, не в целях.
  • «Agent сам разберётся, не нужны промпты». Нужны, и тщательнее, чем обычно. У агента десятки точек принятия решений; на каждой нужен правильный prompt-инжиниринг.
  • «Чем больше шагов, тем умнее агент». Часто наоборот. Хороший агент решает задачу за 3–5 шагов. Циклится на 20+ — обычно знак того, что задача не подходит или промпт плохой.
  • «Любая LLM может работать как агент». Технически — да, на практике — нет. Слабые модели (3B–7B) часто путаются в выборе инструментов, выдумывают аргументы, циклятся. Нужны фронтирные модели для надёжной работы.
  • «Дороже модель → лучше агент». До определённого предела. После — упирается в качество промптов, дизайн инструментов и обработку ошибок.

Связанные термины

  • Tool use / Function calling — основной механизм работы агента.
  • MCP — открытый протокол подключения инструментов к моделям.
  • ReAct — паттерн «рассуждение + действие» внутри агентного цикла.
  • Chain-of-thought — приём, помогающий агенту планировать.
  • Multi-agent system — несколько агентов с ролями, общающихся.
  • LLMмодель, лежащая в основе агента.
  • Context window — лимит, ограничивающий длину истории агента.
  • Prompt injection — главная угроза агентным системам.

Частые вопросы

Чем агент отличается от Cursor или Claude Code? Не отличается. Cursor и Claude Code — это конкретные реализации code-agents. Они объединяют LLM + чтение файлов + редактирование кода + запуск команд + git.

Можно ли запустить агента локально? Да. Claude Code + локальный Ollama с tool-calling Llama 3.1, или LangChain с локальной моделью. Качество ниже, чем у Claude/GPT-5, но для простых задач хватает.

Что такое Agentic RAG? RAG, в котором поиск делается не один раз, а агентом — модель сама решает, какой запрос задать, какие документы прочитать дальше, когда остановиться. Обычно работает лучше простого RAG на сложных вопросах.

Сколько токенов «съедает» агент за одну задачу? В разы больше обычного чата. Каждый шаг — это полный промпт со всей историей. 10 шагов — это часто 50K–100K токенов суммарно. Влияет на цену.

Где почитать про создание собственного агента? Anthropic Agents Cookbook, документация OpenAI Function Calling, гайды LangChain и AutoGen. Базовая реализация — 100 строк Python.

Главное

AI Agent — это паттерн, в котором LLM не просто отвечает, а решает многошаговые задачи через инструменты. К 2026-му это самый быстро растущий способ использования AI: code-помощники, исследовательские агенты, computer use, workflow-автоматизация. Главное — не «магия», а инженерия: правильный набор инструментов, чёткие промпты, обработка ошибок, безопасность. Понимая, как устроен агент, проще оценивать готовые продукты (Cursor, Claude Code, Devin) и строить собственные сценарии автоматизации.