AI Agent
ai agent — модель, которая выбирает действия и пользуется инструментами
AI Agent (AI-агент) — это LLM, которая не просто отвечает на вопрос, а решает задачу через несколько шагов и использует внешние инструменты. У агента есть цель, доступные действия (поиск, код, файлы, API) и цикл «выбрать следующий шаг → выполнить → посмотреть результат → следующий шаг». Простой пример: «найди лучший рейс на пятницу и сохрани в календарь» — агент сам ищет, сравнивает, выбирает, добавляет в календарь.
Коротко
Коротко. AI Agent — это LLM с инструментами и циклом действий. В отличие от обычного чата, агент не отвечает за одно сообщение: он получает цель, разбивает её на шаги, выбирает нужный инструмент (поиск, код, файл, API), выполняет, смотрит результат и решает, что делать дальше. Цикл повторяется, пока цель не достигнута. Так работают современные code-помощники, исследовательские агенты, операторы интерфейсов.
Что это такое
Конец 2023-го. Anthropic выкатывает функцию tool use в Claude. OpenAI — function calling. Сразу после этого появляются первые «настоящие агенты»: вместо одного ответа на запрос модель сама ходит в интернет, читает страницы, пишет код, запускает его, видит ошибку, исправляет, отчитывается о результате. К 2025-му этот паттерн расходится по всем продуктам: Claude Code, Cursor, Codex, Devin, MCP-серверы, Manus.
AI Agent — это не отдельная модель и не отдельная технология. Это паттерн использования LLM: вместо «один промпт — один ответ» появляется «цель — серия действий — результат».
Базовая конструкция:
- Цель — то, что нужно достичь.
- Инструменты — что агент умеет делать (вызывать функции).
- Цикл рассуждения — модель сама решает, какой следующий шаг сделать.
- Контекст — память между шагами (что уже сделано, что узнали).
Это превращает LLM из «отвечающего на вопросы» в «решающего задачи». И открывает целый класс задач, которые одним ответом не решаются.
К 2026-му агентные системы — главный технологический тренд после самих LLM. Сложность сместилась: раньше было «как заставить модель отвечать правильно», теперь — «как заставить модель планировать и не ломать систему».
Как это работает
Базовый агентный цикл (ReAct = Reason + Act):
- Цель и инструменты передаются в system prompt. Список доступных функций:
search_web,read_file,run_python,add_to_calendar,send_message. - Модель рассуждает. «Чтобы решить задачу, мне нужно сначала найти X, потом проверить Y, потом обновить Z».
- Модель выбирает инструмент и передаёт ему параметры в структурированном виде (JSON):
{"tool": "search_web", "query": "лучшие рейсы Москва-Берлин пятница"}. - Runtime выполняет действие и возвращает результат: список рейсов, текст файла, вывод кода.
- Модель наблюдает результат и решает следующий шаг: «Из этих рейсов самый дешёвый — Y, проверю расписание возврата».
- Цикл повторяется до достижения цели или предела шагов.
Каждый шаг — это один inference-запрос к LLM. Поэтому агент с 10 шагами — это 10 API-запросов, обычно с расширяющимся контекстом (история всех предыдущих шагов).
Типичные категории агентов:
- Code agents. Claude Code, Cursor, Devin. Цель — изменить кодовую базу. Инструменты: чтение/запись файлов, выполнение команд, тесты, git.
- Research agents. Perplexity (упрощённый), GPT-4 Deep Research. Цель — собрать и синтезировать информацию. Инструменты: web search, browser, scraper.
- Computer use agents. Claude Computer Use, OpenAI Operator. Цель — управлять компьютером как пользователь. Инструменты: скриншоты, клики, ввод текста.
- Workflow agents. Zapier AI, n8n + LLM. Цель — автоматизировать процессы. Инструменты: триггеры из API, отправка в Slack/email.
- Multi-agent systems. Несколько LLM играют разные роли (planner, executor, reviewer) и общаются между собой.
Современный стандарт интеграции — MCP (Model Context Protocol). Это открытый протокол от Anthropic, позволяющий подключать к агентам любые инструменты (БД, файловые системы, API) без специальной интеграции.
Пример на практике
Видеомонтажёр хочет автоматизировать рутину: каждое утро агент должен проверить почту, найти запросы на правки от клиентов, открыть соответствующие проекты в DaVinci и составить план работы на день.
Стек на 2026-м:
- LLM: Claude 4.5 Sonnet (хорошо работает с длинной цепочкой шагов).
- Tools: чтение Gmail (через MCP-server), чтение файловой системы, обращение к DaVinci API через скрипты.
- Runtime: Claude Code (запускается локально, виден весь процесс).
Шаги одного утра:
- Цель: «Проверь почту за вчера, найди запросы на правки видео, открой соответствующие .drp файлы, составь план».
- Шаг 1: агент вызывает
gmail.search(query="from:* subject:правки after:2026-05-12"). Получает 5 писем. - Шаг 2: агент читает каждое письмо через
gmail.get_message(id). Извлекает имя проекта, типы правок. - Шаг 3: агент ищет файлы проектов:
fs.list("/Projects/2026/*"). Сопоставляет имена. - Шаг 4: для каждого проекта читает заметки в
notes.md(где видеомонтажёр пишет о состоянии каждого проекта). - Шаг 5: агент рассуждает: «Проект A — простая правка (30 мин), проект B — пересборка (3 часа), проект C — ждёт ответа от клиента (отложить)».
- Шаг 6: агент формирует план и отправляет в Telegram: «На сегодня: A (30мин, утром), B (3ч, после обеда), C — ждать клиента».
Это всё — один промпт пользователя, дальше 6 итераций между моделью и инструментами, итог в полминуты.
Тот же подход в ComfyUI: LLM-нода с инструментами-нодами вокруг (Image Loader, File Saver, Web Search). Workflow становится «полу-агентным» — модель решает, какую ноду использовать в зависимости от входа.
С чем часто путают
- Agent и Chatbot — chatbot отвечает на сообщения, agent выполняет действия. Граница условная: ChatGPT с включёнными «функциями» — это уже агент.
- Agent и Multi-agent system — простой агент это одна LLM с инструментами. Multi-agent — несколько LLM с разными ролями, общающихся между собой. Сложнее в разработке, не всегда лучше работает.
- Agent и Workflow — workflow это заранее определённая последовательность шагов. Agent выбирает шаги динамически. Workflow надёжнее, agent гибче.
- Tool use и Function calling — function calling это конкретный API-стандарт (OpenAI) для tool use. Tool use — общий термин для возможности модели вызывать функции.
- MCP и LangChain — MCP это протокол подключения инструментов. LangChain — фреймворк сборки агентов (может использовать MCP внутри).
Частые ошибки и заблуждения
- «Agent — это автономный AI». Не совсем. Современные агенты работают в рамках, заданных разработчиком: набор инструментов, ограничения, мониторинг. «Автономия» — это автономия в выборе шагов, не в целях.
- «Agent сам разберётся, не нужны промпты». Нужны, и тщательнее, чем обычно. У агента десятки точек принятия решений; на каждой нужен правильный prompt-инжиниринг.
- «Чем больше шагов, тем умнее агент». Часто наоборот. Хороший агент решает задачу за 3–5 шагов. Циклится на 20+ — обычно знак того, что задача не подходит или промпт плохой.
- «Любая LLM может работать как агент». Технически — да, на практике — нет. Слабые модели (3B–7B) часто путаются в выборе инструментов, выдумывают аргументы, циклятся. Нужны фронтирные модели для надёжной работы.
- «Дороже модель → лучше агент». До определённого предела. После — упирается в качество промптов, дизайн инструментов и обработку ошибок.
Связанные термины
- Tool use / Function calling — основной механизм работы агента.
- MCP — открытый протокол подключения инструментов к моделям.
- ReAct — паттерн «рассуждение + действие» внутри агентного цикла.
- Chain-of-thought — приём, помогающий агенту планировать.
- Multi-agent system — несколько агентов с ролями, общающихся.
- LLM — модель, лежащая в основе агента.
- Context window — лимит, ограничивающий длину истории агента.
- Prompt injection — главная угроза агентным системам.
Частые вопросы
Чем агент отличается от Cursor или Claude Code? Не отличается. Cursor и Claude Code — это конкретные реализации code-agents. Они объединяют LLM + чтение файлов + редактирование кода + запуск команд + git.
Можно ли запустить агента локально? Да. Claude Code + локальный Ollama с tool-calling Llama 3.1, или LangChain с локальной моделью. Качество ниже, чем у Claude/GPT-5, но для простых задач хватает.
Что такое Agentic RAG? RAG, в котором поиск делается не один раз, а агентом — модель сама решает, какой запрос задать, какие документы прочитать дальше, когда остановиться. Обычно работает лучше простого RAG на сложных вопросах.
Сколько токенов «съедает» агент за одну задачу? В разы больше обычного чата. Каждый шаг — это полный промпт со всей историей. 10 шагов — это часто 50K–100K токенов суммарно. Влияет на цену.
Где почитать про создание собственного агента? Anthropic Agents Cookbook, документация OpenAI Function Calling, гайды LangChain и AutoGen. Базовая реализация — 100 строк Python.
Главное
AI Agent — это паттерн, в котором LLM не просто отвечает, а решает многошаговые задачи через инструменты. К 2026-му это самый быстро растущий способ использования AI: code-помощники, исследовательские агенты, computer use, workflow-автоматизация. Главное — не «магия», а инженерия: правильный набор инструментов, чёткие промпты, обработка ошибок, безопасность. Понимая, как устроен агент, проще оценивать готовые продукты (Cursor, Claude Code, Devin) и строить собственные сценарии автоматизации.