AI-агенты: эволюция в LLM, или промпты на стероидах?

Введение

Большие языковые модели (LLM) произвели своего рода революцию в работе с текстом. Они научились писать, как человек, и понимать смысл сказанного. Долгое время взаимодействие с этими моделями строилось исключительно на «промптах» (или говоря по-русски «запросах с инструкциями»), предназначенных для управления ответом от модели. Со временем люди поняли: чтобы получить хороший результат, промпты нужно тщательно подбирать и настраивать. Так появился промпт-инжиниринг — целая дисциплина о том, как лучше объяснять LLM, что от нее хотят.

Однако в последнее время отовсюду слышно фразу: «AI-агенты». Якобы они заменят человека и знаменуют собой начало новой технологической эры. Так ли это? AI-агент — это принципиально новый способ работы с LLM или же лишь естественное расширение и эволюция промпт-инжиниринга?

Вот с промпт-инжиниринга и начнём.

Промпт-инжиниринг

Этот подход простой и весьма выгодный. Он позволяет получать желаемые ответы от модели без её переобучения (а переобучение – это довольно долго и дорого).

В самом деле: задаете подробную инструкцию и LLM послушно выполняет их.

Хотите рецепт яблочного пирога? Пожалуйста! Хотите бизнес-план вашей компании на год вперед? Забирайте!

Вот один из примеров промпта, который превратит вашу LLM в составителя курсов по любому предмету:

ROLE
You are EDU-Epistemic, an AI consultant who blends epistemology (how we know) with the philosophy of education (what and how we should learn). Your mission is to co-design a standards-aligned curriculum.
VARIABLE SETTINGS
CourseTitle = [НАЗВАНИЕ КУРСА]
maxWords = 500 (max per module content)
confirm = true (true = ask before each step, false = auto-proceed)
format = markdown (markdown | csv | json)
GLOBAL RULES
 1. Follow the phases exactly in order. If user skips ahead, say: “We’re at Phase X-Y. Please finish/confirm this phase first.”
 2. Produce GitHub-Flavoured Markdown tables (no code fences).
 3. Keep each table cell under 40 characters. Wrap text if needed.
 4. For every row, choose one epistemological base: Pragmatic | Critical | Reflective | Procedural | Instrumental | Normative. Justify in 15 words max.
 5. Include Bloom’s Taxonomy domain and Adult-Learning (Andragogy) validation in columns.
 6. For <i>Validation</i> columns, mark ✅ or ❌ plus a note (≤ 20 characters).
 7. If format ≠ markdown, show both Markdown and the requested format.
 8. Put each interactive CLI in a fenced text block, wait for learner input before replying.
 9. If output nears token limits, pause and ask: “Continue?”
TABLE TEMPLATES
OutcomeTable
| Outcome # | Proposed Outcome | Bloom Domain | Epistemic Base | Educational Validation ✅/❌ |
SkillTable
| Skill # | Skill Description | Outcome # | Bloom Domain | Epistemic Base | Validation ✅/❌ |

AlignmentMatrix
| Outcome # | Outcome Description | Supporting Skills | Justification (≤ 50 words) |

⸻

PHASE 1 – OUTCOMES & SKILLS
 1. Course Outcomes
 • Fill OutcomeTable
 • Caption: Table 1.1 – Course Outcomes
 • Ask “Type CONTINUE to proceed” if confirm = true

 2. Key Skills
 • Generate 24 skills per outcome (Skill 1.1, 1.2…)
 • Fill SkillTable
 • Caption: Table 1.2 – Key Skills
 • Confirm per confirm

 3. Alignment Matrix
 • Fill AlignmentMatrix
 • Caption: Table 1.3 – Outcome–Skill Alignment
 • Confirm per confirm

⸻

PHASE 2 – SKILL MODULES
Execute for each Skill in numeric order
 1. Header: “Skill X.Y: ”
 2. Objective: one clear, verb-led sentence
 3. Content: up to maxWords; reference the Outcome
 4. Knowledge Claims: bullet list with [Validated ✅/❌ + 10-word rationale]
 5. Reasoning & Assumptions: max 150 words
 6. Prompt to proceed (if confirm = true)
 7. Interactive Activities (CLI): simulate command-line task; repeat until learner hits 80%+
 8. Assessment (CLI): same format; provide feedback or remediation
 9. End-of-module prompt to continue to next Skill or finish

Да, длинно. Но так и результат будет соответствующий! Можно потратить время всего один раз, а дальше пойдет как по рельсам.

За годы нашего общения с LLM мы обзавелись набором интересных приёмов, которые позволяют значительно улучшить ответы LLM.

Давайте соберем всё в одном месте.

Ключевые техники промпт-инжиниринга

  • Zero-shot prompting (промптинг «сходу»)

LLM получает задачу без предоставления каких-либо примеров в промпте. Модель сама разбирается как её решить, опираясь только на свои знания, полученные при обучении. Эту технику применяют для перевода, суммаризации или модерации контента, когда примеры нет под рукой.

Требует чётких и лаконичных инструкций.

  • Few-shot prompting (промптинг с несколькими примерами):

В отличие от zero-shot, эта техника включает в промпт несколько примеров желаемых входных и выходных данных, чтобы помочь модели «обучиться в контексте». Это особенно полезно для более сложных или специфических задач, где простой инструкции недостаточно.

Требует чётких и репрезентативных примеров.

  • Chain-of-Thought (CoT) prompting (промптинг с «цепочкой» рассуждений):

Значительно улучшает способности LLM к рассуждениям, заставляя модель разбивать сложные задачи на более простые подзадачи. Это позволяет LLM рассуждать последовательно, подобно человеку, используя эти рассуждения при формировании ответа.

Можно комбинировать с few-shot промптингом для большей эффективности.

  • Self-consistency prompting (Промптинг с самосогласованностью):

Улучшает рассуждения CoT, генерируя несколько путей рассуждений, а затем выбирая наиболее согласованный ответ.

Особенно эффективен для задач, связанных с математикой, где один путь рассуждения может быть ошибочным.

Казалось бы, выбирайте любой способ! Но не все так позитивно.

Тот факт, что промпт-инжиниринг стал отдельной дисциплиной, указывает на то, что LLM нужны тщательно сформулированные инструкции для оптимальной работы. Даже семантически схожие запросы могут приводить к разным результатам. Такая особенность демонстрирует ключевое ограничение LLM: модели плохо справляются с задачами, выходящими за рамки их обучения, им постоянно нужен человек, чтобы «направлять». Этот пробел особенно заметен при решении сложных задач — например, при попытке автоматизировать рабочий день backend-разработчика. Поэтому нужны принципиально иные решения — автономные системы, которые способны самостоятельно анализировать контекст и принимать осмысленные решения без постоянных подсказок.

И вот тут на арену выходят AI-агенты.

AI-Агенты

Строгого определения пока нет. Часто AI-агенты определяют как LLM-управляемые системы для автономного решения комплексных задач, которые могут использовать рассуждения, планирование и память. Проще говоря, это умные ассистенты, которые способны работать без участия человека.

Это открывает путь к более сложной системе, меняющей основной принцип взаимодействия с LLM: от реактивной генерации текста (промптами) к проактивному  выполнению задач. По сути, это переход от вопроса «А что ты можешь сказать?» к вопросу «А что ты можешь сделать?».

Ключевые компоненты AI-агентов

Архитектура AI-агента — многоступенчатая система, где LLM — это «мозг», который управляет различными специализированными модулями:

LLM

Ядро архитектуры агента, которое:

  • понимает и генерирует текст;

  • хранит знания, полученные при обучении на огромных объемах данных.

Память

Критически важный компонент, позволяющий агенту отслеживать свои взаимодействия и контекст. Разделяется на:

  • краткосрочную память: хранит непосредственную цепочку рассуждений агента в рамках одного запроса или текущей задачи;

  • долгосрочную память: сохраняет истории взаимодействий, которые могут охватывать недели или месяцы, чтобы агент учился на прошлом опыте и принимал более обоснованные решения в будущем.

Инструменты

Специализированные API или рабочие процессы (например, веб-поиск, интерпретатор кода, доступ к базам данных), которые помогают агенту делать то, что нельзя выполнить просто генерацией текста. Агент использует инструменты, чтобы  взаимодействовать с внешним миром и выполнять реальные действия. LLM может динамически решать, какие инструменты использовать.

Планирование

Этот компонент разбивает сложные задачи на более мелкие, управляемые части и формирует план выполнения. Он динамически определяет, какие LLM и инструменты следует вызывать и в каком порядке. Планирование также включает техники рефлексии, которые позволяют агенту пересматривать и улучшать свой план на основе обратной связи или новых наблюдений.

Retriever (RAG — Retrieval-Augmented Generation)

Компоненты, предназначенные для доступа к внешним хранилищам данных (например, векторным базам данных, базам знаний) и извлечения дополнительной, доменно-специфичной информации. Эта информация затем включается в промпты, отправляемые LLM, что значительно улучшает качество ответов, обеспечивает их актуальность и снижает риск галлюцинаций.

Для более глубокого понимания того, как AI-агенты меняют взаимодействие с LLM, можно провести сравнительный анализ с традиционным промпт-инжинирингом по нескольким ключевым параметрам.

Таблица 1. Сравнение промпт-инжиниринга и AI-агентов

Характеристика

Промпт-инжиниринг

AI-агенты

Определение

Создание промптов для управления LLM

LLM-системы для автономного выполнения целей

Автономия

Низкая (реактивный, требует постоянного ввода)

Высокая (проактивный, автономное принятие решений)

Сложность задач

Простые, узкие, одношаговые

Комплексные, требующие планирования и рассуждений

Использование инструментов

Нет (ограничен LLM)

Да (доступ к внешним API, базам данных, RAG)

Память

Краткосрочная (в рамках промпта)

Краткосрочная и долгосрочная (обучение на опыте)

Планирование

Отсутствует (только в рамках CoT)

Присутствует (разбиение задач, рефлексия)

Адаптация/Обучение

Ограниченное (в контексте промпта)

Высокое (через память и саморефлексию)

Модель взаимодействия

Пользователь-ориентированная, реактивная

Целеориентированная, проактивная

Гибкость

Низкая (зависит от точной формулировки)

Высокая (адаптация к динамическим сценариям)

Относительная стоимость

Низкая (без изменения модели)

Высокая (инфраструктура, вызовы API)

Переход от промпт-инжиниринга к AI-агентам отражает фундаментальную смену парадигмы от инструкции к намерению. В промпт-инжиниринге мы должны подробно объяснять LLM, что делать, а AI-агенты умеют сами планировать, действовать и адаптироваться в процессе. Это более естественная и эффективная модель взаимодействия, особенно в сложных задачах. Теперь человеку не нужно продумывать каждый шаг или возможный сценарий: он просто говорит, что нужно сделать, а агент сам разбирается, как. Это главное преимущество перед промпт-инжинирингом, где без подробных инструкций не обойтись.

Заключение

Итак, AI-агенты не заменяют промпт-инжиниринг, а строятся на его основе, используя LLM как «мозг» и расширяя их возможности с помощью дополнительных модулей, при этом меняя саму парадигму взаимодействия с LLM.

Можно смело сказать, что мы действительно научились общаться с LLM более эффективно, а AI-агенты — не просто способ задавать более умные вопросы, а скорее способ построения интеллектуальных систем вокруг LLM, которые могут действовать.

Полезные ссылки