Ai-Agent

AI Agent AI Agent（人工智能代理）是一个能够感知环境、自主决策并采取行动以完成目标的软件系统。与普通程序不同，AI Agent 的核心特征是自主性：它不只是被动地响应单次输入，而是能够：制定多步骤计划调用外部工具（搜索、代码执行、API 调用等）根据执行结果动态调整策略持续循环直到目标完成 AI Agent 的定义从学术角度，Agent 的经典定义来自 Russell & Norvig（《人工智能：一种现代方法》）： Agent 是任何能够通过传感器感知环境、并通过执行器对环境采取行动的事物。在 LLM 时代，AI Agent 的定义更具体： AI Agent 是以大语言模型为核心推理引擎，能够自主规划任务、调用工具、与外部系统交互，并通过反馈循环完成复杂目标的自治系统。 Agent 的四个核心要素要素说明感知（Perception）接收输入：多模态用户指令、工具返回结果、系统状态、历史记忆规划（Planning）将目标分解为可执行的子任务序列行动（Action）调用工具、执行代码、调用 API、操作文件等记忆（Memory）短期记忆（上下文窗口）+ 长期记忆（向量数据库等）感知的来源感知不只是用户输入那一句话，Agent 每次推理前收到的完整上下文都属于"感知"：来源说明多模态输入用户的文本指令（最常见）、图片、音频、视频等工具返回结果搜索结果、API 响应、代码执行输出、数据库查询结果系统状态文件内容、环境变量、当前任务进度历史记忆短期记忆（上下文窗口中的对话历史）+ 长期记忆（从向量数据库检索）这四类来源最终都会被拼装进 LLM 的上下文窗口，LLM 基于这个完整上下文做出下一步决策。因此，感知本质上是构建 LLM 输入上下文的过程。上下文窗口：感知的硬性约束能放入上下文的信息量取决于模型的上下文窗口大小（以 token 计）：模型上下文窗口 GPT-4o 128K tokens Claude 3.5 Sonnet 200K tokens Gemini 1.5 Pro 1M tokens 超出窗口的内容会被截断，因此 Agent 需要主动管理上下文。常见策略如下（各框架实现不一，没有统一标准）： ...