
该平台已进行数月的封闭测试,刚刚向公众开放。大多数构建者还不知道它的存在。等他们知道时,你已经上线了。以下是架构、安全模型、部署工作流程和高级能力的全面解析。
目录
- 基础设施问题
- “陈旧支架”陷阱
- “大脑 vs. 手”架构
- 安全:零信任与凭据库
- 上下文工程与压缩
- 四个核心原语
- Managed Agents 在技术栈中的位置
- 分步部署指南
- 工具生态系统
- 事件流(实时遥测)
- 高级能力
- 企业案例研究
- 成本考量
- 开源与自托管替代方案
- 部署清单
- 核心总结
1. 基础设施问题
构建生产级 AI Agent 从来不是模型问题;它一直是一个基础设施问题。模型已经足够聪明,但支架——执行循环、容器配置、状态持久化和安全边缘情况——消耗了大部分工程时间。

Managed Agents 将数月的支架构建工作缩减为数天。你不再需要构建底层管道,而是开始构建业务逻辑。乐天(Rakuten)在五个部门部署了专业化 Agent,每个 Agent 上线生产环境的时间不足一周,比之前的方法快了 79%。
2. “陈旧支架”陷阱
一个常见的陷阱是围绕特定模型的特性构建 Agent 支架。当新模型发布时,这些变通方法就会变成技术债务。
例如,Claude 3.5 Sonnet 曾有 context anxiety(上下文焦虑),当上下文窗口填满时,它会提前结束任务。工程师们构建了自动上下文重置功能来弥补这一缺陷。当 Claude 4.5 Opus 发布时,这种限制消失了,而硬编码的重置功能变成了拖累性能的死代码。
Managed Agents 将推理引擎与执行层分离。当 Anthropic 处理特定模型的实现时,你的 Agent 逻辑保持纯净。
3. “大脑 vs. 手”架构
Anthropic 将其设计为一个“元支架”。正如操作系统将硬件虚拟化为稳定的抽象,Managed Agents 将自主系统的组件虚拟化为三个不可变的原语。

这将 Agent 基础设施从 pets 模型(手工维护的单体容器)转变为 cattle 模型(韧性且可替换的组件):
- Sandbox 韧性: 如果 Sandbox 因为错误的命令崩溃,支架会将其捕获为工具调用错误,并提示模型使用新容器重试。不会丢失上下文。
- 容错性: 如果支架本身发生故障,它会立即重启,从独立的会话日志中检索事件流,并从故障点恢复。
- 延迟配置: 只有当模型调用需要代码执行的工具时,容器才会启动,从而显著降低中位首个 Token 延迟。
4. 安全:零信任与凭据库
在 Sandbox 中执行模型生成的代码存在风险,例如旨在窃取 API 密钥的 Prompt 注入。Managed Agents 通过绝对的凭据隔离解决了这个问题。
MCP 代理架构

所有外部服务交互都通过硬化的代理路由到 Model Context Protocol (MCP):
- Agent 向代理发出结构化工具调用,包含功能载荷和会话范围的标识符。
- 代理根据 Anthropic 的凭据库交叉引用该标识符。
- 代理直接从库中检索 Token。
- 代理执行外部 API 调用,仅将输出返回给 Sandbox。
支架和 Sandbox 对底层凭据保持不可见。
Git 身份验证注入
当 Agent 需要访问代码库时,基础设施仅在容器配置期间使用 Token。Agent 原生地运行 git push 和 git pull,而无需接触原始 Token 字符串。
5. 上下文工程与压缩
长期运行的 Agent 经常会因为上下文窗口被原始日志和冗长输出填满而导致推理能力退化。

Managed Agents 将持续会话与活跃上下文窗口分离。会话是一个不可变的、仅追加的数据库,允许支架执行激进的上下文转换:
- 上下文压缩: 当工具结果累积时,支架会触发摘要 Prompt。
- 垃圾回收: 原始历史记录从活跃上下文中清除,并替换为合成摘要。
- 细粒度检索: 原始事件保留在外部会话日志中,允许 Agent 在需要时查询历史细节。
6. 四个核心原语
你不需要管理控制循环,而是使用四个相互关联的原语声明配置:

7. Managed Agents 在技术栈中的位置
- Messages API: 基础层。你需要自己构建循环并管理状态。最适合底层控制。
- Claude Agent SDK: 提供支架但需要你自己托管计算。非常适合 VPC 强制要求数据隐私的场景。
- Claude Code: 用于个人生产力的交互式 CLI 和 IDE 伴侣。
- Managed Agents: 用于 B2B 后端的无头云服务,推荐用于韧性、长期运行的异步工作流。

8. 分步部署指南
第一阶段:在 Claude 控制台中构建
- 设置账户: 访问 platform.claude.com。计费基于 Token 加上每活跃 Session 小时 $0.08。
- 创建 Agent: 使用 Managed Agents 部分通过助手模式、模板或空白配置进行构建。
- 配置环境: 定义网络访问规则(例如,限制 Web 搜索到特定域名)。
- 设置凭据库: 通过 OAuth 授权 ClickUp 或 Airtable 等服务。
第二阶段:测试
- 运行测试会话: 使用控制台的测试面板验证工具调用,并在外部部署前调试逻辑。
第三阶段:部署与 API 集成
- 收集 ID: 复制你的 Agent ID、Environment ID 和 Vault ID。
- 管理用户会话: 检查你的数据库中现有的活跃会话以保持上下文。
- 创建新会话: 对于新用户,调用 API 创建会话并存储生成的 Session ID。
- 发送消息: 向活跃会话发送 Prompt。在逻辑中为推理时间构建轮询或延迟。
- 获取响应: 调用 API 列出消息并显示最新的 Agent 响应。
9. 工具生态系统
原生工具
每个 Agent 都具备基础能力:

为了安全环境,你可以明确禁用 web_search 等工具。
自定义工具
自定义工具通过 JSON schema 定义。当被调用时,运行时会挂起容器并向你的基础设施发出工具使用事件。
Model Context Protocol (MCP)
MCP 是一个开源协议,用于安全地向模型暴露数据源。与其为 Slack、Jira 或 GitHub 维护单独的集成,不如将 MCP 服务器注册到你的 Agent 配置中。
10. 事件流(实时遥测)
Managed Agents 异步运行。要监控该过程,请连接到服务器发送事件(SSE)流。

通过捕获跨度终止事件,你可以实时计算执行成本和 Token 消耗。
11. 高级能力
多 Agent 群体编排
对于复杂的工作负载,你可以使用群体拓扑:
- 编排者(Orchestrator): 分析目标并生成专家子 Agent。
- 隔离: 每个子 Agent 在集中的上下文窗口中运行。
- 协同: 子 Agent 通过内部消息队列进行通信。
确定性结果与自我评估
使用 JSON schemas 定义成功标准。如果断言失败(例如,一个函数超过 50 行),Agent 会进入自动优化循环,直到满足标准。
12. 企业案例研究
- Asana: 构建了 AI 队友,将目标分解为子任务,并通过 MCP 与 Google Drive 交互。
- 乐天(Rakuten): 在一周内为销售、营销和人力资源部署了特定领域的 Agent,将上市时间缩短了 79%。
- Sentry: 创建了一个自主修复引擎,可以重现故障、编写代码并提交拉取请求(Pull Requests)。
13. 成本考量
- 推理: 标准模型 Token 成本。
- 基础设施: 每活跃运行时 Session 小时 $0.08。
这种模式对于追求速度的团队来说极具成本效益,因为每小时的溢价低于为自定义 Sandbox 支付的工程工资。
14. 开源与自托管替代方案
- Eigent + CAMEL-AI: 本地优先、注重隐私且模型无关。
- Multica: 专注于通过视觉看板进行人机协作。
- Cabinet: 带有 Git 支持的历史记录的基于文件的知识库。
- n8n: 用于企业工作流的视觉节点自动化。
15. 部署清单
- 在 platform.claude.com 设置好账户并充值。
- 创建了带有系统 Prompt 和工具的 Agent。
- 配置了带有网络规则的环境。
- 通过 OAuth 设置了凭据库。
- 在控制台中验证了测试会话。
- 提取了 ID(Agent、Environment、Vault)。
- 在后端构建了会话管理和 SSE 处理器。
- 配置了 Session ID 的数据库持久化。
16. 核心总结
- 基础设施已解决: Managed Agents 消除了“支架税”。
- 默认安全: 零信任凭据隔离防止数据外泄。
- 快速部署: 在几天内而非数月内从账户设置完成上线服务。
如果你正在构建自主 Agent,利用托管基础设施将在开发速度和安全性方面提供显著的竞争优势。