aiDotEngineer

@aiDotEngineer

还没有填写个人介绍

注册于 2026-07-01
构建可长时间运行 Agent 的实践与思考

**视频 AI 总结**:本视频来自 Anthropic 应用 AI 团队的工程师 Ash 和 Andrew,分享了构建能够长时间运行(数小时甚至数天)的 AI Agent的实践与思考。他们回顾了 Claude Code 从一次性编码工具到支持多日持续运行的演进历程,分析了长时代理面临的上下文有限、规划困难、自我评价偏差等挑战,并重点介绍了他们采用生成器-评估器对抗模式(类似 GAN)来提升代码和设计质量的实验性方法。视频还讨论了如何设计评估器、使用 Playwright 进行自测试、通过文件系统管理状态以及根据模型能力演进简化 harness 设计。 **主要内容**: - 长时运行代理的三大挑战:上下文有限(记忆缺失、上下文腐烂、焦虑)、规划能力差、模型难以客观评判自身输出。 - 应对策略:通过模型权重提升(如 Opus 4.6 支持 12 小时连续运行)和改进 harness 工具(如 Agent SDK、检查点、技能、服务器端压缩)协同进化。 - 核心模式:生成器-评估器对抗模式,将构建与评价分离,让评估器通过 Playwright 实际操作用户界面进行测试和评分。 - 引入计划器角色,将模糊需求分解为高层次规范,并通过生成器与评估器协商达成具体合同(contract),确保测试可量化。 - 实际案例对比:同样指令“构建一个复古游戏编辑器”,简单循环仅能生成半成品游戏(点击无响应),而对抗式 harness 生成了完整可玩的游戏,并包含 AI 辅助功能。 - 调优经验:手动阅读代理运行日志是调试的关键,通过记录评价标准(设计、原创性、工艺、功能)并权重调整来提升品味。 - 模型演进对 harness 的影响:随着模型能力提升(如 Opus 4.6 消除上下文焦虑),可以简化 harness(减少会话重置、降低评估频率),但对抗式评价模式仍然重要。

14 0 0 2026-07-01