多LLM研究工作室构建指南(下):从系统化到自动化
本文是构建多LLM研究工作室指南的第二部分,详细介绍了从系统化到自动化的三个阶段:Phase1(手动系统化流程)、Phase2(Hermes驱动的自动情报收集与简报生成)、Phase3(计划中的端到端研究编排与并行专家代理)。强调“先系统化后自动化”的核心原则,并给出了完整的成本分解与渐进式构建路径。文章提供了具体的项目模板、知识管理系统(KMS)、CLAUD.md层级、杀我的论文对抗层等实用细节。

这是《Agent 优先:构建一个自行运行的多 LLM 研究工作室的全栈方案》系列文章的第二部分(共两部分)。
X 文章系统的字符数限制让我无法一次性发布全部内容。在阅读本文之前,请先阅读第一部分。
CMC 创作者帖子
作为已验证的创作者帖子,在主平台和 X 交叉发布之后发布。仅限代币研究。发布于 coinmarketcap.com。格式规则:
- 字数严格控制在 2,000 字以内
- 语气与主笔记保持一致,不因读者群更广而软化
- 以笔记中最尖锐的数据点开头,而非文章内容摘要
- 结尾处标明信念层级:高(HIGH)、中(MEDIUM)或推测(SPECULATIVE)
- 如果有交易设置,给出入场区间和止损位;若无,则省略
- 不使用破折号
- 在手动发布前,将草稿保存为
research/outputs/[代币]-cmc-post.md
CMC 帖子不是主笔记的删节版,而是将笔记中最尖锐的论点压缩成一篇独立的短文。仅阅读 CMC 帖子的读者应该能够理解其论点、关键数据点、风险和信念层级。
按平台划分的发布流程
ROCH Labs: Substack (rochlabs.com) 是主要记录平台。所有长文论文首先在此发布。YouTube (@rochlabs) 紧随其后,提供同一文章的屏幕共享讲解。这不是单独的脚本,而是在文章上进行实时屏幕共享并附有口头评论。相同内容,不同媒介,不同发现渠道。X (@degenrsc) 有两个版本:一个原生 X 文章(为 X 重新格式化的 Substack 文章)和一个独立的精简帖子。YouTube 讲解的原生视频直接上传到 X,绝不使用 YouTube 链接。X 的算法会压制外部链接。原生视频则受到不同对待。
Coin Bureau: CB Discord 是主要渠道。#degen-shots 用于代币研究。#research-feed 用于股票和宏观分析。X 交叉发布在当天进行,使用相同的笔记,无延迟。
所有代币研究都会在当天发布 CMC 创作者帖子。
CB 和 ROCH Labs 内容在结构上是分离的。CB 内容不会自动变成 ROCH Labs 内容。跨平台引用——将 CB 的论点发展成更长的 ROCH Labs 文章——需要经过深思熟虑的决定,并且 ROCH Labs 版本是从头开始编写的,而不是重新发布。
运营层带来的好处
一条已发布但未更新跟踪器的笔记,就像一个没有机构记忆的研究事件。六个月后,你将无法知道该论点是否成立、入场和止损位是什么,或者系统是否在改进。
运营层——调用跟踪器、交易日志、CMC 帖子、交叉发布序列——是将内容操作转变为复合操作的关键。跟踪器建立了一个可审计的业绩记录。交易日志强制执行仓位纪律。交叉发布序列确保每篇文章都能触及所有相关平台。CMC 帖子在散户投资者积极研究代币的平台上建立了已验证创作者的存在。
这些都不光鲜亮丽。但正是这些,将仅仅产出内容的研究者与运营研究业务的研究者区分开来。
第 9 节将介绍下一步的构建方向:完全自主研究工作室的最终状态、第三阶段的样子,以及实现目标的实际时间表。
第 9 节:最终状态
整个构建分为三个阶段。第一阶段已完成。第二阶段已于 2026 年 5 月上线。第三阶段是接下来六到十二个月要努力实现的目标。各个阶段的顺序比任何一个单独的阶段都重要。颠倒顺序或跳过某些阶段,会产生一个运行在无人理解的工作流之上的自动化层,这是此类构建中最常见的失败模式。

本节记录了已完成的内容、正在构建的内容,以及必须先完成前一项才能进行的内容。
第一阶段:系统化。已完成。2026 年 1 月至 5 月。
使第一阶段成为必要的原则,对于任何考虑构建类似系统的人来说,是整篇文章中最重要的一句话。
你无法自动化你尚未系统化的东西。
这不是显而易见的建议。对于任何看过 Hermes 在早上 6:30 提供晨间简报的人来说,默认行为是想要立即体验那种感觉:启动 VPS,安装守护进程,设置 cron 作业,跳过之前数月的繁琐手动工作流。这类构建大多在此失败。它们失败是因为自动化一个混乱的过程只会让混乱的过程运行得更快。自动化并不会清理过程。它只会以机器的速度加剧熵增,然后操作者得到一个快速但千疮百孔的管道,其故障方式他们无法诊断,因为他们从未完全理解过手动流程。
本构建的第一阶段运行了四个月,没有产生任何自动化。它产生了一个系统:KMS 文件夹结构、通用项目模板、在全局、KMS 根目录和项目级别上的 CLAUDE.md 层级结构、wiki 优先的纪律、在将任何 wiki 草拟成笔记之前手动运行的“杀死我的论点”对抗层、语音参考、调用跟踪器、交易日志、发布序列,以及带有不跳过规则的九步研究流程。
到第二阶段开始时,工作流中的每一步都已手动执行过数十次。故障模式已记录在案。隐患已命名。枯燥的部分已经枯燥到值得自动化,而非枯燥的部分(论点选择、终止条件命名、信念层级分配、草稿审查)由于已经被手动执行了足够长时间,从而清楚地意识到它们是难以抽象化的,因此显然不可自动化。
第一阶段是没人会公开宣传的部分,因为从外部看它不像一个系统。没有守护进程,没有 Telegram 机器人,只有文件夹、Markdown 文件以及一个手动执行流程的研究者。从内部看,这是让其他一切成为可能的部分。
第二阶段:自动化。已于 2026 年 5 月上线。
第二阶段是本文一直在记录的部分。诚实地讲,它实际交付的内容,比表面上看起来的完全自主研究工作室要窄一些。以下是已自动化的和仍手动完成的部分。
已自动化的内容:晨间简报管道每天在 IST 时间早上 6:30 运行。六个 Hermes 工作进程并行运行(Grok x_search 用于夜间 CT 扫描(W1),三个 Gemini Flash 数据工作者分别用于加密、股票和宏观分析(W2–W4),一个 Gemini Flash 工作者用于策划的 YouTube 转录(W5),一个 Gemini Flash 工作者用于网络新闻(W6)),Gemini 2.5 Pro 将六个输出综合成一份简报,一个 Gemini Flash 通道根据底层工作者数据验证综合结果并标记幻觉,Telegram 在一天开始前将简报发送到手机上。同一管道随后运行三个内部阶段:根据评分标准进行质量评分、将想法提取到想法跟踪器中,以及通过 Hermes 子进程调用委托给 Claude Code 更新 wiki。晚间仓位提醒在 IST 时间晚上 7:00 在同一守护进程上运行,提取交易日志中所有“开仓”和“观察中”仓位的实时价格,对跟踪的代币运行 Grok Tier 1 扫描以查找任何值得注意的信息,将简报保存到磁盘,并推送到 Telegram。每月的技能刷新作业在每月第一天运行,报告任何值得了解的新 Claude Code 技能或 Anthropic SDK 变更。
仍手动完成的内容:Llama AI 在浏览器中运行,需要经过身份验证的会话,无法在 Linux VPS 上运行,因此研究过程中的每次 Llama AI 拉取都需要人类打开浏览器、输入提示、等待并导出 Markdown。TradingView MCP 需要在远程调试模式下启动 Mac 桌面应用程序,因此所有图表分析都需要人类使用 Mac 会话。研究过程本身仍然由人类发起,因为决定本周值得研究什么涉及判断,需要考虑调用跟踪器、交易日志、晨间简报、与 CB 社区之前的对话以及操作者自己对市场注意力错配位置的判断。此外,发布决策(初稿强到足以发布;第二稿进行语音校准;最终审核通过;跟踪器更新;交叉发布已发送)每一步都需要人工检查点。
诚实的第二阶段画面是这样的:Hermes 运行情报基础设施。研究管道仍然需要人类启动和结束。杠杆效应体现在从数据收集、监控和晨间情报例行程序(之前每天需要两到三个小时才能开始实际研究)中回收的时间上。第二阶段并不运行研究本身,而是清理跑道。
第二阶段从概念到自动化上线花了四个月时间,即 2026 年 1 月到 5 月。其中大部分时间并非用于构建,而是足够长时间地运行手动工作流,以理解哪些步骤值得自动化、哪些步骤在自动化下会崩溃,以及无论工具变得多么好,哪些步骤仍然属于人类。
第三阶段:扩展。六到十二个月后。
正在按以下顺序构建三个组件。
第一个是 Llama AI 的浏览器自动化。这是下一个构建任务,它将消除数据收集层中最后一个人工瓶颈。架构已在项目计划中记录:Hermes 通过 browser-use Python 库打开一个浏览器会话,使用存储的凭据登录 Llama AI,输入研究提示,轮询完成情况,将 Markdown 导出到项目的 research/raw/ 文件夹,并在完成后通过 Telegram 发送通知。第一次测试一次只运行一个会话。一旦单会话循环可靠,相同的模式将运行三个并行实例,用于同时从多个协议中提取数据的深度领域挖掘。当这一功能上线后,无论第一阶段还是第二阶段的读者,都不必再在每个研究过程中花费五到十分钟执行 Llama AI 的手动循环。
第二个是研究编排技能。一个单一命令,将整个管道端到端地串联起来。该命令在 Telegram 中输入:research Kaspa [$KAS](https://x.com/search?q=%24KAS&src=cashtag_click)。Hermes 解释请求,并行启动目标 MCP,使用从请求中派生的主题字符串运行 Grok CT 情感分析,触发 Llama AI 浏览器拉取,将原始数据集交给合成模型以构建 wiki,对生成的 wiki 运行 Grok 的“杀死我的论点”程序,在 Sonnet 4.6 中起草笔记的初稿,并通过 Telegram 发送草稿链接。操作者打开草稿。草稿不是空白的,也不是占位符。它是一个连贯的初稿,只需进行语音校准、信念层级分配和最终审核即可发布。起草的工作已经完成。判断草稿是否应该发布的工作尚未完成。这是正确的分工。从主题到草稿,只需一个命令。
第三个是并行专业 Agent。一个加密 Agent、一个股票 Agent 和一个宏观 Agent 同时在各自领域运行。每个 Agent 都运行自己版本的编排技能,专注于自身领域,使用特定领域的 MCP 和领域特定的语音校准步骤。操作者审核并编辑所有三个 Agent 的输出,而非自己生成输出。这种配置将单人研究操作转变为以先前只有小型研究团队才能达到的产量输出,同时将编辑判断权集中在一人手中。
第三阶段的时间表是六到十二个月。瓶颈不在于工具。browser-use 库已经存在。Hermes 可以生成并行子进程。多 Agent 编排模式已在公共 Agent 框架中有文档记录。瓶颈与第一阶段明确指出的相同:在自动化之前,对每一步进行文档记录和系统化的纪律。在手动 Llama AI 工作流被记录到 browser-use 能够以确定性方式复现所需的细节水平之前,Llama AI 浏览器自动化无法上线。在手动的端到端管道运行了足够多次,以了解模型路由在哪里崩溃、“杀死我的论点”的判断结果需要在何处阻止进度,以及何处可以异步审核,以及人工检查点不能移除之前,编排技能无法上线。永远先是第一阶段,再是第二阶段。永远先是第二阶段,再是第三阶段。
Agent 不会取代什么
第三阶段并非指操作者变得可有可无的完全自主研究工作室。仍然属于人类的判断,是决定研究是否值得进行的首要判断:研究什么、为什么现在研究、构建什么论点、证据支持什么信念层级、什么时候开仓头寸已经触发了终止条件、什么时候论点是可挽救的、什么时候它在方向上就是错误的。在本构建的任何近期版本中,这些都无法自动化,对该系统的诚实描述必须明确说出这个限制,而不是暗示其他情况。
第三阶段增加的杠杆在于消除了之前用于机械工作的每一个小时。数据收集。综合。初稿生成。例行监控。交叉发布。跟踪器日志记录。回收这些时间并非微不足道。对于单人操作者来说,这可能是每周产出两篇笔记和每周产出八篇笔记之间的区别。无论哪种方式,编辑判断都以相同的速率运行,因为编辑判断是无法通过工具来扩展的约束。
研究者不会被取代。那些实际上不是研究、而是一直伪装成研究的间接工作,被回收了。
循环闭环
本文的开头是一句话:你现在写的每一篇研究笔记都是从零开始的。
这就是系统要消除的状况。
你现在写的笔记,在完整构建运行的情况下,是从上一个研究会话结束时更新的项目 CLAUDE.md 开始的。从一个已经通过同一代币的三次研究迭代改进过的 wiki 页面开始的。从一个四小时前由 Hermes 从精选信息流中综合而成的晨间简报开始的。从一个由特意选择的模型(因为它无法像构建 wiki 的模型那样看到 wiki)产生的“杀死我的论点”判断结果开始的。从一个拥有 41 行先前记录的调用跟踪器开始的,这些记录告诉你你的论点质量在结果数据下是什么样,而不是在自我评估下。从一个知道你的开仓仓位而无需你提醒的交易日志开始的。那个研究会话中没有什么是从零开始的。一切都是复合累加的。
构建了结构化第二大脑和系统化工作流的研究者,将比那些没有这样做的研究者以更快的速度复合累积其产出。目前差距还很小。大多数单人操作者仍然将 AI 用作浏览器标签页中的聊天机器人,每次会话都支付重新推导的成本,看着他们的研究在每次关闭窗口时消失在聊天历史中。当第三阶段成为竞争性单人研究操作的基准期望时——我相信最晚在 2027 年下半年——那些在 2024 年就开始构建的操作者将比在 2026 年开始的操作者领先十八个月,而且这种差距无法通过更努力地工作来弥补。复合不是这样运作的。
先构建第二大脑。复合从第一天开始。
密切关注。
附录:成本明细

该堆栈的每月总成本,逐项列出。这些是 2026 年 5 月的实际数据,来自实际发票和 API 仪表盘,而非估算值。
完整成本表

三个入口点
最小可行堆栈:约 51 美元/月
Claude Code Pro(20 美元)+ X Premium Plus 以获取 Grok 访问权限(约 16 美元)+ TradingView Pro(15 美元)。
这为你提供:一个持久的、具有身份感知的研究 Agent、通过 Grok 本地 X 搜索获得的 CT 情感分析(包含在你的 X Premium Plus 订阅中,无需单独的 API 费用),以及通过 TradingView MCP 提供的专业图表分析(MCP 本身免费,你需要支付 TradingView Pro 订阅费用)。Hermes 在你的 Mac 上本地运行,无需额外成本,但当机器关闭或休眠时,你会丢失它。它不包括 Llama AI 或“杀死我的论点”对抗检查。这是构建 KMS 和研究工作流的第一个月正确的起点。
关于 Grok 的一个重要说明:X Premium Plus 为你提供 Grok 4 访问权限,并且通过 Hermes 与 xAI API 的集成,你可以从 Hermes Agent 内运行实时的 X 数据研究。这不是一个单独的 API 订阅,而是你已从 X 订阅获得的相同访问权限,已经连接到自动化层。
核心研究堆栈:约 90 美元/月
最小可行堆栈加上 Llama AI Pro(30-50 美元)。“杀死我的论点”使用 Grok 4,通过你现有的 X Premium Plus 订阅运行,无需额外成本。
这是能够以生产质量进行研究的版本。对抗层已上线。最深入的链上数据源可访问。在一年多的发布周期中,来自“杀死我的论点”层的胜率提升多次弥补了额外成本。这是从第二个月开始应该运行的堆栈。
完整堆栈:约 150-200 美元/月
核心堆栈加上 Hermes 完整自动化、晨间简报管道(通过 X Premium Plus 的 Grok W1、Gemini Flash 数据工作者、Gemini Pro 综合、Gemini Flash 验证)、晚间仓位提醒和月度技能刷新。如果你希望 24/7 可用性独立于本地机器,则添加 VPS(6-12 美元);否则 Hermes 在你的 Mac 上运行,当机器关闭时 cron 任务会错过窗口。
这是第二阶段。情报基础设施无需你在场即可运行。研究管道仍然需要人类启动和判断。从核心堆栈到完整堆栈的成本增加主要来自用于 Gemini 晨间简报管道的 Google AI Studio 账单以及可选的 VPS。按每月 30 篇研究笔记计算,Grok 在 CT 情感分析和“杀死我的论点”运行中的成本已由你的 X Premium Plus 订阅覆盖。其他所有费用都是固定的。
渐进式构建路径
第 1 个月(约 51 美元):安装 Claude Code。如果尚未开通 X Premium Plus 则激活它(解锁 Grok)。设置 TradingView Pro。构建 KMS 文件夹结构。编写全局 CLAUDE.md 并手动端到端运行前五轮研究会话。暂时不要安装 Hermes。不要设置晨间简报。手动、缓慢地运行工作流,直到理解每一步。
第 2 个月(90 美元):添加 Llama AI Pro。在起草之前对每个 wiki 运行“杀死我的论点”,无一例外。它通过你现有的 X Premium Plus 订阅使用 Grok 4,因此没有额外的 API 成本。注意对抗层捕捉到了什么以及遗漏了什么。从此时开始积累胜率数据。
第 3 个月及以上(200 美元):安装 Hermes。设置晨间简报管道。配置晚间仓位提醒。自动化层运行在一个已被手动执行了足够多次、足以理解其故障点的工作流之上。
路径是第一阶段在前,第二阶段在后。成本表设计为渐进式进入,而非一次性投入。
免费覆盖的内容
该堆栈中八个 MCP 中有五个是免费的:FRED、SEC EDGAR、Financial Datasets、Fear & Greed 和 Whale Tracker 完全免费。CoinMarketCap 和 Alpha Vantage 是免费层级,但用量限制(分别为 333 次/天和 500 次/天)不会超过单人研究操作在正确使用数据脚本时的需求。实际上,所有七个 MCP 的有效成本为零。
该堆栈的真正成本集中在五个项目上:Claude Code/Anthropic API、通过 X Premium Plus 获取 Grok 的 xAI、用于 Gemini 的 Google AI Studio、Llama AI Pro 订阅以及可选的 Hermes VPS。这五个项目在完整堆栈中约占每月总成本的 85%。
TradingView Pro 是唯一需要付费订阅的与 MCP 相关的成本。MCP 本身是免费的,它通过远程调试模式连接到你现有的 TradingView 桌面应用程序。Pro 是提供此堆栈所用图表功能的最低订阅层级。如果你已经在使用 X Premium Plus,Grok 访问权限无需额外费用,它属于该订阅的一部分,并直接连接到 Hermes。
结论
以上就是整个设置,以及我如何使用 Claude Code + Hermes 将我的研究工作转变为完全 Agent 优先的工作流。
我的最终目标是建立一个单人 Agent 研究工作室,拥有多个具有各自独特角色形象的 Agent——比如一个交易员 Agent、一个宏观 Agent、一个预测市场 Agent、一个基本面分析师 Agent、一个加密链上侦探 Agent、一个销售 Agent、一个营销 Agent 和一个运营 Agent……更不用说一个像我的参谋长一样的 Agent。
在这个愿景上,我仍然处于非常早期的阶段,可能需要数月时间才能真正结出硕果,但我不着急。有一件事是肯定的,Agent 工作负载让我成为了一个更好的分析师,感觉就像在玩一个电子游戏,有多个 Agent 作为你的手脚,当你驾驭市场、投资和研究的游戏时。
感谢阅读。
- 原文链接: x.com/degenrsc/status/20...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~