文章探讨了AI应用中小型语言模型(SLM)相比大型语言模型(LLM)的优势和权衡,并提出了一种分层AI架构,即用SLM处理日常任务,LLM处理复杂推理。文章还介绍了大型模型生态系统中的一些开源项目。
将数据、机器学习和人工智能投入使用。
订阅即表示你同意 Substack 的使用条款,并确认其信息收集通知和隐私政策。

小语言模型(SLM)是一种神经模型,其特点是参数数量较少,通常在几十亿到数百亿之间。这些模型牺牲了广泛的通用能力,以换取效率、成本和隐私方面的显著提升,使其成为专业任务的理想选择。
虽然我一直在谨慎测试 SLM,但它们的实际价值正变得越来越清晰。例如,更小、经过微调的模型在 RAG 工作流中生成 embeddings 方面已经非常有效。agentic 系统的兴起进一步强化了这一论点。Nvidia 最近的一篇论文认为,大多数 agent tasks——重复、范围狭窄的操作——不需要大型模型的能力。
这预示着一个更高效的未来:使用专门的 SLM 处理日常工作流,并将重量级模型留给真正复杂的推理任务。考虑到这一点,以下是考虑 SLM 的最强理由——以及它们权衡取舍的痛点。
SLM 开启了其大型表亲根本无法实现部署场景,尤其是在边缘计算和离线环境中。参数少于 30 亿的模型可以在智能手机、工业传感器和现场笔记本电脑上有效运行。对于需要实时处理而无需依赖云连接的应用程序来说,这种能力至关重要。想象一下,一家制造企业将一个微型模型嵌入 AR 眼镜中,以低于 50 毫秒的延迟提供组装说明,或者一架农业无人机在没有蜂窝服务的情况下分析偏远地区的作物健康状况。
对我来说,这是对 SLM 感到兴奋的最具吸引力和持久性的理由。随着 AI 越来越深入地融入我们工作和生活的方方面面,我们将越来越需要访问可在所有设备上运行的模型,无论是否连接互联网。离线或以最少资源运行的能力是一个根本性的优势,大规模、依赖云的模型无法轻易复制,这将 SLM 定位为真正无处不在的 AI 未来不可或缺的组成部分。
通常人们认为参数越多性能越好,但对于特定领域的任务,经过精心微调的 SLM 往往优于其更大、更通用的同行。通过在狭窄的数据集上训练小型模型,你可以创建一个比“万金油”LLM 更准确、更可靠的特定功能专家。我们已经在基准测试中看到了这一点:38 亿参数的 Phi-3 模型在错误修复测试中几乎与 120 亿参数的 Codex 相当,而一个专注于数学的 15 亿参数模型在关键基准测试中取得了与 70 亿参数通用模型相同的性能,展示了性能与参数比四到五倍的优势。
SLM 本身就能提供显著更低的延迟,使其适用于实时交互式应用程序。实现低于 100 毫秒的 first-token latency 成为可能,这是语音助手、游戏 AI 和其他系统中一个关键的阈值,在这些系统中,半秒的延迟就会导致应用程序无法使用。这种速度源于更低的内存带宽和更快的计算,直接转化为更自然、响应更灵敏的用户体验。

部署一个中等大小的 LLM 可能需要 20 多个 GPU 的集群,而 SLM 通常可以在配备消费级硬件的单台高端工作站上高效运行。成本差异显著,研究表明,与 70 亿参数的模型相比,70 亿参数的模型在计算和能源成本方面可降低 10 到 30 倍。例如,一家物流公司将特定任务中的 GPT-4o-mini 替换为 Mistral-7B 后,其每次查询成本从 0.008 美元降至 0.0006 美元,每月节省约 70,000 美元。这种效率使得团队能够以更可预测的预算运营,并以单个大型模型的成本部署多个专业模型。
在组织内部完全运行模型的能力从根本上改变了受监管行业的安全状况。医院部署 Meerkat-8B 进行患者症状分析,确保受保护的健康信息永远不会通过外部网络传输;欧洲银行在其 OpenShift 集群中运行 Gemma-2B,满足严格的 ECB 审计要求,同时不损害交易数据主权。国防承包商为任务关键型系统维护完全 air-gapped 的部署,从而免受可能使依赖云的替代方案瘫痪的供应链中断的影响。这种本地控制不仅仅是合规性检查——它保护知识产权,并保持竞争优势,如果敏感数据通过外部 API 流动,这些优势就会消失。
大多数 agent tasks 都是重复的、范围狭窄的操作。它们不需要大型模型的对话广度或高昂成本。
SLM 较小的规模使得迭代周期比 LLM 快几个数量级。微调模型以适应新数据、强制执行严格的 JSON 输出或学习特定领域的术语可以在 GPU-小时内完成,而不是数周。参数高效方法(例如 LoRA)和微调服务使得小型团队也能实现这一点。这种敏捷性在系统需求不断变化的生产环境中至关重要。
SLM 精妙地融入了面向服务的架构设计。你不是用一个整体,而是用简单、可靠的组件来构建系统:一个实体提取器、一个情感评分器、一个合规性检查器,每个组件都经过微调以适应其利基市场并独立扩展。例如,一家金融服务公司可以构建一个处理流程,将独立的、经过微调的模型用于实体提取、情感分析和合规性检查,每个组件都能出色地完成一项工作。
大型模型和小型模型之间的争论正在超越简单的能力权衡。Zeta Alpha 的 Jakub Zavrel 最近指出,我们已经达到了一个拐点,在这个拐点上,frontier models 对于多 agent 系统来说“足够好”。新的瓶颈不再是原始模型能力,而是架构和专业化——将复杂问题分解为模块化、专业化组件的能力。
AI 的瓶颈不再是模型能力,而是系统架构。新的挑战是将问题分解为模块化、专业化的组件。
这种转变有力地支持了“SLM 优先”的架构。系统不再依赖于单一的整体模型,而是可以由一组高效的 SLM 组成,每个 SLM 都是其狭窄领域的专家。更强大、更昂贵的 LLM 仅保留给需要复杂、开放领域推理的任务。
对于目前以 LLM 为优先的团队来说,迁移路径是务实的:记录你的工作流程,将重复性任务进行聚类,并微调小型专家来处理它们。根据策略智能地路由任务,并衡量三个关键指标——每项操作的成本、决策延迟和任务可靠性。如果做得好,你的系统将变得更便宜、更快、更健壮,而不会牺牲在真正需要时升级的选择。
此图改编自蚂蚁集团的全球格局分析,最近发表在一篇 InfoQ 文章中。
该排行榜使用 OpenRank 衡量 AI 开发生态系统中十大最具影响力的开源项目,OpenRank 是一种衡量社区协作而非简单流行度指标(如星标数量)的指标。该列表涵盖了整个技术栈,从 PyTorch 等用于训练的基础设施和 Ray 等用于分布式计算的基础设施,到 vLLM、SGLang 和 TensorRT-LLM 等高性能推理引擎。在应用层面,它包括 agent 平台和开发工具,如 Dify、n8n 和 Gemini,这些工具主要使用 TypeScript 构建,与基于 Python 的基础设施形成对比。学术研究的显著影响是显而易见的,因为三个关键项目——vLLM、Ray 和 SGLang (SGL) 都起源于 UC Berkeley 的 Sky Computing 和 RISE Labs,展示了从学术创新到生产就绪工具的直接路径。
_Ben Lorica 编辑 Gradient Flow 通讯并主持 Data Exchange podcast。他协助组织 AI Conference、AI Agent Conference、Applied AI Summit,同时还在 Linux Foundation 担任 AI 战略内容主席。你可以在 Linkedin、X、Mastodon、Reddit、Bluesky、YouTube 或 TikTok 上关注他。本通讯由 Gradient Flow 制作。_
- 原文链接: gradientflow.substack.co...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!