从零学大语言模型 L4:注意力机制的替代方案 | 斯坦福CS336 2026春季

29次播放
2026-06-30

视频 AI 总结:本讲座深入探讨了 Transformer 架构中的两种高级改进:线性时间注意力机制和混合专家模型(MoE)。线性注意力通过利用乘法结合律将传统二次复杂度降低为线性,并介绍了 Mamba-2、门控 Delta 网络等实现,这些方法在长上下文场景下表现出色。MoE 则通过稀疏激活实现参数扩展而不显著增加计算成本,详细讨论了 TopK 路由、负载均衡损失、共享专家等关键设计,以及训练稳定性与并行化挑战。讲座还以 DeepSeek 系列模型为例展示了这些技术的实际应用。
主要内容

  • 线性注意力利用乘法结合律将 QK 乘法顺序重排,使复杂度从 O(n²) 降至 O(nd),并可与 RNN 形式等价。
  • Mamba-2 在线性注意力基础上引入门控机制(gamma)控制状态传递,实现了训练并行与推理高效的兼顾。
  • 门控 Delta 网络增加第二个门控(beta)和投影更新,类似 LSTM 的门控思想,被 Qwen3.5 等模型采用。
  • MoE 通过稀疏激活提升参数效率:每个 token 仅激活少数专家(TopK),保留大量参数但不增加计算量。
  • 路由设计常用 Token 选择专家的 TopK 方式,并配合负载均衡损失(如 Switch Transformer 的辅助损失)防止专家坍缩。
  • 训练技巧包括不使用随机探索,直接反向传播并加入专家平衡和设备平衡损失,以及 z-loss 稳定 softmax。

课件与代码:https://cs336.stanford.edu/