去绑定

从零学大语言模型 L4：注意力机制的替代方案 | 斯坦福CS336 2026春季

斯坦福课程 2026-06-30

29次播放

2026-06-30

视频 AI 总结：本讲座深入探讨了 Transformer 架构中的两种高级改进：线性时间注意力机制和混合专家模型（MoE）。线性注意力通过利用乘法结合律将传统二次复杂度降低为线性，并介绍了 Mamba-2、门控 Delta 网络等实现，这些方法在长上下文场景下表现出色。MoE 则通过稀疏激活实现参数扩展而不显著增加计算成本，详细讨论了 TopK 路由、负载均衡损失、共享专家等关键设计，以及训练稳定性与并行化挑战。讲座还以 DeepSeek 系列模型为例展示了这些技术的实际应用。
主要内容：

线性注意力利用乘法结合律将 QK 乘法顺序重排，使复杂度从 O(n²) 降至 O(nd)，并可与 RNN 形式等价。
Mamba-2 在线性注意力基础上引入门控机制（gamma）控制状态传递，实现了训练并行与推理高效的兼顾。
门控 Delta 网络增加第二个门控（beta）和投影更新，类似 LSTM 的门控思想，被 Qwen3.5 等模型采用。
MoE 通过稀疏激活提升参数效率：每个 token 仅激活少数专家（TopK），保留大量参数但不增加计算量。
路由设计常用 Token 选择专家的 TopK 方式，并配合负载均衡损失（如 Switch Transformer 的辅助损失）防止专家坍缩。
训练技巧包括不使用随机探索，直接反向传播并加入专家平衡和设备平衡损失，以及 z-loss 稳定 softmax。

课件与代码：https://cs336.stanford.edu/

标签：注意力机制线性注意力混合专家模型 Mamba-2 门控Delta网络 DeepSeekMoE