登链社区

大语言模型核心数学概念

本文是一系列博客的索引，涵盖了大语言模型核心数学概念：注意力机制中的QKV、缩放因子√dₖ、反向传播、梯度下降、交叉熵损失、旋转位置编码RoPE和RMSNorm。每节简要介绍原理并附有详细文章链接，适合希望从数学角度理解Transformer的读者快速概览。

注意力机制缩放因子反向传播梯度下降交叉熵损失旋转位置编码

amitiitbhu 发布于 2026-05-24 19 0 0