Alisa 的 LLMs 手册 本文是一本系统的大语言模型技术手册,涵盖从神经网络基础(MLP、激活函数、梯度、反向传播)到现代Transformer架构(注意力机制、RMSNorm、SwiGLU、RoPE)、训练优化(缩放定律、学习率调度)、推理优化(KV缓存、投机解码、Flash Attention)、后训练(RLHF、PPO、DPO、GRPO)以及并行计算(数据/模型/流水线/张量并行)等核心知识,包含大量数学公式推导和代码实现。 大语言模型 Transformer 反向传播 RLHF KV缓存 Flash Attention alisawuffles 发布于 2026-06-16 11 0 0