登链社区

从零学大语言模型 L12：评估 | 斯坦福CS336 2026春季

**视频 AI 总结**：该视频系统介绍了语言模型评估的多种方法和关键考虑因素。核心在于评估不仅仅是计算准确率，而是需要根据使用目的（如模型开发、用户选择、政策研究）选择不同的基准，并权衡难度、真实性、生态效度和数据污染等问题。讲师从困惑度开始，逐步深入到考试基准（如MMLU、GPQA）、聊天基准（如Chatbot Arena、AlpacaEval）、代理基准（如SWE-bench、Terminal-Bench）、推理基准（如ARC-AGI）和安全评估（如Harm-Bench），并讨论了评估的生态效度、数据污染和基准质量等挑战。 **主要内容**： - 困惑度：作为语言模型最基本的评估指标，用于衡量模型对测试数据的概率分配，但存在易被操纵和无法反映真实使用场景的局限。 - 考试基准：通过标准化考试（如MMLU、GPQA、HLE）评估模型的知识和推理能力，但易被训练数据污染且与现实使用脱节。 - 聊天基准：通过人类偏好（如Chatbot Arena）或LLM作为裁判（如AlpacaEval）评估开放式对话质量，存在风格偏见和可靠性问题。 - 代理基准：评估模型在真实环境中执行任务的能力（如SWE-bench代码修复、Terminal-Bench终端操作、Cybersecurity CTF），强调模型与代理框架的结合。 - 推理基准：如ARC-AGI系列，专注于剥离知识和语言的纯推理能力，对人类易解决但对AI极具挑战。 - 安全评估：涵盖拒绝有害指令（Harm-Bench）、合规性（AIR-Bench）和越狱攻击等，但安全定义具有上下文依赖性。 - 评估的生态效度与数据污染：强调评估应贴近真实世界使用（如GDPVal、医疗任务），同时警惕训练数据与测试集的污染问题，可通过新鲜评估集、私有数据等方式缓解。课件与代码：https://cs336.stanford.edu/

28 0 0 2 天前