困惑度

微信扫码分享
从零学大语言模型 L12:评估 | 斯坦福CS336  2026春季

从零学大语言模型 L12:评估 | 斯坦福CS336 2026春季

**视频 AI 总结**:该视频系统介绍了语言模型评估的多种方法和关键考虑因素。核心在于评估不仅仅是计算准确率,而是需要根据使用目的(如模型开发、用户选择、政策研究)选择不同的基准,并权衡难度、真实性、生态效度和数据污染等问题。讲师从困惑度开始,逐步深入到考试基准(如MMLU、GPQA)、聊天基准(如Chatbot Arena、AlpacaEval)、代理基准(如SWE-bench、Terminal-Bench)、推理基准(如ARC-AGI)和安全评估(如Harm-Bench),并讨论了评估的生态效度、数据污染和基准质量等挑战。 **主要内容**: - 困惑度:作为语言模型最基本的评估指标,用于衡量模型对测试数据的概率分配,但存在易被操纵和无法反映真实使用场景的局限。 - 考试基准:通过标准化考试(如MMLU、GPQA、HLE)评估模型的知识和推理能力,但易被训练数据污染且与现实使用脱节。 - 聊天基准:通过人类偏好(如Chatbot Arena)或LLM作为裁判(如AlpacaEval)评估开放式对话质量,存在风格偏见和可靠性问题。 - 代理基准:评估模型在真实环境中执行任务的能力(如SWE-bench代码修复、Terminal-Bench终端操作、Cybersecurity CTF),强调模型与代理框架的结合。 - 推理基准:如ARC-AGI系列,专注于剥离知识和语言的纯推理能力,对人类易解决但对AI极具挑战。 - 安全评估:涵盖拒绝有害指令(Harm-Bench)、合规性(AIR-Bench)和越狱攻击等,但安全定义具有上下文依赖性。 - 评估的生态效度与数据污染:强调评估应贴近真实世界使用(如GDPVal、医疗任务),同时警惕训练数据与测试集的污染问题,可通过新鲜评估集、私有数据等方式缓解。 课件与代码:https://cs336.stanford.edu/

28 0 0 2 天前