登链社区

从零学大语言模型 L14：数据2 | 斯坦福CS336 2026春季

**视频 AI 总结**：本视频深入讲解了机器学习数据管道的关键环节，包括数据转换、过滤、去重、混合以及后训练数据生成。核心观点是，高质量预训练数据需要经过多步处理：从原始HTML/PDF转换为文本，通过规则或模型进行质量过滤（如语言识别、内容筛选），利用MinHash和LSH进行近似去重以避免过拟合，再通过小规模实验优化数据混合比例。此外，后训练阶段大量使用合成数据，如用于数学推理的OpenThoughts和代码开发的SWE-smith/SWE-Zero，展示了如何利用强模型生成任务数据以提升模型能力。 **主要内容**： - 数据转换：HTML解析去除模板，PDF通过OCR转换为文本，强调规则/模型结合。 - 数据过滤：基于目标质量（如数学、语言）训练快速分类器（fastText）筛选高质数据。 - 数据去重：精确去重和MinHash LSH近似去重，节省计算并减少记忆化。 - 数据混合：通过小规模代理模型（RegMix/Olmix）拟合损失函数，优化多源数据权重，注意避免过拟合。 - 后训练数据：合成数据生成流程，如OpenThoughts（推理）、SWE-smith/SWE-Zero（代码代理），利用教师模型和真实环境。课件与代码：https://cs336.stanford.edu/

28 0 0 2 天前