数据去重

微信扫码分享
从零学大语言模型 L14:数据2 | 斯坦福CS336  2026春季

从零学大语言模型 L14:数据2 | 斯坦福CS336 2026春季

**视频 AI 总结**:本视频深入讲解了机器学习数据管道的关键环节,包括数据转换、过滤、去重、混合以及后训练数据生成。核心观点是,高质量预训练数据需要经过多步处理:从原始HTML/PDF转换为文本,通过规则或模型进行质量过滤(如语言识别、内容筛选),利用MinHash和LSH进行近似去重以避免过拟合,再通过小规模实验优化数据混合比例。此外,后训练阶段大量使用合成数据,如用于数学推理的OpenThoughts和代码开发的SWE-smith/SWE-Zero,展示了如何利用强模型生成任务数据以提升模型能力。 **主要内容**: - 数据转换:HTML解析去除模板,PDF通过OCR转换为文本,强调规则/模型结合。 - 数据过滤:基于目标质量(如数学、语言)训练快速分类器(fastText)筛选高质数据。 - 数据去重:精确去重和MinHash LSH近似去重,节省计算并减少记忆化。 - 数据混合:通过小规模代理模型(RegMix/Olmix)拟合损失函数,优化多源数据权重,注意避免过拟合。 - 后训练数据:合成数据生成流程,如OpenThoughts(推理)、SWE-smith/SWE-Zero(代码代理),利用教师模型和真实环境。 课件与代码:https://cs336.stanford.edu/

28 0 0 2 天前