去绑定

从零学大语言模型 L13：数据（来源，数据集） | 斯坦福CS336 2026春季

斯坦福课程 2026-06-30

25次播放

2026-06-30

视频 AI 总结：该视频深入探讨了语言模型训练中数据的核心重要性、来源、处理流程及法律伦理问题。演讲者指出，数据是语言模型成功的关键，但数据并非简单来自互联网，而是受限于技术限制（如爬虫、动态内容、认证）和法律限制（如版权、服务条款）。视频系统回顾了从BERT到Llama 3等模型的数据集演变，包括Common Crawl、C4、The Pile、RefinedWeb、DCLM等，并分析了过滤方法（规则、分类器、模型评分）的演进。最后强调数据处理的复杂性和对模型质量的巨大影响。
主要内容：

数据来源的挑战：互联网并非可直接爬取全部内容，存在动态内容、认证、robots.txt、服务条款、版权等限制。
版权与法律框架：介绍版权法、合理使用四要素、许可协议（如Creative Commons），以及近年与AI训练相关的诉讼（如New York Times vs OpenAI、Anthropic案）。
数据集演变：从BERT的Wikipedia+Books到GPT-2的Reddit链接过滤，再到C4的规则过滤、GPT-3的分类器过滤，以及后续开源数据集如The Pile、RedPajama、RefinedWeb、FineWeb、DCLM、Nemotron等。
质量过滤方法：规则过滤（如C4）、语言模型评分（如CCNet使用的Wikipedia语言模型）、基于参考网站的分类（如Llama 1）、以及基于教育价值或任务生成的模型过滤（如Nemotron）。
特殊数据集：代码数据（The Stack V2）的处理，包括许可证过滤、去重、去毒、利用LLVM中间表示增强低资源语言。
完全许可数据的尝试：Common Pile项目仅使用允许许可的数据（8TB），证明可在有限数据下训练合理模型，但难以与大规模非许可数据竞争。
结论：数据处理是当前语言模型差异化的重要环节，充满手工规则和启发式方法，未来改进空间广阔。

课件与代码：https://cs336.stanford.edu/

标签：语言模型数据预处理版权爬虫数据集质量过滤