从零学大语言模型 L13:数据(来源,数据集) | 斯坦福CS336 2026春季

25次播放
2026-06-30

视频 AI 总结:该视频深入探讨了语言模型训练中数据的核心重要性、来源、处理流程及法律伦理问题。演讲者指出,数据是语言模型成功的关键,但数据并非简单来自互联网,而是受限于技术限制(如爬虫、动态内容、认证)和法律限制(如版权、服务条款)。视频系统回顾了从BERT到Llama 3等模型的数据集演变,包括Common Crawl、C4、The Pile、RefinedWeb、DCLM等,并分析了过滤方法(规则、分类器、模型评分)的演进。最后强调数据处理的复杂性和对模型质量的巨大影响。
主要内容

  • 数据来源的挑战:互联网并非可直接爬取全部内容,存在动态内容、认证、robots.txt、服务条款、版权等限制。
  • 版权与法律框架:介绍版权法、合理使用四要素、许可协议(如Creative Commons),以及近年与AI训练相关的诉讼(如New York Times vs OpenAI、Anthropic案)。
  • 数据集演变:从BERT的Wikipedia+Books到GPT-2的Reddit链接过滤,再到C4的规则过滤、GPT-3的分类器过滤,以及后续开源数据集如The Pile、RedPajama、RefinedWeb、FineWeb、DCLM、Nemotron等。
  • 质量过滤方法:规则过滤(如C4)、语言模型评分(如CCNet使用的Wikipedia语言模型)、基于参考网站的分类(如Llama 1)、以及基于教育价值或任务生成的模型过滤(如Nemotron)。
  • 特殊数据集:代码数据(The Stack V2)的处理,包括许可证过滤、去重、去毒、利用LLVM中间表示增强低资源语言。
  • 完全许可数据的尝试:Common Pile项目仅使用允许许可的数据(8TB),证明可在有限数据下训练合理模型,但难以与大规模非许可数据竞争。
  • 结论:数据处理是当前语言模型差异化的重要环节,充满手工规则和启发式方法,未来改进空间广阔。

课件与代码:https://cs336.stanford.edu/