从零学大语言模型 L17:对齐 - 多模态 | 斯坦福CS336 2026春季

23次播放
2026-06-29

视频 AI 总结:该视频是一堂关于多模态模型的讲座,重点介绍了从语言模型扩展到视觉-语言模型(VLM)的技术演进。主讲人详细讲解了CLIP、SigLIP、LLaVA系列和Qwen系列等代表性模型的原理、架构、训练策略及数据处理方法,并探讨了将图像、视频等非文本模态融入Transformer的挑战与解决方案。最后总结了多模态模型的发展趋势,包括连续编码器、离散token化以及生成与理解的不对称性。 主要内容

  • 多模态模型的动机:世界是多模态的,需要处理文本、图像、音频、视频等。
  • CLIP模型:对比语言-图像预训练,利用图像-文本对学习对齐表示。
  • SigLIP:改进的对比学习,使用Sigmoid损失,更高效。
  • LLaVA系列:使用CLIP/SigLIP作为视觉编码器,通过适配器连接语言模型,支持多图像和视频。
  • Qwen系列:从Qwen-VL到Qwen-3,逐步升级视觉编码器、动态分辨率、多模态RoPE、显式时间戳等,训练流水线复杂。
  • Chameleon模型:将图像离散化为token,使用单一语言模型处理文本和图像,但训练不稳定且信息损失。
  • 挑战:模态间信息密度差异、高分辨率处理、长上下文、训练稳定性等。

课件与代码:https://cs336.stanford.edu/