多模态模型

微信扫码分享
从零学大语言模型 L17:对齐 - 多模态 | 斯坦福CS336  2026春季

从零学大语言模型 L17:对齐 - 多模态 | 斯坦福CS336 2026春季

**视频 AI 总结**:该视频是一堂关于多模态模型的讲座,重点介绍了从语言模型扩展到视觉-语言模型(VLM)的技术演进。主讲人详细讲解了CLIP、SigLIP、LLaVA系列和Qwen系列等代表性模型的原理、架构、训练策略及数据处理方法,并探讨了将图像、视频等非文本模态融入Transformer的挑战与解决方案。最后总结了多模态模型的发展趋势,包括连续编码器、离散token化以及生成与理解的不对称性。 **主要内容**: - 多模态模型的动机:世界是多模态的,需要处理文本、图像、音频、视频等。 - CLIP模型:对比语言-图像预训练,利用图像-文本对学习对齐表示。 - SigLIP:改进的对比学习,使用Sigmoid损失,更高效。 - LLaVA系列:使用CLIP/SigLIP作为视觉编码器,通过适配器连接语言模型,支持多图像和视频。 - Qwen系列:从Qwen-VL到Qwen-3,逐步升级视觉编码器、动态分辨率、多模态RoPE、显式时间戳等,训练流水线复杂。 - Chameleon模型:将图像离散化为token,使用单一语言模型处理文本和图像,但训练不稳定且信息损失。 - 挑战:模态间信息密度差异、高分辨率处理、长上下文、训练稳定性等。 课件与代码:https://cs336.stanford.edu/

25 0 0 3 天前