登链社区

从零学大语言模型 L17：对齐 - 多模态 | 斯坦福CS336 2026春季

**视频 AI 总结**：该视频是一堂关于多模态模型的讲座，重点介绍了从语言模型扩展到视觉-语言模型（VLM）的技术演进。主讲人详细讲解了CLIP、SigLIP、LLaVA系列和Qwen系列等代表性模型的原理、架构、训练策略及数据处理方法，并探讨了将图像、视频等非文本模态融入Transformer的挑战与解决方案。最后总结了多模态模型的发展趋势，包括连续编码器、离散token化以及生成与理解的不对称性。 **主要内容**： - 多模态模型的动机：世界是多模态的，需要处理文本、图像、音频、视频等。 - CLIP模型：对比语言-图像预训练，利用图像-文本对学习对齐表示。 - SigLIP：改进的对比学习，使用Sigmoid损失，更高效。 - LLaVA系列：使用CLIP/SigLIP作为视觉编码器，通过适配器连接语言模型，支持多图像和视频。 - Qwen系列：从Qwen-VL到Qwen-3，逐步升级视觉编码器、动态分辨率、多模态RoPE、显式时间戳等，训练流水线复杂。 - Chameleon模型：将图像离散化为token，使用单一语言模型处理文本和图像，但训练不稳定且信息损失。 - 挑战：模态间信息密度差异、高分辨率处理、长上下文、训练稳定性等。课件与代码：https://cs336.stanford.edu/

25 0 0 3 天前