去绑定

从零学大语言模型 L17：对齐 - 多模态 | 斯坦福CS336 2026春季

斯坦福课程 2026-06-29

23次播放

2026-06-29

视频 AI 总结：该视频是一堂关于多模态模型的讲座，重点介绍了从语言模型扩展到视觉-语言模型（VLM）的技术演进。主讲人详细讲解了CLIP、SigLIP、LLaVA系列和Qwen系列等代表性模型的原理、架构、训练策略及数据处理方法，并探讨了将图像、视频等非文本模态融入Transformer的挑战与解决方案。最后总结了多模态模型的发展趋势，包括连续编码器、离散token化以及生成与理解的不对称性。 主要内容：

多模态模型的动机：世界是多模态的，需要处理文本、图像、音频、视频等。
CLIP模型：对比语言-图像预训练，利用图像-文本对学习对齐表示。
SigLIP：改进的对比学习，使用Sigmoid损失，更高效。
LLaVA系列：使用CLIP/SigLIP作为视觉编码器，通过适配器连接语言模型，支持多图像和视频。
Qwen系列：从Qwen-VL到Qwen-3，逐步升级视觉编码器、动态分辨率、多模态RoPE、显式时间戳等，训练流水线复杂。
Chameleon模型：将图像离散化为token，使用单一语言模型处理文本和图像，但训练不稳定且信息损失。
挑战：模态间信息密度差异、高分辨率处理、长上下文、训练稳定性等。

课件与代码：https://cs336.stanford.edu/

标签：多模态模型 CLIP LLaVA Qwen 视觉语言模型 SigLIP