去绑定

斯坦福机器人讲座 | 2026年春季 | 在机器人学习中利用几何学，模型至关重要

斯坦福课程 2026-07-02

118次播放

2026-07-02

视频 AI 总结：该视频由 Rob Platt 主讲，探讨了机器人学过去三十年的发展，从基于手工编码几何模型的传统方法过渡到现代通用模型（如 VLA），并指出两者之间的权衡。核心问题是：能否在机器学习模型中融入几何、物理等结构，从而在保留数据驱动优势的同时提高数据效率和泛化能力？Platt 介绍了其团队近期的四项研究，分别使用点云、球面嵌入、3D 射线以及立体图像等几何表示，通过等变神经网络层、几何变换注意力等技术，在 MimicGen 基准上实现了 2 到 10 倍的数据效率提升，并展现出良好的姿态泛化能力，最终目标是使缩放曲线左移，让数据更有价值。

主要内容：

回顾机器人学三个十年的演变：从手工编码几何模型（如 YODO）到现代通用 VLA（如 X-VLA），并指出两者的优缺点。
提出核心问题：是否存在介于纯几何模型和纯数据驱动模型之间的方法，以及如何有效利用几何结构。
介绍四项具体方法：
- Equivariant Diffusion Policy：使用点云和等变神经网络层，在 100 个演示下达到基线模型 1000 个演示的效果。
- Image to Sphere：将 RGB 图像投影到球面，通过球谐函数进行Rollup，实现姿态泛化，数据效率提高 2 倍。
- Raven：将图像表示为 3D 射线，通过几何变换注意力处理多视图和多模态数据，性能接近基线但更灵活。
- Pix2Act：使用立体图像，在图像平面推断关键点轨迹并三角化到 3D 世界，无需预训练即可优于 LBM 等基线。
强调等变性带来的偏置（如平移和旋转不变性）能有效降低数据需求，并展望通过几何结构使缩放曲线左移。

如需了解更多关于斯坦福大学研究生项目的信息，请访问：https://online.stanford.edu/graduate-education

讲座时间：2026年5月22日讲师：罗伯特·普拉特（Robert Platt）是东北大学库里计算机科学学院的副教授。

标签：机器人学习几何深度学习等变神经网络点云姿态泛化数据效率