登录 后可观看高清视频

斯坦福机器人讲座 | 2026年春季 | 在机器人学习中利用几何学, 模型至关重要

斯坦福课程 斯坦福课程 2 小时前
10次播放
2 小时前

视频 AI 总结:该视频由 Rob Platt 主讲,探讨了机器人学过去三十年的发展,从基于手工编码几何模型的传统方法过渡到现代通用模型(如 VLA),并指出两者之间的权衡。核心问题是:能否在机器学习模型中融入几何、物理等结构,从而在保留数据驱动优势的同时提高数据效率和泛化能力?Platt 介绍了其团队近期的四项研究,分别使用点云、球面嵌入、3D 射线以及立体图像等几何表示,通过等变神经网络层、几何变换注意力等技术,在 MimicGen 基准上实现了 2 到 10 倍的数据效率提升,并展现出良好的姿态泛化能力,最终目标是使缩放曲线左移,让数据更有价值。

主要内容

  • 回顾机器人学三个十年的演变:从手工编码几何模型(如 YODO)到现代通用 VLA(如 X-VLA),并指出两者的优缺点。
  • 提出核心问题:是否存在介于纯几何模型和纯数据驱动模型之间的方法,以及如何有效利用几何结构。
  • 介绍四项具体方法:
    • Equivariant Diffusion Policy:使用点云和等变神经网络层,在 100 个演示下达到基线模型 1000 个演示的效果。
    • Image to Sphere:将 RGB 图像投影到球面,通过球谐函数进行Rollup,实现姿态泛化,数据效率提高 2 倍。
    • Raven:将图像表示为 3D 射线,通过几何变换注意力处理多视图和多模态数据,性能接近基线但更灵活。
    • Pix2Act:使用立体图像,在图像平面推断关键点轨迹并三角化到 3D 世界,无需预训练即可优于 LBM 等基线。
  • 强调等变性带来的偏置(如平移和旋转不变性)能有效降低数据需求,并展望通过几何结构使缩放曲线左移。

如需了解更多关于斯坦福大学研究生项目的信息,请访问:https://online.stanford.edu/graduate-education

讲座时间:2026年5月22日 讲师:罗伯特·普拉特(Robert Platt)是东北大学库里计算机科学学院的副教授。