每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SoFar:基于语言的方向连接空间推理和对象操作

Created by
  • Haebom

作者

齐泽坤、张文耀、丁宇飞、董润培、于新强、李静雯、徐凌云、李宝玉、何夏林、范国帆、张家钊、何家伟、顾佳媛、

大纲

本文重点探讨了现有空间推理的局限性,即未能考虑物体朝向,而物体朝向是六自由度微操作的关键因素。现有的姿态表征方法依赖于预定义的框架或模板,限制了泛化能力和语义基础。为了解决这个问题,我们提出了“语义朝向”的概念,它使用自然语言定义物体朝向,而无需参考框架(例如,USB 的“插入式”朝向、杯子的“手柄式”朝向)。我们构建了一个大规模的语义朝向 3D 物体数据集 OrienText300K,并开发了一个用于零样本语义朝向预测的通用模型 PointSO。我们提出了 SoFar 框架,该框架将语义朝向集成到 VLM 代理中,以实现六自由度空间推理并生成机器人运动。实验结果证明了 SoFar 的有效性和泛化能力,在 Open6DOR 上实现了 48.7% 的零样本成功率,在 SIMPLER-Env 上实现了 74.9% 的零样本成功率。

Takeaways,Limitations

Takeaways:
使用自然语言而非参考框架的语义方向表示来提高六自由度微操作的准确性。
提供大规模语义取向标注数据集OrienText300K。
开发零样本语义方向预测模型 PointSO 和 6-DOF 空间推理框架 SoFar。
在 Open6DOR 和 SIMPLER-Env 上实现高零次成功率。
Limitations:
需要进一步验证 OrienText300K 数据集的多功能性和多样性。
PointSO 模型的性能可能偏向某些类型的物体或方向。
需要进一步研究 SoFar 框架在现实世界机器人系统中的应用和稳定性。
需要评估复杂对象或多对象交互的泛化性能。
👍