Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

Created by
  • Haebom

作者

Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang

概要

本論文では、3D環境におけるロボットの空間知覚と相互作用能力を向上させるために開発されたRoboReferと呼ばれる3D-aware Vision Language Model(VLM)について説明します。 RoboReferは、分離された深さエンコーダを統合して正確な空間理解を達成し、強化学習を通じて一般化された多段階空間推論を実行します。そのために、2000万個のQAペアと31個の空間関係を含むRefSpatialデータセットとRefSpatial-Benchという新しいベンチマークを提示します。 RoboReferは指導学習と強化学習によって訓練され、実験結果は既存のモデルを上回る性能を示しました。

Takeaways、Limitations

Takeaways:
3D環境におけるロボットの空間理解と推論能力を劇的に向上させます。
新しいデータセット(RefSpatial)とベンチマーク(RefSpatial-Bench)による空間参照研究に貢献。
さまざまなロボットや複雑な環境で動作する一般化されたモデルを提示します。
Gemini-2.5-Proを凌駕する優れた性能を示す。
Limitations:
具体的なLimitationsは論文に記載されていませんが、モデルの複雑さとトレーニングデータの量について考慮する必要があるかもしれません。
実際の環境での一般化能力のさらなる研究が必要になるかもしれません。
モデルの計算コストと効率の分析がさらに必要になる場合があります。
👍