Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Open-Vocabulary Spatio-Temporal Scene Graph for Robot Perception and Teleoperation Planning

Created by
  • Haebom

作者

Yi Wang, Zeyu Xue, Mujie Liu, Tongqin Zhang, Yan Hu, Zhou Zhao, Chenguang Yang, Zhenyu Lu

概要

自然言語ベースの遠隔操作は、作業者の負担を軽減し、危険または遠隔環境での安全性を向上させる。しかし、双方向通信中の伝送遅延により、遠隔検出状態と作業者の意図との間に不整合が生じ、命令誤解や不正確な実行につながる。これを解決するために、本論文では、時空間的にオープンな語彙シーングラフ(ST-OVSG)を導入し、オープンな語彙認識に時間的ダイナミクスと軽い遅延時間注釈を追加します。 ST-OVSGはLVLMを使用してオープンな語彙3Dオブジェクト表現を構築し、ハンガリアン割り当てと時間的一致コストを介して時間領域に拡張し、統合された時空間シーングラフを作成します。遅延時間タグを挿入して、LVLMプランナーが過去のシーン状態を遡及して照会できるようにすることで、送信遅延によるローカルリモート状態の不一致を解決します。また、重複を減らし、タスク関連の手がかりを強調するために、プランナーのための簡潔な入力を生成するタスク指向のサブグラフフィルタリング戦略を提案します。 ST-OVSGは新しいカテゴリに一般化されており、微調整なしで伝送遅延の計画堅牢性を向上させます。実験の結果、提案方法はReplicaベンチマークで74%のノード精度を達成し、ConceptGraphより優れた性能を示しました。特に、遅延時間の堅牢性実験でST-OVSGのサポートを受けたLVLMプランナーは、70.5%の計画成功率を達成しました。

Takeaways、Limitations

自然言語ベースの遠隔操作システムにおける伝送遅延問題を解決するための新しい時空間シーングラフ(ST-OVSG)の提示
オープンな語彙3Dオブジェクト表現、時間的ダイナミクス、遅延時間アノテーションを統合することにより、リモート環境での計画性能の向上
LVLMベースのプランナーの遅延時間のロバスト性を高め、実環境での適用性を向上
新しいカテゴリーに対する一般化能力を備え、微調整せずに優れた性能を見せる
レプリカベンチマークと遅延時間ロバスト性実験による方法論の効果の検証
具体的なLimitationsへの言及は論文の要約に含まれていません。 (例:特定環境での性能低下の可能性、計算コストなど)
👍