Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation

Created by
  • Haebom

作者

Yihe Tang, Wenlong Huang, Yingke Wang, Chengshu Li, Roy Yuan, Ruohan Zhang, Jiajun Wu, Li Fei-Fei

概要

この論文は、非構造化環境におけるロボットの物体操作のための微細な物体機能の理解の重要性を強調しています。従来の視覚的機能予測方法は、手動注釈データに依存するか、または事前定義された一連の作業に限定される限界を持っています。そこで、本論文ではUAD(Unsupervised Affordance Distillation)と呼ばれる方法を提示します. UADは、手動注釈なしで基礎モデルから機能知識を作業条件付き機能モデルに蒸留する方法です。大規模ビジョンモデルとビジョン言語モデルの相補的な強みを活用して、UADは<指示、視覚機能>ペアで構成される大規模データセットを自動的にコメントアウトします。固定された特徴の上に軽量の作業条件付きデコーダだけを学習することによって、UADはシミュレーションのレンダリングされたオブジェクトについてのみ学習されたにもかかわらず、実際のロボット環境とさまざまな人間の活動に対する注目すべき一般化性能を実証します。 UADが提供する機能を観測空間として使用し、この論文は、学習後に見えないオブジェクトインスタンス、オブジェクトカテゴリ、および作業指示の変化に対する有望な一般化性能を示す模倣学習方針を10個のデモンストレーションだけで提示します。

Takeaways、Limitations

Takeaways:
手動注釈なしで大規模なデータセットを自動的に注釈し、機能学習を可能にします。
基礎モデルを活用し、シミュレーションデータだけで実環境に対する一般化性能を確保。
少数のパイロット学習だけでも新しい物体、作業指示に対する一般化性能を見せる。
模倣学習方針との組み合わせにより、実際のロボット操作に適用可能性を提示。
Limitations:
シミュレーションデータに依存して、実際の環境とのドメインギャップ問題の存在の可能性。
基礎モデルの性能に依存し、基礎モデルの限界がUADの性能に影響を与える可能性がある。
さまざまなオブジェクトや作業の一般化性能の制限は、さらなる研究が必要です。
👍