Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning Adaptive Dexterous Grasping from Single Demonstrations

Created by
  • Haebom

作者

Liangzhi Shi, Yulin Liu, Lingqi Zeng, Bo Ai, Zhengdong Hong, Hao Su

概要

AdaDexGraspは、限られた人間のデモンストレーションから効率的に熟練したファージ技術を学習し、ユーザーの指示に従って適応的に適用するフレームワークです。単一の人間のデモンストレーションから複数のファージ技術を学習し、ビジョン - 言語モデル(VLM)を使用して最も適切な技術を選択します。サンプル効率を高めるために、人間のパイロットに近い状態で強化学習(RL)を誘導する軌跡追従補償を提案し、多様なオブジェクト姿勢変化を徐々に増加させるカリキュラム学習を通じて単一のパイロットを超えて学習します。展開時に、VLMはユーザーの指示に従って適切なスキルを検索し、低レベルの学習スキルと高レベルの意図を結び付けます。シミュレーションと実際の環境で評価することで、RL効率を大幅に向上させ、さまざまなオブジェクト構成で人間と同様のファージ戦略学習を可能にすることを示しています.実際のPSYONIC Ability Handで学習されたポリシーをゼロショット遷移し、オブジェクトに対して90%の成功率を達成し、ベースラインを大きく上回ります。

Takeaways、Limitations

Takeaways:
限られた人間のデモンストレーションから効率的な熟練したファージ技術を学習可能
ビジョン・言語モデルを用いた状況ベースの技術選択で高水準の意図を反映。
カリキュラム学習による堅牢な技術学習と一般化
実際のロボットハンドでのゼロショット転移成功。
人間に似たファージ戦略学習。
Limitations:
提示されたVLMの具体的な構造と性能の詳細な説明の欠如
さまざまなオブジェクトや状況に対する一般化パフォーマンスの制限
実際の環境での追加のテストと検証が必要です。
軌跡追従補償の最適化パラメータの設定に関する議論の欠如
👍