Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames

Created by
  • Haebom

作者

Krishan Rana, Jad Abou-Chakra, Sourav Garg, Robert Lee, Ian Reid, Niko Suenderhauf

概要

本論文は模倣学習を通じてロボットの熟練した行動を可能にするが、サンプル効率の低下と一般化の限界で長期間、マルチオブジェクト作業に困難を経験することを指摘します。既存の方法は、可能な作業の変化に対処するために多くのデモを必要とし、現実世界の適用に費用がかかり、非実用的です。この研究では、状態と行動空間の構造化された表現である指向的なアフォーダンスフレームを導入し、空間とカテゴリ内の一般化を改善し、10のデモだけでポリシーを効率的に学習することができます。さらに重要なことは、これらの抽象化により、独立して訓練されたサブポリシーの構成的一般化によって、長期間にわたってマルチオブジェクト操作を解決できることを示しています。サブポリシー間のシームレスな移行のために、トレーニングデモの継続時間から直接導き出されたセルフプログレッシブ予測の概念を導入します。多段階、複数オブジェクトの相互作用を必要とする3つの実際の作業の実験により、少量のデータにもかかわらず、ポリシーが見えないオブジェクトの外観、幾何学的形状、空間配列について強く一般化され、膨大なトレーニングデータに頼らずに高い成功率を達成することを検証します.

Takeaways、Limitations

Takeaways:
指向的なアポダンスフレームを活用し、少ないデモ(10個)だけでも効率的な政策学習が可能であることを見せる。
スペースとカテゴリ内の一般化パフォーマンスの向上
独立して訓練されたサブポリシーの構成的一般化により、長期間にわたってマルチオブジェクト操作を解決できます。
自己進捗予測により、サブポリシー間のシームレスな移行が可能
実際の作業で高い成功率を達成し、一般化性能検証
Limitations:
限られた数の実際の作業(3つ)の実験結果のみを提示します。
さまざまな環境や作業の一般化パフォーマンスがどれだけ維持されるかをさらに検討する必要があります。
自己進行予測の精度と信頼性に関する追加分析の必要性
提案された方法の計算コストと複雑さの分析不足
👍