Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention

Created by
  • Haebom

作者

Yuxin Chen, Chen Tang, Jianglan Wei, Chenran Li, Ran Tian, Xiang Zhang, Wei Zhan, Peter Stone, Masyyoshi Tomizuka

概要

この論文は、人間中心の環境で実装されたAIエージェントを展開するためにロボットの行動を人間の好みに合わせるという問題を扱います。人間の専門家が政策の実施を観察し、介入をフィードバックとして提供する相互作用的な模倣学習が有望な解決策として提示されている。既存の方法には、学習を容易にするために事前ポリシーを効率的に活用できないという制限があります。本論文では,人間の介入から標本を効率的に整列させるために,MEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を提案する。 MEReQは、人間の行動特性全体を推論する代わりに、人間の専門家と事前政策の基礎補償関数との間の差を捉える残りの補償関数を推論する。次に、残りの補償関数を使用してResidual Q-Learning(RQL)を使用して、ポリシーを人間の好みに合わせます。シミュレーションと実際の作業の広範な評価は、MEReQが人間の介入から標本効率的な方針整列を達成することを示しています。

Takeaways、Limitations

Takeaways:
人間の介入からの標本効率的な方針整列のための新しい方法であるMEReQの提示。
事前方針を効率的に活用して学習効率を向上
シミュレーションと実際の作業における効果検証
Limitations:
提案された方法の一般性とさまざまな環境への適用性に関するさらなる研究が必要です。
人間の専門家の介入頻度と品質に対する依存性の評価が必要
複雑な作業やさまざまな種類の人間のフィードバックに対するロバースト性評価が必要です。
👍