Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BCR-DRL: Behavior- and Context-aware Reward for Deep Reinforcement Learning in Human-AI Coordination

Created by
  • Haebom

作者

Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Gaoyang Pang

概要

本論文では、人間とAIの協力(HAIC)における深層強化学習(DRL)の2つの主要な課題である希少報酬と予測不可能な人間行動を解決するための行動とコンテキスト認識補償(BCR)を提案します。 BCR は、AI の自己モチベーション固有の報酬と人間のモチベーション固有の報酬からなる二重固有の報酬制度とコンテキスト情報を活用して、人間パートナーとの協力を改善するコンテキスト認識重み付けメカニズムで構成されています。 Overcooked環境でのシミュレーションの結果、提案された方法は、最先端のベースラインと比較して累積希少補償を約20%増加させ、サンプル効率を約38%向上させることを示しました。

Takeaways、Limitations

Takeaways:
希少報酬と予測不可能な人間行動問題を解決する新しいBCRフレームワークの提示
二重内在補償方式による探索強化とコンテキスト認識重み付け機構による活用改善
Overcooked環境での実験による累積補償とサンプル効率の向上を実証的に実証
Limitations:
Overcooked環境に限定された実験結果。他のHAIC環境における一般化の可能性に関するさらなる研究が必要
人間行動モデリングの正確性への依存性より洗練された人間行動のモデリングが必要な場合があります
文脈情報の選択と重み付け機構の最適化に関するさらなる研究が必要
👍