Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Search-Based Credit Assignment for Offline Preference-Based Reinforcement Learning

Created by
  • Haebom

作者

Xiancheng Gao, Yufeng Shi, Wengang Zhou, Houqiang Li

概要

この論文では、オフライン強化学習における補償機能設計の難しさを解決するために、専門家のデモンストレーションとアフィニティという2つの人間のフィードバックを統合する新しい方法である検索ベースのPreference Weighting(SPW)を紹介します。 SPWは、好みで示された軌道内の各遷移について、専門家のデモンストレーションから最も類似した状態 - 行動ペアを見つけ、その類似度スコアに基づいて段階的重要度の重みを直接導きます。この重みは標準的な好み学習を導き、既存の方法が難しい正確なクレジット割り当てを可能にします。ロボット操作で既存の方法を上回る性能を示します。

Takeaways、Limitations

Takeaways:
専門家のデモンストレーションと好みの2つの人間のフィードバックを効果的に統合することで、オフライン強化学習のパフォーマンスを向上させるための新しい方法を紹介します。
既存の方法が解決しなかったクレジット割り当ての問題を類似度ベースの重み付けによって解決。
ロボット操作作業で優れた性能を実証。
Limitations:
SPWのパフォーマンスは、エキスパートパイロットデータの品質と量に依存する可能性があります。
類似度測定方式によって性能が異なることがあるので、最適な類似度測定方式を見つけることが重要。
提示された方法がすべての種類の強化学習問題に適用可能であるかどうかに関する追加の研究が必要です。
👍