この論文では、強化学習における補償アライメント問題を解決するために、ゼロショットマクロ言語モデル(LLM)を活用した新しいフレームワーク(LLM-HFBF)を提案します。 LLM-HFBFは、自然言語処理を超えて連続制御作業にもLLMを補償調整に活用し、人間フィードバックの偏りに依存せずに補償関数を改善します。また、人間のフィードバックの偏りをLLMが識別し修正する機能により、よりバランスの取れた信頼性の高い強化学習システムを構築します。実験の結果、偏向された人間のフィードバックは性能を大幅に低下させ、LLMベースの方法は偏向されていないフィードバックと同様の性能レベルを維持することを示した。