本論文は、人間フィードバックベースの強化学習(RLHF)におけるサンプル効率を向上させるために重要な楽観的探索の問題を扱います。既存の探索ボーナス方法が楽観性を正しく実現できない理由をKLまたはα発散正規化によって分析し、この正規化が探索を参考モデルの高確率領域に偏向させて保守的な行動を強化することを指摘する。これを解決するために、論文は、楽観性の原則を満たす新しい理論的フレームワークである一般検索ボーナス(GEB)を提示します。 GEBは、発散による偏りを参照依存補償調整によって相殺し、既存のヒューリスティックボーナスを特殊なケースに統合し、α-発散ファミリー全体にわたって自然に拡張される。実験の結果,GEBは,複数の発散設定と大規模言語モデルバックボーンでのソート作業のために一貫してベースラインを上回った。これは、GEBがRLHFで楽観的探索のための原理的で実用的な解決策であることを示しています。