Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator
Created by
Haebom
作者
Beier Luo, Shuoyuan Wang, Sharon Li, Hongxin Wei
Disagreement-Aware Confidence Alignment (DACA)
概要
大規模言語モデル(LLM)の事後訓練は、事前訓練された言語モデル(PLM)を人間の好みや下流の作業に合わせるために不可欠です。 PLMは一般によく修正された信頼性を示しますが、ポストトレーニングされた言語モデル(PoLM)はしばしば過信を示し、正解と誤答の両方に高い信頼性を割り当てることによって重要なアプリケーションで信頼性を損なう可能性があります。 PoLMを補正する際の主な障害は、個々のダウンストリーム操作のラベル付きデータの欠如です。これを解決するために、この論文は、事後信頼度補正におけるパラメータ(例:温度$ \ tau $)を最適化する新しい非地図学習方法であるDisagreement-Aware Confidence Alignment(DACA)を提案します。この方法は、温度制御によるPLMとPoLMとの間の予測不一致に起因する過小信頼問題によって動機付けられた。理論的には、PLMの信頼度は、不一致の例に対するPoLMの予測精度を過小評価し、より大きな$ \ tau $を引き起こし、過小信頼予測を生成します。 DACAは、修正のために合意の例のみを選択的に使用して、矛盾の影響を効果的に分離することによってこれを軽減します。このように、DACAは不整合の例によって引き起こされる温度制御の過度の$ \ tau $を防ぎ、補正性能を向上させます。広範な実験により、DACAは一般的なベンチマークで最大15.08%のパブリックソースとAPIベースのLLM(GPT-4oなど)の平均ECEを向上させる効果を実証しました。