Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence

Created by
  • Haebom

作者

Hongzhe Du, Weikai Li, Min Cai, Karim Saraipour, Zimin Zhang, Himabindu Lakkaraju, Yizhou Sun, Shichang Zhang

概要

この論文は、事前訓練された大規模言語モデル(LLM)をより有用で整列した事後訓練モデルに変換するために不可欠な事後訓練プロセスがLLMの内部をどのように再構成するかについての機械的分析を提供します。モデル系列とデータセットにわたる4つの観点(事実上の知識格納場所、知識表現、真実性および拒否表現、信頼性)から、基本モデルと事後訓練モデルを比較分析して、次の結果を導き出しました。第一に、事後訓練は、現実的な知識保存場所を変更することなく、基本モデルの知識表現を適応させながら、新しい知識表現を開発する。第二に、真実性と拒否は隠された表現空間のベクトルとして表現することができ、真実性の方向は基本モデルと事後訓練モデルとの間で非常に似ており、介入に効果的に伝達されます。第三に、拒否方向は基本モデルと事後訓練モデルとで異なり、制限的な伝達性を示します。第四に、基本モデルと事後訓練モデルとの間の信頼性の違いは、エントロピーニューロンに起因することはできません。この研究は、ポストトレーニング中に維持および変更される基本的なメカニズムへの洞察を提供し、モデル調整などのフォローアップを容易にし、解析性およびLLMポストトレーニングの将来の研究に潜在的に役立つ可能性があります。

Takeaways、Limitations

Takeaways:
事後訓練の基本メカニズムの理解を促進
モデル調整などのフォローアップの改善に貢献
LLM解析性と事後訓練研究の新しい方向性の提示
事後訓練過程における知識表現の変化の様相
真実性と拒否表現のベクトル表現可能性とその伝達性の分析
Limitations:
特定のモデル系列とデータセットの分析結果なので、一般化に関するさらなる研究が必要
エントロピーニューロン以外の他の要因による信頼度差の可能性を考慮する必要
拒否方向の限られた伝達性のためのさらなる分析と改善方案の探求
👍