この論文では、大規模言語モデル(LLM)の事前トレーニング中に特定の言語能力がいつどのように見えるかを理解するために、スパースクロスコーダーを使用してモデルチェックポイント間の特徴を見つけて整列させる方法について説明します。既存のベンチマーク方式の限界を克服し、概念レベルでモデルトレーニングを理解したいと思います。特に、パフォーマンスと表現の変化が大きいオープンソースチェックポイントの3対の間にクロスコーダーを訓練し、新しい指標である相対間接効果(RelIE)を導入し、個々の特徴が作業性能に原因的に重要となる訓練段階を追跡します。これは、事前トレーニング中に特徴の出現、維持、および中断を検出できることを示しています。この方法は、アーキテクチャに依存しないスケーラブルで、事前トレーニング全体にわたる表現学習の解釈可能で細かい分析のための有望なパスを提供します。