Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Crosscoding Through Time: Tracking Emergence & Consolidation Of Linguistic Representations Throughout LLM Pretraining

Created by
  • Haebom

作者

Deniz Bayazit, Aaron Mueller, Antoine Bosselut

概要

この論文では、大規模言語モデル(LLM)の事前トレーニング中に特定の言語能力がいつどのように見えるかを理解するために、スパースクロスコーダーを使用してモデルチェックポイント間の特徴を見つけて整列させる方法について説明します。既存のベンチマーク方式の限界を克服し、概念レベルでモデルトレーニングを理解したいと思います。特に、パフォーマンスと表現の変化が大きいオープンソースチェックポイントの3対の間にクロスコーダーを訓練し、新しい指標である相対間接効果(RelIE)を導入し、個々の特徴が作業性能に原因的に重要となる訓練段階を追跡します。これは、事前トレーニング中に特徴の出現、維持、および中断を検出できることを示しています。この方法は、アーキテクチャに依存しないスケーラブルで、事前トレーニング全体にわたる表現学習の解釈可能で細かい分析のための有望なパスを提供します。

Takeaways、Limitations

Takeaways:
LLM事前訓練過程における特定の言語能力の出現時期とその過程の理解を促進する
希少クロスコーダとRelIE指標を活用した新しい分析法の提示
アーキテクチャに依存しないスケーラブルな分析方法で、さまざまなモデルに適用できます。
モデル訓練プロセスの解釈の可能性の向上
Limitations:
RelIE指標の精度と信頼性のための追加の検証の必要性
オープンソースチェックポイントに依存する方法論的制限。
特徴の原因的重要性に対する解釈の主観性の可能性
大規模モデルの計算コスト問題
👍