Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Delta Activations: A Representation for Finetuned Large Language Models

Created by
  • Haebom

作者

Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

概要

この論文は、さまざまなタスクとドメインに適応されたポストトレーニングされた大規模言語モデル(LLM)の膨大なコレクションを作成することに成功した強力なオープンソースLLMの登場にもかかわらず、一貫性のないメタデータと非定型リポジトリのためにこれらのモデルを探索して理解することが困難であることを指摘しています。研究者は、基本モデルに対する内部活性化の変化を測定し、微調整モデルをベクトル埋め込みとして表す方法であるデルタ活性化を提示します。この表現は、ドメインとタスクごとに効果的なクラスタリングを可能にし、モデル環境の構造を示しています。デルタアクティベーションは、微調整設定に堅牢で、微調整データセットが混在しているときに加算属性を表すなど、望ましい特性を示します。さらに、デルタアクティベーションは、数回のショット微調整を使用してタスクを埋め込むことができ、モデルの選択とマージの追加の利用可能性を示しています。研究者は、デルタ活性化が公に利用可能なモデルの再利用慣行を容易にすることを期待しています。コードはhttps://github.com/OscarXZQ/delta_activationsで確認できます。

Takeaways、Limitations

Takeaways:
微調整されたLLMを効果的に表現し比較する新しい方法であるデルタ活性化を提示します。
ドメインとタスクごとにLLMをクラスタリングして、モデルのナビゲーションと理解を容易にします。
モデルの選択とマージに利用可能性を提示します。
公的に利用可能なLLMの再利用を促進できます。
Limitations:
デルタアクティベーションのパフォーマンスがさまざまなLLMアーキテクチャと微調整設定でどのくらい一般化できるかについてのさらなる研究が必要です。
特定のタスクまたはドメインに対するデルタアクティベーションの解釈の可能性と信頼性のさらなる分析が必要です。
提案された方法の拡張性と計算コストの追加評価が必要です。
👍