Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Painless Activation Steering: An Automated, Lightweight Approach for Post-Training Large Language Models

Created by
  • Haebom

作者

Sasha Cui, Zhongren Chen

概要

この論文では、言語モデル(LM)のポストトレーニングのための自動化されたアクティベーション調整(AS)方法であるPainless Activation Steering(PAS)を紹介します。従来のAS技術とは異なり、PASは受動的なプロンプト構成、機能ラベル付け、または人の介入なしにラベル付きデータセットを使用してASを簡単に使用できます。 Llama3.1-8B-Instruct、DeepSeek-R1-Distill-8B、Nous-Hermes-2モデルと18のタスクを対象に評価した結果、PASは行動関連タスクでパフォーマンスを向上させ、iPAS変形は最も強力な因果的調節効果を示しました。さらに、PASは、In-Context Learning(ICL)とSupervised Fine-Tuning(SFT)の上に追加の利点を提供します。

Takeaways、Limitations

PASは自動化されたAS技術で、受動的な作業なしで言語モデルの動作を調整するための実用的な方法を提供します。
PAS は、In-Context Learning および Supervised Fine-Tuning と組み合わせて、パフォーマンスの向上を導き出すことができます。
IPASは特定の行動制御において強力な効果を示します。
PASは行動関連タスクに有効であり、知能関連タスクでは効果が制限されます。
PASの効果は、モデルとタスクによって異なります。
👍