Enhancing LLM Steering through Sparse Autoencoder-Based Vector Refinement
Created by
Haebom
作者
Anyi Wang, Xuansheng Wu, Dong Shu, Yunpu Ma, Ninghao Liu
SAE-RSV:レアオートエンコーダを利用したステアリングベクトル精製
概要
この論文は、大規模言語モデル(LLM)のパラメータを変更せずに制御する有望なアプローチであるステアリングに焦点を当てています。従来のステアリング方法は、明確な行動情報を学習するために大規模なデータセットに依存していますが、小規模なデータセットで学習されたステアリングベクトルは、タスクに関連しないノイズ特性を含む効果がありません。これを解決するために、本論文では、希少オートエンコーダ(SAE)を用いてステアリングベクトルを意味的にデノイズし増強するSAE−RSV(Refinement of Steering Vector via Sparse Autoencoder)を提案する。 SAEを介してタスクに関連しない特徴を除去し、小規模データセットから欠落したタスク関連の特徴を識別された関連特徴との意味的類似性に基づいて強化する。実験の結果、提案されたSAE-RSVは、地図学習ベースのファインチューニングを含むすべての基準方法より優れた性能を示した。これは、SAEを介して元のステアリングベクトルを精製することによって、限られたトレーニングデータから効果的なステアリングベクトルを構築できることを示しています。