Sign In

AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders

Created by
  • Haebom
Category
Empty

저자

Zhengxuan Wu, Aryaman Arora, Atticus Geiger, Zheng Wang, Jing Huang, Dan Jurafsky, Christopher D. Manning, Christopher Potts

개요

본 논문은 언어 모델 출력의 미세 조정을 위한 다양한 기법들(프롬프팅, 파인튜닝, 희소 오토인코더, 선형 인공 단층 촬영, 지도 학습 조향 벡터, 선형 프로브, 표현 파인튜닝 등)을 비교 평가하기 위한 대규모 벤치마크 AxBench를 제시합니다. Gemma-2-2B와 9B 모델을 대상으로 실험한 결과, 조향 작업에서는 프롬프팅이 다른 방법들보다 우수한 성능을 보였고, 파인튜닝이 그 뒤를 이었습니다. 개념 탐지 작업에서는 차이-평균(difference-in-means)과 같은 표현 기반 방법들이 가장 좋은 성능을 나타냈으며, 희소 오토인코더는 경쟁력이 떨어지는 것으로 나타났습니다. 논문에서는 해석 가능성의 장점을 제공하면서 두 작업 모두에서 경쟁력 있는 성능을 보이는 새로운 약지도 학습 표현 방법인 Rank-1 Representation Finetuning (ReFT-r1)을 제시하고, ReFT-r1과 DiffMean을 위한 SAE 규모의 특징 사전을 공개합니다.

시사점, 한계점

시사점:
언어 모델 출력 조향 및 개념 탐지에 대한 다양한 기법들을 비교 평가할 수 있는 대규모 벤치마크 AxBench를 제공합니다.
프롬프팅이 조향 작업에서 가장 효과적임을 실험적으로 보여줍니다.
표현 기반 방법들이 개념 탐지 작업에 효과적임을 확인합니다.
해석 가능성과 성능을 모두 고려한 새로운 방법 ReFT-r1을 제시합니다.
ReFT-r1과 DiffMean을 위한 사전 훈련된 특징 사전을 공개하여 후속 연구를 지원합니다.
한계점:
AxBench가 특정 모델과 작업에 국한되어 일반화 성능이 제한적일 수 있습니다.
제시된 방법들의 성능 비교는 특정 데이터셋과 모델에 대한 결과이며, 다른 상황에서는 다를 수 있습니다.
희소 오토인코더의 성능이 저조한 이유에 대한 추가 분석이 필요합니다.
👍