본 논문은 언어 모델 출력의 미세 조정을 위한 다양한 기법들(프롬프팅, 파인튜닝, 희소 오토인코더, 선형 인공 단층 촬영, 지도 학습 조향 벡터, 선형 프로브, 표현 파인튜닝 등)을 비교 평가하기 위한 대규모 벤치마크 AxBench를 제시합니다. Gemma-2-2B와 9B 모델을 대상으로 실험한 결과, 조향 작업에서는 프롬프팅이 다른 방법들보다 우수한 성능을 보였고, 파인튜닝이 그 뒤를 이었습니다. 개념 탐지 작업에서는 차이-평균(difference-in-means)과 같은 표현 기반 방법들이 가장 좋은 성능을 나타냈으며, 희소 오토인코더는 경쟁력이 떨어지는 것으로 나타났습니다. 논문에서는 해석 가능성의 장점을 제공하면서 두 작업 모두에서 경쟁력 있는 성능을 보이는 새로운 약지도 학습 표현 방법인 Rank-1 Representation Finetuning (ReFT-r1)을 제시하고, ReFT-r1과 DiffMean을 위한 SAE 규모의 특징 사전을 공개합니다.