Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs

Created by

Haebom

저자

Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

💡 개요

본 연구는 기존 언어 모델의 불확실한 자체 해석 능력의 한계를 극복하기 위해, 동결된 언어 모델에 경량 어댑터를 학습시키는 새로운 접근 방식을 제안합니다. 이 학습은 해석 가능성 아티팩트(interpretability artifacts)를 이용하며, 이를 통해 언어 모델 자체를 수정하지 않고도 신뢰할 수 있는 자체 해석을 달성했습니다. 제안된 방법은 기존 레이블보다 우수한 성능을 보이며, 모델의 숨겨진 추론 과정을 밝혀내는 데 효과적입니다.

🔑 시사점 및 한계

•

모델 수정 없이 신뢰할 수 있는 자체 해석 가능: 경량 어댑터 학습만으로 언어 모델을 동결시킨 상태에서 신뢰성 높은 자체 해석이 가능함을 입증했습니다.

•

숨겨진 추론 과정 발굴: 프롬프트나 응답에 직접적으로 나타나지 않는 다단계 추론 과정의 중간 요소를 밝혀내어, 모델의 암묵적인 추론 방식을 이해할 수 있습니다.

•

모델 스케일에 따른 자체 해석 능력 향상: 모델 크기가 커질수록 자체 해석 능력이 향상되며, 이는 단순히 모델의 능력이 향상되는 것 이상으로 자체 해석 능력이 개선됨을 시사합니다.

•

제한된 파라미터로 높은 효율성: $d_\text{model}+1$개의 파라미터만으로도 우수한 성능을 보여, 효율적인 자체 해석 솔루션으로서의 잠재력을 보여줍니다.

•

더욱 복잡한 해석 능력 제어 및 검증: 학습된 편향 벡터(bias vector)만으로도 성능 향상의 상당 부분을 설명할 수 있어, 어댑터의 복잡성과 성능 간의 관계에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage