Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Training Language Models to Explain Their Own Computations

Created by
  • Haebom
Category
Empty

저자

Belinda Z. Li, Zifan Carl Guo, Vincent Huang, Jacob Steinhardt, Jacob Andreas

개요

언어 모델(LM)이 내부 계산을 충실하게 설명하는 방법을 배울 수 있는지, 그리고 다른 모델보다 자신을 더 잘 설명할 수 있는지 연구합니다. LM의 내부 접근 권한을 활용하여 동작을 설명하는 새로운 기술을 개발합니다. 기존 해석 가능성 기법을 기반으로, LM 특징으로 인코딩된 정보, LM 내부 활성화의 인과 구조, 특정 입력 토큰이 LM 출력에 미치는 영향을 자연어로 설명하도록 LM을 미세 조정합니다. 수만 개의 예제 설명만으로 훈련된 설명 모델은 새로운 쿼리에 대해 상당한 일반화 능력을 보입니다. 이러한 일반화 능력은 설명 모델이 자체 내부 정보에 접근할 수 있기 때문입니다. 즉, 모델이 자체 계산을 설명하는 것이 다른 모델(더욱 강력한 모델 포함)을 사용하여 설명하는 것보다 효과적입니다. LM이 내부 계산을 안정적으로 설명하는 방법을 배울 수 있으며, 이러한 설명이 기존 해석 가능성 방법에 대한 확장 가능한 보완책이 될 수 있음을 시사합니다.

시사점, 한계점

시사점:
언어 모델(LM)은 내부 계산을 자연어로 설명하는 방법을 학습할 수 있습니다.
LM은 자체 계산을 설명하는 데 다른 모델보다 더 효과적입니다.
설명 모델은 제한된 예제를 통해 새로운 쿼리에 일반화 능력을 보입니다.
LM에 의한 자기 설명은 기존 해석 가능성 방법을 보완하는 확장 가능한 방법입니다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없습니다.
👍