Unravelling the Mechanisms of Manipulating Numbers in Language Models
Created by
Haebom
Category
Empty
저자
Michal \v{S}tefanik, Timothee Mickus, Marek Kadl\v{c}ik, Bertram H{\o}jer, Michal Spiegel, Raul Vazquez, Aman Sinha, Josef Kucha\v{r}, Philipp Mondorf
개요
최근 연구에 따르면 다양한 대규모 언어 모델(LLM)이 숫자에 대해 유사하고 정확한 입력 임베딩 표현으로 수렴한다는 사실이 밝혀졌습니다. 이러한 발견은 LLM이 숫자 정보를 처리할 때 오류를 생성하는 경향이 있다는 기존 연구 결과와 상반됩니다. 본 연구에서는 언어 모델이 숫자를 어떻게 조작하는지 탐구하고 이러한 메커니즘의 정확도 하한을 정량화하여 이 모순을 설명하고자 합니다. 다양한 언어 모델이 체계적이고 매우 정확하며 숨겨진 상태와 입력 컨텍스트 유형에 걸쳐 보편적인 숫자 표현을 학습한다는 것을 발견했습니다. 이를 통해 각 LLM에 대한 보편적인 프로브를 생성하고 출력 오류의 원인을 포함한 정보를 특정 레이어로 추적할 수 있습니다. 본 연구 결과는 사전 훈련된 LLM이 숫자를 조작하는 방법에 대한 근본적인 이해를 제공하며 LLM 아키텍처 개선을 위한 보다 정확한 프로빙 기술의 가능성을 제시합니다.