Sign In

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Created by
  • Haebom
Category
Empty

저자

Tianyi Lorena Yan, Robin Jia

개요

본 논문은 언어 모델(LM)이 일대다 사실적 질의(예: 특정 국가의 도시 목록)에 답변하는 과정에서 지식을 회상하고 이전 답변을 반복하지 않는 메커니즘을 분석합니다. 다양한 데이터셋과 모델을 통해, LM이 '촉진-억제' 메커니즘을 사용한다는 것을 밝힙니다. 즉, 먼저 모든 답변을 회상한 후 이전에 생성된 답변을 억제하는 방식입니다. 주어와 이전 답변 토큰을 모두 사용하여 지식을 회상하며, 어텐션은 주어 정보를 전파하고 MLP는 답변을 촉진합니다. 그 후, 어텐션은 이전 답변 토큰에 집중하여 억제하고, MLP는 억제 신호를 증폭합니다. 초기 디코딩 및 인과 추적 외에도, Token Lens(특정 토큰에서 집계된 어텐션 업데이트를 디코딩)와 특정 토큰에 대한 어텐션 제거 후 MLP 출력 변화를 분석하는 knockout 방법을 도입하여 실험적 증거를 제시합니다. 결론적으로, LM의 내부 구성 요소가 다양한 입력 토큰과 상호 작용하여 복잡한 사실적 회상을 지원하는 방식에 대한 새로운 통찰력을 제공합니다.

시사점, 한계점

시사점: 언어 모델이 일대다 사실적 질의에 답하는 내부 메커니즘인 '촉진-억제' 메커니즘을 규명하고, 어텐션과 MLP의 역할을 명확히 밝힘으로써 LM의 복잡한 사실적 회상 과정에 대한 이해를 심화시켰습니다. Token Lens와 knockout 방법과 같은 새로운 분석 기법을 제시하여 LM의 내부 동작을 분석하는 새로운 접근 방식을 제시했습니다.
한계점: 본 연구는 특정 유형의 질의(일대다 사실적 질의)에 국한되어 있으며, 다른 유형의 질의에 대한 LM의 메커니즘은 추가 연구가 필요합니다. 분석에 사용된 데이터셋과 모델의 종류에 따라 일반화 가능성에 제한이 있을 수 있습니다. '촉진-억제' 메커니즘의 세부적인 작동 원리에 대한 추가적인 설명이 필요할 수 있습니다.
👍