Sign In

(How) Do Language Models Track State?

Created by
  • Haebom
Category
Empty

저자

Belinda Z. Li, Zifan Carl Guo, Jacob Andreas

개요

본 논문은 변환기 언어 모델(LM)이 진화하는 세계의 관찰되지 않은 상태를 추적하는 것처럼 보이는 행동(이야기 생성, 코드 생성 등)을 어떻게 수행하는지 연구합니다. 연구진은 순열 조합(일련의 교환 후 객체 집합의 순서 계산)을 수행하도록 훈련되거나 미세 조정된 LM에서 상태 추적을 연구했습니다. 이 간단한 대수적 구조의 문제는 다른 많은 작업(예: 유한 오토마타 시뮬레이션 및 부울 식 평가)으로 축소될 수 있으므로 일반적인 상태 추적을 위한 자연스러운 모델입니다. 연구 결과, LM은 이 작업에 대해 두 가지 상태 추적 메커니즘 중 하나를 일관되게 학습한다는 것을 보여줍니다. 첫 번째는 Liu et al. (2023) 및 Merrill et al. (2024)의 최근 이론적 연구에서 사용된 "연관 스캔" 구성과 매우 유사합니다. 두 번째는 계산이 용이한 특징(순열 패리티)을 사용하여 출력 공간을 부분적으로 가지치기한 다음 연관 스캔으로 이를 개선합니다. 두 메커니즘은 현저하게 다른 강건성 특성을 나타내며, 휴리스틱을 장려하거나 억제하는 중간 훈련 작업을 통해 LM을 한쪽 또는 다른 쪽으로 유도하는 방법을 보여줍니다. 이러한 결과는 사전 훈련되거나 미세 조정된 변환기 LM이 효율적이고 해석 가능한 상태 추적 메커니즘을 구현하도록 학습할 수 있으며, 이러한 메커니즘의 출현은 예측 및 제어할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
변환기 LM이 효율적이고 해석 가능한 상태 추적 메커니즘을 학습할 수 있음을 보여줍니다.
LM이 상태 추적을 위해 사용하는 메커니즘의 유형을 예측하고 제어할 수 있는 방법을 제시합니다.
순열 조합이라는 단순한 문제를 통해 다양한 작업의 상태 추적을 이해하는 데 도움이 될 수 있습니다.
한계점:
연구는 순열 조합이라는 특정 작업에 초점을 맞추었으므로, 다른 유형의 작업에 대한 일반화 가능성은 추가 연구가 필요합니다.
두 가지 상태 추적 메커니즘의 강건성 차이에 대한 더 자세한 분석이 필요합니다.
연구에서 사용된 LM의 규모와 구조에 따라 결과가 달라질 수 있습니다.
👍