Sign In

Transformers Use Causal World Models in Maze-Solving Tasks

Created by
  • Haebom
Category
Empty

저자

Alex F. Spies, William Edwards, Michael I. Ivanitskiy, Adrians Skapars, Tilman Rauker, Katsumi Inoue, Alessandra Russo, Murray Shanahan

개요

본 논문은 미로 풀이 작업에 학습된 트랜스포머 모델에서 월드 모델(World Models, WMs)을 식별합니다. 희소 오토인코더(Sparse Autoencoders, SAEs)와 어텐션 패턴 분석을 통해 WM의 구성을 조사하고, SAE 특징 기반 분석과 회로 기반 분석 간의 일관성을 보여줍니다. 격리된 특징에 개입하여 인과적 역할을 확인한 결과, 특징을 활성화하는 것이 억제하는 것보다 쉽다는 것을 발견했습니다. 또한, 모델은 학습 중에 접했던 것보다 더 많은 동시 활성 특징을 포함하는 미로에 대해 추론할 수 있지만, 동일한 미로(더 많은 연결 포함)를 입력 토큰을 통해 제공하면 모델이 실패한다는 것을 발견했습니다. 마지막으로, 위치 인코딩 방식이 모델의 잔차 스트림 내에서 월드 모델이 구축되는 방식에 영향을 미치는 것을 보여줍니다.

시사점, 한계점

시사점:
미로 풀이 작업에서 트랜스포머 모델이 월드 모델을 형성함을 보여줌.
SAE와 어텐션 패턴 분석을 통해 월드 모델의 구조를 효과적으로 분석할 수 있음을 제시.
월드 모델 내 특징의 인과적 역할을 확인하고, 활성화와 억제의 상대적 용이성을 밝힘.
모델의 추론 능력이 학습 데이터의 복잡성을 초월할 수 있음을 시사하지만, 입력 방식에 따라 성능이 달라짐을 보임.
위치 인코딩이 월드 모델 구조에 영향을 미침을 밝힘.
한계점:
연구가 미로 풀이라는 특정 작업에 국한됨. 다른 작업으로 일반화 가능성에 대한 추가 연구 필요.
입력 방식에 따른 모델 성능 차이에 대한 명확한 메커니즘 규명 필요.
월드 모델 형성에 대한 보다 포괄적인 이론적 설명 필요.
👍