Sign In

Beyond Semantics: How Temporal Biases Shape Retrieval in Transformer and State-Space Models

Created by
  • Haebom
Category
Empty

저자

Anooshka Bajaj, Deven Mahesh Mistry, Sahaj Singh Maini, Yash Aggarwal, Zoran Tiganj

개요

본 논문은 대규모 언어 모델(LLM)의 문맥 내 학습(In-context learning)에서 시간적 관계가 어떻게 작용하는지 연구한다. 특히, 트랜스포머 및 상태 공간 모델을 포함한 다양한 사전 훈련된 LLM이 시간적으로 분리된 이벤트를 구별하고 검색하는 능력을 조사한다. 동일한 토큰이 여러 번 나타나는 시퀀스를 사용하여, 의미적 혼동을 제거하고 다음 토큰 예측에 대한 시간적 효과를 분리했다. 모델은 반복되는 토큰 다음에 오는 토큰에 높은 확률을 부여했지만, 입력의 시작 또는 끝에 가까운 토큰에 편향을 보였다.

시사점, 한계점

시사점:
LLM은 문맥 내 학습에서 시간적 정보를 처리하는 데 능숙하며, 특히 반복되는 토큰을 통해 시간적 구분을 수행한다.
트랜스포머 모델에서 유도 헤드가 이러한 시간적 편향에 기여한다.
시간적 편향은 에피소드적 검색과 유사한 방식으로 작동하여 정보 검색을 가능하게 한다.
상태 공간 모델과 트랜스포머 모델 모두 유사한 시간적 편향을 보인다.
한계점:
중간에 위치한 메모리는 덜 신뢰성 있게 검색된다.
연구는 특정 유형의 시퀀스에 국한되어 있으며, 다른 시퀀스 유형에서의 동작은 추가 연구가 필요하다.
모델의 시간적 편향을 완화하거나 활용하기 위한 구체적인 방법은 제시되지 않았다.
👍