Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling Laws for State Dynamics in Large Language Models

Created by
  • Haebom

저자

Jacob X Li, Shreyas S Raman, Jessica Wan, Fahad Samman, Jazlyn Lin

개요

본 논문은 대규모 언어 모델(LLM)의 내부 상태 추적 능력, 특히 결정론적 상태 전이 역학을 모델링하는 능력을 평가합니다. Box Tracking, 추상 DFA 시퀀스, 복잡한 텍스트 게임의 세 가지 영역(각각 유한 상태 시스템으로 공식화 가능)에서 LLM이 상태 전이를 얼마나 잘 포착하는지 평가합니다. 실험 결과, 상태 공간 크기와 희소 전이가 증가함에 따라 다음 상태 예측 정확도가 저하되는 것을 발견했습니다. GPT-2 XL은 저 복잡도 설정에서 약 70%의 정확도를 달성하지만, 상자 수 또는 상태 수가 각각 5 또는 10를 초과하면 30% 미만으로 떨어집니다. DFA 작업에서 Pythia-1B는 상태 수가 10보다 크고 전이가 30보다 작을 때 50% 정확도를 넘지 못했습니다. 활성화 패치를 통해 상태 정보를 전파하는 데 책임이 있는 어텐션 헤드(GPT-2 XL Layer 22 Head 20, Pythia-1B Layers 10, 11, 12, 14의 헤드)를 식별했습니다. 이러한 헤드는 관련 상태 특징을 성공적으로 이동시키지만, 액션 정보는 최종 토큰으로 안정적으로 라우팅되지 않아 약한 상태-액션 결합 추론을 나타냅니다. 연구 결과는 LLM의 상태 추적이 명시적인 기호 계산이 아닌 다음 토큰 헤드의 분산된 상호 작용에서 발생한다는 것을 시사합니다.

시사점, 한계점

시사점:
LLM의 상태 추적 능력은 상태 공간 크기와 전이 희소성에 크게 영향을 받는다.
LLM 내부에서 상태 정보 전파에 특정 어텐션 헤드가 중요한 역할을 한다.
LLM의 상태 추적은 분산된 처리 과정을 통해 이루어지며, 명시적인 기호적 계산에 의존하지 않는다.
상태 정보와 액션 정보의 결합 추론 능력이 제한적이다.
한계점:
평가에 사용된 세 가지 도메인이 LLM의 상태 추적 능력을 포괄적으로 평가하기에 충분하지 않을 수 있다.
더욱 복잡하고 다양한 상태 전이 시스템에 대한 추가적인 연구가 필요하다.
상태 추적 메커니즘에 대한 더욱 심층적인 이해를 위해 추가적인 분석이 필요하다.
👍