Sign In

Understanding In-Context Learning Beyond Transformers: An Investigation of State Space and Hybrid Architectures

Created by
  • Haebom
Category
Empty

저자

Shenran Wang, Timothy Tin-Long Tse, Jian Zhu

개요

본 논문은 최신 트랜스포머, 상태 공간, 그리고 하이브리드 대규모 언어 모델(LLM)에 대해 지식 기반 문맥 내 학습(ICL)을 심층적으로 평가합니다. 행동 탐구와 개입 기반 방법을 결합하여, 서로 다른 아키텍처의 LLM이 작업 수행 면에서 유사하게 행동할 수 있지만 내부 구조는 다를 수 있음을 발견했습니다. ICL에 관여하는 기능 벡터(FV)가 주로 자기-주의 및 Mamba 레이어에 위치하며, Mamba2는 FV와 다른 메커니즘을 사용하여 ICL을 수행할 것이라고 추측합니다. FV는 매개변수 지식 검색과 관련된 ICL에 더 중요하며, 문맥적 지식 이해에는 덜 중요합니다. 본 연구는 다양한 아키텍처 및 작업 유형에 대한 미묘한 이해를 제공하며, 행동 분석과 기계적 분석의 결합이 LLM 능력을 조사하는 데 중요함을 강조합니다.

시사점, 한계점

서로 다른 아키텍처의 LLM이 유사한 작업 수행 능력을 보일 수 있지만 내부 메커니즘은 다를 수 있습니다.
ICL을 수행하는 기능 벡터(FV)는 주로 자기-주의 및 Mamba 레이어에 위치합니다.
Mamba2는 FV와 다른 메커니즘을 사용하여 ICL을 수행할 가능성이 있습니다.
FV는 매개변수 지식 검색에 더 중요하며, 문맥적 지식 이해에는 덜 중요합니다.
행동 분석과 기계적 분석의 결합이 LLM 연구에 중요합니다.
제한점은, 특정 아키텍처와 작업 유형에 대한 분석에 국한될 수 있으며, 일반화 가능성에 대한 추가 연구가 필요할 수 있습니다.
👍