Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Next-token pretraining implies in-context learning

Created by
  • Haebom

저자

Paul M. Riechers, Henry R. Bigelow, Eric A. Alt, Adam Shai

개요

본 논문은 인컨텍스트 학습(ICL)이 특별한 출현 현상이 아니라 표준 자기 지도 방식의 다음 토큰 예측 학습에서 예측 가능하게 발생한다고 주장합니다. 특히 비에르고딕 소스의 토큰 시퀀스를 학습할 때 모델이 맥락에 적응하는 방식을 보여주는 분포 내 ICL에 초점을 맞춰 이러한 출현의 기본 원리를 확립합니다. 정보 이론적 프레임워크를 사용하여 분포 내 ICL 역학(즉, 맥락 의존 손실 감소)을 정확하게 예측하고, 상관 구조가 다른 합성 데이터셋을 사용한 실험을 통해 유도 헤드 형성의 상전이 및 맥락 내 손실의 거듭제곱 법칙 스케일링과 같은 특징적인 현상을 재현합니다. 또한, 어떤 작업에 대한 모델의 맥락 내 성능이 사전 학습에서 본 작업들의 앙상블과 수학적으로 결합되어 있음을 보여줌으로써, 아키텍처 및 모달리티에 독립적인 원리를 바탕으로 이러한 추론 시간 학습에 대한 근본적인 설명을 제공합니다.

시사점, 한계점

시사점:
인컨텍스트 학습의 기본 원리를 밝힘으로써, ICL의 작동 메커니즘에 대한 이해를 심화시켰습니다.
정보 이론적 프레임워크를 통해 ICL 역학을 정확하게 예측할 수 있음을 보였습니다.
모델의 맥락 내 성능과 사전 학습 데이터 간의 수학적 관계를 규명했습니다.
아키텍처 및 모달리티에 독립적인 ICL의 근본적인 원리를 제시했습니다.
한계점:
합성 데이터셋을 사용한 실험 결과이므로, 실제 데이터셋에 대한 일반화 가능성을 추가적으로 검증할 필요가 있습니다.
분포 내 ICL에 초점을 맞추었으므로, 분포 외 ICL에 대한 설명은 부족합니다.
제시된 정보 이론적 프레임워크의 적용 범위와 한계에 대한 추가적인 분석이 필요합니다.
👍