Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Next-token pretraining implies in-context learning

Created by
  • Haebom

저자

Paul M. Riechers, Henry R. Bigelow, Eric A. Alt, Adam Shai

개요

본 논문은 인컨텍스트 학습(ICL)이 특이한 출현 현상이 아닌, 표준 자기 지도 학습 방식의 예측 가능한 결과임을 주장합니다. 특히 분포 내 ICL에 초점을 맞춰 토큰 시퀀스, 특히 비에르고딕 소스로부터 학습된 모델이 문맥에 적응하는 방식을 보여줌으로써 ICL 출현의 기본 원리를 확립합니다. 정보 이론적 프레임워크를 통해 분포 내 ICL 동역학(즉, 문맥 의존적 손실 감소)을 정확하게 예측하고, 상관 구조가 다른 합성 데이터셋을 사용한 실험을 통해 유도 헤드 형성의 위상 전이 및 문맥 내 손실의 거듭제곱 법칙 스케일링과 같은 특징적인 현상을 재현합니다. 또한 모델의 어떤 과제에 대한 문맥 내 성능이 사전 학습에서 관찰된 과제들의 집합과 수학적으로 결합되어 있음을 보여주어, 아키텍처 및 모달리티에 독립적인 원리를 기반으로 한 근본적인 설명을 제공합니다.

시사점, 한계점

시사점:
인컨텍스트 학습(ICL)이 자기 지도 학습의 자연스러운 결과임을 밝힘으로써 ICL의 기본 원리를 이해하는 데 기여합니다.
정보 이론적 프레임워크를 통해 ICL 동역학을 정확하게 예측할 수 있는 방법을 제시합니다.
모델의 문맥 내 성능과 사전 학습 데이터 간의 수학적 관계를 규명하여 ICL의 근본적인 메커니즘을 설명합니다.
아키텍처 및 모달리티에 독립적인 원리를 기반으로 ICL을 설명합니다.
한계점:
합성 데이터셋을 사용한 실험 결과이므로 실제 세계 데이터에 대한 일반화 가능성을 검증할 필요가 있습니다.
분포 내 ICL에만 초점을 맞추었으므로 분포 외 ICL에 대한 추가 연구가 필요합니다.
제시된 정보 이론적 프레임워크의 적용 범위와 한계에 대한 추가적인 분석이 필요합니다.
👍