Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pre-Training Curriculum for Multi-Token Prediction in Language Models

Created by
  • Haebom

저자

Ansar Aynetdinov, Alan Akbik

개요

본 논문은 다중 토큰 예측(MTP) 전이 학습 목표를 가진 언어 모델에 대한 연구이다. 기존의 다음 토큰 예측(NTP)과 달리, MTP는 여러 예측 헤드를 사용하여 다음 k개의 토큰을 예측한다. MTP는 특히 대규모 모델에서 하류 작업 성능, 추론 속도 및 훈련 효율성을 향상시키는 것으로 나타났지만, 소규모 언어 모델(SLM)에서는 어려움을 겪는다는 것이 밝혀졌다. 이를 해결하기 위해 본 논문에서는 MTP 훈련을 위한 커리큘럼 학습 전략을 제안한다. NTP에서 MTP로 점진적으로 복잡성을 높이는 순방향 커리큘럼과 그 반대의 역방향 커리큘럼 두 가지 변형을 탐구하며, 실험 결과 순방향 커리큘럼은 SLM이 MTP 목표를 더 잘 활용하여 하류 NTP 성능과 생성 출력 품질을 향상시키는 동시에 자기 예측 디코딩의 이점을 유지하는 것을 보여준다. 역방향 커리큘럼은 더 강력한 NTP 성능과 출력 품질을 달성하지만 자기 예측 디코딩의 이점은 제공하지 못한다.

시사점, 한계점

시사점:
소규모 언어 모델에서 다중 토큰 예측(MTP)의 효과적인 활용 방안 제시 (커리큘럼 학습)
순방향 커리큘럼을 통해 MTP의 이점(하류 작업 성능 향상, 자기 예측 디코딩)을 소규모 모델에도 적용 가능성을 확인
역방향 커리큘럼을 통해 더 높은 성능 달성 가능성을 확인 (단, 자기 예측 디코딩 이점은 없음)
한계점:
제안된 커리큘럼 학습 전략의 효과가 소규모 모델에 국한될 가능성
역방향 커리큘럼은 성능 향상에는 기여하지만 자기 예측 디코딩의 이점을 상실
다양한 모델 구조 및 하류 작업에 대한 추가적인 실험이 필요
👍