본 논문은 다중 토큰 예측(MTP) 전이 학습 목표를 가진 언어 모델에 대한 연구이다. 기존의 다음 토큰 예측(NTP)과 달리, MTP는 여러 예측 헤드를 사용하여 다음 k개의 토큰을 예측한다. MTP는 특히 대규모 모델에서 하류 작업 성능, 추론 속도 및 훈련 효율성을 향상시키는 것으로 나타났지만, 소규모 언어 모델(SLM)에서는 어려움을 겪는다는 것이 밝혀졌다. 이를 해결하기 위해 본 논문에서는 MTP 훈련을 위한 커리큘럼 학습 전략을 제안한다. NTP에서 MTP로 점진적으로 복잡성을 높이는 순방향 커리큘럼과 그 반대의 역방향 커리큘럼 두 가지 변형을 탐구하며, 실험 결과 순방향 커리큘럼은 SLM이 MTP 목표를 더 잘 활용하여 하류 NTP 성능과 생성 출력 품질을 향상시키는 동시에 자기 예측 디코딩의 이점을 유지하는 것을 보여준다. 역방향 커리큘럼은 더 강력한 NTP 성능과 출력 품질을 달성하지만 자기 예측 디코딩의 이점은 제공하지 못한다.