대규모 언어 모델(LLM) 훈련의 효율성을 최적화하는 것은 중요한 과제이며, 특히 계산 비용을 유지하면서 모델 성능을 향상시키는 것이 중요합니다. 이 연구는 기존의 다음 토큰 예측(NTP) 방식을 사용하여 LLM을 훈련하는 것에 이의를 제기하며, 훈련 중에 정보가 풍부한 토큰을 예측함으로써 LLM을 훈련하는 더 효과적인 방법이 있다고 주장합니다. 우리는 제안된 솔루션이 산술, 텍스트의 다중 레이블 분류, 자연어 생성의 세 가지 LLM 작업에 미치는 영향을 조사합니다. 이 연구는 LLM 훈련을 최적화하는 원칙적인 접근 방식을 제시하며, 모델 성능과 대상 토큰 선택 전략에 대한 이론적 이해를 모두 발전시킵니다.