본 논문은 대규모 언어 모델(LLM)의 막대한 훈련 비용 문제를 해결하기 위해 패치 단위 훈련(patch-level training) 기법을 제시합니다. 여러 토큰을 하나의 정보 밀도가 높은 단위인 '패치'로 묶어 훈련의 기본 단위로 사용하는 방식입니다. 이를 통해 LLM은 더 짧은 패치 시퀀스를 처리하여 훈련 비용을 크게 줄일 수 있습니다. 일부 데이터는 토큰 단위 훈련을 통해 추론 모드와의 정합성을 유지합니다. 다양한 크기(3억 7천만~27억 파라미터)의 모델 실험 결과, 패치 단위 훈련은 훈련 비용을 최대 0.5배까지 절감하면서 성능 저하 없이 LLM을 훈련할 수 있음을 보여줍니다. 소스 코드는 공개되어 있습니다.