대규모 언어 모델(LLM) 훈련 시, 기존의 출력 레이어 파이프라인(hidden states를 linear transformation을 통해 vocabulary logits으로 투영 후, cross-entropy loss 계산)이 메모리 사용량 및 대역폭 소비가 크다는 문제점을 지적합니다. 본 연구는 출력 투영과 손실 예측을 단일 연산으로 통합하여 logits을 명시적으로 생성하지 않음으로써 메모리 사용량 및 대역폭 압박을 줄이는 새로운 접근 방식을 제안합니다. 제안된 방법은 LLM 훈련 실험을 통해 메모리 절감 및 속도 향상을 보였으며, 정확도를 유지하면서 큰 배치 크기와 긴 시퀀스 처리를 가능하게 합니다.