본 논문은 대규모 언어 모델(LLM)을 다회차 추론 데이터셋에 미세 조정하는 과정에서, 추론 토큰의 가시성 제약으로 인해 대화당 N(회차 수)번의 별도 전달 과정이 필요하다는 문제를 해결하고자 제안된 연구입니다. 기존 방식에서는 각 회차의 추론 토큰이 이후 회차에서 버려지기 때문에 이러한 문제가 발생합니다. 본 논문에서는 응답 토큰을 복제하고 사용자 정의 어텐션 마스크를 사용하여 전체 대화를 단일 패스로 처리하는 방법을 제시합니다. 이 방법은 N-패스 방식과 동일한 손실을 생성하면서, 트랜스포머 기반 모델의 시간 복잡도를 O(N³)에서 O(N²)로 줄이고 메모리 복잡도는 동일하게 유지합니다. 결과적으로 정확도를 유지하면서 훈련 속도를 크게 향상시키는 것을 보여줍니다. 소스 코드는 공개적으로 제공됩니다.