본 논문은 instruction-tuned 대규모 언어 모델(LLM)의 문서 수준 번역(docMT) 능력을 조사합니다. 기존의 특수 기법을 필요로 하는 접근 방식과 달리, 전체 문서를 한 번에 번역하도록 LLM에 직접 프롬프트하여 평가합니다. 결과는 문장 단위 번역보다 번역 품질이 향상됨을 보여주지만, BLEU 점수에는 이러한 장점이 반영되지 않습니다. 따라서 GPT-4를 이용하여 문서의 일관성, 정확성, 유창성을 더욱 세밀하게 평가하는 LLM-as-a-judge 패러다임을 제안합니다. 본 연구는 instruction-tuned LLM이 문서 맥락을 효과적으로 활용하여 번역할 수 있음을 보여주지만, BLEU 점수는 문서 수준 번역의 질을 제대로 반영하지 못하므로 docMT 평가에는 적합하지 않다고 주장합니다.