본 논문은 지시어 조정된 거대 언어 모델(LLM)의 문서 수준 번역(docMT) 능력을 조사합니다. 기존의 특수 기법이 필요한 접근 방식과 달리, 전체 문서를 한 번에 번역하도록 LLM에 직접 프롬프트하여 평가합니다. 실험 결과, 문장 단위 번역과 비교하여 번역 품질이 향상됨을 보였지만, BLEU 점수에는 이러한 이점이 반영되지 않았습니다. 따라서, GPT-4를 사용하여 문서의 일관성, 정확성, 유창성을 더욱 세밀하게 평가하는 LLM-as-a-judge 패러다임을 제안합니다. 결론적으로, 지시어 조정된 LLM은 문서 맥락을 효과적으로 활용하여 번역할 수 있음을 보여주지만, BLEU 점수는 문서 수준 번역 평가에 부적절함을 강조합니다.