본 논문은 다국어 대량 요약(M2MS)에서 대규모 언어 모델(LLM)의 성능을 체계적으로 실험적으로 연구한 논문입니다. 기존의 8개 도메인 특화 데이터셋을 재구성하여 5개 도메인, 6개 언어에 걸쳐 47.8K개의 샘플을 포함하는 M2MS 데이터셋을 제시합니다. 이 데이터셋을 사용하여 18개의 LLM을 제로샷 방식과 지시어 튜닝 방식으로 벤치마킹하고, 미세 조정된 기존 모델과 비교 분석합니다. 실험 결과, 제로샷 LLM은 미세 조정된 기존 모델과 비슷한 성능을 보였으며, 지시어 튜닝을 거친 오픈소스 LLM은 제로샷 LLM(GPT-4 포함)을 능가하는 성능을 보였습니다. 하지만, 사람에 의한 평가 결과 LLM은 여전히 사실성 문제를 안고 있으며, 지시어 튜닝은 이 문제를 더욱 악화시킬 수 있음을 보였습니다.