로그인

How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs

작성자
  • Haebom
카테고리
비어 있음

저자

Ran Zhang, Wei Zhao, Steffen Eger

개요

본 논문은 문학 번역 기계 번역(MT) 평가의 어려움을 다루며, 문학 번역 평가를 위한 새로운 자원인 LITEVAL-CORPUS를 소개한다. LITEVAL-CORPUS는 4개 언어 쌍에 걸쳐 2,000개 이상의 번역과 13,000개 이상의 평가 문장을 포함하는 단락 수준의 병렬 말뭉치로, 인간 번역과 9개의 MT 시스템 출력을 담고 있다. 이 말뭉치를 이용하여 다양한 복잡성 수준의 인간 평가 방식의 일관성과 적절성을 조사하고, 학생과 전문가의 평가를 비교하며, LLM 기반 지표와 LLM 자체의 효과를 평가한다. 연구 결과, 인간 평가의 적절성은 평가 방식의 복잡성과 평가자의 전문성에 따라 달라짐을 보여준다. 복잡한 평가 방식인 MQM은 문학 번역 평가에 부적절하며, 간단한 방식인 BWS가 인간 번역을 더 잘 식별한다. 자동 지표는 성능이 매우 낮았으며, 인간 번역이 LLM 번역보다 일관되게 우수함을 확인했다.

시사점, 한계점

시사점:
문학 번역 평가를 위한 새로운 대규모 병렬 말뭉치 LITEVAL-CORPUS를 제공한다.
인간 평가의 적절성에 영향을 미치는 요인으로 평가 방식의 복잡성과 평가자의 전문성을 제시한다.
기존의 비문학 MT 평가 방식(MQM)이 문학 번역 평가에는 부적절함을 보여준다.
간단한 평가 방식(BWS)이 문학 번역 평가에 더 적합함을 제시한다.
자동 지표의 문학 번역 평가 성능이 매우 낮음을 보여준다.
인간 번역이 최신 LLM 번역보다 우수함을 확인한다.
한계점:
LITEVAL-CORPUS에 포함된 언어 쌍과 MT 시스템의 수가 제한적일 수 있다.
인간 평가자의 주관성이 평가 결과에 영향을 미칠 수 있다.
더 다양한 유형의 문학 작품을 포함한 더 큰 규모의 말뭉치가 필요할 수 있다.
LLM의 발전 속도를 고려할 때, 본 연구 결과가 장기간 유효할지는 불확실하다.
👍