M-Prometheus: A Suite of Open Multilingual LLM Judges
Created by
Haebom
Category
Empty
저자
Jose Pombal, Dongkeun Yoon, Patrick Fernandes, Ian Wu, Seungone Kim, Ricardo Rei, Graham Neubig, Andre F. T. Martins
개요
본 논문은 장문 텍스트 자동 평가에 언어 모델을 사용하는 방식(LLM-as-a-judge)이 널리 사용되지만, 대부분의 LLM 평가 모델이 영어에 최적화되어 있어, 다국어 평가 능력 향상 전략 연구가 미흡하다는 점을 지적한다. 이러한 격차를 해결하기 위해, 3B에서 14B 파라미터 크기의 오픈 가중치 LLM 평가 모델 M-Prometheus를 제안한다. M-Prometheus는 20개 이상의 언어를 아우르는 다국어 보상 벤치마크 및 4개 언어 쌍의 문학적 기계 번역 평가에서 최첨단 오픈 LLM 평가 모델을 능가한다. 또한, M-Prometheus 모델은 디코딩 단계에서 생성된 출력을 개선하는 데 활용될 수 있으며, 효과적인 다국어 평가 모델을 위한 핵심 요소를 밝힌다.