Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?

Created by
  • Haebom

저자

Senyu Li, Jiayi Wang, Felermino D. M. A. Ali, Colin Cherry, Daniel Deutsch, Eleftheria Briakou, Rui Sousa-Silva, Henrique Lopes Cardoso, Pontus Stenetorp, David Ifeoluwa Adelani

개요

본 연구는 저자원 아프리카 언어에 대한 기계 번역(MT) 품질 평가의 어려움을 해결하기 위해, 14개의 아프리카 언어 쌍을 포함하는 대규모의 인간 주석이 달린 MT 평가 데이터 세트(SSA-MTE)를 소개합니다. SSA-MTE는 뉴스 도메인의 73,000개 이상의 문장 수준 주석을 포함하며, 이를 기반으로 향상된 참조 기반 및 참조 없는 평가 지표인 SSA-COMET 및 SSA-COMET-QE를 개발합니다. 또한 GPT-4o, Claude-3.7, Gemini 2.5 Pro와 같은 최첨단 LLM을 사용하여 프롬프트 기반 접근 방식을 벤치마킹합니다. 실험 결과, SSA-COMET 모델은 AfriCOMET보다 훨씬 우수한 성능을 보이며, 특히 Twi, Luo, Yoruba와 같은 저자원 언어에서 Gemini 2.5 Pro와 경쟁할 만한 결과를 보여줍니다. 연구에 사용된 모든 리소스는 오픈 라이선스로 공개됩니다.

시사점, 한계점

시사점:
대규모의 인간 주석 데이터 세트(SSA-MTE)를 구축하여 아프리카 언어 MT 평가 연구에 기여.
SSA-COMET 및 SSA-COMET-QE와 같은 향상된 평가 지표 개발.
GPT-4o, Claude-3.7, Gemini 2.5 Pro와 같은 LLM의 성능 벤치마킹 및 SSA-COMET과의 비교 분석.
Twi, Luo, Yoruba와 같은 저자원 언어에서 SSA-COMET의 뛰어난 성능 입증.
연구 결과에 대한 오픈 라이선스 제공을 통한 연구 활성화 기여.
한계점:
뉴스 도메인에 국한된 데이터.
LLM 기반 접근 방식의 성능이 여전히 최고 수준은 아님. (Gemini 2.5 Pro와 경쟁)
특정 LLM에 대한 의존성.
향후 더 많은 언어 쌍 및 도메인 확장이 필요.
👍