Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

Created by
  • Haebom
Category
Empty

저자

Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang

개요

전문 분야의 지식 전달 및 다국어 학술 커뮤니케이션에 필수적인 담화 수준 번역의 평가가 현재 부적절하다는 문제 의식을 바탕으로, 담화 수준 및 전문 분야 중국어-영어 번역을 위한 새로운 벤치마크인 DiscoX를 소개합니다. DiscoX는 7개 도메인에서 전문적으로 큐레이션된 200개의 텍스트로 구성되며, 평균 길이가 1700개 이상의 토큰입니다. DiscoX 성능 평가를 위해 정확성, 유창성, 적절성에 대한 세분화된 자동 평가를 제공하는 참조가 없는 시스템인 Metric-S를 개발했습니다. Metric-S는 기존 메트릭보다 우수한 성능을 보이며, 인간 판단과 높은 일관성을 보입니다. 실험 결과, 최첨단 LLM조차 이러한 작업에서 인간 전문가에 비해 현저한 성능 격차를 보였으며, 이는 DiscoX의 난이도를 입증하고 전문적인 기계 번역 달성에 남아있는 과제를 강조합니다. 제안된 벤치마크 및 평가 시스템은 보다 엄격한 평가를 위한 견고한 프레임워크를 제공하여 LLM 기반 번역의 발전을 촉진할 것입니다.

시사점, 한계점

시사점:
전문 분야 담화 수준 번역 평가를 위한 새로운 벤치마크 (DiscoX) 제시
자동 평가 시스템 Metric-S 개발 및 성능 우수성 입증
최첨단 LLM의 전문 분야 번역 성능 한계 확인
전문가 수준의 기계 번역 달성을 위한 도전 과제 제시
향후 LLM 기반 번역 연구 발전을 위한 기반 마련
한계점:
구체적인 LLM 모델명 및 비교 대상 부족
벤치마크 구성 텍스트의 도메인 제한 (7개)
Metric-S의 상세한 기술적 설명 부족
제안된 방법론의 일반화 가능성에 대한 추가 연구 필요
👍