Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages

Created by
  • Haebom

저자

Raphael Merx, Hanna Suominen, Trevor Cohn, Ekaterina Vylomova

개요

본 논문은 저자원 언어의 의료 분야 기계 번역(MT) 평가 데이터셋의 부족을 해결하기 위해 세계보건기구(WHO)의 e-러닝 플랫폼에서 추출한 2,978개 문서, 26,824개 문장으로 구성된 OpenWHO라는 문서 수준 병렬 말뭉치를 소개합니다. OpenWHO는 20개 이상의 다양한 언어를 포함하며, 그 중 9개는 저자원 언어입니다. 본 논문에서는 이 새로운 자원을 활용하여 최신 대규모 언어 모델(LLM)과 기존 MT 모델을 평가합니다. 평가 결과, LLM이 기존 MT 모델보다 일관되게 우수한 성능을 보였으며, 특히 저자원 언어 테스트 세트에서 Gemini 2.5 Flash가 NLLB-54B보다 4.79 ChrF 점 향상된 성능을 보였습니다. 또한, LLM의 컨텍스트 활용이 정확도에 미치는 영향을 조사하여 문서 수준 번역의 이점이 의료와 같은 전문 분야에서 더욱 두드러짐을 확인했습니다. 마지막으로, 저자원 언어 의료 분야 MT 연구를 장려하기 위해 OpenWHO 말뭉치를 공개합니다.

시사점, 한계점

시사점:
저자원 언어 의료 분야 기계 번역을 위한 새로운 고품질 병렬 말뭉치 OpenWHO를 제공합니다.
LLM이 기존 MT 모델보다 저자원 언어 의료 분야 번역에서 뛰어난 성능을 보임을 실험적으로 증명합니다.
문서 수준 번역의 이점이 전문 분야, 특히 의료 분야에서 더욱 크다는 것을 보여줍니다.
OpenWHO 말뭉치 공개를 통해 저자원 언어 의료 분야 MT 연구 활성화에 기여합니다.
한계점:
OpenWHO 말뭉치의 규모가 다른 대규모 말뭉치에 비해 상대적으로 작을 수 있습니다.
평가에 사용된 LLM과 기존 MT 모델의 종류가 제한적일 수 있습니다.
의료 분야의 특수한 어휘 및 문법적 특징에 대한 심층적인 분석이 부족할 수 있습니다.
OpenWHO 말뭉치의 언어 다양성이 완벽하지 않을 수 있습니다.
👍