Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Retrieval-Augmented Machine Translation with Unstructured Knowledge

Created by
  • Haebom

저자

Jiaan Wang, Fandong Meng, Yingxue Zhang, Jie Zhou

개요

본 논문은 비정형 문서를 활용한 검색 증강 기계 번역(RAG-MT)을 연구합니다. 기존 연구들은 주로 쌍으로 이루어진 기계 번역 말뭉치나 지식 그래프에서 정보를 검색하여 LLMs의 성능을 향상시켰지만, 본 논문은 다양한 언어의 비정형 문서에 존재하는 방대한 세계 지식을 활용하는 데 초점을 맞춥니다. 이를 위해 연구진은 GPT-4와 인간 번역가를 통해 169,000개의 기계 번역 샘플과 다국어 문서로 구성된 새로운 벤치마크 RAGtrans를 구축했습니다. 또한, 추가적인 라벨링 없이 기존의 다국어 말뭉치를 활용하여 LLMs가 다국어 문서의 정보를 번역에 활용하도록 학습시키는 다중 작업 학습 방법을 제안합니다. 실험 결과, 제안된 방법은 영어-중국어 및 영어-독일어 번역에서 BLEU 및 COMET 점수를 상당히 향상시켰음을 보여줍니다. 마지막으로, 현재 LLMs가 이러한 작업에서 직면하는 어려움을 분석합니다.

시사점, 한계점

시사점:
비정형 문서를 활용한 RAG-MT의 가능성을 보여주는 새로운 벤치마크 RAGtrans 제시.
추가 라벨링 없이 다국어 문서 정보 활용을 위한 효과적인 다중 작업 학습 방법 제안.
영어-중국어 및 영어-독일어 번역에서 BLEU 및 COMET 점수의 상당한 향상.
현재 LLMs가 RAG-MT에서 직면하는 어려움에 대한 분석 제공.
한계점:
RAGtrans 벤치마크의 규모가 더욱 확장될 필요가 있음.
제안된 다중 작업 학습 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 언어 조합에 대한 실험이 제한적임.
LLMs가 RAG-MT에서 직면하는 어려움에 대한 더 자세한 분석이 필요함.
👍