Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Low-Resource Minority Language Translation with LLMs and Retrieval-Augmented Generation for Cultural Nuances

Created by
  • Haebom

저자

Chen-Chi Chang, Chong-Fu Li, Chu-Hsuan Lee, Hung-Shin Lee

개요

저자들은 저자원 언어 번역의 과제를 해결하기 위해 대규모 언어 모델(LLM)과 검색 증강 생성(RAG)을 통합하는 연구를 수행했습니다. 하카어 번역에 다양한 모델 구성을 테스트한 결과, BLEU 점수는 사전만 사용한 경우 12%에서 RAG와 Gemini 2.0을 사용한 경우 31%까지 다양했습니다. 최고 성능 모델(Model 4)은 검색과 고급 언어 모델링을 결합하여 어휘 적용 범위, 특히 전문 용어나 문화적 뉘앙스가 있는 용어를 개선하고 문법적 일관성을 향상시켰습니다. 사전 출력을 Gemini 2.0으로 개선하는 2단계 방법(Model 3)은 26%의 BLEU 점수를 달성하여 반복적인 수정의 가치와 도메인 특정 표현의 어려움을 강조했습니다. 정적 사전 기반 접근 방식은 맥락에 민감한 콘텐츠에 어려움을 겪어 미리 정의된 리소스에만 의존하는 것의 한계를 보여주었습니다. 이러한 결과는 큐레이션된 리소스, 도메인 지식 및 지역 사회와의 윤리적 협업의 필요성을 강조하며, 문화 보존을 지원하면서 번역 정확도와 유창성을 향상시키는 프레임워크를 제공합니다.

시사점, 한계점

시사점:
RAG와 LLM을 결합한 접근 방식이 저자원 언어 번역의 정확도와 유창성을 향상시킬 수 있음을 보여줌.
2단계 번역 방법(사전 번역 후 LLM 수정)의 효용성을 확인.
전문 용어 및 문화적 뉘앙스가 있는 용어의 번역 정확도 향상에 기여.
문화 보존을 위한 윤리적 협업의 중요성 강조.
한계점:
도메인 특정 표현에 대한 번역 정확도 개선 필요.
정적 사전 기반 접근 방식의 한계를 확인. 맥락 정보 고려 중요성 부각.
BLEU 점수만으로는 번역 품질의 모든 측면을 완벽히 반영하지 못할 수 있음.
큐레이션된 리소스 및 도메인 지식의 부족이 성능 저하의 원인이 될 수 있음.
👍