저자들은 저자원 언어 번역의 과제를 해결하기 위해 대규모 언어 모델(LLM)과 검색 증강 생성(RAG)을 통합하는 연구를 수행했습니다. 하카어 번역에 다양한 모델 구성을 테스트한 결과, BLEU 점수는 사전만 사용한 경우 12%에서 RAG와 Gemini 2.0을 사용한 경우 31%까지 다양했습니다. 최고 성능 모델(Model 4)은 검색과 고급 언어 모델링을 결합하여 어휘 적용 범위, 특히 전문 용어나 문화적 뉘앙스가 있는 용어를 개선하고 문법적 일관성을 향상시켰습니다. 사전 출력을 Gemini 2.0으로 개선하는 2단계 방법(Model 3)은 26%의 BLEU 점수를 달성하여 반복적인 수정의 가치와 도메인 특정 표현의 어려움을 강조했습니다. 정적 사전 기반 접근 방식은 맥락에 민감한 콘텐츠에 어려움을 겪어 미리 정의된 리소스에만 의존하는 것의 한계를 보여주었습니다. 이러한 결과는 큐레이션된 리소스, 도메인 지식 및 지역 사회와의 윤리적 협업의 필요성을 강조하며, 문화 보존을 지원하면서 번역 정확도와 유창성을 향상시키는 프레임워크를 제공합니다.