Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning

Created by
  • Haebom

저자

Jiaan Wang, Fandong Meng, Jie Zhou

개요

본 논문은 대규모 추론 모델(LRM)을 이용한 기계 번역(MT)의 성능 향상을 다룬다. 기존 연구들이 주로 영어와 중국어 등 고자원 언어에 집중한 것과 달리, 본 연구는 새로운 보상 모델링 방법을 제시하여 저자원 언어를 포함한 다국어 기계 번역 성능 향상에 성공한다. 새로운 보상 모델링은 정책 MT 모델의 번역 결과를 강력한 LRM(DeepSeek-R1-671B)과 비교하여 정량화된 보상을 제공한다. Qwen2.5-7B-Instruct 기반 모델을 통해 문학 번역에서 최첨단 성능을 달성하며, OpenAI-o1 및 DeepSeeK-R1 등 강력한 LRM을 능가한다. 더 나아가, 11개 언어로 다국어 설정을 확장하여 경량화된 보상 모델링을 통해 단일 방향의 강력한 MT 능력을 여러 번역 방향(90개)으로 전이시켜 인상적인 다국어 MT 성능을 달성한다.

시사점, 한계점

시사점:
새로운 보상 모델링 방법을 통해 기존 강화학습 기반 기계번역의 한계를 극복하고 성능을 향상시켰다.
저자원 언어를 포함한 다국어 기계 번역에서 최첨단 성능을 달성하였다.
경량화된 보상 모델링을 통해 단일 방향 학습을 다국어로 효과적으로 전이하는 방법을 제시하였다.
문학 번역과 같은 특수 영역에서도 우수한 성능을 보였다.
한계점:
제시된 방법의 효과가 특정 LRM (DeepSeek-R1-671B)에 의존적일 수 있다.
다국어 설정에서 사용된 11개 언어의 종류 및 특성이 구체적으로 제시되지 않아 일반화 가능성에 대한 추가 연구가 필요하다.
보상 모델링의 경량화 수준 및 그에 따른 성능 저하 가능성에 대한 더 자세한 분석이 필요하다.
👍