Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning

Created by
  • Haebom

저자

Zhaopeng Feng, Yupu Liang, Shaosheng Cao, Jiayuan Su, Jiahan Ren, Zhe Xu, Yao Hu, Wenxuan Huang, Jian Wu, Zuozhu Liu

개요

본 논문은 이미지에 포함된 텍스트 콘텐츠를 번역하는 Text Image Machine Translation (TIMT) 문제를 다룬다. 기존의 TIMT는 OCR, 시각적 텍스트 추론, 번역 등 여러 단계의 파이프라인을 필요로 하는 복잡한 작업이었다. 본 연구는 다중 작업 강화 학습(Multi-Task RL)을 다중 모달 대규모 언어 모델(MLLM)에 적용하여 이 문제를 해결하는 최초의 프레임워크인 MT³를 제안한다. MT³는 텍스트 인식, 맥락 인식 추론, 번역 세 가지 하위 기술을 목표로 다중 작업 최적화 패러다임을 채택하며, 새로운 다중 혼합 보상 메커니즘을 사용하여 훈련된다. 또한, 실제 다문화 및 소셜 미디어 환경에서 TIMT 평가를 용이하게 하기 위해 최초의 소셜 미디어 TIMT 벤치마크인 XHSPost를 제시한다. 제안된 MT³-7B-Zero 모델은 최신 MIT-10M 벤치마크에서 최첨단 성능을 달성하며, Qwen2.5-VL-72B 및 InternVL2.5-78B와 같은 강력한 기준 모델을 여러 지표에서 상당한 차이로 능가한다. 더불어 분포 외 언어 쌍과 데이터셋에 대한 강력한 일반화 성능을 보여준다. 마지막으로 다중 작업 시너지, 강화 학습 초기화, 커리큘럼 설계, 보상 공식이 MLLM 기반 TIMT 발전에 어떻게 기여하는지 심층 분석한다.

시사점, 한계점

시사점:
다중 작업 강화 학습을 활용한 End-to-End TIMT 프레임워크 MT³ 제시
새로운 다중 혼합 보상 메커니즘을 통한 효과적인 학습 전략 제시
실제 소셜 미디어 데이터 기반 TIMT 벤치마크 XHSPost 공개
최첨단 성능 달성 및 다양한 데이터셋에 대한 우수한 일반화 성능 입증
다중 작업 시너지, 강화 학습 초기화, 커리큘럼 설계, 보상 공식의 중요성 분석
한계점:
XHSPost 벤치마크의 규모 및 다양성에 대한 추가적인 연구 필요
MT³의 성능 향상에 기여하는 요소들에 대한 더욱 심층적인 분석 필요
실제 응용 환경에서의 성능 및 안정성에 대한 추가적인 검증 필요
👍