Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

Created by
  • Haebom
Category
Empty

저자

Sai Koneru, Matthias Huck, Jan Niehues

개요

본 논문은 기존의 텍스트 기반 번역 LLM의 한계를 극복하고, 멀티모달 정보를 활용하여 더 나은 번역 성능을 제공하는 end-to-end 멀티모달 번역 시스템인 OmniFusion을 제안합니다. Omni 2.5-7B를 MMFM으로, SeedX PPO-7B를 번역 LLM으로 사용하여, 음성-텍스트, 음성-이미지-텍스트, 텍스트-이미지-텍스트 번역을 수행할 수 있도록 합니다. OmniFusion은 MMFM의 숨겨진 상태를 번역 LLM에 연결하는 새로운 융합 전략을 통해 end-to-end 방식으로 학습됩니다. 이를 통해 cascaded 파이프라인 대비 SimulST에서 1초의 지연 시간을 줄이고, 전반적인 번역 품질을 향상시켰습니다.

시사점, 한계점

시사점:
멀티모달 정보를 활용하여 번역 성능 향상 가능성 제시.
end-to-end 방식으로 멀티모달 번역 시스템 구축.
SimulST에서 지연 시간 감소 효과.
오디오 및 비주얼 입력 효과적으로 활용.
한계점:
특정 MMFM(Omni 2.5-7B)과 번역 LLM(SeedX PPO-7B)에 의존.
다른 MMFM 및 번역 LLM과의 호환성 및 일반화 성능 평가 필요.
모델의 복잡성 및 계산 비용 고려.
코드 및 실험 결과의 추가 분석 필요.
👍