본 논문은 기존의 텍스트 기반 번역 LLM의 한계를 극복하고, 멀티모달 정보를 활용하여 더 나은 번역 성능을 제공하는 end-to-end 멀티모달 번역 시스템인 OmniFusion을 제안합니다. Omni 2.5-7B를 MMFM으로, SeedX PPO-7B를 번역 LLM으로 사용하여, 음성-텍스트, 음성-이미지-텍스트, 텍스트-이미지-텍스트 번역을 수행할 수 있도록 합니다. OmniFusion은 MMFM의 숨겨진 상태를 번역 LLM에 연결하는 새로운 융합 전략을 통해 end-to-end 방식으로 학습됩니다. 이를 통해 cascaded 파이프라인 대비 SimulST에서 1초의 지연 시간을 줄이고, 전반적인 번역 품질을 향상시켰습니다.