TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages
Created by
Haebom
저자
Minsu Kim, Jee-weon Jung, Hyeongseop Rha, Soumi Maiti, Siddhant Arora, Xuankai Chang, Shinji Watanabe, Yong Man Ro
개요
본 논문은 음성, 이미지, 텍스트 간의 다중 모달 정보를 공동으로 처리하는 새로운 삼중 모달 번역(TMT) 모델을 제안합니다. 다양한 모달리티를 서로 다른 언어로 해석하고, 다중 모달 번역을 기존의 기계 번역 문제로 취급하는 새로운 관점을 제시합니다. 음성 및 이미지 데이터를 이산 토큰으로 토큰화하여 모달리티 간 통합 인터페이스를 제공하고 계산 비용을 크게 줄입니다. TMT는 다중 모달 인코더-디코더를 중심으로 번역을 수행하며, 모달리티 특유의 처리는 토큰화 및 역토큰화 단계에서만 수행됩니다. 6가지 모달리티 번역 작업에 대한 평가 결과, TMT는 단일 모델보다 성능이 일관되게 우수하여 작업 통합이 실용성뿐 아니라 성능에도 유익함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
다중 모달 정보 공동 처리의 새로운 접근 방식 제시: 모달리티를 언어로 해석하는 기계 번역 관점 도입.