Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages

Created by
  • Haebom

저자

Minsu Kim, Jee-weon Jung, Hyeongseop Rha, Soumi Maiti, Siddhant Arora, Xuankai Chang, Shinji Watanabe, Yong Man Ro

개요

본 논문은 음성, 이미지, 텍스트 간의 다중 모달 정보를 공동으로 처리하는 새로운 삼중 모달 번역(TMT) 모델을 제안합니다. 다양한 모달리티를 서로 다른 언어로 해석하고, 다중 모달 번역을 기존의 기계 번역 문제로 취급하는 새로운 관점을 제시합니다. 음성 및 이미지 데이터를 이산 토큰으로 토큰화하여 모달리티 간 통합 인터페이스를 제공하고 계산 비용을 크게 줄입니다. TMT는 다중 모달 인코더-디코더를 중심으로 번역을 수행하며, 모달리티 특유의 처리는 토큰화 및 역토큰화 단계에서만 수행됩니다. 6가지 모달리티 번역 작업에 대한 평가 결과, TMT는 단일 모델보다 성능이 일관되게 우수하여 작업 통합이 실용성뿐 아니라 성능에도 유익함을 보여줍니다.

시사점, 한계점

시사점:
다중 모달 정보 공동 처리의 새로운 접근 방식 제시: 모달리티를 언어로 해석하는 기계 번역 관점 도입.
토큰화를 통한 계산 비용 감소 및 모달리티 간 통합 인터페이스 제공.
단일 모델 대비 우수한 성능으로 작업 통합의 효용성 증명.
한계점:
제시된 토큰화 방법의 일반성 및 다양한 데이터셋에 대한 적용성에 대한 추가 연구 필요.
특정 모달리티에 대한 편향성 존재 가능성 및 이에 대한 해결 방안 모색 필요.
다른 다중 모달 모델과의 더욱 포괄적인 비교 분석 필요.
👍