Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

Created by
  • Haebom

저자

Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

개요

AnyGPT는 음성, 텍스트, 이미지, 음악 등 다양한 모달리티를 통합 처리하기 위해 이산 표현을 활용하는 any-to-any 다중 모달리티 언어 모델입니다. 기존 대규모 언어 모델(LLM) 아키텍처나 훈련 방식을 변경하지 않고도 안정적으로 훈련될 수 있으며, 데이터 수준의 전처리만으로 새로운 모달리티를 LLM에 통합할 수 있습니다. 다중 모달리티 정렬 사전 훈련을 위한 텍스트 중심의 다중 모달리티 데이터셋을 구축하고, 생성 모델을 활용하여 다양한 모달리티를 복잡하게 엮은 108,000개의 샘플로 구성된 대규모 any-to-any 다중 모달리티 지시 데이터셋을 최초로 합성했습니다. 실험 결과, AnyGPT는 모든 모달리티에서 전문화된 모델과 비슷한 성능을 달성하면서 any-to-any 다중 모달리티 대화를 가능하게 함을 보여주었으며, 이산 표현이 언어 모델 내에서 여러 모달리티를 효과적이고 편리하게 통합할 수 있음을 증명했습니다. 데모는 https://junzhan2000.github.io/AnyGPT.github.io/ 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
기존 LLM 아키텍처 변경 없이 다양한 모달리티 통합 가능
데이터 전처리만으로 새로운 모달리티 추가 가능
이산 표현을 이용한 효과적이고 편리한 다중 모달리티 통합
모든 모달리티에서 전문화된 모델과 비슷한 성능 달성
대규모 any-to-any 다중 모달리티 지시 데이터셋 최초 구축
한계점:
논문에서 명시적으로 언급된 한계점은 없음. 추가적인 연구를 통해 성능 개선 및 한계 극복 필요성이 시사됨.
👍