Sign In

ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Created by
  • Haebom
Category
Empty

저자

Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang

개요

ARMOR은 기존의 다중 모달 대규모 언어 모델(MLLM)을 미세 조정하여 이해와 생성 모두를 달성하는 자원 효율적인 순수 자기 회귀 프레임워크입니다. 기존의 통합 모델(UniM)들이 많은 계산 자원을 필요로 하고 텍스트와 이미지를 섞어 생성하는 데 어려움을 겪는 것과 달리, ARMOR은 비대칭 인코더-디코더 아키텍처와 전환 메커니즘을 도입하여 텍스트와 이미지 모달리티를 통합된 임베딩 공간에서 처리하고, 정교하게 구성된 고품질의 텍스트-이미지 혼합 데이터셋과 "무엇을 어떻게 생성할지" 알고리즘을 통해 미세 조정을 수행합니다. 제한된 학습 자원으로도 기존 MLLM을 유망한 이미지 생성 능력을 가진 UniM으로 업그레이드하는 결과를 보여줍니다.

시사점, 한계점

시사점:
제한된 자원으로 기존 MLLM을 UniM으로 효율적으로 업그레이드할 수 있는 새로운 방법 제시.
텍스트와 이미지의 자연스러운 혼합 생성을 가능하게 하는 아키텍처와 알고리즘 제안.
고품질의 텍스트-이미지 혼합 데이터셋을 활용한 효과적인 미세 조정 전략 제시.
한계점:
현재 공개된 코드가 없음 (향후 공개 예정).
제안된 방법의 성능이 다른 최첨단 UniM과 비교 분석되지 않음.
사용된 데이터셋의 규모와 구성에 대한 자세한 설명 부족.
👍