Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM
Created by
Haebom
저자
Donghwan Chi, Hyomin Kim, Yoonjin Oh, Yongjin Kim, Donghoon Lee, Daejin Jo, Jongmin Kim, Junyeob Baek, Sungjin Ahn, Sungwoong Kim
개요
본 논문은 다중 모달 대규모 언어 모델(MLLMs)의 효율적인 이미지 토큰화 방법을 제시합니다. 기존 방법들이 전반적인 개념이나 균일하게 분할된 이미지 패치만을 포착하는 한계를 극복하기 위해, 슬롯 어텐션 기반의 객체 중심 시각 토크나이저를 제안합니다. Q-Former 인코더, 확산 디코더, 그리고 잔차 벡터 양자화를 기반으로 설계된 이 토크나이저는 국소적인 시각적 세부 정보와 고차원 의미를 모두 인코딩하고, 텍스트 데이터와의 통합을 원활하게 지원합니다. 실험 결과, 제안된 Slot-MLLM은 기존 시각 토크나이저 기반 모델들보다 다양한 시각-언어 작업에서 성능 향상을 보였으며, 특히 객체 수준의 세부적인 이해 및 생성이 필요한 작업에서 두드러지는 결과를 보였습니다. 이는 MLLMs과 실제 자연 이미지에서 객체 중심 슬롯 어텐션의 실현 가능성을 최초로 보여주는 연구입니다.
시사점, 한계점
•
시사점:
◦
객체 중심 슬롯 어텐션 기반의 새로운 시각 토크나이저를 제시하여 MLLMs의 시각적 이해 및 생성 능력 향상.