Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models

작성자

Haebom

카테고리

Empty

저자

Chengcheng Wang, Jianyuan Guo, Hongguang Li, Yuchuan Tian, Ying Nie, Chang Xu, Kai Han

💡 개요

본 논문은 대규모 비전-언어 모델(VLM)에서 발생하는 텍스트와 이미지 위치 정보의 잘못된 결합으로 인한 문제점을 해결하기 위해 Circle-RoPE를 제안합니다. Circle-RoPE는 이미지 토큰의 2D 좌표를 텍스트 위치 축에 직교하는 환형 공간으로 재매핑하여, 각 텍스트 토큰이 모든 이미지 토큰과 동일한 거리를 유지하면서도 이미지 내부의 공간 구조를 보존하는 원뿔 형태의 기하학적 구조를 생성합니다. 또한, Circle-RoPE의 분리된 기하학과 기존 RoPE의 그리드 기반 사전 정보를 레이어별로 교차 적용하는 AGE 기법을 도입하여, 교차 모달 위치 정보의 분리 및 이미지 내부의 세밀한 공간 구조 보존을 동시에 달성합니다.

🔑 시사점 및 한계

•

교차 모달 위치 정보 분리: Circle-RoPE는 텍스트와 이미지 토큰 간의 위치 정보를 효과적으로 분리하여, 기존 RoPE에서 발생할 수 있는 잘못된 상대적 위치 편향을 제거합니다.

•

기하학적 사전 정보의 활용: 환형 공간 재매핑과 교차 레이어 기하학적 정보 활용(AGE)을 통해, 모델은 공간적 이해 능력을 향상시키면서도 이미지 내부의 세밀한 공간 관계를 유지할 수 있습니다.

•

실험적 검증 및 성능 향상: 다양한 VLM 아키텍처와 벤치마크 데이터셋에서 Circle-RoPE와 AGE를 적용했을 때, 공간 접지(spatial grounding) 및 시각적 추론(visual reasoning) 성능이 일관적으로 향상됨을 입증했습니다.

PDF 보기

Made with Slashpage