Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

작성자

Haebom

카테고리

Empty

저자

Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou

💡 개요

기존의 시각 토크나이저들은 사전 학습된 비전 인코더의 마지막 층 특징만을 사용하여 계층적 정보를 충분히 활용하지 못했습니다. 본 논문은 마지막 층에 희석되어 사라지는 저수준 시각적 디테일을 복원하기 위해 중간 층 특징들을 명시적으로 융합하는 DRoRAE (Depth-Routed Representation AutoEncoder)를 제안합니다. DRoRAE는 에너지 제약 라우팅과 점진적 보정을 통해 모든 인코더 층을 적응적으로 통합하여 디코더와 호환되는 풍부한 잠재 표현을 생성합니다.

🔑 시사점 및 한계

•

다층 특징 융합의 중요성: 기존 방식들이 놓치고 있던 중간 층의 풍부한 계층적 정보를 활용하여 시각적 재구성 및 생성 품질을 크게 향상시킬 수 있음을 입증했습니다.

•

새로운 스케일링 법칙 발견: 융합 능력과 재구성 품질 간의 로그 선형적 스케일링 법칙을 발견하여, NLP의 어휘 크기처럼 시각 토크나이저의 '표현 풍부함'이라는 예측 가능한 확장 차원을 제시했습니다.

•

한계점/향후 과제: 제안된 DRoRAE는 가볍지만, 융합 모듈 자체의 복잡성과 학습 전략의 세 단계 분할이 기존 방식에 비해 학습 과정을 다소 복잡하게 만들 수 있습니다. 또한, 제안된 스케일링 법칙이 모든 시각 토크나이저 모델에 일반화되는지에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage