Left-Right Symmetry Breaking in CLIP-style Vision-Language Models Trained on Synthetic Spatial-Relation Data

Author

Haebom

저자

Takaki Yamamoto, Chihiro Noguchi, Toshihiro Tanizawa

💡 개요

본 연구는 CLIP 스타일의 비전-언어 모델이 공간 관계, 특히 좌우 관계를 어떻게 학습하는지에 대한 근본적인 메커니즘을 탐구합니다. 1D 이미지-텍스트 테스트베드를 통해 모델이 좌우 관계를 학습하고, 일반화 능력에 영향을 미치는 요인을 분석했으며, 주의 메커니즘 분석을 통해 좌우 대칭성 파괴의 원인을 규명했습니다.

🔑 시사점 및 한계

•

CLIP 스타일 학습은 좌우 관계에 대한 이해를 형성하는 데 효과적이며, 특히 라벨 다양성이 일반화 능력에 더 큰 영향을 미칩니다.

•

모델 내부의 위치 임베딩과 토큰 임베딩 간 상호작용이 좌우 대칭성을 깨뜨리는 핵심 메커니즘으로 작용합니다.

•

본 연구는 1D 공간 관계에 국한되며, 실제 2D 또는 3D 공간에서의 복잡한 관계 학습에 대한 일반화 가능성은 추가 검증이 필요합니다.

PDF 보기

Made with Slashpage