본 논문은 복잡한 장면에서 텍스트-이미지 정렬 문제를 해결하는 데 초점을 맞춘 연구입니다. 기존 텍스트-이미지 생성 모델(T2I)은 여러 객체와 속성이 존재하는 복잡한 장면에서 텍스트와 이미지 간의 정렬 오류를 겪는 문제점을 가지고 있습니다. 이를 해결하기 위해 의미적 바인딩(semantic binding)이 제시되었으며, 생성된 속성과 객체를 해당 명사구(NPs)에 정확하게 연결하는 것을 목표로 합니다. 본 논문에서는 기존 방법들이 텍스트 또는 잠재 공간 최적화에 의존하는 것과 달리, 텍스트 토큰 임베딩의 기하학적 특성과 크로스 어텐션(CA) 맵 간의 관계를 분석합니다. 특히 토큰 임베딩의 각도 거리와 노름이 CA 맵의 차별화에 중요한 역할을 한다는 것을 실험적, 이론적으로 분석하고, 이를 바탕으로 훈련이 필요 없는 새로운 텍스트 임베딩 기반 T2I 프레임워크인 TeeMo를 제안합니다. TeeMo는 명사구 간 CA 맵을 명확하게 구분하는 Causality-Aware Projection-Out (CAPO)과 명사구 내 응집력을 유지하면서 명사구 간 분리를 강화하는 Adaptive Token Mixing (ATM) 및 손실 함수로 구성됩니다. 다양한 기준 모델과 데이터셋에 대한 광범위한 실험을 통해 TeeMo가 기존 방법들을 꾸준히 능가함을 확인했습니다.