오늘날 최고의 텍스트-이미지 모델의 설계에는 근본적인 결함이 있습니다. 바로 논리적 구성을 처리할 수 없다는 점입니다. 이 설문조사에서는 세 가지 핵심 기본 요소인 부정, 계산, 공간 관계를 중심으로 이러한 실패를 조사합니다. 분석 결과, 단일 기본 요소에 정확한 모델이 이러한 요소가 결합될 때 급격하게 성능이 저하되어 심각한 간섭 현상이 나타났습니다. 우리는 이러한 실패를 세 가지 주요 요인으로 추적합니다. 첫째, 훈련 데이터는 명시적인 부정의 거의 완전한 부재를 보입니다. 둘째, 연속적인 어텐션 아키텍처는 이산 논리에 근본적으로 적합하지 않습니다. 셋째, 평가 지표는 제약 조건 만족보다 시각적 타당성에 더 큰 가치를 둡니다. 최근 벤치마크 및 방법을 분석하여 현재 솔루션과 단순한 스케일링으로는 이러한 격차를 해소할 수 없음을 보여줍니다. 진정한 구성 가능성을 달성하려면 기존 아키텍처에 대한 점진적인 조정이 아닌 표현 및 추론의 근본적인 발전이 필요하다고 결론 내립니다.