본 논문은 복합적인 장면 구성 능력을 평가하기 위한 새로운 벤치마크인 CompAlign과 평가 프레임워크인 CompQuest를 제시합니다. CompAlign은 숫자 및 3D 공간 관계와 다양한 속성 바인딩을 결합한 900개의 복잡한 다중 객체 이미지 생성 프롬프트로 구성되어 있으며, 특히 3개 이상의 객체와 복잡한 3D 공간 관계를 포함하는 생성 작업에 중점을 둡니다. CompQuest는 복잡한 프롬프트를 원자적 하위 질문으로 분해하여 생성된 이미지의 각 요소 정확성에 대한 이진 피드백을 제공함으로써 이미지와 프롬프트 간의 정렬을 정확하게 정량화합니다. 또한, CompQuest의 피드백을 선호도 신호로 사용하여 확산 모델의 구성 이미지 생성 능력을 향상시키는 정렬 프레임워크를 제안합니다. 9개의 T2I 모델 평가 결과, 복잡한 3D 공간 구성을 가진 구성 작업에서 모델의 어려움이 더 크고, 오픈소스 모델과 상용 모델 간에 성능 차이가 존재함을 보여줍니다. CompAlign을 사용한 모델 정렬에 대한 실증 연구는 복잡한 생성 작업에서 특히 구성 정확도가 크게 향상됨을 보여줍니다.