본 논문은 대규모 다중 모달 모델(LMMs)의 텍스트-이미지 정렬 문제, 특히 구성적인 시나리오에서의 정확한 정렬 달성의 어려움을 다룹니다. 기존 접근 방식은 프롬프트 엔지니어링, 고비용의 수동 주석, 지속적인 업데이트에 크게 의존하여 유연성과 확장성이 제한됩니다. 이에 본 논문에서는 모델에 독립적인 반복적 자기 개선 프레임워크(SILMM)를 제시합니다. SILMM은 LMMs가 유용하고 확장 가능한 자기 피드백을 제공하고 직접 선호도 최적화(DPO)를 통해 텍스트-이미지 정렬을 최적화할 수 있도록 합니다. 이산적 시각 토큰을 중간 이미지 표현으로 사용하는 LMMs에는 DPO를 쉽게 적용할 수 있지만, 연속적 시각적 특징을 사용하는 LMMs에는 생성 확률을 얻는 것이 어렵기 때문에 적용이 어렵습니다. 따라서 연속적 특징을 가진 LMMs에 SILMM을 적용하기 위해 다양성 메커니즘과 커널 기반 연속 DPO를 제안합니다. 세 가지 구성적인 텍스트-이미지 생성 벤치마크에 대한 광범위한 실험을 통해 SILMM의 효과와 우수성을 검증하고, T2I-CompBench++에서 30% 이상, DPG-Bench에서 약 20%의 성능 향상을 보였습니다.