Image-POSER는 텍스트-이미지 생성 분야의 발전된 단일 모델들이 창의적인 작업 흐름에서 사용되는 복잡한 프롬프트를 처리하는 데 어려움을 겪는 문제를 해결하기 위해 개발되었습니다. Image-POSER는 (i) 사전 훈련된 텍스트-이미지 및 이미지-이미지 전문가들의 다양한 레지스트리를 관리하고, (ii) 동적 작업 분해를 통해 긴 형식의 프롬프트를 종단간으로 처리하며, (iii) 시각-언어 모델 비평가로부터의 구조화된 피드백을 통해 각 단계에서 정렬을 감독하는 반사적 강화 학습 프레임워크입니다. Image-POSER는 이미지 합성 및 편집을 마르코프 결정 프로세스(Markov Decision Process)로 간주하여 모델 간의 강점을 적응적으로 결합하는 비트리비얼(non-trivial) 전문가 파이프라인을 학습합니다. 실험 결과는 Image-POSER가 정렬, 충실도 및 미학 측면에서 업계 표준 및 사용자 정의 벤치마크에서 최첨단 모델을 포함한 기본 모델보다 우수하며, 인간 평가에서 일관되게 선호됨을 보여줍니다.