본 논문은 통합 다중 모달 이해 및 생성 모델의 이미지 생성 능력 향상에도 불구하고, GPT-4와 같은 이해와 생성을 긴밀히 결합하는 시스템에 비해 지시 사항 따르기 및 세부 정보 보존에 큰 차이가 남아 있음을 지적합니다. 이에, 논문에서는 상호 작용 추론(interleaving reasoning)을 활용하여 텍스트-이미지(T2I) 생성을 개선하는 방법을 탐구합니다. 이를 위해, 텍스트 기반 사고와 이미지 합성을 번갈아 수행하는 상호 작용 추론 생성(IRG) 프레임워크를 제안합니다. IRG는 먼저 텍스트 기반 사고를 생성하여 초기 이미지를 생성하고, 그 결과를 반영하여 의미를 유지하면서 세부 정보, 시각적 품질 및 미적 요소를 개선합니다. 효과적인 IRG 훈련을 위해, 초기 사고 및 생성 단계 강화와 고품질 텍스트 반영 및 후속 이미지에서의 정확한 구현을 목표로 하는 상호 작용 추론 생성 학습(IRGL)을 제안합니다. 6가지 분해된 학습 모드로 구성된 IRGL-300K 데이터셋을 활용하여, 상호 작용 텍스트-이미지 출력을 생성하는 통합 기반 모델을 시작으로, 2단계 훈련을 통해 강력한 사고 및 반영 기능을 구축하고, 전체 사고-이미지 궤적 데이터에서 IRG 파이프라인을 효율적으로 조정합니다. 실험 결과, GenEval, WISE, TIIF, GenAI-Bench, OneIG-EN에서 5-10점의 절대적 성능 향상과 시각적 품질 및 세부 충실도의 상당한 개선을 보여줍니다. 코드, 모델 가중치 및 데이터셋은 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
상호 작용 추론을 활용한 새로운 T2I 생성 프레임워크(IRG) 제시 및 그 효과성 검증.
◦
GenEval, WISE, TIIF, GenAI-Bench, OneIG-EN 등 다양한 벤치마크에서 최첨단 성능 달성.