최근 텍스트-이미지(T2I) 모델은 시각적으로 현실적이고 의미적으로 일관된 이미지를 생성하는 데 괄목할 만한 발전을 이루었지만, 특히 텍스트 설명이 모호하거나 구체적이지 않을 때 주어진 프롬프트와의 무작위성과 불일치성으로 여전히 어려움을 겪고 있다. 프롬프트 재작성, best-of-N 샘플링, 자체 개선과 같은 기존 접근 방식은 이러한 문제를 완화할 수 있지만 일반적으로 추가 모듈이 필요하고 독립적으로 작동하여 테스트 시간 확장 효율성을 저해하고 계산 오버헤드를 증가시킨다. 본 논문에서는 효율적인 테스트 시간 확장을 위해 단일 프레임워크 내에서 추론, 생성 및 자체 평가를 통합하는 학습이 필요 없는 통합된 멀티모달 에이전트인 ImAgent를 소개한다. 정책 컨트롤러의 안내를 받아 여러 생성 작업이 동적으로 상호 작용하고 자체적으로 조직화하여 외부 모델에 의존하지 않고 이미지 충실도와 의미적 정렬을 향상시킨다. 이미지 생성 및 편집 작업에 대한 광범위한 실험을 통해 ImAgent가 백본보다 일관되게 개선되고 백본 모델이 실패하는 경우에도 다른 강력한 기준선을 능가하여 테스트 시간 확장을 위한 통합 멀티모달 에이전트의 잠재력을 강조한다.