Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation

Created by
  • Haebom
Category
Empty

저자

Kaishen Wang, Ruibo Chen, Tong Zheng, Heng Huang

개요

최근 텍스트-이미지(T2I) 모델은 시각적으로 현실적이고 의미적으로 일관된 이미지를 생성하는 데 괄목할 만한 발전을 이루었지만, 특히 텍스트 설명이 모호하거나 구체적이지 않을 때 주어진 프롬프트와의 무작위성과 불일치성으로 여전히 어려움을 겪고 있다. 프롬프트 재작성, best-of-N 샘플링, 자체 개선과 같은 기존 접근 방식은 이러한 문제를 완화할 수 있지만 일반적으로 추가 모듈이 필요하고 독립적으로 작동하여 테스트 시간 확장 효율성을 저해하고 계산 오버헤드를 증가시킨다. 본 논문에서는 효율적인 테스트 시간 확장을 위해 단일 프레임워크 내에서 추론, 생성 및 자체 평가를 통합하는 학습이 필요 없는 통합된 멀티모달 에이전트인 ImAgent를 소개한다. 정책 컨트롤러의 안내를 받아 여러 생성 작업이 동적으로 상호 작용하고 자체적으로 조직화하여 외부 모델에 의존하지 않고 이미지 충실도와 의미적 정렬을 향상시킨다. 이미지 생성 및 편집 작업에 대한 광범위한 실험을 통해 ImAgent가 백본보다 일관되게 개선되고 백본 모델이 실패하는 경우에도 다른 강력한 기준선을 능가하여 테스트 시간 확장을 위한 통합 멀티모달 에이전트의 잠재력을 강조한다.

시사점, 한계점

ImAgent는 훈련 없이 단일 프레임워크 내에서 추론, 생성 및 자체 평가를 통합하여 테스트 시간 효율성을 높임.
정책 컨트롤러를 사용하여 여러 생성 작업을 동적으로 상호 작용시키고 자체 조직화하여 이미지 품질 향상.
이미지 생성 및 편집 작업에서 기존 방법론을 능가하는 성능 입증.
본 논문에서 구체적인 한계점에 대한 언급은 없음. (논문 내용 요약에 한계점 관련 내용 부재)
👍