Sign In

Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help

Created by
  • Haebom
Category
Empty

저자

Yuefan Cao, Xuyang Guo, Jiayan Huo, Yingyu Liang, Zhenmei Shi, Zhao Song, Jiahao Zhang, Zhen Zhuang

개요

본 논문은 텍스트-이미지 생성 분야에서 널리 사용되는 확산 모델이 사용자의 수량 제약을 제대로 준수하지 못하는 문제점을 다룹니다. 기존 연구들이 이 문제를 언급했지만, 체계적인 평가는 부족했습니다. 이에 연구진은 최첨단 텍스트-이미지 확산 모델의 수량 인식 능력을 엄격하게 평가하기 위한 새로운 벤치마크인 T2ICountBench를 제시합니다. T2ICountBench는 다양한 모델을 포함하고, 수량 성능을 다른 기능과 분리하여 평가하며, 난이도 수준을 구분하고, 인간 평가를 통해 신뢰성을 확보합니다. 실험 결과, 모든 최첨단 확산 모델이 객체 수를 정확하게 생성하지 못하며, 객체 수가 증가할수록 정확도가 크게 감소함을 보여줍니다. 또한 프롬프트 개선 연구를 통해 간단한 수정으로는 정확도가 향상되지 않음을 확인했습니다.

시사점, 한계점

시사점: 텍스트-이미지 확산 모델의 수량 인식 능력에 대한 체계적인 평가 및 벤치마크(T2ICountBench) 제공. 최첨단 모델의 수량 인식 능력의 한계를 명확히 제시. 향후 모델 개선을 위한 방향 제시.
한계점: T2ICountBench는 특정한 과제(수량 인식)에 초점을 맞춘 벤치마크이므로, 확산 모델의 다른 측면을 포괄적으로 평가하지 못함. 프롬프트 엔지니어링 외의 다른 개선 방법에 대한 탐구가 부족함.
👍