WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
Created by
Haebom
Category
Empty
저자
Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
개요
본 논문은 기존 텍스트-이미지(T2I) 모델 평가가 이미지 현실성과 단순한 텍스트-이미지 정합에 치중되어 복잡한 의미 이해와 세계 지식 통합을 제대로 평가하지 못하는 문제를 지적합니다. 이를 해결하기 위해 세계 지식 기반 의미 평가(WISE) 벤치마크를 제안합니다. WISE는 문화적 상식, 시공간 추론, 자연 과학 등 25개 하위 영역에 걸쳐 1000개의 정교하게 제작된 프롬프트를 사용하여 단순한 단어-픽셀 매핑을 넘어 모델의 능력을 평가합니다. 또한 기존 CLIP 지표의 한계를 극복하기 위해 지식-이미지 정합을 평가하는 새로운 정량적 지표인 WiScore를 제시합니다. 20개의 T2I 및 다중 모달 모델에 대한 포괄적인 실험 결과, 기존 모델들이 세계 지식을 효과적으로 통합하고 적용하는 데 상당한 한계가 있음을 밝히고 차세대 T2I 모델의 지식 통합 및 활용 향상을 위한 중요한 방향을 제시합니다. 코드와 데이터는 https://github.com/PKU-YuanGroup/WISE 에서 이용 가능합니다.