Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment

Created by
  • Haebom

저자

Shuhao Han, Haotian Fan, Fangyuan Kong, Wenjie Liao, Chunle Guo, Chongyi Li, Radu Timofte, Liang Li, Tao Li, Junhui Cui, Yunqiu Wang, Yang Tai, Jingwei Sun, Jianhui Sun, Xinli Yue, Tianyi Wang, Huan Hou, Junda Lu, Xinyang Huang, Zitang Zhou, Zijian Zhang, Xuhui Zheng, Xuecheng Wu, Chong Peng, Xuezhi Cao, Trong-Hieu Nguyen-Mau, Minh-Hoang Le, Minh-Khoa Le-Phan, Duy-Nam Ly, Hai-Dang Nguyen, Minh-Triet Tran, Yukang Lin, Yan Hong, Chuanbiao Song, Siyuan Li, Jun Lan, Zhichao Zhang, Xinyue Li, Wei Sun, Zicheng Zhang, Yunhao Li, Xiaohong Liu, Guangtao Zhai, Zitong Xu, Huiyu Duan, Jiarui Wang, Guangji Ma, Liu Yang, Lu Liu, Qiang Hu, Xiongkuo Min, Zichuan Wang, Zhenchen Tang, Bo Peng, Jing Dong, Fengbin Guan, Zihao Yu, Yiting Lu, Wei Luo, Xin Li, Minhao Lin, Haofeng Chen, Xuanxuan He, Kele Xu, Qisheng Xu, Zijian Gao, Tianjiao Wan, Bo-Cheng Qiu, Chih-Chung Hsu, Chia-ming Lee, Yu-Fan Lin, Bo Yu, Zehao Wang, Da Mu, Mingxiu Chen, Junkang Fang, Huamei Sun, Wending Zhao, Zhiyu Wang, Wang Liu, Weikang Yu, Puhong Duan, Bin Sun, Xudong Kang, Shutao Li, Shuai He, Lingzhi Fu, Heng Cong, Rongyu Zhang, Jiarong He, Zhishan Qiao, Yongqing Huang, Zewen Chen, Zhe Pang, Juan Wang, Jian Guo, Zhizhuo Shao, Ziyu Feng, Bing Li, Weiming Hu, Hesong Li, Dehua Liu, Zeming Liu, Qingsong Xie, Ruichen Wang, Zhihao Li, Yuqi Liang, Jianqi Bi, Jun Luo, Junfeng Yang, Can Li, Jing Fu, Hongwei Xu, Mingrui Long, Lulin Tang

개요

NTIRE 2025 워크샵에서 개최된 텍스트-이미지 생성 모델 품질 평가 챌린지에 대한 논문입니다. 이 챌린지는 이미지-텍스트 정합성과 이미지 구조 왜곡 탐지를 평가하는 두 개의 트랙(정합 트랙과 구조 트랙)으로 구성됩니다. 정합 트랙은 약 40,000개의 AI 생성 이미지(AIGIs)를 포함하는 EvalMuse-40K 데이터셋을 사용하며, 구조 트랙은 구조적 왜곡 마스크가 포함된 10,000개의 AIGIs를 포함하는 EvalMuse-Structure 데이터셋을 사용합니다. 각 트랙은 개발 단계와 테스트 단계를 거쳐 다수의 참가자들이 모델을 제출하였고, 최종적으로 각 트랙별 상위 팀들의 결과가 발표되었습니다. 대부분의 제출 모델이 기준 모델보다 성능이 향상되었으며, 수상 모델들은 텍스트-이미지 생성 모델 품질 평가에서 우수한 예측 성능을 보였습니다.

시사점, 한계점

시사점:
텍스트-이미지 생성 모델의 품질 평가를 위한 새로운 벤치마크를 제시.
이미지-텍스트 정합성과 이미지 구조 왜곡 탐지라는 두 가지 중요한 측면을 포괄적으로 평가.
다양한 참가자들의 참여를 통해 텍스트-이미지 생성 모델의 발전에 기여.
우수한 성능을 보이는 새로운 모델 및 평가 방법 제시.
한계점:
논문에서 구체적인 우수 모델의 성능 향상 정도나 구체적인 방법론에 대한 자세한 설명 부족.
사용된 데이터셋의 한계점(예: 데이터셋의 편향성, 대표성 등)에 대한 논의 부족.
제시된 평가 지표의 한계점 및 개선 방향에 대한 논의 부족.
장기적인 관점에서 모델의 품질 평가 방안에 대한 고찰 부족.
👍