FAGER: Factually Grounded Evaluation and Refinement of Text-to-Image Models

작성자

Haebom

카테고리

Empty

저자

Youngsun Lim, Cusuh Ham, Pin-Yu Chen, Deepti Ghadiyaram

💡 개요

기존 텍스트-이미지(T2I) 모델 평가 지표는 프롬프트에 명시적으로 언급된 정보와의 일치 여부만 주로 평가하여, 내재적이거나 외부적으로 근거해야 하는 사실적 요구사항을 포착하지 못하는 한계가 있습니다. 본 연구는 이러한 문제점을 해결하기 위해 FActually Grounded Evaluation and Refinement (FAGER)라는 에이전트 기반 프레임워크를 제안합니다. FAGER는 생성된 이미지가 프롬프트에 의해 암시되거나 근거된 시각적으로 검증 가능한 사실을 정확하게 반영하는지 평가하고, 개선을 위한 실행 가능한 피드백을 제공합니다.

🔑 시사점 및 한계

•

기존 T2I 평가 지표의 한계를 극복하고, 과학, 역사, 제품, 문화 등 다양한 분야에서 요구되는 암묵적이고 외부적으로 근거된 사실적 정확성을 효과적으로 평가할 수 있는 새로운 프레임워크를 제시합니다.

•

FAGER는 학습 없이도 T2I 모델의 출력 결과물을 개선하여 사실성 향상을 이끌어낼 수 있습니다.

•

FAGER의 평가 및 개선 성능을 객관적으로 검증하기 위한 새로운 "Factual A/B 테스트"를 제안하고, 이를 통해 기존 지표 대비 우수성을 입증했습니다.

•

FAGER의 평가 루브릭 생성 과정에서 LLM 기반 사실 제안과 참조 기반 시각적 사실 추출 및 검증을 결합하여 정확성을 높입니다.

•

향후 연구에서는 FAGER의 평가 루브릭 구축 과정의 효율성과 다양한 T2I 모델 및 도메인에 대한 일반화 성능을 더욱 향상시키는 방안을 고려할 수 있습니다.

PDF 보기

Made with Slashpage