Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing
Created by
Haebom
Category
Empty
저자
Yoonjeon Kim, Soohyun Ryu, Yeonsung Jung, Hyunkoo Lee, Joowon Kim, June Yong Yang, Jaeryong Hwang, Eunho Yang
개요
본 논문은 텍스트 기반 이미지 편집의 성능 평가를 위한 새로운 지표 AugCLIP을 제안합니다. 기존 지표들이 소스 이미지와 타겟 텍스트의 상관관계를 고려하지 않고 일률적으로 평가하거나, 수정 측면에 치우쳐 평가하는 문제점을 지적합니다. AugCLIP은 다중 모달 대규모 언어 모델을 활용하여 이상적인 편집 이미지의 CLIP 표현을 유추하고, 소스 이미지와 타겟 텍스트의 속성을 구분하는 초평면을 통해 수정 벡터를 계산함으로써 소스 이미지 보존과 타겟 텍스트 반영의 균형을 맞춥니다. 다양한 편집 시나리오를 포함하는 5개의 벤치마크 데이터셋에 대한 실험 결과, AugCLIP은 기존 지표보다 인간 평가 기준과 더 잘 일치하는 것으로 나타났습니다. 소스 코드는 https://github.com/augclip/augclip_eval 에서 확인할 수 있습니다.