Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing

Created by
  • Haebom
Category
Empty

저자

Yoonjeon Kim, Soohyun Ryu, Yeonsung Jung, Hyunkoo Lee, Joowon Kim, June Yong Yang, Jaeryong Hwang, Eunho Yang

개요

본 논문은 텍스트 기반 이미지 편집의 성능 평가를 위한 새로운 지표 AugCLIP을 제안합니다. 기존 지표들이 소스 이미지와 타겟 텍스트의 상관관계를 고려하지 않고 일률적으로 평가하거나, 수정 측면에 치우쳐 평가하는 문제점을 지적합니다. AugCLIP은 다중 모달 대규모 언어 모델을 활용하여 이상적인 편집 이미지의 CLIP 표현을 유추하고, 소스 이미지와 타겟 텍스트의 속성을 구분하는 초평면을 통해 수정 벡터를 계산함으로써 소스 이미지 보존과 타겟 텍스트 반영의 균형을 맞춥니다. 다양한 편집 시나리오를 포함하는 5개의 벤치마크 데이터셋에 대한 실험 결과, AugCLIP은 기존 지표보다 인간 평가 기준과 더 잘 일치하는 것으로 나타났습니다. 소스 코드는 https://github.com/augclip/augclip_eval 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
텍스트 기반 이미지 편집의 성능 평가를 위한 새로운 지표 AugCLIP 제시
기존 지표의 한계점인 맥락 무시 및 수정 편향 문제 해결
다중 모달 대규모 언어 모델을 활용한 맥락 인식 평가 방식 제시
인간 평가 기준과의 높은 상관성 확인
다양한 편집 시나리오에 대한 폭넓은 실험 수행
한계점:
AugCLIP의 성능은 사용된 다중 모달 대규모 언어 모델의 성능에 의존적일 수 있음.
특정 유형의 이미지 편집 또는 텍스트 지시에 대해서는 성능이 저하될 가능성 존재.
인간 평가 기준과의 완벽한 일치는 어려울 수 있음.
다른 새로운 이미지 편집 모델의 등장에 따라 성능 평가의 재검토 필요성 존재.
👍