Understanding Generative AI Capabilities in Everyday Image Editing Tasks
Created by
Haebom
저자
Mohammad Reza Taesiri, Brandon Collins, Logan Bolton, Viet Dac Lai, Franck Dernoncourt, Trung Bui, Anh Totti Nguyen
개요
본 논문은 2013년부터 2025년까지 Reddit 커뮤니티의 8만 3천 건의 이미지 편집 요청과 30만 5천 건의 전문가 편집 결과를 분석하여 생성형 AI(GenAI) 기반 이미지 편집기의 개선 방향을 모색하는 연구이다. GPT-4o, Gemini-2.0-Flash, SeedEdit 등 최신 AI 편집기를 포함하여, 현재 AI 편집기가 사람의 요청을 충족하는 비율은 약 33%에 불과함을 밝혔다. 특히 AI는 정확한 편집이 필요한 창의성이 낮은 요청에 대해서는 성능이 저조하며, 사람이나 동물의 특징을 유지하는 데 어려움을 겪고 의도치 않은 수정을 자주 하는 것으로 나타났다. 반면, VLM 기반 평가 모델(예: o1)은 사람 심사자와는 다른 평가 기준을 가지고 있으며, AI 편집 결과를 사람 편집 결과보다 더 선호하는 경향을 보였다. 연구 데이터와 예시는 https://psrdataset.github.io 에서 확인 가능하다.