본 논문은 텍스트 기반 이미지 편집의 정확한 평가가 어려운 현실을 해결하기 위해, 텍스트와 원본 이미지를 함께 고려하는 텍스트 기반 이미지 편집 평가를 위한 벤치마크 (IE-Bench)를 제안한다. IE-Bench는 다양한 소스 이미지, 편집 프롬프트, 편집 결과물, 그리고 15명의 피험자로부터 얻은 4,000개에 가까운 MOS (Mean Opinion Scores) 샘플을 포함한다. 또한, 강화 학습 기반의 IE-Critic-R1을 도입하여 인간의 인지 능력에 더 잘 부합하는, 보다 포괄적이고 설명 가능한 품질 평가를 제공한다.