본 논문은 생성 모델에서 신원 유지를 평가하는 새로운 프레임워크인 "Beyond the Pixels"를 소개합니다. 기존의 평가 방식이 세부적인 신원 변화를 포착하지 못하고 진단적 통찰력을 제공하지 못하는 문제를 해결하기 위해, 이 프레임워크는 신원 평가를 특징 수준의 변환으로 분해합니다. (1) 계층적으로 대상을 (유형, 스타일) -> 속성 -> 특징 결정 트리로 분해하고, (2) 추상적인 유사도 점수 대신 구체적인 변환에 대한 프롬프팅을 통해 VLM(Visual Language Model)을 안내합니다. 이 분해는 VLM 분석을 검증 가능한 시각적 증거에 기반하여 환각을 줄이고 일관성을 향상시킵니다. 네 개의 최첨단 생성 모델을 대상으로 프레임워크를 검증했으며, 신원 일관성 측정에서 인간의 판단과 강력한 일치를 보였습니다. 또한, 생성 모델을 스트레스 테스트하기 위해, 의인화 및 애니메이션 캐릭터와 같은 소외된 범주를 포함하는 1,078개의 이미지-프롬프트 쌍으로 구성된 새로운 벤치마크를 제시합니다.