본 논문은 대규모 언어 모델(LLM)을 평가 도구로 활용하는 "LLM-as-a-Judge" 접근 방식의 한계를 지적하며, 생성 AI 출력물을 기능적 단편으로 분해하여 각 단편이 평가 기준과 관련된 수사적 기능을 해석하는 "기능적 분할(functional fragmentation)" 방법을 제안합니다. Evalet이라는 상호작용 시스템을 통해 여러 출력물에 걸친 단편 수준의 기능을 시각화하여 평가의 검토, 평가 및 비교를 지원합니다. 사용자 연구(N=10) 결과, 사용자들이 전체적인 점수를 검증하는 데 어려움을 겪었지만, 제안된 방법을 통해 평가 불일치를 48% 더 많이 식별하는 데 도움이 되었고, LLM 평가에 대한 신뢰를 조정하고 모델 출력물에서 더 실행 가능한 문제를 찾는 데 활용할 수 있음을 보여줍니다. 이는 LLM 평가를 정량적 점수에서 모델 동작에 대한 정성적이고 세분화된 분석으로 전환하는 것을 목표로 합니다.