본 논문은 생성형 머신러닝 모델의 평가 방식에 대한 문제점을 지적하고, 이를 해결하기 위한 새로운 평가 프로토콜인 GrandJury를 제안한다. 기존의 정적인 벤치마크 방식 평가는 사용자의 동적인 요구나 변화하는 상황을 반영하지 못하고, 리더보드 점수 최적화에만 집중하는 경향이 있다는 점을 문제 삼는다. GrandJury는 시간 감쇠 집계, 완전한 추적성, 동적이고 투명한 작업 기준 설명 지원, 다중 평가자 인간 판단을 결합하여, 진화하는 합의를 포착하고 의견 불일치를 드러내는 다원적이고 책임 있는 평가를 가능하게 한다. 공개 소스 구현(grandjury PyPI 패키지)과 대규모 언어 모델(LLM) 추론 결과의 공개 컬렉션을 제공하여 GrandJury의 필요성과 방법을 보여준다. 이는 절대적인 기준 진실이 없는 머신러닝 결과를 평가할 때 AI 실무자에게 새로운 패러다임을 제공한다.