본 논문은 대규모 언어 모델(LLM)이 중요한 분야에 통합됨에 따라, 실시간 배포가 가능하고 중요한 의사 결정에 신뢰할 수 있는 평가 방법의 필요성에 주목한다. 인간 평가의 느리고 비용이 많이 드는 단점, 단일 LLM 평가자의 편향, 고정된 평가단의 적응성 부족 등의 한계를 극복하기 위해, 본 논문은 LLM Jury-on-Demand를 제안한다. 이는 확장 가능하고 상황 인지적인 평가를 위한 동적 학습 기반 프레임워크로, 토큰 분포, 임베딩, 구조적 입력 특징을 활용하여 LLM 평가자가 인간 전문가와 동의할 시기를 평가하는 신뢰도 예측기를 훈련한다. 이 방법은 각 데이터 포인트에 대해 가장 신뢰할 수 있는 평가자들로 구성된 최적의 평가단을 동적으로 선택하고, 신뢰도를 가중치로 사용하여 점수를 집계하는 완전 적응형 평가를 가능하게 한다. 요약 및 RAG 벤치마크 실험에서 동적 평가단 시스템이 단일 평가자 및 고정 평가단 기반보다 인간 판단과 유의미하게 더 높은 상관 관계를 달성함을 보여준다.