본 논문은 소형 언어 모델(SLM)이 대형 언어 모델(LLM)에 비해 답변의 정확성을 판단하는 능력에 한계가 있음을 지적하며, SLM의 평가를 위한 새로운 평가 파이프라인인 JudgeBoard를 제안한다. JudgeBoard는 추가적인 답변 비교 없이 모델이 직접 답변의 정확성을 평가하도록 설계되었으며, 수학적 추론 및 과학/상식 추론 분야에 초점을 맞추어 5개의 벤치마크 데이터셋에서 정확도 기반 순위 및 Elo 기반 평점 시스템을 사용하여 모델 비교를 수행한다. 또한, 경량 모델의 판단 성능을 향상시키기 위해, 여러 SLM이 협력하여 LLM 수준의 판단 정확도를 근사하는 MAJ (Multi-Agent Judging) 프레임워크를 제안한다. 실험 결과는 SLM과 LLM 간의 판단 능력 격차를 보여주지만, MAJ 프레임워크는 SLM의 신뢰성과 일관성을 크게 향상시키며, 특히 MATH 데이터셋에서 MAJ는 더 작은 모델을 사용하면서도 더 큰 모델보다 더 나은 성능을 보여주기도 한다.