본 논문은 대규모 언어 모델(LLM)의 벤치마크 성능과 실제 응용 간의 격차를 해소하기 위해 새로운 평가 지표 G-Pass@$k$를 제안합니다. 기존 평가 프로토콜 및 지표는 특히 정확성과 일관성이 모두 중요한 복잡한 추론 작업에서 LLM의 능력을 충분히 포착하지 못한다는 점을 지적하며, G-Pass@$k$는 여러 번의 샘플링 시도를 통해 모델의 성능 잠재력과 안정성을 정량적으로 평가합니다. 다양한 공개 및 새로 구성된 벤치마크에 대한 광범위한 실험을 통해 최첨단 LLM에 G-Pass@$k$를 적용하여 그 잠재적 능력과 작동 일관성에 대한 포괄적인 통찰력을 제공하며, 더욱 견고한 평가 지표의 필요성을 강조합니다.