대규모 언어 모델(LLM)의 최근 연구는 자연어 처리(NLP) 분야에서 상당한 발전을 보여주었지만, 여전히 신뢰성이 부족하다는 문제점이 존재합니다. 이는 LLM의 확률적 구조 때문이며, 사용자가 모델 응답의 신뢰성을 확인하는 데 어려움을 초래합니다. 고위험 환경이나 산업 환경에서는 심각한 피해나 비용 손실을 야기할 수 있습니다. 본 논문에서는 여러 모델을 병렬로 질의하고, 응답을 점수 매기고 클러스터링하여 응답의 신뢰성을 높이는 데 중점을 둔 RECSIP(REpeated Clustering of Scores Improving the Precision) 프레임워크를 제시합니다. GPT-4o, Claude, Gemini 모델을 사용하여 MMLU-Pro 벤치마크에서 참조 구현 recsip을 평가한 결과, 최고 성능 모델 대비 5.8% 향상을 보였습니다.