본 논문은 GPT-4-0125-preview, Meta-LLaMA-3-70B-Instruct, Claude-3-Opus, Gemini-1.5-Flash 등 여러 대규모 언어 모델(LLM)을 활용하여 명확한 정답이 없는 복잡한 박사급 확률 문제에 대한 답변을 생성하고 응답하는 협업 프레임워크를 제시합니다. 모델 간의 합의를 통해 응답의 신뢰성을 높이고 생성된 질문의 질을 평가하는 방법을 탐구하며, 카이제곱 검정, Fleiss' Kappa, 신뢰구간 분석 등 통계적 방법을 사용하여 응답의 정확도와 질문의 명확성을 측정합니다. 실험 결과, Claude와 Gemini는 잘 구성되고 모호하지 않은 질문을 생성하여 모델 간 합의도가 높았고, 반대로 LLaMA는 질문 구성의 변동성이 크고 신뢰성이 낮았음을 보여줍니다. 이는 다중 모델 협업이 응답의 신뢰성을 높일 뿐만 아니라 명확한 정답이 없는 상황에서 질문의 질을 평가하고 개선하는 데 유용한 프레임워크를 제공함을 시사합니다.