본 논문은 GPT-4-0125-preview, Meta-LLAMA-3-70B-Instruct, Claude-3-Opus, Gemini-1.5-Flash 등 여러 고급 대규모 언어 모델을 활용하여 정답이 없는 복잡한 박사급 확률 문제를 생성하고 해결하는 새로운 접근 방식을 제시합니다. 기존의 정답에 의존하는 대신, 다양한 모델 간의 합의를 통해 출력의 신뢰성을 평가하고, 생성된 질문의 질을 반영하는 데 초점을 맞춥니다. 카이제곱 검정, Fleiss' Kappa 계수, 신뢰구간 계산 등의 통계적 평가를 통해 답변의 정확성과 질문 표현의 명확성을 측정합니다. 분석 결과, Claude와 Gemini는 더 일관되고 모호하지 않은 질문을 생성하는 경향이 있으며, LLAMA는 더 높은 변동성과 일관성 부족을 보입니다. 이는 다중 모델 협업 전략이 답변의 신뢰성을 높일 뿐만 아니라, 정답이 없는 경우 질문의 질을 평가하고 개선하는 효과적인 데이터 기반 메커니즘을 제공함을 시사합니다. 궁극적으로 이 연구는 이종 언어 모델 간의 조정된 상호 작용을 통해 AI 기반 추론 과정을 향상시키는 데 대한 실행 가능한 통찰력을 제공합니다.