Cet article présente une nouvelle approche pour générer et résoudre des questions probabilistes complexes de niveau doctorat en exploitant plusieurs modèles linguistiques à grande échelle, dont GPT-4, Meta-LLAMA, Claude et Gemini. Au lieu des méthodes d'évaluation traditionnelles basées sur les bonnes réponses, nous évaluons la fiabilité des réponses et la qualité des questions en fonction du niveau de concordance entre les différents modèles. Nous analysons la concordance et la précision entre les modèles à l'aide d'évaluations statistiques telles que le test du khi-deux, le coefficient Kappa de Fleiss et le calcul d'intervalles de confiance. Notre analyse révèle que Claude et Gemini ont tendance à générer des questions plus claires et moins ambiguës, tandis que LLAMA génère des questions moins cohérentes. Cela suggère qu'une stratégie de collaboration multi-modèles est efficace pour améliorer la fiabilité des réponses et évaluer et améliorer la qualité des questions, même en l'absence de bonne réponse. Cette étude fournit des informations exploitables pour améliorer les processus d'inférence basés sur l'IA grâce à des interactions coordonnées entre des modèles linguistiques hétérogènes.