Este artículo presenta un enfoque novedoso para generar y resolver preguntas probabilísticas complejas de nivel de doctorado mediante el aprovechamiento de múltiples modelos de lenguaje a gran escala, incluyendo GPT-4, Meta-LLAMA, Claude y Gemini. En lugar de los métodos tradicionales de evaluación basados en respuestas correctas, evaluamos la fiabilidad de las respuestas y la calidad de las preguntas con base en el nivel de concordancia entre los diversos modelos. Analizamos la concordancia y la precisión entre los modelos utilizando evaluaciones estadísticas como la prueba de chi-cuadrado, el coeficiente Kappa de Fleiss y cálculos de intervalos de confianza. Nuestro análisis revela que Claude y Gemini tienden a generar preguntas más claras e inequívocas, mientras que LLAMA genera preguntas menos consistentes. Esto sugiere que una estrategia de colaboración multimodelo es efectiva para mejorar la fiabilidad de las respuestas y evaluar y mejorar la calidad de las preguntas incluso en situaciones donde no hay una respuesta correcta disponible. Este estudio proporciona información práctica para mejorar los procesos de inferencia basados en IA a través de interacciones coordinadas entre modelos de lenguaje heterogéneos.