Este artículo presenta un enfoque novedoso para generar y resolver problemas probabilísticos complejos de nivel de doctorado sin una respuesta correcta, aprovechando múltiples modelos lingüísticos avanzados a gran escala, como GPT-4-0125-preview, Meta-LLAMA-3-70B-Instruct, Claude-3-Opus y Gemini-1.5-Flash. En lugar de basarnos en la respuesta correcta existente, nos centramos en evaluar la fiabilidad del resultado mediante el consenso entre varios modelos y reflejando la calidad de las preguntas generadas. Medimos la precisión de las respuestas y la claridad de la formulación de las preguntas mediante evaluaciones estadísticas como la prueba de chi-cuadrado, el coeficiente kappa de Fleiss y el cálculo del intervalo de confianza. Los resultados muestran que Claude y Gemini tienden a generar preguntas más consistentes e inequívocas, mientras que LLAMA muestra mayor variabilidad e inconsistencia. Esto sugiere que la estrategia de colaboración multimodelo no solo aumenta la fiabilidad de las respuestas, sino que también proporciona un mecanismo eficaz basado en datos para evaluar y mejorar la calidad de las preguntas cuando no existe una respuesta correcta. En última instancia, este estudio proporciona información práctica para mejorar los procesos de inferencia basados en IA a través de interacciones coordinadas entre modelos lingüísticos heterogéneos.