En este artículo, presentamos un marco confiable de clasificación visual de IA multiagente en el entorno de disparo cero. Basándonos en una arquitectura multiagente que combina visión y comprensión del lenguaje, integramos un agente multimodal general, un orquestador de inferencia no visual y un módulo de Generación Aumentada por Recuperación (RAG). Evaluamos tres entornos: disparo cero, agente ajustado y orquestación calibrada por confianza mediante bucles de recuperación y reevaluación de imágenes basados en CLIP, aplicándolos al diagnóstico de enfermedades de las hojas del manzano. Utilizando métricas de calibración de confianza (ECE, OCR, CCC), el orquestador ajusta la confianza entre agentes. Logramos una mejora de la precisión del 77,94 % en el entorno de disparo cero utilizando la orquestación basada en confianza y RAG, lo que resulta en una precisión general del 85,63 %. GPT-4o muestra una mejor calibración, mientras que Qwen-2.5-VL muestra exceso de confianza. Image RAG corrige el exceso de confianza del agente mediante reevaluaciones repetidas, generando predicciones basadas en casos visualmente similares. Implementamos una IA multiagente escalable e interpretable, separando la percepción (agente visual) y la metainferencia (orquestador). Es escalable a diagnósticos, biología y otros ámbitos de confianza crítica, y todos los materiales, incluido el código, son de código abierto en Github.