[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Confianza entre el orquestador y el agente: un sistema de clasificación visual de IA con agencia modular, orquestación consciente de la confianza y razonamiento basado en RAG

Created by
  • Haebom

Autor

Konstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas

Describir

En este artículo, presentamos un marco confiable de clasificación visual de IA multiagente en el entorno de disparo cero. Basándonos en una arquitectura multiagente que combina visión y comprensión del lenguaje, integramos un agente multimodal general, un orquestador de inferencia no visual y un módulo de Generación Aumentada por Recuperación (RAG). Evaluamos tres entornos: disparo cero, agente ajustado y orquestación calibrada por confianza mediante bucles de recuperación y reevaluación de imágenes basados en CLIP, aplicándolos al diagnóstico de enfermedades de las hojas del manzano. Utilizando métricas de calibración de confianza (ECE, OCR, CCC), el orquestador ajusta la confianza entre agentes. Logramos una mejora de la precisión del 77,94 % en el entorno de disparo cero utilizando la orquestación basada en confianza y RAG, lo que resulta en una precisión general del 85,63 %. GPT-4o muestra una mejor calibración, mientras que Qwen-2.5-VL muestra exceso de confianza. Image RAG corrige el exceso de confianza del agente mediante reevaluaciones repetidas, generando predicciones basadas en casos visualmente similares. Implementamos una IA multiagente escalable e interpretable, separando la percepción (agente visual) y la metainferencia (orquestador). Es escalable a diagnósticos, biología y otros ámbitos de confianza crítica, y todos los materiales, incluido el código, son de código abierto en Github.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco para mejorar la confiabilidad de la IA multiagente en entornos de cero disparos.
Ajuste de confianza entre agentes y mejora de la precisión mediante la técnica de calibración de confianza (mejora del 77,94%).
Corrección del exceso de confianza del agente mediante bucles de recuperación de imágenes y reevaluación basados en RAG.
Construir sistemas escalables e interpretables separando la percepción y la metainferencia.
Sugiere una posible expansión a diversos campos (diagnóstico, biología, etc.).
Garantizar la reproducibilidad y la transparencia mediante la divulgación del código.
Limitations:
Se necesitan más investigaciones para determinar la generalización de los resultados a un diagnóstico de enfermedad específico (enfermedad de la hoja del manzano).
Es necesario un análisis en profundidad de las diferencias de rendimiento en función de las características de los modelos utilizados (GPT-4o, Qwen-2.5-VL).
Se necesita una evaluación del desempeño en conjuntos de datos y entornos más diversos.
Se necesita un análisis adicional que utilice indicadores de evaluación distintos del indicador de calibración de confianza.
👍