Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CogGuide: Guía similar a la humana para razonamiento omnimodal de disparo cero

Created by
  • Haebom

Autor

Zhou-Peng Shou (NoDesk AI, Hangzhou, China, Universidad de Zhejiang, Hangzhou, China), Zhi-Qiang You (NoDesk AI, Hangzhou, China), Fang Wang (NoDesk AI, Hangzhou, China), Hai-Bo Liu (investigador independiente, Hangzhou, China)

Describir

Para abordar el problema de los atajos y la comprensión insuficiente del contexto en la inferencia intermodal compleja de modelos multimodales a gran escala, este artículo propone un componente de inferencia multimodal de tipo cero guiado por una estrategia cognitiva similar a la humana, centrada en el "bosquejo de intenciones". Este componente consiste en una secuencia de comandos lista para usar de tres módulos (receptor de intenciones, generador de estrategias y selector de estrategias) que configuran explícitamente el proceso cognitivo "comprender-planificar-seleccionar". Al generar y filtrar la estrategia de "bosquejo de intenciones" para guiar la inferencia final, la transferencia intermodal se logra únicamente mediante ingeniería contextual, eliminando la necesidad de ajustar parámetros. El análisis de la teoría de la información demuestra que este proceso puede suprimir atajos no deseados al reducir la entropía condicional y mejorar la eficiencia en el uso de la información. Experimentos en IntentBench, WorldSense y Daily-Omni validan la generalidad y el robusto rendimiento de este método. En comparación con cada línea base, el esquema completo de "tres módulos" logra una mejora de hasta aproximadamente un 9,51 % en varias combinaciones de motores de inferencia y canalización, lo que demuestra el valor práctico y la portabilidad del componente de inferencia de "boceto de intención" en escenarios de cero intentos.

Takeaways, Limitations

Takeaways:
Presentamos un enfoque novedoso para mejorar la precisión y la eficiencia de la inferencia multimodal en entornos de disparo cero.
Resolver eficazmente problemas de inferencia de atajos utilizando una estrategia cognitiva basada en el "bosquejo de intenciones".
Proporciona componentes modulares plug-and-play aplicables a varios motores de inferencia y canalizaciones.
La eficacia del método está respaldada teóricamente por el análisis de la teoría de la información.
Limitations:
Quizás falte una descripción detallada del proceso de creación y filtrado de "bocetos de intención".
El rendimiento de generalización puede ser limitado para ciertos tipos de datos multimodales o tareas de inferencia.
Los resultados experimentales pueden estar limitados a un conjunto de datos específico y puede ser necesaria más investigación para determinar su generalización a otros conjuntos de datos.
Tal vez falte análisis de la complejidad y el coste computacional del proceso de generación de "bocetos intencionales".
👍