Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PropVG: Fundamentación visual integral basada en propuestas con discriminación multigranular

Created by
  • Haebom

Autor

Ming Dai, Wenxuan Cheng, Jiedong Zhuang, Jiang-jiang Liu, Hongshen Zhao, Zhenhua Feng, Wankou Yang

Describir

Este artículo presenta el modelo PropVG, un modelo propuesto que supera las limitaciones de los métodos existentes que pasan por alto los beneficios de los objetivos latentes. Considerando las tendencias recientes en la investigación de base visual que utilizan un paradigma eficiente de referencia directa de extremo a extremo en lugar del ineficiente enfoque actual de dos pasos basado en propuestas, este artículo propone PropVG para superar las limitaciones de los métodos existentes que pasan por alto los beneficios de los objetivos latentes. PropVG es un marco integral basado en propuestas que integra a la perfección la generación de propuestas de objetos en primer plano y la comprensión de objetos de referencia sin necesidad de detectores adicionales. Mejora la discriminación de objetivos de granularidad múltiple mediante la introducción de un módulo de Puntuación de Referencia Basada en Contraste (CRS) que utiliza aprendizaje contrastivo a nivel de oración y palabra, y un módulo de Discriminación de Objetivos de Granularidad Múltiple (MTD) que mejora el reconocimiento de objetivos ausentes mediante la integración de información a nivel de objeto y semántico. Presentamos amplios resultados experimentales que demuestran la eficacia de PropVG en los puntos de referencia gRefCOCO, Ref-ZOM, R-RefCOCO y RefCOCO. El código y el modelo están disponibles públicamente en GitHub.

Takeaways, Limitations

Takeaways:
Abordamos las ineficiencias del enfoque tradicional de dos pasos a través de un marco basado en propuestas de extremo a extremo.
Integramos la generación de propuestas de objetos en primer plano y la comprensión de objetos de referencia sin detectores adicionales.
El módulo CRS mejora la capacidad de comprender y distinguir objetos de referencia a través del aprendizaje contrastivo a nivel de oración y palabra.
Se ha mejorado la tasa de reconocimiento de objetos ausentes fortaleciendo la función de clasificación de múltiples partículas a través del módulo MTD.
Ha demostrado un rendimiento excelente en varios puntos de referencia.
Limitations:
El Limitations presentado en este artículo no se menciona explícitamente. Experimentos o análisis adicionales podrían sugerir futuras líneas de investigación (p. ej., vulnerabilidad a tipos específicos de representaciones de referencia, rendimiento de generalización en diversos entornos visuales, etc.).
👍