Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LIRA: Inferencia de segmentación en grandes modelos multimodales con asistencia de regiones intercaladas locales

Created by
  • Haebom

Autor

Zhang Li, Biao Yang, Qiang Liu, Shuo Zhang, Zhiyin Ma, Liang Yin, Linger Deng, Yabo Sun, Yuliang Liu, Xiang Bai

Describir

Este artículo propone LIRA, un nuevo marco para mejorar la precisión de los modelos multimodales a gran escala (LMM). Si bien los LMM destacan en segmentación y comprensión, presentan dos limitaciones: la segmentación imprecisa y la alucinación. LIRA supera estas limitaciones aprovechando la relación complementaria entre la comprensión visual y la segmentación. Su componente principal, el Extractor de Características Semánticas Mejoradas (SEFE), fusiona características semánticas y a nivel de píxel para mejorar la inferencia de atributos de objetos y permitir una segmentación más precisa. Otro componente, el Acoplamiento Visual Local Intercalado (ILVC), extrae características locales basadas en máscaras de segmentación y luego genera descripciones locales autorregresivamente, proporcionando una supervisión detallada para mitigar las alucinaciones. Para cuantificar la correlación entre la precisión de la segmentación de objetos y el posible significado asociado de los tokens, presentamos el conjunto de datos de Evaluación de Atributos (AttrEval). Los resultados experimentales muestran que LIRA logra un rendimiento de vanguardia tanto en tareas de segmentación como de comprensión.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo enfoque para abordar los problemas de segmentación inexacta y comprensión alucinatoria de los LMM.
Precisión de segmentación y capacidad de comprensión mejoradas con SEFE e ILVC.
Investigamos la correlación entre la precisión de la segmentación de objetos y los posibles significados relacionados y presentamos el conjunto de datos AttrEval.
Lograr un rendimiento de última generación en una variedad de tareas de segmentación y comprensión.
Limitations:
Se necesita una mayor validación de la escala y el rendimiento de generalización del conjunto de datos AttrEval presentado.
Las mejoras de rendimiento de LIRA pueden estar limitadas a conjuntos de datos o tareas específicos.
Es necesario analizar el coste computacional y la complejidad del marco LIRA.
👍