[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SeC: Avance en la segmentación de objetos de vídeo complejos mediante la construcción progresiva de conceptos

Created by
  • Haebom

Autor

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Describir

En este artículo, señalamos que las técnicas actuales de Segmentación de Objetos de Vídeo (VOS) se basan en la coincidencia de apariencia y son vulnerables a cambios visuales rápidos, oclusiones y cambios complejos de escena. Por ello, proponemos un marco de segmentación basado en conceptos: Segment Concept (SeC). SeC integra señales visuales en los fotogramas mediante modelos de lenguaje visual a gran escala (LVLM) y construye un potente análisis conceptual previo para generar una representación de alta dimensión centrada en el objeto. Durante el proceso de inferencia, SeC genera una representación semántica completa del objeto objetivo a partir de los fotogramas procesados, lo que permite una segmentación robusta de los fotogramas subsiguientes. Además, ajusta dinámicamente el equilibrio entre la inferencia semántica basada en LVLM y la coincidencia de características mejorada según la complejidad de la escena. Para evaluar rigurosamente los métodos VOS en escenarios que requieren inferencia conceptual de alta dimensión y una sólida comprensión semántica, presentamos un nuevo punto de referencia de segmentación de objetos de vídeo en escenarios semánticamente complejos (SeCVOS). SeCVOS consta de 160 vídeos multiescenario anotados manualmente, diseñados para desafiar a los modelos con cambios significativos de apariencia y transiciones dinámicas entre escenas. SeC establece un nuevo estado del arte en la segmentación de objetos de vídeo consciente del concepto, logrando un rendimiento 11,8 puntos mejor que SAM 2.1 en SeCVOS.

Takeaways, Limitations

Takeaways:
Proponemos un nuevo marco VOS (SeC) basado en la comprensión conceptual para superar la dependencia de la coincidencia de apariencia en las técnicas VOS existentes, que es Limitations.
Aprovechar modelos de visión y lenguaje a gran escala (LVLM) para integrar de manera efectiva señales visuales y generar antecedentes conceptuales poderosos.
Implementar un mecanismo adaptativo que ajuste dinámicamente los recursos computacionales en función de la complejidad de la escena.
Presentamos un nuevo punto de referencia (SeCVOS) que requiere un razonamiento conceptual de alto nivel y una sólida comprensión semántica.
Se logró un rendimiento que superó el mejor rendimiento anterior en 11,8 puntos en SeCVOS.
Limitations:
La escala del índice de referencia SeCVOS puede ser relativamente pequeña. Es necesario ampliarlo con más datos.
LVLM puede ser computacionalmente costoso y puede tener limitaciones para aplicaciones en tiempo real.
Las mejoras de rendimiento de SeC son específicas del índice de referencia SeCVOS y es posible que no garanticen el mismo nivel de mejoras de rendimiento en otros índices de referencia.
Tal vez se necesiten más investigaciones sobre métodos de evaluación cuantitativa de la capacidad de comprensión conceptual de los modelos.
👍