Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LED: Detección de objetos de vocabulario abierto mejorado LLM sin generación de datos seleccionados por humanos

Created by
  • Haebom

Autor

Yang Zhou, Shiyu Zhao, Yuxiao Chen, Zhenting Wang, Can Jin y Dimitris N. Metaxas.

Describir

Los modelos de lenguaje a gran escala (LLM) entrenados con datos de visión y lenguaje a gran escala pueden mejorar la detección de objetos de vocabulario abierto (OVD) mediante datos de entrenamiento sintéticos. Sin embargo, las canalizaciones diseñadas manualmente suelen introducir sesgos y pueden sobreajustarse a indicaciones específicas. En este artículo, presentamos un método sistemático para mejorar la verdad fundamental visual aprovechando la capa decodificadora del LLM. Introducimos un adaptador de atención cruzada de inicialización cero que permite una fusión eficiente del conocimiento del LLM al detector de objetos, lo que da como resultado un enfoque novedoso denominado Detección de Objetos de Vocabulario Abierto Mejorada por LLM (LED). Observamos que las capas intermedias del LLM ya codifican semántica espacial rica, y que la mayor parte de la mejora del rendimiento se puede lograr aplicando solo las capas iniciales. Utilizando Swin-T como codificador de visión, Qwen2-0.5B + ​​LED mejora GroundingDINO en un 3,82 % en OmniLabel con solo un 8,7 % adicional en GFLOP. Con una estructura de visión más amplia, la mejora aumenta al 6,22 %. El diseño se valida aún más a través de extensos experimentos con deformación del adaptador, escala LLM y profundidad de fusión.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso (LED) que mejora eficazmente el rendimiento de detección de objetos de vocabulario abierto aprovechando la capa decodificadora de LLM.
Cómo abordar problemas de sesgo y sobreajuste en canalizaciones manuales.
Confirmamos que la capa intermedia de LLM contiene una rica semántica espacial.
Consiga mejoras de rendimiento significativas con un mínimo coste computacional adicional.
Demuestra aplicabilidad a varios tamaños de LLM y estructuras de visión.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Posibles dependencias de LLM específicos y de estructuras de visión.
Es necesaria una evaluación del rendimiento en otros conjuntos de datos OVD.
👍