[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VisionThink: Modelo de lenguaje visual inteligente y eficiente mediante aprendizaje por refuerzo

Created by
  • Haebom

Autor

Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia

Describir

En este artículo, proponemos VisionThink, un novedoso método para mejorar la eficiencia de los modelos de visión-lenguaje (VLM) mediante la reducción del número de tokens de imagen. Los VLM existentes utilizan muchos tokens de imagen mucho más largos que los de texto, pero la mayoría de las tareas prácticas no requieren una cantidad tan grande de tokens. VisionThink comienza submuestreando la imagen y determina si es suficiente para resolver el problema. De no ser así, genera un token especial que solicita una imagen de alta resolución. Mediante aprendizaje por refuerzo y la estrategia LLM como juez, se aplica a tareas generales de VQA, logrando relaciones de redimensionamiento de imagen estables y razonables mediante funciones de recompensa y mecanismos de penalización. Demuestra una capacidad de comprensión visual detallada en tareas relacionadas con OCR y reduce considerablemente el número de tokens de imagen en tareas simples.

Takeaways, Limitations

Takeaways:
Demostramos que la eficiencia de VLM se puede mejorar significativamente ajustando dinámicamente la cantidad de tokens de imagen.
Presenta un método más efectivo y flexible que los métodos de compresión de tokens fijos existentes.
Se aplicó con éxito a tareas generales de VQA aprovechando el aprendizaje de refuerzo y la estrategia LLM-as-Judge.
Funciona bien en tareas relacionadas con OCR y reduce eficazmente la cantidad de tokens en tareas simples.
La reproducibilidad está garantizada mediante código abierto.
Limitations:
Tal vez se necesiten más investigaciones sobre el rendimiento de generalización del método propuesto.
Puede haber una degradación del rendimiento para ciertos tipos de tareas (por ejemplo, algunas tareas relacionadas con OCR).
Puede que falte una descripción detallada del proceso de entrenamiento en el aprendizaje de refuerzo.
👍