[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VisionThink : modèle de langage visuel intelligent et efficace via l'apprentissage par renforcement

Created by
  • Haebom

Auteur

Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia

Contour

Dans cet article, nous proposons VisionThink, une nouvelle méthode visant à améliorer l'efficacité des modèles de langage visuel (MLV) en réduisant le nombre de jetons d'image. Les MVV existants utilisent de nombreux jetons d'image beaucoup plus longs que les jetons de texte, mais la plupart des tâches pratiques n'en nécessitent pas un nombre aussi important. VisionThink commence par sous-échantillonner l'image et évalue si cela suffit à résoudre le problème. Dans le cas contraire, il génère un jeton spécial demandant une image haute résolution. Grâce à l'apprentissage par renforcement et à la stratégie LLM-as-Judge, cette méthode est appliquée aux tâches VQA générales. Des ratios de redimensionnement d'image stables et raisonnables sont obtenus grâce à des fonctions de récompense et des mécanismes de pénalité. Elle démontre une capacité de compréhension visuelle détaillée dans les tâches liées à l'OCR et réduit considérablement le nombre de jetons d'image dans les tâches simples.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’efficacité du VLM peut être considérablement améliorée en ajustant dynamiquement le nombre de jetons d’image.
Il présente une méthode plus efficace et plus flexible que les méthodes de compression de jetons fixes existantes.
Appliqué avec succès aux tâches générales de VQA en tirant parti de l'apprentissage par renforcement et de la stratégie LLM-as-Judge.
Il fonctionne bien dans les tâches liées à l'OCR et réduit efficacement le nombre de jetons dans les tâches simples.
La reproductibilité est assurée grâce à un code ouvert.
Limitations:
Des recherches supplémentaires pourraient être nécessaires sur les performances de généralisation de la méthode proposée.
Il peut y avoir une dégradation des performances pour certains types de tâches (par exemple, certaines tâches liées à l'OCR).
Une description détaillée du processus de formation à l’apprentissage par renforcement peut faire défaut.
👍