Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Raisonnement au moment du test grâce aux préférences visuelles humaines avec des VLM et des récompenses souples

Created by
  • Haebom

Auteur

Alexander Gambashidze, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets

Contour

Cet article aborde la question de l'efficacité des modèles de langage visuel (MLV) à capturer les préférences visuelles humaines. Grâce à des techniques d'apprentissage par renforcement inspirées de DeepSeek R1 et d'OpenAI O1, nous entraînons les MVV à prendre en compte les préférences lors des tests. Grâce à des jeux de données tels qu'ImageReward et Human Preference Score v2 (HPSv2), nous obtenons une précision de 64,9 % sur l'ensemble de test ImageReward (entraîné sur les données de fractionnement formel ImageReward) et de 65,4 % sur HPSv2 (entraîné sur environ 25 % des données). Ce résultat est comparable aux modèles conventionnels basés sur un encodeur, tout en offrant une inférence transparente et une capacité de généralisation améliorée. Cette approche nous permet d'exploiter non seulement la richesse des connaissances du monde des MVV, mais aussi leur capacité de raisonnement pour obtenir des résultats interprétables et faciliter la prise de décision. Dans cet article, nous démontrons que les MVV actuels peuvent raisonnablement déduire les préférences visuelles humaines et introduisons une stratégie de récompense douce efficace pour le classement des images, plus performante que les méthodes simples de sélection ou de notation. Cette capacité d'inférence permet aux VLM de classer des images arbitraires, indépendamment du rapport hauteur/largeur ou de la complexité, améliorant ainsi l'efficacité de l'optimisation des préférences visuelles. En réduisant le besoin de balisage important et en améliorant la généralisation et l'explicabilité des récompenses, nos résultats peuvent constituer une étape importante pour l'amélioration des modèles texte-image.

Takeaways, Limitations

Takeaways:
Nous démontrons que les VLM peuvent efficacement apprendre et déduire les préférences visuelles humaines en utilisant l’apprentissage par renforcement.
Nous présentons une nouvelle approche qui fournit des résultats transparents et interprétables tout en conservant des performances similaires aux modèles existants.
Améliorer les performances de classement des images grâce à une stratégie de récompense douce efficace.
Capacité à classer les images de n'importe quel rapport hauteur/largeur et complexité.
Efficacité accrue de l'optimisation des préférences visuelles.
Réduit le besoin de balisage des données et améliore la généralisation et l’explicabilité des récompenses.
Limitations:
Manque de mention claire de la taille et de la diversité de l’ensemble de données utilisé.
Manque d’analyse comparative spécifique sur la façon dont la précision de 64,9 % et 65,4 % se compare à d’autres modèles de pointe.
Des expériences et des analyses supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée.
Manque d’évaluation du coût informatique et de l’efficacité des processus d’apprentissage par renforcement.
👍