Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le raisonnement textuel libère les évaluateurs multimodaux à zéro coup

Created by
  • Haebom

Auteur

Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun

Contour

Cet article aborde les signaux de récompense générés par l'homme, qui jouent un rôle crucial dans l'alignement des modèles génératifs sur les préférences humaines. Les approches LLM-as-a-Judge, qui utilisent les LLM comme évaluateurs, réduisent considérablement le coût de l'annotation manuelle, mais nécessitent généralement des données d'apprentissage extensives spécifiques à chaque modalité et manquent de généralisabilité à diverses tâches multimodales. Dans cet article, nous proposons Flex-Judge, un modèle de jugement multimodal basé sur l'inférence, qui généralise de manière robuste à plusieurs modalités et formats d'évaluation en utilisant un minimum de données d'inférence textuelle. L'idée centrale est que les explications d'inférence textuelle structurées intègrent intrinsèquement des schémas de décision généralisables, permettant un transfert efficace vers des jugements multimodaux tels que les images et les vidéos. Les résultats expérimentaux démontrent que Flex-Judge atteint des performances compétitives, voire supérieures, par rapport aux API commerciales de pointe et aux évaluateurs multimodaux intensivement entraînés, malgré un entraînement avec beaucoup moins de données textuelles. Ce résultat est particulièrement pertinent pour des modalités telles que les molécules, où les référentiels d'évaluation complets font défaut, soulignant son intérêt pratique dans les domaines aux ressources limitées. Cette étude fait progresser de manière significative les modèles multimodaux évolutifs en tant que juge en présentant la supervision de texte basée sur l'inférence comme une alternative puissante et rentable aux approches existantes à forte intensité d'annotation.

Takeaways, Limitations_

Takeaways:
Nous présentons un modèle de jugement multimodal (Flex-Judge) qui se généralise à différentes modalités en utilisant un minimum de données textuelles.
Atteint des performances compétitives par rapport aux API commerciales existantes et aux évaluateurs multimodaux largement formés.
Il présente une grande utilité pratique dans les domaines où les ressources sont limitées (par exemple, la modalité moléculaire).
Démontrer l'efficacité de la supervision de texte basée sur l'inférence et contribuer au développement de modèles multimodaux évolutifs en tant que juge.
Limitations:
Une vérification supplémentaire des performances de généralisation du modèle proposé est nécessaire.
Des recherches supplémentaires sont nécessaires pour aborder les limites de la généralisabilité à travers différentes modalités et formats d’évaluation.
Biais potentiel des données pour des modalités spécifiques.
Dépendance des données textuelles basées sur l'inférence à la qualité et à la quantité.
👍