Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Flex-Judge : le raisonnement textuel libère les évaluateurs multimodaux à zéro coup

Created by
  • Haebom

Auteur

Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun

Contour

Cet article aborde les signaux de récompense générés par l'homme, qui jouent un rôle crucial dans l'alignement des modèles génératifs sur les préférences humaines. Les approches existantes utilisant les LLM comme évaluateurs (LLM-as-a-Judge) réduisent considérablement le coût de l'annotation manuelle, mais nécessitent généralement des données d'apprentissage importantes spécifiques à chaque modalité et peinent à se généraliser efficacement à diverses tâches multimodales. Dans cet article, nous proposons Flex-Judge, un modèle de jugement multimodal basé sur l'inférence, qui généralise de manière robuste à plusieurs modalités et formats d'évaluation en utilisant un minimum de données d'inférence textuelle. L'idée centrale est que les explications d'inférence textuelle structurées incarnent intrinsèquement des schémas de décision généralisables, transposables efficacement aux jugements multimodaux tels que les images et les vidéos. Les résultats expérimentaux démontrent que Flex-Judge atteint des performances compétitives, voire supérieures, par rapport aux API commerciales de pointe et aux évaluateurs multimodaux entraînés de manière approfondie, malgré un entraînement avec beaucoup moins de données textuelles. Cette découverte a de vastes implications, notamment pour des modalités telles que les molécules, où les critères d'évaluation complets font défaut, soulignant son utilité pratique dans les domaines aux ressources limitées. Le cadre présenté dans cet article fait progresser considérablement les modèles multimodaux évolutifs en tant que juges en présentant la supervision de texte basée sur l'inférence comme une alternative puissante et rentable aux approches existantes, gourmandes en annotations.

Takeaways, Limitations

Takeaways:
Nous présentons un modèle d’évaluation multimodal qui se généralise bien à différentes modalités en utilisant un minimum de données textuelles.
Fournit une méthode d'évaluation de modèle multimodal plus efficace et plus rentable que les approches conventionnelles à forte intensité d'annotation.
Il a été démontré qu’il peut être utilisé efficacement même dans des domaines pauvres en ressources (par exemple, la modalité moléculaire).
Démontrer l’utilité de la supervision de texte basée sur l’inférence.
Limitations:
Les performances du modèle proposé peuvent être biaisées en faveur d'ensembles de données ou de tâches spécifiques (les Limitations spécifiques ne sont pas explicitement mentionnés dans le document).
Des recherches supplémentaires pourraient être nécessaires pour déterminer la transparence et l’interprétabilité du processus de raisonnement (une description détaillée du processus de raisonnement fait défaut).
👍