Cet article aborde les signaux de récompense générés par l'homme, qui jouent un rôle crucial dans l'alignement des modèles génératifs sur les préférences humaines. Les approches existantes utilisant les LLM comme évaluateurs (LLM-as-a-Judge) réduisent considérablement le coût de l'annotation manuelle, mais nécessitent généralement des données d'apprentissage importantes spécifiques à chaque modalité et peinent à se généraliser efficacement à diverses tâches multimodales. Dans cet article, nous proposons Flex-Judge, un modèle de jugement multimodal basé sur l'inférence, qui généralise de manière robuste à plusieurs modalités et formats d'évaluation en utilisant un minimum de données d'inférence textuelle. L'idée centrale est que les explications d'inférence textuelle structurées incarnent intrinsèquement des schémas de décision généralisables, transposables efficacement aux jugements multimodaux tels que les images et les vidéos. Les résultats expérimentaux démontrent que Flex-Judge atteint des performances compétitives, voire supérieures, par rapport aux API commerciales de pointe et aux évaluateurs multimodaux entraînés de manière approfondie, malgré un entraînement avec beaucoup moins de données textuelles. Cette découverte a de vastes implications, notamment pour des modalités telles que les molécules, où les critères d'évaluation complets font défaut, soulignant son utilité pratique dans les domaines aux ressources limitées. Le cadre présenté dans cet article fait progresser considérablement les modèles multimodaux évolutifs en tant que juges en présentant la supervision de texte basée sur l'inférence comme une alternative puissante et rentable aux approches existantes, gourmandes en annotations.