Cet article aborde les signaux de récompense générés par l'homme, qui jouent un rôle crucial dans l'alignement des modèles génératifs sur les préférences humaines. Les approches LLM-as-a-Judge, qui utilisent les LLM comme évaluateurs, réduisent considérablement le coût de l'annotation manuelle, mais nécessitent généralement des données d'apprentissage extensives spécifiques à chaque modalité et manquent de généralisabilité à diverses tâches multimodales. Dans cet article, nous proposons Flex-Judge, un modèle de jugement multimodal basé sur l'inférence, qui généralise de manière robuste à plusieurs modalités et formats d'évaluation en utilisant un minimum de données d'inférence textuelle. L'idée centrale est que les explications d'inférence textuelle structurées intègrent intrinsèquement des schémas de décision généralisables, permettant un transfert efficace vers des jugements multimodaux tels que les images et les vidéos. Les résultats expérimentaux démontrent que Flex-Judge atteint des performances compétitives, voire supérieures, par rapport aux API commerciales de pointe et aux évaluateurs multimodaux intensivement entraînés, malgré un entraînement avec beaucoup moins de données textuelles. Ce résultat est particulièrement pertinent pour des modalités telles que les molécules, où les référentiels d'évaluation complets font défaut, soulignant son intérêt pratique dans les domaines aux ressources limitées. Cette étude fait progresser de manière significative les modèles multimodaux évolutifs en tant que juge en présentant la supervision de texte basée sur l'inférence comme une alternative puissante et rentable aux approches existantes à forte intensité d'annotation.