Este artículo aborda las señales de recompensa generadas por humanos, que desempeñan un papel crucial en la alineación de los modelos generativos con las preferencias humanas. Los enfoques existentes que utilizan LLM como evaluadores (LLM como juez) reducen significativamente el coste de la anotación manual, pero suelen requerir una gran cantidad de datos de entrenamiento específicos de cada modalidad y presentan dificultades para generalizar adecuadamente en diversas tareas multimodales. En este artículo, proponemos Flex-Judge, un modelo de juicio multimodal basado en inferencia que se generaliza robustamente en múltiples modalidades y formatos de evaluación utilizando datos mínimos de inferencia de texto. La idea central es que las explicaciones de inferencia de texto estructurado incorporan inherentemente patrones de decisión generalizables, que pueden transferirse eficazmente a juicios multimodales como imágenes y vídeos. Los resultados experimentales demuestran que Flex-Judge alcanza un rendimiento competitivo o superior en comparación con las API comerciales de vanguardia y los evaluadores multimodales con un amplio entrenamiento, a pesar de estar entrenado con una cantidad significativamente menor de datos de texto. Este hallazgo tiene amplias implicaciones, en particular para modalidades como las moléculas, donde se carece de parámetros de evaluación exhaustivos, lo que resalta su valor práctico en dominios con recursos limitados. El marco presentado en este artículo supone un avance significativo en los modelos multimodales escalables, basados en la evaluación, al presentar la supervisión de texto basada en inferencia como una alternativa potente y rentable a los enfoques actuales que requieren una anotación intensiva.