Este artículo aborda las señales de recompensa generadas por humanos, que desempeñan un papel crucial en la alineación de los modelos generativos con las preferencias humanas. Los enfoques LLM como juez, que utilizan LLM como evaluadores, reducen significativamente el coste de la anotación manual, pero suelen requerir una gran cantidad de datos de entrenamiento específicos de cada modalidad y carecen de generalización en diversas tareas multimodales. En este artículo, proponemos Flex-Judge, un modelo de juicio multimodal basado en inferencia que se generaliza robustamente en múltiples modalidades y formatos de evaluación utilizando datos mínimos de inferencia de texto. La idea central es que las explicaciones de inferencia de texto estructurado incorporan inherentemente patrones de decisión generalizables, lo que permite una transferencia eficaz a juicios multimodales como imágenes y vídeos. Los resultados experimentales demuestran que Flex-Judge alcanza un rendimiento competitivo o superior en comparación con las API comerciales de vanguardia y los evaluadores multimodales con una amplia formación, a pesar de estar entrenados con una cantidad significativamente menor de datos de texto. Este hallazgo es especialmente relevante para modalidades como las moléculas, donde se carece de parámetros de evaluación exhaustivos, lo que destaca su valor práctico en dominios con recursos limitados. Este estudio hace avanzar significativamente los modelos multimodales escalables como juez al presentar la supervisión de texto basada en inferencias como una alternativa poderosa y rentable a los enfoques intensivos de anotación existentes.