본 논문은 인간 선호도에 맞춰 생성 모델을 정렬하는 데 중요한 역할을 하는 인간이 생성한 보상 신호에 대해 다룹니다. LLM을 평가자로 활용하는 LLM-as-a-Judge 방식은 수동 주석 비용을 크게 줄이지만, 일반적으로 광범위한 모달리티 특정 훈련 데이터가 필요하며 다양한 다중 모달리티 작업에 대한 일반화가 잘 되지 않습니다. 이 논문에서는 최소한의 텍스트 추론 데이터를 활용하여 여러 모달리티와 평가 형식에 강력하게 일반화할 수 있는 추론 기반 다중 모달리티 판단 모델인 Flex-Judge를 제안합니다. 구조화된 텍스트 추론 설명은 일반화 가능한 의사 결정 패턴을 내재적으로 포함하여 이미지나 비디오와 같은 다중 모달리티 판단으로 효과적인 전이를 가능하게 한다는 것이 핵심 아이디어입니다. 실험 결과, Flex-Judge는 훨씬 적은 텍스트 데이터로 훈련되었음에도 불구하고 최첨단 상용 API 및 광범위하게 훈련된 다중 모달리티 평가자와 비교하여 경쟁력 있는 또는 우수한 성능을 달성했습니다. 특히, 포괄적인 평가 벤치마크가 부족한 분자와 같은 모달리티에서 폭넓은 영향을 미치며, 자원 제약이 있는 영역에서 실용적인 가치를 강조합니다. 본 연구는 추론 기반 텍스트 감독을 기존의 주석 집약적 접근 방식에 대한 강력하고 비용 효율적인 대안으로 제시하여 확장 가능한 다중 모달리티 모델-as-a-judge를 크게 발전시킵니다.