この論文は、人間の好みに合わせて生成モデルを整列させるのに重要な役割を果たす人間が生成した補償信号について説明します。 LLMを評価者として活用するLLM-as-a-Judge方式は、手動注釈のコストを大幅に削減しますが、一般に広範なモダリティ固有のトレーニングデータが必要であり、さまざまなマルチモーダリティタスクの一般化はうまくいきません。この論文では、最小限のテキスト推論データを活用して、複数のモダリティと評価形式に強く一般化できる推論ベースのマルチモダリティ判断モデルであるFlex-Judgeを提案します。構造化テキスト推論の説明は、一般化可能な意思決定パターンを暗黙的に含むことで、画像やビデオなどのマルチモダリティ判断で効果的な移行を可能にすることが重要なアイデアです。実験の結果、Flex-Judgeははるかに少ないテキストデータで訓練されたにもかかわらず、最先端の商用APIおよび広範に訓練されたマルチモダリティ評価者と比較して競争力のあるまたは優れたパフォーマンスを達成しました。特に、包括的な評価ベンチマークが不足している分子などのモダリティに幅広い影響を与え、リソース制約のある領域で実用的な価値を強調します。この研究は、推論ベースのテキスト監督を既存の注釈集約的アプローチに対する強力で費用対効果の高い代替手段として提示することによって、スケーラブルなマルチモダリティモデル-as-a-judgeを大いに発展させる。