Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Text-Only Reasoning Unleashes Zero-Shot Multimodal Evaluators

Created by
  • Haebom

作者

Jongwoo Ko、Sungnyun Kim、Sungwoo Cho、Se-Young Yun

概要

この論文は、人間の好みに合わせて生成モデルを整列させるのに重要な役割を果たす人間が生成した補償信号について説明します。 LLMを評価者として活用するLLM-as-a-Judge方式は、手動注釈のコストを大幅に削減しますが、一般に広範なモダリティ固有のトレーニングデータが必要であり、さまざまなマルチモーダリティタスクの一般化はうまくいきません。この論文では、最小限のテキスト推論データを活用して、複数のモダリティと評価形式に強く一般化できる推論ベースのマルチモダリティ判断モデルであるFlex-Judgeを提案します。構造化テキスト推論の説明は、一般化可能な意思決定パターンを暗黙的に含むことで、画像やビデオなどのマルチモダリティ判断で効果的な移行を可能にすることが重要なアイデアです。実験の結果、Flex-Judgeははるかに少ないテキストデータで訓練されたにもかかわらず、最先端の商用APIおよび広範に訓練されたマルチモダリティ評価者と比較して競争力のあるまたは優れたパフォーマンスを達成しました。特に、包括的な評価ベンチマークが不足している分子などのモダリティに幅広い影響を与え、リソース制約のある領域で実用的な価値を強調します。この研究は、推論ベースのテキスト監督を既存の注釈集約的アプローチに対する強力で費用対効果の高い代替手段として提示することによって、スケーラブルなマルチモダリティモデル-as-a-judgeを大いに発展させる。

Takeaways、Limitations

Takeaways:
最小限のテキストデータを使用して、さまざまなモダリティに一般化可能なマルチモダリティ判断モデル(Flex-Judge)を提示します。
従来の商用APIや広範に訓練されたマルチモダリティ評価者と比較して競争力のあるパフォーマンスを達成。
資源制約のある分野(例えば分子モダリティ)で高い実用性を示す。
推論ベースのテキスト監督の効率を実証し、スケーラブルなマルチモダリティモデル-As-a-judgeの開発に貢献。
Limitations:
提案されたモデルの一般化性能の追加検証が必要です。
様々なモダリティと評価形式の汎用性限界に関するさらなる研究が必要
特定のモダリティに対するデータ偏向の可能性
推論に基づくテキストデータの品質と量への依存性
👍