Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Test-Time Reasoning Through Visual Human Preferences with VLMs and Soft Rewards

Created by
  • Haebom

作者

Alexander Gambashidze, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets

概要

この論文は、視覚言語モデル(VLM)が人間の視覚的好みをどのように効果的に捉えることができるかについての質問を取り上げます。 DeepSeek R1とOpenAI O1に触発された強化学習技術を使用して、テスト時に好みを考慮するためにVLMを訓練しました。 ImageRewardやHuman Preference Score v2(HPSv2)などのデータセットを使用して、ImageRewardテストセット(ImageReward公式分割データでトレーニング)で64.9%、HPSv2(データの約25%でトレーニング)で65.4%の精度を達成しました。これは、従来のエンコーダベースモデルと同様の性能を示し、透明な推論と改善された一般化能力を提供します。このアプローチにより、豊富なVLMの世界知識だけでなく、思考能力も活用して、意思決定プロセスに役立つ解釈可能な結果を​​得ることができます。この論文は、現在VLMが人間の視覚的好みを合理的に推論できることを示しており、単純な選択またはスコアリング方法よりも優れたパフォーマンスを持つ効率的なソフト補償戦略をイメージランク付けに導入します。この推論能力により、VLMはアスペクト比や複雑さに関係なく任意の画像をランク付けすることができ、視覚的な好みの最適化の効果を高めることができます。幅広いマークアップの必要性を減らし、補償の一般化と説明の可能性を向上させることによって、本研究結果は、テキスト画像モデルをさらに向上させる重要なマイルストーンになり得る。

Takeaways、Limitations

Takeaways:
強化学習は、VLMが人間の視覚的な好みを効果的に学習し推論できることを示しています。
既存モデルと同様の性能を維持しながら透明で解釈可能な結果を​​提供する新しいアプローチを提示
効率的なソフト補償戦略による画像ランク付け性能の向上
アスペクト比や複雑さに関係なく、さまざまな画像の順位付けが可能です。
視覚的好みの最適化の効率の向上
データマークアップの必要性の低減と補償の一般化と説明の可能性の向上
Limitations:
使用されたデータセットの規模と多様性に関する明確な言及の欠如。
64.9%と65.4%の精度が他の最先端モデルと比較してどれだけ優れているかについての具体的な比較分析の欠如。
提案された方法の一般化性能に関する追加の実験と分析の必要性
強化学習プロセスの計算コストと効率の評価不足
👍