Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

UFEval: Unified Fine-grained Evaluation with Task and Aspect Generalization

Created by
  • Haebom

作者

Shibo Hong, Jiahao Ying, Haiyuan Liang, Mengdi Zhang, Jun Kuang, Jiazheng Zhang, Yixin Cao

概要

本論文は,大規模マルチモーダルモデルのオープン出力評価の難しさを解決するために,様々な作業と側面にわたる統合的な微粒子評価者UFEvalを提案した。 UFEvalは、自然言語生成、画像理解、画像生成、およびテキストと画像の交差生成など、4つのタスクにわたって112の細かい側面を含む階層的な側面分類スキームに基づいています。 64,000個のペア比較サンプルと325,000個の評価ラベルを含む微粒子評価データセットFRABenchを構築し、UFEvalを学習しました。実験の結果、特定の側面の学習が目に見えない側面への一般化を可能にし、さまざまなタスクと側面の共同学習が相互利益をもたらすことを示しています。

Takeaways、Limitations

Takeaways:
さまざまなタスクとモダリティを組み合わせた統合的で微細な粒子状のマルチモーダルモデル評価基準を提示します。
特定の側面学習を通して目に見えない側面への一般化の可能性を提示します。
様々なタスクと側面に対する共同学習の相乗効果の確認
大規模マルチモーダル、サイドレベル評価データセットFRABenchを提供。
Limitations:
FRABenchデータセットのヒトおよびGPT-4oアノテーションの信頼性と偏向の追加レビューが必要です。
提案されたUFEvalの性能が異なる評価方法論との比較分析が不足。
112の細かい側面分類システムの包括性と適切性に関するさらなる議論の必要性。
UFEvalの一般化能力に対するより広範な実験と分析の必要性
👍