Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Art of Saying "Maybe": A Conformal Lens for Uncertainty Benchmarking in VLMs

Created by
  • Haebom

作者

Asif Azad, Mohammad Sadat Hossain, MD Sadik Hossain Shanto, M Saifur Ra​​hman, Md Rizwan Parvez

概要

本論文は、視覚言語モデル(VLM)の不確実性の定量化に関する包括的なベンチマーク研究を提示します。 16の最先端のVLM(オープンおよびクローズソース)を6つのマルチモードデータセットと3つの異なるスコアリング関数を使用して評価することで、モデルのサイズが大きいほど不確実性の定量化性能が向上することがわかります。より確実なモデルはより高い精度を達成しますが、数学と推論作業では、他の領域と比較してすべてのモデルで不確実性のパフォーマンスが低下しました。この研究は、マルチモードシステムで信頼できる不確実性評価の基礎を築きます。

Takeaways、Limitations

Takeaways:
VLMの不確実性の定量化に関する包括的なベンチマーク研究を初めて実施した。
モデルサイズと不確実性定量化性能との間の相関関係を解明。
さまざまな種類の作業による不確実性のパフォーマンスの違いを分析します。
マルチモードシステムの信頼性向上に寄与
Limitations:
評価に使用されるVLM、データセット、およびスコアリング関数の種類は限られている可能性があります。
特定の種類の不確実性のみを考慮した可能性。
実際のアプリケーションにおける一般化性能の検証が必要
👍