Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios

Created by
  • Haebom

作者

Yunkai Dang, Mengxi Gao, Yibo Yan, Xin Zou, Yanggan Gu, Jungang Li, Jingyu Wang, Peijie Jiang, Aiwei Liu, Jia Liu, Xuming Hu

概要

本論文は、マルチモーダル大規模言語モデル(MLLM)の誤りの脆弱性、特に誤った情報に対する応答不確実性の現象を探る。研究者は、9つの標準データセットと12の最先端のオープンソースMLLMを使用して、単一の誤解を招く手がかりが与えられたとき、以前に正解だった回答を覆す割合が65%に達することを明らかにした。これを定量的に分析するために、2段階評価パイプライン(元の応答確認と誤解を招く指示語注入後の誤り率測定)を提示し、誤り率の高い例をまとめて多モード不確実性ベンチマーク(MUB)を作製した。 12のオープンソースモデルと5つのクローズドソースモデルの広範な評価の結果、平均誤差率は86%を超え、明示的な手がかりの場合は67.19%、暗黙的な手がかりの場合は80.67%を超えました。最後に、オープンソースMLLMを2000のサンプルで構成された混合ディレクティブデータセットで微調整し、エラー率を大幅に減少させました(明示的な手がかりの場合は6.97%、暗黙の手がかりの場合は32.77%)。

Takeaways、Limitations

Takeaways:
MLLMの誤りの脆弱性と誤った情報に対する反応の不確実性を体系的に調べた。
MLLMの信頼性を向上させるための新しいベンチマーク(MUB)を提案しました。
微調整はMLLMの誤り率を大幅に低減できることを示した。
さまざまな種類の誤解を招く情報に対するMLLMの脆弱性を分析し、それを軽減する方法を提示することによって、実際のアプリケーションにおけるMLLMの安全性と信頼性の向上に貢献することができます。
Limitations:
現在、ベンチマークと微調整データセットは特定の種類のエラーに集中しており、他の種類のエラーの一般化の可能性は限られている可能性があります。
微調整後も暗黙的な手がかりに対する誤り率は依然としてかなり高い。
使用されたモデルはオープンソースに限定されており、商用モデルの一般化の可能性にはさらなる研究が必要です。
誤り率を減らすための微調整プロセスで使用されるデータセットのサイズが比較的小さいことを限界として指摘することができる。
👍