[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs

Created by
  • Haebom

作者

Hao Wang, Pinzhi Huang, Jihan Yang, Saining Xie, Daisuke Kawahara

概要

本論文は、マルチモーダル大規模言語モデル(MLLM)の実際のアプリケーションでは、言語間、特に文化的知識の統合において一貫したパフォーマンスを達成することが困難であることを指摘しています。この問題を評価するために、15言語の文化的および歴史的な質問に焦点を当てたビジュアル質問応答ベンチマークであるKnowRecallと、画像アクセスなしでランドマークの外観を説明する9言語の視覚的記憶一貫性を評価するVisRecallという2つの新しいベンチマークを提示します。実験の結果、最先端のMLLMも言語間の一貫性を達成するのに苦労していることを示しており、真の多言語および文化的認識モデルを生成するより強力なアプローチの必要性を強調しています。

Takeaways、Limitations

Takeaways:多言語大規模言語モデルの言語間の一貫性と文化的知識の統合の重要性を強調し、それを評価するための新しいベンチマーク(KnowRecall、VisRecall)を提示します。最先端のMLLMの言語間の性能の違いを実験的に示し,今後の研究方向を提示する。
Limitations:提示されたベンチマークは特定の領域(文化的知識、視覚的記憶)に集中しており、MLLMの全体的な多言語能力を完全に評価できない可能性があります。ベンチマークに使用される言語の数と種類が制限されている可能性があり、特定の文化圏に偏る可能性があります。さらに、プロプライエタリモデルのパフォーマンスの詳細が不足している可能性があります。
👍