Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models

Created by
  • Haebom

作者

Bram Willemsen, Gabriel Skantze

概要

この論文は、視覚的に基づいた会話から言語モデルを使用したディレクティブの抽出方法を探ります。特に、会話の視覚的文脈で(視覚的に認識可能な)参照対象を持つ言及を検出するために言語的文脈がどれだけ貢献するかを調査することを目的としています。あらかじめ訓練された大規模言語モデル(LLM)を適用して、次のトークン予測を介してテキスト内の言及区間の境界を区別することによって、会話内の言及区間の比較的粗雑な注釈を実行します。中間サイズのLLM、比較的小さなデータセット、およびパラメータの効率的な微調整を使用しても、テキストのみでアクセスする方法が効果的であることを示し、この操作に対する言語的文脈の相対的な重要性を強調します。しかし、これは本質的にマルチモードの問題であり、シングルモードアプローチの根本的な制限を議論します。

Takeaways、Limitations

Takeaways:大規模な言語モデルを使用したテキストのみのアプローチが、視覚的に基づく会話からディレクティブを抽出するのに有効であることを示しています。言語的文脈がこの仕事に重要な役割を果たしていることを示唆しています。比較的小さなデータセットとパラメータを効率的に微調整することで、優れたパフォーマンスを実現できます。
Limitations:シングルモード(テキストのみ)アプローチの本質的な制限を指します。視覚情報を考慮していないため、視覚的文脈が重要な場合は、パフォーマンスの低下が発生する可能性があります。これは本質的にマルチモード問題であるため、視覚情報を統合するマルチモードアプローチがより良い性能を発揮できることを示唆している。
👍