この論文は、視覚的に基づいた会話から言語モデルを使用したディレクティブの抽出方法を探ります。特に、会話の視覚的文脈で(視覚的に認識可能な)参照対象を持つ言及を検出するために言語的文脈がどれだけ貢献するかを調査することを目的としています。あらかじめ訓練された大規模言語モデル(LLM)を適用して、次のトークン予測を介してテキスト内の言及区間の境界を区別することによって、会話内の言及区間の比較的粗雑な注釈を実行します。中間サイズのLLM、比較的小さなデータセット、およびパラメータの効率的な微調整を使用しても、テキストのみでアクセスする方法が効果的であることを示し、この操作に対する言語的文脈の相対的な重要性を強調します。しかし、これは本質的にマルチモードの問題であり、シングルモードアプローチの根本的な制限を議論します。