Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Flexible Tool Selection through Low-dimensional Attribute Alignment of Vision and Language

Created by
  • Haebom

作者

Guangfu Hao, Haojie Wen, Liangxuan Guo, Yang Chen, Yanchao Bi, Shan Yu

概要

本論文は、人間の柔軟なツール選択能力を模倣するパラメータ効率的で解釈可能なコンピュータモデルを提示する。低次元属性表現を使用して、視覚的ツール認識と言語的作業理解を結びつけるフレームワークを開発した。物理的、機能的、心理的特性を含む13の属性でラベル付けされた115の一般的なツールを含む包括的なデータセット(ToolNet)を構築し、ツールの使用を説明する自然言語シナリオと対話しました。ビジュアルエンコーダ(ResNetまたはViT)はツール画像から属性を抽出し、微調整言語モデル(GPT-2、LLaMA、DeepSeek)は作業説明から必要な属性を導き出します。提案されたアプローチは、ツール選択操作で74%の精度を達成し、直接ツールマッチング(20%)と小規模マルチモーダルモデル(21%〜58%)を大幅に上回り、はるかに多くのパラメータを持つGPT-4o(73%)のパフォーマンスに近いです。人間評価研究は、提案されたフレームワークが人間の意思決定パターンと一致することを検証し、一般化実験は新しいツールカテゴリに対する効果的な性能を示した。除去研究は、操作関連の属性(キャッチしやすさ、腎臓、手の関連性)がすべてのモダリティで最も重要であることを示しています。

Takeaways、Limitations

Takeaways:
人間の柔軟なツール選択能力を模倣するパラメータ効率的で解釈可能なコンピュータモデルを提示します。
ツール認識と言語タスクの理解を結ぶ新しいフレームワークの提示。
ツール選択作業で高精度(74%)を達成。
人間の意思決定パターンと一致するモデル性能検証
新しいツールカテゴリの一般化性能の実証
操作関連属性の重要性を明らかにする。
Limitations:
ToolNetデータセットのサイズが大きいデータセットよりも比較的小さい場合があります。
モデルの一般化性能は、あらゆる種類のツールと作業に対して保証できません。
GPT-4oと比較して、まだ若干の性能差が存在。
特定の属性に対する偏りの可能性。
👍