Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LEGO Co-builder: Exploring Fine-Grained Vision-Language Modeling for Multimodal LEGO Assembly Assistants

Created by
  • Haebom

作者

Haochen Huang, Jiahuan Pei, Mohammad Aliannejadi, Xin Sun, Moonisa Ahsan, Chuang Yu, Zhaochun Ren, Pablo Cesar, Junxiao Wang

概要

この論文は、視覚言語モデル(VLM)のマルチモード組立指示を理解し、従う能力、特に洗練された空間推論と正確なオブジェクト状態検出が必要な場合の困難を扱います。実際のLEGOアセンブリロジックとプログラムで生成されたマルチモードシーンを組み合わせたハイブリッドベンチマークであるLEGO Co-Builderを紹介します。このデータセットは、ステップバイステップの視覚的状態と手続き的指示をキャプチャし、指示に従うこと、オブジェクト検出、および状態検出の制御された評価を可能にします。 GPT-4o、Gemini、Qwen-VLなどの主要VLMを、ゼロショットと微調整の設定で統合フレームワークで評価します。結果は、GPT-4oなどの高度なモデルでさえ、状態検出では、最大F1スコアが40.54%にすぎず、洗練された視覚的理解の違いを示す洗練された組み立て作業で困難を経験していることを示しています。将来のマルチモード組み立て支援研究を支援するために、ベンチマーク、コードベース、および生成パイプラインを公開します。

Takeaways、Limitations

Takeaways:
実際の世界ワークフローに基づくマルチモード組立補助システムの研究のための新しいベンチマーク(LEGO Co-builder)を提供。
最先端のVLMの洗練された視覚的理解と空間推論能力の限界を明らかにする。
洗練された組み立て作業におけるVLM性能の向上のための研究方向の提示
Limitations:
現在、ベンチマークのF1スコアが40.54%と比較的低く、VLMsの性能改善余地が大きい。
LEGOの組み立てに特化したベンチマークなので、他のマルチモード操作への一般化の可能性に関するさらなる研究が必要です。
評価に使用されるVLMの種類は限られています。より多様なモデルを含むさらなる研究が必要です。
👍