Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PyVision: Agentic Vision with Dynamic Tooling

Created by
  • Haebom

作者

Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei

概要

本稿では、ビジュアル推論における大規模言語モデル(LLM)の限界を克服するために、インタラクティブなマルチターンフレームワークであるPyVisionを紹介します。 PyVisionは、LLMが特定のタスクに合わせてPythonベースのツールを自律的に作成、実行、および改善できるようにすることで、柔軟で解釈可能なトラブルシューティングを可能にします。本稿では、PyVisionによって生成されたツールの分類スキームを開発し、さまざまなベンチマークでの使用を分析します。実験の結果、PyVisionはGPT-4.1のV *パフォーマンスを7.8%向上させ、Claude-4.0-SonnetのVLMsAreBlind-miniパフォーマンスを31.1%向上させるなど、一貫したパフォーマンス向上を達成しました。これは、動的ツールの活用により、モデルが単にツールを使用することを超えてツールを発明できるようになり、より主体的な視覚的推論に進むことを示唆しています。

Takeaways、Limitations

Takeaways:
LLMベースの視覚的推論のパフォーマンスの向上:PyVisionはGPT-4.1とClaude-4.0-Sonnetモデルの視覚的推論性能を向上させました。
動的ツールの作成と利用の可能性の提示:LLMが必要に応じてツールを作成および利用する新しいパラダイムを提示します。
柔軟で解釈可能なトラブルシューティング:PyVisionはより柔軟で解釈可能な視覚的推論を可能にします。
主体的な視覚的推論システムへの進歩の可能性:LLMが単にツールを使用するレベルを超えて、ツールを自分で生成し、トラブルシューティングに活用するより主体的なシステムに進化する可能性を示します。
Limitations:
PyVisionの一般化性能と様々な視覚的推論問題への適用性に関するさらなる研究の必要性
Pythonベースのツールへの依存性によるスケーラビリティの制約
生成されたツールの安全性と信頼性の検証が必要です。
特定のモデル(GPT-4.1、Claude-4.0-Sonnet)の評価結果であり、他のモデルの一般化の可能性に関するさらなる研究が必要です。
👍