Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

When Does Supervised Training Pay Off? The Hidden Economics of Object Detection in the Era of Vision-Language Models

Created by
  • Haebom

作者

Samer Al-Hamadani

概要

本論文は、物体検出におけるコスト効率を比較分析する。特に、地図学習ベースのYOLOモデルとゼロショットビジュアル言語モデル(Gemini Flash 2.5、GPT-4)を比較し、5,000個のCOCO画像と500個の多様な製品画像を対象に評価を進める。総所有コストモデリングにより、アーキテクチャを選択するための損益分岐点を導出する。

Takeaways、Limitations

地図学習YOLOは標準カテゴリーで91.2%の精度を示したが、Geminiは68.5%、GPT-4は71.3%の精度を記録した。
100のカテゴリシステムの注釈コストは10,800ドルであり、精度の利点は5,500万件の推論(年間151,000画像/日)以上で発生する。
さまざまな製品カテゴリで、Geminiは52.3%、GPT-4は55.1%の精度を示し、地図学習YOLOは訓練されていないクラスを検出できません。
100,000件の推論では、正しいセンシングあたりのコストは、Gemini($ 0.00050)とGPT-4($ 0.00067)がYOLO($ 0.143)よりも有利です。
最適なアーキテクチャの選択は、推論量、カテゴリの安定性、予算、および精度の要件によって異なります。
👍