[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI

Created by
  • Haebom

作者

Benjamin Raphael Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann

概要

この論文は、自動車インフォテインメントシステムのさまざまなUIデザインの変化に適応できるビジョン - 言語フレームワークを提示します。 998個のイメージと4,208個のアノテーションからなるオープンソースデータセットAutomotiveUI-Bench-4Kを公開し、合成データパイプラインを通じて学習データを生成する。 Molmo-7BベースのモデルをLoRaを用いて微調整し、パイプラインで生成された推論、視覚ベース、評価機能を統合してELAM(Evaluative Large Action Model)を開発した。 ELAMはAutomotiveUI-Bench-4Kで優れた性能を示し、特にScreenSpot課題で基準モデルと比較して+5.6%向上した80.8%の平均精度を達成し、デスクトップ、モバイル、Web向けの特化モデルと類似または上回る性能を示した。本研究は、データ収集と微調整による自動車のUI理解と相互作用の分野におけるAIの発展の方向性を提示し、費用対効果の高い方法で消費者クラスのGPUでも展開可能なモデルを提供します。

Takeaways、Limitations

Takeaways:
自動車インフォテインメントシステムのUI理解と相互作用のための効率的なビジョン - 言語フレームワークの提示
オープンソースデータセットAutomotiveUI-Bench-4K公開による研究の活性化
LoRaベースの微調整によるコスト効率の良いモデル開発と消費者クラスのGPU展開の可能性
さまざまなUIデザインの強力な一般化パフォーマンス(ScreenSpotで優れたパフォーマンスを達成)
Limitations:
データセット規模の制限(998画像)
実際の運転環境での性能検証不足
特定モデル(Molmo-7B)への依存性
合成データパイプラインの一般化の可能性と限界に関するさらなる研究が必要
👍