Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI

Created by
  • Haebom

作者

Benjamin Raphael Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann

概要

本稿では、自動車インフォテインメントシステムのさまざまなUIデザインの変化に適応できるインテリジェントで適応的なソリューションを提供するビジョン - 言語フレームワークを紹介します。カーUIの理解とインタラクションを容易にし、さまざまなUIデザイン間のシームレスな適応を可能にします。このために、998個のイメージと4,208個の注釈からなるオープンソースデータセットAutomotiveUI-Bench-4Kを公開し、トレーニングデータ生成のためのデータパイプラインも提示します。 Molmo-7BベースのモデルをLoRa(Low-Rank Adaptation)を使用して微調整し、視覚的基盤と評価機能を統合してELAM(Evaluative Large Action Model)を開発しました。開発されたELAMは、AutomotiveUI-Bench-4Kで高い性能を達成し、特にScreenSpotの課題では、基準モデルより5.6%向上した性能を示しました(平均精度80.8%)。デスクトップ、モバイル、Web用のプロフェッショナルモデルと同等または優れたパフォーマンスを示し、主に自動車分野で訓練されているにもかかわらず、優れたドメイン一般化能力を実証します。本研究では、データ収集と微調整による自動車のUI理解と相互作用のAIベースの発展方向を提示し、コスト効率の良い方法で消費者クラスのGPUにも展開可能な微調整モデルを提供します。

Takeaways、Limitations

Takeaways:
自動車UIのさまざまなデザイン変更に適応可能なビジョン - 言語フレームワークの提示
オープンソースデータセットAutomotiveUI-Bench-4K公開による研究の活性化
費用対効果の高いLoRaベースの微調整方法の提示と消費者レベルのGPU展開の可能性の確認
ScreenSpotの課題における既存モデルに対する性能向上と優れたドメイン一般化能力の実証
自動車UIの理解と相互作用に関するAIベースの発展方向の提示
Limitations:
データセットの規模をさらに拡大する必要がある(998画像はさまざまな状況を十分に反映するのに不足する可能性があります)
特定の自動車UIデザインに偏る可能性がある
実際の走行環境での性能検証が不足している
多様な言語支援と文化的差異の検討不足の可能性
長期使用時に発生する可能性があるパフォーマンスの低下と安定性に関するさらなる研究が必要
👍