Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks

Created by
  • Haebom

作者

Xiaoya Lu, Zeren Chen, Xuhao Hu, Yijin Zhou, Weichen Zhang, Dongrui Liu, Lu Sheng, Jing Shao

概要

大規模言語モデル(VLM)ベースの物体化エージェントの欠陥計画は、実際の家庭環境作業展開を妨げる重大な安全上のリスクをもたらします。従来の静的で非相互作用的な評価パラダイムは、エージェントの行動で発生する動的リスクをシミュレートできず、安全でない中間段階を無視する信頼できない事後評価に依存するため、これらの相互作用環境内のリスクを十分に評価することはできません。これらの重要な違いを解決するために、本論文では、エージェントの相互作用の安全性、すなわち新しいリスクを認識し、適切な手順的順序で緩和段階を実行する能力を評価する方法を提案します。したがって、高忠実度シミュレータで実装された388の固有の安全リスクを含む、161の困難なシナリオを特徴とする最初のマルチモード相互作用安全ベンチマークであるIS-Benchを提供します。重要なことは、リスク軽減措置が特定のリスクがある段階の前後に行われるかどうかを判断する新しいプロセス中心の評価を容易にすることです。 GPT-4oおよびGemini-2.5シリーズを含む主要なVLMの広範な実験により、現在のエージェントは相互作用の安全性認識が不足しており、安全認識思考連鎖がパフォーマンスを向上させることができますが、作業完了を阻害することが多いことを示しています。この重要な制限を強調することで、IS-Benchはより安全で信頼性の高い物体化AIシステムを開発するための基盤を提供します。コードとデータはこのリンクで公開されています。

Takeaways、Limitations

Takeaways:
相互作用環境における安全リスク評価のための新しいベンチマークであるIS-Benchの提示。
相互作用安全性評価のためのプロセス中心評価方法の提案
主要VLMの相互作用安全性レベルの実験的分析結果の提示
より安全で信頼性の高い物体化AIシステム開発のための基盤を提供します。
公開されたコードとデータによる研究の再現性と拡張性の確保。
Limitations:
現在、IS-Benchは高忠実度シミュレータ環境で評価されるため、実際の世界環境への一般化の可能性に関するさらなる研究が必要です。
安全認識事故連鎖の適用が作業完了率の低下を引き起こす可能性がある問題を提示する。より効果的な安全強化技術の研究が必要です。
ベンチマークに含まれるシナリオの多様性と一般化の可能性についてのさらなるレビューが必要です。
👍