Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models

Created by
  • Haebom

作者

Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Shun Zhang, Xingjian Du, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Yifan Zhang, Junfeng Fang, Kun Wang, Yi Li, Xiaobin Zhuang, Tianlong Chen, Qingsong Wen, Tianwei Zhang, Yang Liu, Haibo Hu, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, Wenyuan Xu, XiaoFeng Wang, Wei Dong, Xinfeng Li

概要

オーディオ大規模言語モデル(ALLM)の信頼性は広く研究されておらず、従来のテキスト中心の評価フレームワークは、オーディオの音響特性に起因する固有の脆弱性を適切に扱っていません。音声、イントネーション、バックグラウンドノイズなどの非意味的な音響信号がモデルの動作を操作できるALLMの信頼性リスクを識別し、オーディオ固有のリスクに対するALLM信頼性を体系的に評価するための包括的なフレームワークであるAudioTrustを提案します。 AudioTrustには、公平性、サイケデリック、安全性、プライバシー、堅牢性、および認証の6つの主要な次元が含まれており、実際のシナリオ(日常会話、緊急電話、音声秘書インタラクション)で収集された4,420以上のオーディオサンプルで構成される26のサブタスクを実装しています。人間が検証した自動化されたパイプラインを使用して、18の実験構成で包括的な評価を行い、14の最先端のオープンソースおよびクローズドソースALLMを評価し、さまざまな高リスクオーディオシナリオに直面したときのかなりの限界を明らかにします。

Takeaways、Limitations

Takeaways:
AudioTrustフレームワークは、ALLMの信頼性を評価するための包括的なアプローチを提供します。
さまざまな高リスクオーディオシナリオでALLMの限界を明らかにする。
安全なオーディオモデルの展開に関する洞察を提供します。
コードとデータ開示による研究の再現性と発展に貢献
Limitations:
論文に具体的なLimitationsは明示的に言及されていない。 (ただし、論文で扱うALLMのLimitationsは提示される。)
👍