Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

Created by
  • Haebom

作者

Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu

概要

この論文は、ビデオマルチモーダル大規模言語モデル(Video-MLLM)の幻覚(hallucination)問題、特に長時間のビデオで発生するセマンティックアグリゲーションハルcination(SAH)に焦点を当てた研究です。従来の研究が短時間のビデオに集中して幻覚の原因を簡素化したのとは異なり、この論文は、長時間のビデオでの複雑なセマンティック処理の過程で発生するSAHを新たに定義し、そのための新しいベンチマークであるELV-Hallucを提示します。 ELV-Hallucを介してSAHの存在を確認し、意味的複雑さと迅速な意味変化との相関関係を分析し、SAH緩和のための位置エンコード戦略と動的ポジショナルオフセット(DPO)戦略の効果を実験的に検証します。 8,000個の敵対データペアを活用してモデルのパフォーマンス向上を図り、SAH比率を27.7%減少させる結果を得ました。

Takeaways、Limitations

Takeaways:
長時間のビデオで新しいタイプのサイケデリックSAHを定義し、そのための新しいベンチマークELV-Hallucを提示します。
SAHの原因と特徴を分析し,意味的複雑性と意味変化速度との相関関係を解明
SAH緩和のための効果的な戦略(位置エンコード戦略、DPO戦略)の提示とパフォーマンス向上の検証。
長時間ビデオを理解するためのVideo-MLLMのパフォーマンス向上に貢献。
Limitations:
ELV-Hallucベンチマークのデータ規模は8,000個と比較的小さい場合があります。
提示されたSAH緩和戦略の一般化性能のための追加の検証の必要性
様々なタイプのVideo-MLLMに対するSAHの発生と緩和戦略の適用性評価が不足する可能性がある。
👍