Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought

작성자

Haebom

카테고리

Empty

저자

Xuanchen Li, Yuheng Lu, Chenrui Cui, Tianrui Wang, Zikang Huang, Yu Jiang, Long Zhou, Longbiao Wang, Jianwu Dang

💡 개요

본 논문은 오디오-비주얼 질의응답(AVQA) 모델에서 발생하는 교차 모달 간섭 문제를 해결하기 위해 'Separate First, Fuse Later (SFFL)'라는 새로운 프레임워크를 제안합니다. SFFL은 각 모달리티별로 독립적인 추론 과정을 거치도록 유도하고, 최종 단계에서 정보를 통합하여 상호 간섭으로 인한 환각(hallucination)을 줄입니다. 실험 결과, 제안된 방법은 AVQA 벤치마크에서 전반적인 정확도와 강건성을 향상시키는 성과를 보였습니다.

🔑 시사점 및 한계

•

오디오와 비주얼 정보의 보완성을 극대화하면서도, 각 모달리티의 고유한 정보를 간섭 없이 활용할 수 있는 새로운 추론 방식을 제시합니다.

•

강화 학습과 모달리티 선호도 레이블을 활용하여 모델이 데이터에 따라 어떤 모달리티 정보를 더 중요하게 고려해야 하는지 학습시키는 효과적인 방법을 보여줍니다.

•

모달리티별 분리 추론 과정에서의 정보 보존 및 융합 단계에서의 효과적인 통합 메커니즘 설계가 중요하며, 이 과정에서의 추가적인 최적화 가능성을 탐색해야 합니다.

PDF 보기

Made with Slashpage