Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-Modal Scene Graph with Kolmogorov-Arnold Experts for Audio-Visual Question Answering

Created by
  • Haebom
Category
Empty

저자

Zijian Fu, Changsheng Lv, Mengshi Qi, Huadong Ma

개요

본 논문은 오디오-비주얼 장면에서 정보를 추출하고 융합하여 질문에 답하는 (SHRIKE) 모델을 제안한다. 주요 과제는 복잡한 오디오-비주얼 콘텐츠에서 질문 관련 단서를 식별하는 것이다. 기존 방법의 한계를 극복하기 위해, 시각적으로 기반을 둔 멀티 모달 장면 그래프를 도입하여 객체와 관계를 명시적으로 모델링하고, Kolmogorov-Arnold Network(KAN) 기반 전문가 혼합(MoE)을 설계하여 시간적 통합 단계의 표현력을 향상시켰다. MUSIC-AVQA 및 MUSIC-AVQA v2 벤치마크에서 최첨단 성능을 달성했으며, 코드와 모델 체크포인트를 공개할 예정이다.

시사점, 한계점

시사점:
새로운 멀티 모달 장면 그래프를 통해 오디오-비주얼 장면의 구조적 정보를 효과적으로 포착.
KAN 기반 MoE를 사용하여 시간적 통합 단계에서 더욱 정교한 상호 작용 모델링.
MUSIC-AVQA 및 MUSIC-AVQA v2 벤치마크에서 SOTA 달성.
코드 및 모델 공개로 연구의 재현성 및 활용성 증대.
한계점:
논문 자체에서 구체적인 한계점을 명시하지 않음.
향후 연구에서 모델의 일반화 성능과 효율성 개선 필요.
다른 벤치마크 데이터에 대한 성능 검증 필요.
👍