본 논문은 오디오-비주얼 장면에서 정보를 추출하고 융합하여 질문에 답하는 (SHRIKE) 모델을 제안한다. 주요 과제는 복잡한 오디오-비주얼 콘텐츠에서 질문 관련 단서를 식별하는 것이다. 기존 방법의 한계를 극복하기 위해, 시각적으로 기반을 둔 멀티 모달 장면 그래프를 도입하여 객체와 관계를 명시적으로 모델링하고, Kolmogorov-Arnold Network(KAN) 기반 전문가 혼합(MoE)을 설계하여 시간적 통합 단계의 표현력을 향상시켰다. MUSIC-AVQA 및 MUSIC-AVQA v2 벤치마크에서 최첨단 성능을 달성했으며, 코드와 모델 체크포인트를 공개할 예정이다.