본 논문은 대규모 다중 모달 모델(LMMs)이 복잡한 추론을 요구하는 실제 시나리오에서 어려움을 겪는다는 점을 지적하며, 단일 클립 기반의 기존 비디오 질의응답 벤치마크의 한계를 극복하고자 새로운 과제인 AV-HaystacksQA를 제시합니다. AV-HaystacksQA는 질의에 대한 응답으로 여러 비디오에서 중요한 부분을 식별하고 이를 연결하여 가장 유익한 답변을 생성하는 것을 목표로 합니다. 이를 위해 3100개의 주석이 달린 QA 쌍으로 구성된 오디오-비주얼 벤치마크 AVHaystacks를 제시하고, 이 과제를 해결하기 위한 모델 독립적인 다중 에이전트 프레임워크 MAGNET을 제안합니다. MAGNET은 제안된 AVHaystacks의 QA 작업에서 기준 방법에 비해 BLEU@4 및 GPT 평가 점수에서 최대 89% 및 65%의 상대적 개선을 달성합니다. 또한, 최적의 응답 생성을 위한 다중 비디오 검색 및 시간적 접지에 대한 강력한 평가를 가능하게 하기 위해, 정답과 예측된 단계 시퀀스 간의 정렬 오류를 포착하는 STEM과 세그먼트 수준 접지 성능의 균형 있고 해석 가능한 평가를 용이하게 하는 MTGS라는 두 가지 새로운 지표를 제시합니다.
시사점, 한계점
•
시사점:
◦
다중 비디오 검색 및 시간적 접지가 필요한 실제 시나리오를 위한 새로운 벤치마크 AVHaystacks 제시.
◦
AVHaystacksQA 과제 해결을 위한 효과적인 다중 에이전트 프레임워크 MAGNET 제안 및 성능 향상 확인.
◦
다중 비디오 검색 및 시간적 접지 성능 평가를 위한 새로운 지표 STEM 및 MTGS 제안.
•
한계점:
◦
AVHaystacks 데이터셋의 규모가 더욱 확장될 필요가 있음.
◦
MAGNET 프레임워크의 일반화 성능에 대한 추가적인 검증이 필요함.
◦
제시된 새로운 평가 지표 STEM 및 MTGS의 객관성 및 신뢰도에 대한 추가 연구가 필요함.