Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

Created by
  • Haebom

저자

Sanjoy Chowdhury, Mohamed Elmoghany, Yohan Abeysinghe, Junjie Fei, Sayan Nag, Salman Khan, Mohamed Elhoseiny, Dinesh Manocha

개요

본 논문은 대규모 다중 모달 모델(LMMs)이 복잡한 추론을 요구하는 실제 시나리오에서 어려움을 겪는다는 점을 지적하며, 단일 클립 기반의 기존 비디오 질의응답 벤치마크의 한계를 극복하고자 새로운 과제인 AV-HaystacksQA를 제시합니다. AV-HaystacksQA는 질의에 대한 응답으로 여러 비디오에서 중요한 부분을 식별하고 이를 연결하여 가장 유익한 답변을 생성하는 것을 목표로 합니다. 이를 위해 3100개의 주석이 달린 QA 쌍으로 구성된 오디오-비주얼 벤치마크 AVHaystacks를 제시하고, 이 과제를 해결하기 위한 모델 독립적인 다중 에이전트 프레임워크 MAGNET을 제안합니다. MAGNET은 제안된 AVHaystacks의 QA 작업에서 기준 방법에 비해 BLEU@4 및 GPT 평가 점수에서 최대 89% 및 65%의 상대적 개선을 달성합니다. 또한, 최적의 응답 생성을 위한 다중 비디오 검색 및 시간적 접지에 대한 강력한 평가를 가능하게 하기 위해, 정답과 예측된 단계 시퀀스 간의 정렬 오류를 포착하는 STEM과 세그먼트 수준 접지 성능의 균형 있고 해석 가능한 평가를 용이하게 하는 MTGS라는 두 가지 새로운 지표를 제시합니다.

시사점, 한계점

시사점:
다중 비디오 검색 및 시간적 접지가 필요한 실제 시나리오를 위한 새로운 벤치마크 AVHaystacks 제시.
AVHaystacksQA 과제 해결을 위한 효과적인 다중 에이전트 프레임워크 MAGNET 제안 및 성능 향상 확인.
다중 비디오 검색 및 시간적 접지 성능 평가를 위한 새로운 지표 STEM 및 MTGS 제안.
한계점:
AVHaystacks 데이터셋의 규모가 더욱 확장될 필요가 있음.
MAGNET 프레임워크의 일반화 성능에 대한 추가적인 검증이 필요함.
제시된 새로운 평가 지표 STEM 및 MTGS의 객관성 및 신뢰도에 대한 추가 연구가 필요함.
👍