MUPA는 Grounded VideoQA(지면 비디오 질의응답) 문제를 해결하기 위해 제안된 다중 경로 에이전트 접근 방식입니다. 기존의 다중 모달 모델들이 언어적 사전 지식과 허위 상관관계에 의존하여 제대로 근거가 없는 예측을 하는 문제를 해결하기 위해, 비디오 근거 확인, 질문 응답, 응답 반영 및 집계를 통합하는 협력적인 접근 방식을 사용합니다. 세 가지 독립적인 추론 경로와 다중 경로 결과를 판단하고 집계하는 반영 에이전트를 통해 일관된 질의응답과 근거 확인을 수행합니다. 20억 개의 매개변수만 사용하면서도 70억 개 매개변수를 사용하는 경쟁 모델들을 능가하며, 70억 개 매개변수로 확장했을 때 NExT-GQA에서 30.3%, DeVE-QA에서 47.4%의 Acc@GQA라는 최첨단 성능을 달성합니다.
시사점, 한계점
•
시사점:
◦
기존 Grounded VideoQA 모델의 한계인 언어적 사전 지식과 허위 상관관계에 대한 과의존 문제를 효과적으로 해결.
◦
적은 매개변수(20억)로도 기존 대규모 모델(70억)을 능가하는 성능 달성.
◦
다중 경로 추론과 반영 에이전트를 통한 신뢰할 수 있는 비디오-언어 이해 향상.
◦
Grounded VideoQA 분야에서 새로운 최첨단 성능 기록.
•
한계점:
◦
논문에서 구체적인 한계점은 언급되지 않음. 추가적인 연구를 통해 다양한 데이터셋이나 더 복잡한 질문에 대한 성능 평가가 필요할 수 있음.
◦
모델의 크기를 늘렸을 때의 성능 향상이 언급되었으나, 매개변수 증가에 따른 성능 향상의 한계점에 대한 분석이 부족함.