본 논문은 오디오-비주얼(AV) 시나리오의 복잡성을 해결하기 위해 새로운 액터-크리틱 기반 AV 추론 프레임워크인 AURELIA를 제시합니다. AURELIA는 테스트 시점에 구조화된 단계별 추론을 AV 대규모 언어 모델(AVLLM)에 주입하여 추가적인 훈련이나 미세 조정 없이 복잡한 다중 모달 입력을 처리하는 능력을 향상시킵니다. 또한, 6가지 다양한 작업(AV-GeoIQ 포함)으로 구성된 4500개의 오디오-비주얼 질문과 단계별 추론으로 구성된 새로운 벤치마크 AVReasonBench를 소개합니다. 18개의 AVLLM을 AVReasonBench에서 평가한 결과, 다중 모달 추론 능력의 상당한 한계가 드러났으며, AURELIA를 사용하여 최대 100%의 상대적 성능 향상을 달성했습니다. 이는 추론 향상된 데이터 생성이 실제 응용 분야에서 AVLLM을 발전시키는 데 잠재력이 있음을 보여줍니다. 코드와 데이터는 공개적으로 배포될 예정입니다.
시사점, 한계점
•
시사점:
◦
AURELIA 프레임워크를 통해 AVLLM의 다중 모달 추론 능력을 크게 향상시킬 수 있음을 보여줌.
◦
AVReasonBench라는 새로운 벤치마크를 제공하여 AVLLM의 성능을 객관적으로 평가하고 비교할 수 있도록 함.
◦
추론 향상된 데이터 생성의 중요성을 강조하고, 실제 응용 분야에서 AVLLM의 발전 가능성을 제시함.
◦
추가적인 훈련이나 미세 조정 없이 AVLLM의 성능 향상을 달성함.
•
한계점:
◦
AURELIA의 일반화 성능에 대한 추가적인 연구가 필요함.
◦
AVReasonBench의 범위가 더욱 확장될 필요가 있음.
◦
현재 벤치마크 및 프레임워크의 한계로 인해, 실제 세계의 복잡한 오디오-비주얼 상황에 대한 일반화 성능은 여전히 제한적일 수 있음.