Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework
Created by
Haebom
Category
Empty
저자
Zhuo Zhi, Chen Feng, Adam Daneshmend, Mine Orlu, Andreas Demosthenous, Lu Yin, Da Li, Ziquan Liu, Miguel R. D. Rodrigues
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 다중 모달 추론 능력 향상을 위한 새로운 프레임워크인 SRICE(Seeing and Reasoning with Confidence)를 제안합니다. SRICE는 기존의 에이전트 기반 접근법이나 사고 연쇄(CoT) 추론 방식의 한계(데이터 어노테이션 및 미세 조정 비용, 외부 도구의 신뢰성 문제)를 극복하기 위해, 불확실성 정량화(UQ)를 통합한 외부 비전 모델과 MLLM을 결합합니다. MLLM은 외부 도구와의 다단계 상호 작용을 통해 관심 영역을 자율적으로 선택하며, 구체적으로는 콘포멀 예측 기반 접근 방식을 사용하여 외부 도구의 출력을 보정하고 MLLM 출력의 불확실성을 추정하여 최적의 도구를 선택합니다. 실험 결과, SRICE는 다섯 개의 데이터셋에서 기본 MLLM에 비해 평균 4.6% 향상된 성능을 보였으며, 일부 데이터셋에서는 미세 조정 기반 방법보다 더 나은 성능을 나타냈습니다.
시사점, 한계점
•
시사점:
◦
외부 도구의 신뢰성 문제를 해결하여 MLLM 에이전트의 성능을 향상시키는 새로운 프레임워크를 제시합니다.
◦
데이터 어노테이션 및 미세 조정 없이 MLLM의 다중 모달 추론 성능을 개선할 수 있습니다.
◦
불확실성 정량화를 통해 외부 도구의 선택 및 출력 보정의 효과성을 입증합니다.
◦
일부 데이터셋에서 미세 조정 기반 방법을 능가하는 성능을 달성했습니다.
•
한계점:
◦
제시된 다섯 개의 데이터셋 외 다른 데이터셋에서의 일반화 성능에 대한 추가 연구가 필요합니다.