DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
Created by
Haebom
Category
Empty
저자
Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)이 전문가 수준의 지식을 가지고 있음에도 불구하고 시각적 지각에 추론을 통합하는 데 어려움을 겪는다는 문제점을 제기한다. 이를 해결하기 위해, 미세한 지각과 도메인 특정 지식 통합을 모두 요구하는 새로운 시각적 근거 지정 작업인 지식 집약적 시각적 근거 지정(KVG)을 제안한다. KVG의 과제를 해결하기 위해, 인지적 시각 지각 능력으로 향상된 MLLM인 DeepPerception을 제시한다. DeepPerception은 고품질의 지식 정렬 훈련 샘플을 생성하는 자동화된 데이터 합성 파이프라인과 인지적 추론 비계를 위한 지도 미세 조정과 지각-인지 시너지를 최적화하기 위한 강화 학습을 결합한 2단계 훈련 프레임워크로 구성된다. 10개 도메인에 걸쳐 1.3K개의 수동으로 큐레이션된 테스트 사례를 포함하는 포괄적인 데이터 세트인 KVG-Bench를 도입하여 성능을 벤치마킹한다. 실험 결과, DeepPerception이 KVG-Bench에서 +8.08%의 정확도 향상을 달성하고 기준 접근 방식보다 +4.60% 우수한 도메인 간 일반화를 보여줌으로써 직접적인 미세 조정을 크게 능가함을 보여준다.
시사점, 한계점
•
시사점:
◦
MLLM의 시각적 지각 능력 향상을 위한 인지 과정 통합의 중요성을 강조한다.
◦
지식 집약적 시각적 근거 지정(KVG)이라는 새로운 과제와 그에 대한 벤치마크 데이터셋(KVG-Bench)을 제시한다.
◦
DeepPerception이라는 새로운 MLLM 아키텍처를 통해 기존 방법 대비 성능 향상을 달성하였다.