Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

Created by
  • Haebom
Category
Empty

저자

Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)이 전문가 수준의 지식을 가지고 있음에도 불구하고 시각적 지각에 추론을 통합하는 데 어려움을 겪는다는 문제점을 제기한다. 이를 해결하기 위해, 미세한 지각과 도메인 특정 지식 통합을 모두 요구하는 새로운 시각적 근거 지정 작업인 지식 집약적 시각적 근거 지정(KVG)을 제안한다. KVG의 과제를 해결하기 위해, 인지적 시각 지각 능력으로 향상된 MLLM인 DeepPerception을 제시한다. DeepPerception은 고품질의 지식 정렬 훈련 샘플을 생성하는 자동화된 데이터 합성 파이프라인과 인지적 추론 비계를 위한 지도 미세 조정과 지각-인지 시너지를 최적화하기 위한 강화 학습을 결합한 2단계 훈련 프레임워크로 구성된다. 10개 도메인에 걸쳐 1.3K개의 수동으로 큐레이션된 테스트 사례를 포함하는 포괄적인 데이터 세트인 KVG-Bench를 도입하여 성능을 벤치마킹한다. 실험 결과, DeepPerception이 KVG-Bench에서 +8.08%의 정확도 향상을 달성하고 기준 접근 방식보다 +4.60% 우수한 도메인 간 일반화를 보여줌으로써 직접적인 미세 조정을 크게 능가함을 보여준다.

시사점, 한계점

시사점:
MLLM의 시각적 지각 능력 향상을 위한 인지 과정 통합의 중요성을 강조한다.
지식 집약적 시각적 근거 지정(KVG)이라는 새로운 과제와 그에 대한 벤치마크 데이터셋(KVG-Bench)을 제시한다.
DeepPerception이라는 새로운 MLLM 아키텍처를 통해 기존 방법 대비 성능 향상을 달성하였다.
다중 모달 추론 연구에 새로운 방향을 제시한다.
공개된 코드, 데이터 및 모델을 통해 재현성과 추가 연구를 가능하게 한다.
한계점:
KVG-Bench 데이터셋의 규모가 아직 제한적일 수 있다.
DeepPerception의 성능이 특정 도메인에 편향될 가능성이 있다.
더욱 다양하고 복잡한 시각적 추론 작업에 대한 일반화 성능 평가가 필요하다.
DeepPerception의 계산 비용 및 효율성에 대한 분석이 부족할 수 있다.
👍