Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

Created by
  • Haebom
Category
Empty

저자

Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)이 전문가 수준의 지식을 가지고 있음에도 불구하고 시각적 지각에 추론을 통합하는 데 어려움을 겪는다는 점을 지적합니다. 이를 해결하기 위해, 미세한 지각과 도메인 특정 지식 통합을 모두 요구하는 새로운 시각적 근거 지정 작업인 지식 집약적 시각적 근거 지정(KVG)을 제안합니다. KVG의 과제를 해결하기 위해, 인지적 시각적 지각 능력으로 향상된 MLLM인 DeepPerception을 제시합니다. DeepPerception은 자동화된 데이터 합성 파이프라인과 감독식 미세 조정 및 강화 학습을 결합한 2단계 훈련 프레임워크로 구성됩니다. 10개 도메인에 걸쳐 1.3K개의 수동으로 큐레이션된 테스트 사례를 포함하는 포괄적인 데이터셋인 KVG-Bench를 도입하여 성능을 벤치마킹합니다. 실험 결과, DeepPerception이 기본 접근 방식보다 KVG-Bench에서 +8.08%의 정확도 향상과 +4.60%의 우수한 도메인 간 일반화 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
MLLM에 인지 과정을 통합하는 것이 인간과 유사한 시각적 지각에 중요함을 강조합니다.
다중 모달 추론 연구에 대한 새로운 방향을 제시합니다.
고품질의 지식 정렬 훈련 샘플을 생성하는 자동화된 데이터 합성 파이프라인과 감독식 미세 조정 및 강화 학습을 결합한 2단계 훈련 프레임워크의 효과를 보여줍니다.
DeepPerception 모델이 KVG-Bench에서 우수한 성능을 달성함을 입증합니다.
데이터, 코드 및 모델을 공개하여 연구 재현성 및 후속 연구를 촉진합니다.
한계점:
KVG-Bench 데이터셋의 규모가 더 큰 데이터셋에 비해 상대적으로 작을 수 있습니다.
DeepPerception 모델의 일반화 성능은 다양한 도메인과 상황에서 더욱 폭넓게 평가될 필요가 있습니다.
특정 도메인 지식에 대한 의존성이 높아 다른 도메인으로의 적용 가능성에 제한이 있을 수 있습니다.
모델의 해석성에 대한 추가적인 연구가 필요할 수 있습니다.
👍