Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GiVE: Guiding Visual Encoder to Perceive Overlooked Information

Created by
  • Haebom
Category
Empty

저자

Junjie Li, Jianghong Ma, Xiaofeng Zhang, Yuhang Li, Jianyang Shi

개요

본 논문은 텍스트-비디오 생성 및 시각적 질문 응답과 같은 응용 분야에서 AI 발전에 기여하는 다중 모달 대규모 언어 모델(Multimodal Large Language Models)에 대해 다룹니다. 기존 시각적 인코더의 한계인 의미 정렬 부족 및 비핵심 객체 간과 문제를 해결하기 위해, Attention-Guided Adapter (AG-Adapter) 모듈과 Object-focused Visual Semantic Learning 모듈을 포함하는 Guiding Visual Encoder to Perceive Overlooked Information (GiVE) 기법을 제안합니다. GiVE는 Object-focused Image-Text Contrast (OITC) 손실, Object-focused Image-Image Contrast (OIIC) 손실, Object-focused Image Discrimination (OID) 손실이라는 세 가지 새로운 손실 함수를 통합하여 객체 고려, 검색 정확도 및 포괄성을 향상시킵니다. 또한 동적 시각적 초점 조정, 객체 검색을 향상시키는 새로운 손실 함수, 그리고 Multi-Object Instruction (MOInst) 데이터셋을 기여합니다. 실험 결과, 제안된 기법이 최첨단 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 시각적 인코딩 성능 향상에 기여하는 새로운 기법 (GiVE) 제시.
객체 중심의 시각적 의미 학습을 위한 새로운 손실 함수 (OITC, OIIC, OID) 제안.
동적 시각적 초점 조정 기능을 통해 비핵심 객체까지 고려 가능.
새로운 다중 객체 지시 데이터셋 (MOInst) 제공.
최첨단 성능 달성.
한계점:
MOInst 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요.
제안된 기법의 다른 다중 모달 모델 및 다양한 응용 분야에 대한 일반화 성능 평가 필요.
AG-Adapter 및 Object-focused Visual Semantic Learning 모듈의 계산 복잡도 및 효율성에 대한 분석 필요.
👍