본 논문은 텍스트-비디오 생성 및 시각적 질문 응답과 같은 응용 분야에서 AI 발전에 기여하는 다중 모달 대규모 언어 모델(Multimodal Large Language Models)에 대해 다룹니다. 기존 시각적 인코더의 한계인 의미 정렬 부족 및 비핵심 객체 간과 문제를 해결하기 위해, Attention-Guided Adapter (AG-Adapter) 모듈과 Object-focused Visual Semantic Learning 모듈을 포함하는 Guiding Visual Encoder to Perceive Overlooked Information (GiVE) 기법을 제안합니다. GiVE는 Object-focused Image-Text Contrast (OITC) 손실, Object-focused Image-Image Contrast (OIIC) 손실, Object-focused Image Discrimination (OID) 손실이라는 세 가지 새로운 손실 함수를 통합하여 객체 고려, 검색 정확도 및 포괄성을 향상시킵니다. 또한 동적 시각적 초점 조정, 객체 검색을 향상시키는 새로운 손실 함수, 그리고 Multi-Object Instruction (MOInst) 데이터셋을 기여합니다. 실험 결과, 제안된 기법이 최첨단 성능을 달성함을 보여줍니다.