본 논문은 효율성과 성능 향상으로 인해 인기를 얻고 있는 소형 언어 모델에 시각 정보와 같은 추가 모달리티를 통합할 때 발생하는 문맥 창 제한 및 노이즈 문제를 해결하는 연구에 관한 논문입니다. Transformer의 어텐션 메커니즘이 무관한 정보에 과도하게 집중하는 경향이 있다는 점을 지적하며, 기존 텍스트 전용 모델을 위해 고안된 Differential Attention 메커니즘을 텍스트-이미지 모델인 PaliGemma에 확장 적용하였습니다. LoRA를 사용하여 PaliGemma 3B 모델을 미세 조정하면서 Differential Attention을 통합하고, 다양한 파라미터 설정과 구성을 실험하여 노이즈가 많은 정보 검색 및 질의응답 성능 향상을 시도하였습니다. 결과적으로 Differential Attention이 기존 모델의 미세 조정에 적용되어 노이즈가 많은 정보 검색 및 질의응답 능력을 향상시킬 수 있음을 보였습니다.