본 논문은 시각-언어 간 미세 조정 정렬을 목표로, 패치 중복성과 모호성을 해결하기 위한 Semantic-Enhanced Patch Slimming (SEPS) 프레임워크를 제안합니다. MLLMs의 강력한 의미 생성 능력을 활용하여 두 단계 메커니즘을 통해 통합된 의미를 통합하고, 중요한 시각적 패치를 식별합니다. 또한 평균값을 계산하여 관련성을 인식하는 선택을 통해 중요한 패치-단어 대응을 강조하고, 교차 모달 유사성 평가를 개선합니다. Flickr30K 및 MS-COCO 데이터셋에서 기존 접근 방식보다 rSum에서 23%-86% 더 높은 성능을 달성했습니다.