본 논문은 상세 이미지 캡션 생성을 위한 새로운 방법인 SPARC(Selective Progressive Attention ReCalibration)을 제안합니다. 기존의 다중 모달 대규모 언어 모델(MLLM)은 긴 응답을 생성할 때 시각적 주의력이 약해지고 노이즈가 증가하여 정밀도와 재현율 간의 균형을 맞추는 데 어려움을 겪습니다. SPARC는 이러한 문제를 해결하기 위해 디코딩 과정에서 시각 토큰의 기여도를 향상시키는 훈련이 필요 없는 방법을 제시합니다. SPARC는 시각 토큰의 선택적 증폭, 시간 단계 간의 주의력 차이를 이용한 중요 시각 토큰 식별, 시각적 주의력의 점진적 강화라는 세 가지 핵심 관찰에 기반합니다. 실험 결과, 기존 방법들이 정밀도를 높이는 대신 재현율을 희생하는 것과 달리, SPARC는 계산 오버헤드를 최소화하면서 정밀도와 재현율을 모두 향상시키는 것을 보여줍니다.