본 논문은 기계가 생성한 이미지 캡션 평가의 발전에 대한 종합적인 개요를 제공합니다. 다중 모달 대규모 언어 모델(MLLM)의 등장으로 이미지 캡션 생성이 핵심 과제가 됨에 따라 강력하고 신뢰할 수 있는 평가 지표에 대한 필요성이 증가했습니다. 본 논문은 기존 지표의 진화, 강점 및 한계를 분석하며, 인간 판단과의 상관관계, 순위 정확도 및 환각에 대한 민감도를 포함한 여러 차원에서 이러한 지표를 평가합니다. 또한, MLLM이 생성하는 더 길고 자세한 캡션이 제기하는 과제를 탐구하고 현재 지표의 이러한 스타일 변화에 대한 적응성을 검토합니다. 표준 평가 방법의 몇 가지 한계를 강조하고 이미지 캡션 평가에 대한 미래 연구를 위한 유망한 방향을 제시합니다.