본 논문은 기존의 이미지 캡션 생성 모델들이 문법적, 의미적 변형에 치중하는 것과 달리, 인간이 작성한 캡션은 시각적 설명과 더불어 중심 메시지를 전달하는 데 pragmatics (언어 사용의 실용적 측면)을 활용한다는 점에 주목합니다. 따라서 다양한 캡션을 생성하기 위해서는 시각적 콘텐츠와 함께 메시지를 전달하는 대안적인 방법을 탐구해야 합니다. 이를 위해 본 논문은 다중 모달 대규모 언어 모델(MLLM)을 위한 새로운 프롬프팅 전략인 RONA를 제안합니다. RONA는 일관성 관계(Coherence Relations)를 활용하여 pragmatics적 변화를 제어 가능한 축으로 사용합니다. 실험 결과, RONA는 여러 도메인에서 MLLM 기준 모델보다 전반적인 다양성과 정답과의 일치도가 더 높은 캡션을 생성하는 것으로 나타났습니다. 소스 코드는 공개되어 있습니다.