본 논문은 기존의 이미지 캡션 생성 방식이 문법적 및 의미적 변형에 치중하는 한계를 지적하며, 인간의 캡션 작성 방식에서 나타나는 중심 메시지 전달과 시각적 설명의 통합, 그리고 이를 위한 실용적 단서 활용에 주목합니다. 이에 따라 다양한 표현 방식을 확보하기 위해 다중 모드 대규모 언어 모델(MLLM)을 위한 새로운 프롬프팅 전략인 RONA를 제안합니다. RONA는 일관성 관계를 변화의 축으로 활용하여 다양한 캡션을 생성하며, 여러 도메인에 걸쳐 기존 MLLM 기준 대비 향상된 다양성과 정답과의 일치도를 보여줍니다. 소스 코드는 깃허브에서 공개합니다.