본 논문은 비디오 코멘트 아트(Video Comment Art) 생성에 있어 기존의 다중 모달 대규모 언어 모델(MLLM)과 Chain-of-Thought(CoT)의 한계를 지적하고, 이를 개선하기 위한 새로운 벤치마크 GODBench와 다단계 추론 프레임워크 Ripple of Thought(RoT)를 제안합니다. GODBench는 비디오와 텍스트 모달리티를 통합하여 MLLM의 코멘트 아트 생성 능력을 체계적으로 평가하며, RoT는 물리학의 파동 전파 패턴에서 영감을 얻어 MLLM의 창의성을 향상시키는 데 목적이 있습니다. 실험 결과, 기존 방법론의 한계를 보여주고 RoT가 창의적인 코멘트 생성에 효과적임을 확인하였습니다. GODBench는 공개적으로 이용 가능합니다.