본 논문은 비디오 댓글 예술(Video Comment Art) 생성에 있어 다중 모달 대규모 언어 모델(MLLM)의 창의성 한계를 다룹니다. 기존 MLLM과 Chain-of-Thought(CoT)는 STEM 분야에서 강력한 추론 능력을 보이지만, 유머나 풍자와 같은 창의적 표현 생성에는 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 비디오와 텍스트 모달리티를 통합한 새로운 벤치마크 GODBench를 제시하고, 물리학의 파동 전파 패턴에서 영감을 받은 다단계 추론 프레임워크인 Ripple of Thought(RoT)를 제안합니다. 실험 결과, RoT가 기존 MLLM보다 창의적인 비디오 댓글 생성에 효과적임을 보여줍니다. GODBench는 https://github.com/stan-lei/GODBench-ACL2025 에서 공개됩니다.