Multimodal CoT 프롬프팅은 Zhuosheng Zhang의 연구팀의 2023년에 발표한 <Multimodal Chain-of-Thought Reasoning in Language Models>에 공개되었습니다. 이는 멀티모달(이미지, 동영상, 오디오 등) 입력과 출력에 대한 니즈가 강해지면서 자연스럽게 CoT가 멀티모달에 적용된 연구 입니다.
멀티모달 CoT 프롬프트는 언어 모델을 텍스트와 시각적 정보 모두를 활용하여 추론하게 하는 새로운 접근 방식입니다. 이 프레임워크는 추론 생성과 응답 추론이라는 두 단계로 이루어져 있습니다. 첫 번째 단계에서 모델은 텍스트와 시각적 정보를 모두 처리하여 근거나 추론 경로를 생성하고, 두 번째 단계에서는 이 근거를 바탕으로 문제나 질문에 대한 답을 추론합니다.
실제 프롬프트 예시:
"이 두 생명체가 공통으로 가진 속성은 무엇입니까?"
추론 생성: 모델은 각 물체를 관찰하고 각 물체가 특정 속성을 가지고 있는지 판단합니다. 예를 들어, 고양이와 강아지 사진을 공유 했다면 두 생명체 모두 포유류이고 눈, 코, 입, 털, 이빨 등을 가지고 있습니다.
응답 추론: 모델은 생성된 근거를 바탕으로 두 물체가 공통으로 가진 속성이 무엇인지를 결론을 내립니다.
두 생명체는 강아지와 고양이로 보여지며 '포유류'라는 공통 속성을 가지고 있습니다.
이 방식은 시각적 맥락이 중요한 문제를 이해하는 데 기존 텍스트 기반 CoT 방식보다 더 풍부하고 미묘한 이해를 가능하게 합니다. 멀티모달 CoT는 모델이 더 복잡하고 다양한 작업을 처리할 수 있게 해주며, 특히 시각적 정보가 중요한 분야에서 새로운 가능성을 열어줍니다.