多模态CoT提示

多模态CoT提示由张卓胜研究团队于2023年发表在《语言模型中的多模态思维链推理》中首次提出。随着多模态（图片、视频、音频等）输入与输出需求的增强，相关研究自然将CoT方法应用到了多模态领域。

多模态CoT提示是一种让语言模型同时利用文本和视觉信息进行推理的新方法。该框架分为两步：生成推理和响应推理。第一步，模型会处理文本和视觉信息，生成证据或推理路径；第二步，则基于这些证据对问题或问题内容做出推理回答。

"이 두 생명체가 공통으로 가진 속성은 무엇입니까?"

生成推理：模型会观察每个对象，并判断它们是否具备特定属性。例如，如果你上传了一张猫和狗的照片，这两种生物都属于哺乳动物，并且都拥有眼睛、鼻子、嘴巴、毛发、牙齿等特征。

响应推理：模型会根据生成的证据，总结出这两个对象共有的属性。

这两个生物看起来分别是狗和猫，它们都具有“哺乳动物”这一共同属性。

这种方式相比传统基于文本的CoT方法，在理解涉及视觉语境的重要问题时能够带来更丰富、更细致的理解。多模态CoT让模型能够处理更复杂、多样的任务，尤其为需要视觉信息的领域开辟了新的可能。