Sign In
👀

多模态CoT提示

多模态CoT提示由张卓胜研究团队于2023年发表在《语言模型中的多模态思维链推理》中首次提出。随着多模态(图片、视频、音频等)输入与输出需求的增强,相关研究自然将CoT方法应用到了多模态领域。
多模态CoT提示是一种让语言模型同时利用文本和视觉信息进行推理的新方法。该框架分为两步:生成推理和响应推理。第一步,模型会处理文本和视觉信息,生成证据或推理路径;第二步,则基于这些证据对问题或问题内容做出推理回答。

实际提示示例:

"이 두 생명체가 공통으로 가진 속성은 무엇입니까?"
生成推理:模型会观察每个对象,并判断它们是否具备特定属性。例如,如果你上传了一张猫和狗的照片,这两种生物都属于哺乳动物,并且都拥有眼睛、鼻子、嘴巴、毛发、牙齿等特征。
响应推理:模型会根据生成的证据,总结出这两个对象共有的属性。
🤖
这两个生物看起来分别是狗和猫,它们都具有“哺乳动物”这一共同属性。
这种方式相比传统基于文本的CoT方法,在理解涉及视觉语境的重要问题时能够带来更丰富、更细致的理解。多模态CoT让模型能够处理更复杂、多样的任务,尤其为需要视觉信息的领域开辟了新的可能。
↔️
🪪
ⓒ 2023。Haebom,保留所有权利。
经版权所有者许可,可以将其用于商业目的,但需注明来源。
👍