La estimulación CoT multimodal se reveló en <Multimodal Chain-of-Thought Reasoning in Language Models> publicado en 2023 por el equipo de investigación de Zhuosheng Zhang. Este es un estudio en el que CoT se aplicó naturalmente a la multimodalidad a medida que la necesidad de entrada y salida multimodal (imagen, video, audio, etc.) se hizo más fuerte.
La estimulación CoT multimodal es un nuevo enfoque que permite a los modelos lingüísticos hacer inferencias utilizando información tanto textual como visual. Este marco consta de dos pasos: generación de inferencia e inferencia de respuesta. En el primer paso, el modelo procesa información tanto textual como visual para generar evidencia, o una ruta de inferencia, y en el segundo paso, utiliza esta evidencia para inferir la respuesta al problema o pregunta.
Ejemplo de mensaje real:
"이 두 생명체가 공통으로 가진 속성은 무엇입니까?"
Generar inferencias: el modelo observa cada objeto y determina si cada objeto tiene ciertas propiedades. Por ejemplo, si compartiste una foto de un gato y un perro, ambas criaturas son mamíferos y tienen ojos, narices, boca, pelaje, dientes, etc.
Inferencia de respuesta: basándose en la evidencia generada, el modelo concluye qué propiedades tienen dos objetos en común.
Las dos criaturas son vistas como un perro y un gato y tienen el atributo común de ser "mamíferos".
Este enfoque permite una comprensión más rica y matizada de los problemas en los que el contexto visual es importante que los enfoques tradicionales de CoT basados en texto. CoT multimodal permite que los modelos manejen tareas más complejas y diversas, abriendo nuevas posibilidades, especialmente en campos donde la información visual es importante.
ⓒ 2023. Haebom, todos los derechos reservados.
Se indica la fuente y puede utilizarse con fines comerciales con el permiso del titular de los derechos de autor.