Share
Sign In
👀

Aviso CoT multimodal

La estimulación CoT multimodal se reveló en <Multimodal Chain-of-Thought Reasoning in Language Models> publicado en 2023 por el equipo de investigación de Zhuosheng Zhang. Este es un estudio en el que CoT se aplicó naturalmente a la multimodalidad a medida que la necesidad de entrada y salida multimodal (imagen, video, audio, etc.) se hizo más fuerte.
La estimulación CoT multimodal es un nuevo enfoque que permite a los modelos lingüísticos hacer inferencias utilizando información tanto textual como visual. Este marco consta de dos pasos: generación de inferencia e inferencia de respuesta. En el primer paso, el modelo procesa información tanto textual como visual para generar evidencia, o una ruta de inferencia, y en el segundo paso, utiliza esta evidencia para inferir la respuesta al problema o pregunta.

Ejemplo de mensaje real:

"이 두 생명체가 공통으로 가진 속성은 무엇입니까?"
Generar inferencias: el modelo observa cada objeto y determina si cada objeto tiene ciertas propiedades. Por ejemplo, si compartiste una foto de un gato y un perro, ambas criaturas son mamíferos y tienen ojos, narices, boca, pelaje, dientes, etc.
Inferencia de respuesta: basándose en la evidencia generada, el modelo concluye qué propiedades tienen dos objetos en común.
🤖
Las dos criaturas son vistas como un perro y un gato y tienen el atributo común de ser "mamíferos".
Este enfoque permite una comprensión más rica y matizada de los problemas en los que el contexto visual es importante que los enfoques tradicionales de CoT basados ​​en texto. CoT multimodal permite que los modelos manejen tareas más complejas y diversas, abriendo nuevas posibilidades, especialmente en campos donde la información visual es importante.
↔️
🪪
ⓒ 2023. Haebom, todos los derechos reservados.
Se indica la fuente y puede utilizarse con fines comerciales con el permiso del titular de los derechos de autor.
👍