Share
Sign In
👀

マルチモーダルCoTプロンプト

Multimodal CoTプロンプトは、Zhuosheng Zhangの研究チームの2023年に発表された<Multimodal Chain-of-Thought Reasoning in Language Models>に公開されました。これは、マルチモーダル(画像、動画、オーディオなど)の入力と出力に対するニーズが強くなり、自然にCoTがマルチモーダルに適用された研究です。
マルチモーダルCoTプロンプトは、言語モデルをテキストとビジュアル情報の両方を利用して推論するための新しいアプローチです。このフレームワークは、推論生成と応答推論の2つのステップで構成されています。最初のステップでは、モデルはテキストとビジュアル情報の両方を処理して根または推論パスを生成し、2番目のステップではこの根拠に基づいて問題や質問に対する答えを推論します。

実際のプロンプトの例:

"이 두 생명체가 공통으로 가진 속성은 무엇입니까?"
推論の生成:モデルは各オブジェクトを観察し、各オブジェクトが特定の属性を持っているかどうかを判断します。たとえば、猫と子犬の写真を共有した場合、両方の生命体は哺乳類であり、目、鼻、口、毛、歯などを持っています。
応答推論:モデルは、生成された根拠に基づいて、2つのオブジェクトが共通に持つ属性が何であるかを結論付けます。
🤖
両方の生命体は犬と猫として見られ、「哺乳類」という共通の属性を持っています。
このアプローチは、視覚的な文脈が重要な問題を理解するために、従来のテキストベースのCoTアプローチよりも豊富で微妙な理解を可能にします。マルチモーダルCoTは、モデルがより複雑で多様なタスクを処理できるようにし、特に視覚情報が重要な分野で新しい可能性を開きます。
↔️
🪪
ⓒ 2023. Haebom, all rights reserved.
ソースを表示し、著作権者の許可の下で営利目的で使用することができます。
👍