यह शोधपत्र "दृश्य चिंतन" का प्रस्ताव करता है, जो एक नवीन ढाँचा है जो जटिल, बहु-चरणीय कार्यों पर बड़े पैमाने के बहुविध मॉडलों (LMM) के प्रदर्शन को बेहतर बनाने के लिए मानवीय तर्क का अनुकरण करता है। दृश्य चिंतन, LMM को स्व-निर्मित अवधारणा आरेखों का उपयोग करके तर्क करने की अनुमति देकर पाठ-आधारित तर्क की सीमाओं पर विजय प्राप्त करता है। इस ढाँचे को बीम खोज और गहन बैकट्रैकिंग को एक ग्राफ़-आधारित अनुमान ढाँचे में एकीकृत करके अनुकूलित किया गया है, जिससे एक शून्य-शॉट दृष्टिकोण संभव होता है जो केवल कार्य विवरणों पर कार्य करता है। PDDL नियोजन क्षेत्र में प्रायोगिक परिणाम विभिन्न जटिल नियोजन समस्याओं, जैसे कि ब्लॉकवर्ल्ड और फ़्लोर टाइल्स, पर मौजूदा विधियों की तुलना में महत्वपूर्ण सुधार प्रदर्शित करते हैं। विशेष रूप से, यह ब्लॉकवर्ल्ड समस्या पर GPT-4o मॉडल की समाधान दर को 35.5% से 90.2% तक महत्वपूर्ण रूप से बेहतर बनाता है, और अधिक चुनौतीपूर्ण कार्यों पर o1-पूर्वावलोकन मॉडल से भी बेहतर प्रदर्शन करता है। यह LMM के लिए एक अनुमान माध्यम के रूप में अवधारणा आरेखों की महत्वपूर्ण भूमिका को प्रदर्शित करता है।