यह पेपर CK12-QA डेटासेट पर अत्याधुनिक मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल (MLLM), LLaVA-1.5 और LLaMA 3.2-Vision की पाठ्यपुस्तक प्रश्न उत्तर (TQA) क्षमताओं का मूल्यांकन करने वाला पहला पेपर है। वास्तविक दुनिया के शिक्षण वातावरण का अनुकरण करने के लिए, हम एक मल्टीमॉडल रिट्रीवल ऑगमेंटेड जेनरेशन (RAG) पाइपलाइन पेश करते हैं जो प्रासंगिक पाठ्यपुस्तक पैराग्राफ और चित्रों को संदर्भ के रूप में प्रदान करता है। ज़ीरो-शॉट प्रयोगों से पता चलता है कि पुनर्प्राप्त संदर्भ LLaVA के पाठ-आधारित प्रश्न प्रदर्शन में सुधार करता है, जबकि यह LLaMA 3.2-Vision की चित्र-आधारित प्रश्न सटीकता को 74.07% से 25.93% तक महत्वपूर्ण रूप से कम कर देता है, एक घटना जिसे "भयावह संदर्भ हस्तक्षेप" के रूप में जाना जाता है।