यह शोधपत्र इस समस्या का समाधान करता है कि मौजूदा ओपन सोर्स मॉडलों में, विशेष रूप से लंबे संदर्भों में, कमज़ोर मल्टी-टर्न इंटरैक्शन क्षमताएँ हैं, जबकि उनकी ज़ीरो-शॉट क्षमताएँ और शक्तिशाली इमेज समझने की क्षमताएँ हैं। इन समस्याओं के समाधान के लिए, हम ContextQFormer नामक एक संदर्भ मॉडलिंग मॉड्यूल प्रस्तावित करते हैं जो प्रासंगिक जानकारी के निरूपण को बेहतर बनाता है, और मल्टी-टर्न मल्टी-मॉडल संवाद अनुसंधान के लिए एक नए डेटासेट, TMDialog, के निर्माण और रिलीज़ की घोषणा करते हैं। TMDialog मौजूदा डेटासेट की तुलना में लंबी बातचीत सहित, मल्टी-टर्न मल्टी-मॉडल संवाद अनुसंधान का समर्थन करता है। TMDialog का उपयोग करने वाले प्रयोगों में, ContextQFormer मौजूदा मॉडलों की तुलना में 2-4% बेहतर प्रदर्शन दिखाता है।