यह शोधपत्र इस बात पर प्रकाश डालता है कि मौजूदा टेक्स्ट-टू-3D जनरेटिव मॉडल दुर्लभ या आउट-ऑफ-रेंज कॉन्सेप्ट (OOD) उत्पन्न करने में कठिनाई का सामना करते हैं। इस समस्या के समाधान के लिए, हम एक नवीन विधि, MV-RAG, प्रस्तावित करते हैं। MV-RAG एक बड़े 2D इमेज डेटाबेस से प्रासंगिक छवियों को पुनर्प्राप्त करता है और फिर इन छवियों के आधार पर सुसंगत और सटीक मल्टी-व्यू आउटपुट उत्पन्न करने के लिए एक मल्टी-व्यू डिफ्यूज़न मॉडल का उपयोग करता है। विशेष रूप से, मॉडल को एक मिश्रित शिक्षण रणनीति का उपयोग करके प्रशिक्षित किया जाता है जो विविध 2D छवियों को संरचित मल्टी-व्यू डेटा के साथ जोड़ती है। यह रणनीति संवर्धित सशर्त दृश्यों का उपयोग करके दृश्य-विशिष्ट पुनर्निर्माणों के लिए पुनर्प्राप्ति परिवर्तनशीलता का अनुकरण करती है और होल्डआउट-व्यू पूर्वानुमान उद्देश्य का उपयोग करके 3D संगति का अनुमान लगाती है। हम OOD संकेतों के एक नवीन सेट का उपयोग करके एक कठोर OOD मूल्यांकन करते हैं और प्रदर्शित करते हैं कि MV-RAG अत्याधुनिक टेक्स्ट-टू-3D, इमेज-टू-3D और वैयक्तिकृत बेसलाइन मॉडल की तुलना में OOD/दुर्लभ अवधारणाओं के लिए 3D संगति, यथार्थवाद और पाठ्य अनुरूपता में उल्लेखनीय रूप से सुधार करता है।