본 논문은 대규모 언어 모델(LLM)의 발전에도 불구하고, 저자원 언어가 NLP에서 소외되어 수백만 명의 디지털 접근성을 제한하는 문제를 해결하기 위해, 펀자브어에 특화된 완전 오픈소스 생성 모델 제품군인 PunGPT2를 제시합니다. 문학, 종교 텍스트, 뉴스, 소셜 담론 등을 포함하는 35GB 코퍼스를 기반으로 학습되었으며, Gurmukhi 및 Shahmukhi 스크립트에 최적화된 토크나이저를 통해 펀자브어의 구문 및 형태학적 풍부함을 포착합니다. PunGPT2를 FAISS 리트리버와 통합한 검색 증강 프레임워크인 Pun-RAG, QLoRA를 사용하여 지침 튜닝된 제로샷 요약, 번역 및 질문 응답에 사용되는 Pun-Instruct를 소개합니다. 또한, 희소, 밀집, 양자 커널 임베딩을 융합하여 메모리 오버헤드가 적은 효율적인 상황 인식 검색을 가능하게 하는 Quantum-RAG를 개발하여 저자원 LLM에서 실용적인 양자 영감 검색을 최초로 구현했습니다. 이 모델은 FLORES-200, IndicGenBench 및 새로운 PunjabiEval 제품군에서 다국어 기준선(mBERT, mT5, MuRIL, BLOOM)보다 성능이 우수합니다. Quantum-RAG는 PunjabiEval에서 FAISS보다 +7.4 Recall@10, mT5보다 +3.5 BLEU를 달성했습니다. 35GB 펀자브어 코퍼스, PunjabiEval 벤치마크, 모든 모델 가중치, 훈련 스크립트, 하이퍼파라미터, 평가 파이프라인을 공개하여 펀자브어 생성 및 검색 분야에서 새로운 최고 성능을 확립합니다.