尽管大规模语言模型 (LLM) 取得了进展,但低资源语言在自然语言处理 (NLP) 领域仍然缺乏代表性,限制了数百万人的数字资源可及性。为了解决这个问题,我们推出了 PunGPT2,这是一款专为旁遮普语量身定制的完全开源生成模型套件。该模型基于 35GB 的文学、宗教文本、新闻和社会话语语料库进行训练,通过针对古木基文 (Gurmukhi) 和沙穆基文 (Shahmukhi) 脚本优化的分词器,捕捉了旁遮普语丰富的句法和形态特征。我们推出了 Pun-RAG,这是一个将 PunGPT2 与 FAISS 检索器集成的检索增强框架,以及 Pun-Instruct,它使用 QLoRA 进行指令调整的零样本摘要、翻译和问答。此外,我们开发了 Quantum-RAG,它融合了稀疏、密集和量子核嵌入,从而实现高效、上下文感知的检索,并降低内存开销,这标志着量子启发式检索在低资源 LLM 中的首次实际应用。该模型在 FLORES-200、IndicGenBench 和新的 PunjabiEval 套件上的表现均优于多语言基线(mBERT、mT5、MuRIL、BLOOM)。Quantum-RAG 在 PunjabiEval 上实现了 FAISS 上 +7.4 的 Recall@10 和 mT5 上 +3.5 的 BLEU。通过发布 35GB 的旁遮普语语料库、PunjabiEval 基准测试、所有模型权重、训练脚本、超参数和评估流程,我们在旁遮普语生成和检索领域建立了新的领先地位。