本論文は大規模言語モデル(LLM)の発展にもかかわらず,低資源言語がNLPから疎外され,数百万人のデジタルアクセシビリティを制限する問題を解決するため,パンジャブ語に特化した完全オープンソース生成モデルファミリPunGPT2を提示します。文学、宗教テキスト、ニュース、ソーシャル談話などを含む35GBコーパスに基づいて学習され、GurmukhiとShahmukhiスクリプトに最適化されたトークナイザーを通じてパンジャブ語の構文と形態学的豊かさを捉えます。 PunGPT2をFAISSレトリーバーと統合した検索拡張フレームワークであるPun-RAG、QLoRAを使用して、ガイドラインチューニングされたゼロショットの要約、翻訳、および質問の回答に使用されるPun-Instructを紹介します。また、希少、密集、量子カーネル埋め込みを融合してメモリオーバーヘッドの少ない効率的な状況認識検索を可能にするQuantum-RAGを開発し、低資源LLMで実用的な量子インスピレーション検索を初めて実装しました。このモデルは、FLORES-200、IndicGenBench、および新しいPunjabiEvalファミリで、多言語ベースライン(mBERT、mT5、MuRIL、BLOOM)よりも優れています。 Quantum-RAGは、PunjabiEvalでFAISSより+7.4 Recall@10、mT5より+3.5 BLEUを達成しました。 35GBのパンジャブ語コーパス、PunjabiEvalベンチマーク、すべてのモデルの重み、トレーニングスクリプト、ハイパーパラメータ、評価パイプラインを公開し、パンジャブ語の作成と検索の分野で新しい最高のパフォーマンスを確立します。