Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Quantum-RAG and PunGPT2: Advancing Low-Resource Language Generation and Retrieval for the Punjabi Language

Created by
  • Haebom

作者

Jaskaranjeet Singh, Rakesh Thakur

PunGPT2:パンジャブ語大規模言語モデル

概要

本論文は大規模言語モデル(LLM)の発展にもかかわらず,低資源言語がNLPから疎外され,数百万人のデジタルアクセシビリティを制限する問題を解決するため,パンジャブ語に特化した完全オープンソース生成モデルファミリPunGPT2を提示します。文学、宗教テキスト、ニュース、ソーシャル談話などを含む35GBコーパスに基づいて学習され、GurmukhiとShahmukhiスクリプトに最適化されたトークナイザーを通じてパンジャブ語の構文と形態学的豊かさを捉えます。 PunGPT2をFAISSレトリーバーと統合した検索拡張フレームワークであるPun-RAG、QLoRAを使用して、ガイドラインチューニングされたゼロショットの要約、翻訳、および質問の回答に使用されるPun-Instructを紹介します。また、希少、密集、量子カーネル埋め込みを融合してメモリオーバーヘッドの少ない効率的な状況認識検索を可能にするQuantum-RAGを開発し、低資源LLMで実用的な量子インスピレーション検索を初めて実装しました。このモデルは、FLORES-200、IndicGenBench、および新しいPunjabiEvalファミリで、多言語ベースライン(mBERT、mT5、MuRIL、BLOOM)よりも優れています。 Quantum-RAGは、PunjabiEvalでFAISSより+7.4 Recall@10、mT5より+3.5 BLEUを達成しました。 35GBのパンジャブ語コーパス、PunjabiEvalベンチマーク、すべてのモデルの重み、トレーニングスクリプト、ハイパーパラメータ、評価パイプラインを公開し、パンジャブ語の作成と検索の分野で新しい最高のパフォーマンスを確立します。

Takeaways、Limitations

Takeaways:
低資源言語であるパンジャブ語に特化したLLMを開発し、その言語ユーザーのデジタルアクセシビリティを向上させました。
Quantum-RAGという革新的な検索技術により、効率的な状況認識検索を実現し、低資源LLMの性能を向上させました。
すべてのリソース(データ、モデル、コード)を公開し、パンジャブ語関連の研究開発に貢献し、関連分野の発展を促進しました。
さまざまな評価指標とベンチマークでモデルのパフォーマンスを実証しました。
Limitations:
Quantum-RAGの量子インスピレーション技術の実際の量子コンピューティングとの関連性についてのさらなる説明が必要になるかもしれない。
他の低資源言語の一般化の可能性を評価するための追加の研究が必要です。
モデルの偏りと倫理的問題の詳細な分析が必要です。
35GBコーパスがパンジャブ語のすべての側面をカバーするかどうか、および追加のデータの必要性を考慮する必要があります。
👍