每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Quantum-RAG 和 PunGPT2:推进旁遮普语的低资源语言生成和检索

Created by
  • Haebom

作者

贾斯卡兰吉特·辛格、拉克什·塔库尔

PunGPT2:大规模旁遮普语言模型

大纲

尽管大规模语言模型 (LLM) 取得了进展,但低资源语言在自然语言处理 (NLP) 领域仍然缺乏代表性,限制了数百万人的数字资源可及性。为了解决这个问题,我们推出了 PunGPT2,这是一款专为旁遮普语量身定制的完全开源生成模型套件。该模型基于 35GB 的文学、宗教文本、新闻和社会话语语料库进行训练,通过针对古木基文 (Gurmukhi) 和沙穆基文 (Shahmukhi) 脚本优化的分词器,捕捉了旁遮普语丰富的句法和形态特征。我们推出了 Pun-RAG,这是一个将 PunGPT2 与 FAISS 检索器集成的检索增强框架,以及 Pun-Instruct,它使用 QLoRA 进行指令调整的零样本摘要、翻译和问答。此外,我们开发了 Quantum-RAG,它融合了稀疏、密集和量子核嵌入,从而实现高效、上下文感知的检索,并降低内存开销,这标志着量子启发式检索在低资源 LLM 中的首次实际应用。该模型在 FLORES-200、IndicGenBench 和新的 PunjabiEval 套件上的表现均优于多语言基线(mBERT、mT5、MuRIL、BLOOM)。Quantum-RAG 在 PunjabiEval 上实现了 FAISS 上 +7.4 的 Recall@10 和 mT5 上 +3.5 的 BLEU。通过发布 35GB 的旁遮普语语料库、PunjabiEval 基准测试、所有模型权重、训练脚本、超参数和评估流程,我们在旁遮普语生成和检索领域建立了新的领先地位。

Takeaways,Limitations

Takeaways:
我们专门为旁遮普语(一种资源匮乏的语言)开发了法学硕士学位,以提高该语言使用者的数字可访问性。
我们通过名为 Quantum-RAG 的创新搜索技术实现了高效的上下文感知搜索,并提高了低资源 LLM 的性能。
通过开放所有资源(数据、模型、代码),我们为旁遮普语相关的研究和开发做出贡献,并促进该领域的进步。
我们通过各种评估指标和基准展示了该模型的性能。
Limitations:
可能需要进一步解释 Quantum-RAG 的量子启发技术与实际量子计算的相关性。
需要进一步研究来评估对其他低资源语言的普遍性。
需要对该模型的偏见和道德问题进行更深入的分析。
应该考虑 35GB 语料库是否涵盖旁遮普语的所有方面,以及是否需要额外的数据。
👍