每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

3DS:通过分解难度数据选择实现 LLM 医学领域适应

Created by
  • Haebom

作者

丁洪欣、方悦、朱润川、蒋新科、张金阳、徐永新、褚旭、赵俊峰、王亚莎

大纲

本文提出了一种新颖的数据选择框架——分解难度数据选择(3DS),旨在提升医学等专业领域大规模语言模型(LLM)的性能。现有的基于启发式的数据选择方法缺乏对模型知识分布的考虑,从而导致噪声、冗余和不相关数据等问题。3DS 通过根据模型知识分布选择数据,实现了高效的领域自适应。它包含两个步骤:提示驱动的数据选择(基于模型内部知识过滤不相关或冗余数据)和分解难度数据选择(基于三个指标:指令理解、响应置信度和响应正确性)进行基于分解的数据选择。使用真实医学数据集的实验结果表明,与现有方法相比,3DS 将准确率提高了 5.29% 以上。相关代码和数据集均已公开。

Takeaways, Limitations

Takeaways:
我们证明,可以通过模型驱动的数据选择策略来提高 LLM 的领域适应性能。
提出了一种基于难度分解的数据选择来提高学习效率的方法。
扩大法学硕士学位在医疗保健等专业领域的潜力。
通过开放代码和数据集披露提高研究的可重复性和可扩展性。
Limitations:
需要进一步研究所提出的难度分解指标(指令理解、响应信心、响应正确性)的普遍性。
需要对其他领域进行适用性和泛化性能评估。
需要进一步分析 3DS 框架的计算成本和效率。
仅展示特定领域(医学)的实验结果,因此需要进一步验证以确定性能是否可以推广到其他领域。
👍