每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

小型还是大型?零样本还是微调?医疗保健专业应用的指导语言模型选择

Created by
  • Haebom

作者

洛夫迪普·贡达拉、乔纳森·西姆金、格雷厄姆·赛尔、谢布纳姆·德夫吉、格雷戈里·阿伯、雷蒙德·吴

大纲

本研究探讨了微调与零样本预训练的必要性、领域特定预训练与通用预训练的优势、额外领域特定预训练的价值,以及小规模语言模型 (SLM) 相对于大规模语言模型 (LLM) 在特定任务中的持续相关性,以指导语言模型的选择。我们使用不列颠哥伦比亚省癌症登记处 (BCCR) 的电子病理报告,评估了三种具有不同难度和数据量分类场景。模型使用了多个 SLM 和一个 LLM。SLM 同时使用了零样本和微调方法进行评估,而 LLM 仅基于零样本进行评估。在所有场景中,与零样本结果相比,微调显著提高了 SLM 的性能。零样本 LLM 的表现优于零样本 SLM,但始终落后于微调后的 SLM。领域特定 SLM 经过微调后的表现优于通用 SLM,尤其是在具有挑战性的任务上。额外的领域特定预训练在简单任务上仅带来微不足道的收益,但在复杂和数据匮乏的任务上却能带来显著的改进。总而言之,我们证明了在特定领域微调SLM至关重要,并且在目标分类任务上可以胜过零样本LLM。使用领域相关或领域特定数据进行预训练可以带来额外的好处,尤其是在复杂问题或微调数据有限的情况下。虽然LLM提供了强大的零样本能力,但它在本研究中的特定任务上的表现不如经过适当微调的SLM。即使在LLM时代,SLM仍然具有相关性和效率,并且可以提供比LLM更好的性能-资源平衡。

Takeaways,Limitations

Takeaways:
我们证明,对于特定领域任务,微调 SLM 的表现可以优于零样本 LLM。
事实证明,特定领域或领域特定的预训练有助于提高性能,特别是对于困难的任务或数据稀缺的情况。
这表明即使在 LLM 时代,SLM 仍然有用,并且与 LLM 相比,在性能方面可能更节省资源。
Limitations:
研究中使用的数据集仅限于不列颠哥伦比亚省癌症登记处(BCCR)的电子病理报告,这可能会限制普遍性。
由于评估的法学硕士数量有限,因此缺乏与其他法学硕士的比较分析。
需要进一步研究来得出针对不同类型工作的普遍结论。
👍