本研究探讨了微调与零样本预训练的必要性、领域特定预训练与通用预训练的优势、额外领域特定预训练的价值,以及小规模语言模型 (SLM) 相对于大规模语言模型 (LLM) 在特定任务中的持续相关性,以指导语言模型的选择。我们使用不列颠哥伦比亚省癌症登记处 (BCCR) 的电子病理报告,评估了三种具有不同难度和数据量分类场景。模型使用了多个 SLM 和一个 LLM。SLM 同时使用了零样本和微调方法进行评估,而 LLM 仅基于零样本进行评估。在所有场景中,与零样本结果相比,微调显著提高了 SLM 的性能。零样本 LLM 的表现优于零样本 SLM,但始终落后于微调后的 SLM。领域特定 SLM 经过微调后的表现优于通用 SLM,尤其是在具有挑战性的任务上。额外的领域特定预训练在简单任务上仅带来微不足道的收益,但在复杂和数据匮乏的任务上却能带来显著的改进。总而言之,我们证明了在特定领域微调SLM至关重要,并且在目标分类任务上可以胜过零样本LLM。使用领域相关或领域特定数据进行预训练可以带来额外的好处,尤其是在复杂问题或微调数据有限的情况下。虽然LLM提供了强大的零样本能力,但它在本研究中的特定任务上的表现不如经过适当微调的SLM。即使在LLM时代,SLM仍然具有相关性和效率,并且可以提供比LLM更好的性能-资源平衡。