本文提出了一种新颖的数据选择框架——分解难度数据选择(3DS),旨在提升医学等专业领域大规模语言模型(LLM)的性能。现有的基于启发式的数据选择方法缺乏对模型知识分布的考虑,从而导致噪声、冗余和不相关数据等问题。3DS 通过根据模型知识分布选择数据,实现了高效的领域自适应。它包含两个步骤:提示驱动的数据选择(基于模型内部知识过滤不相关或冗余数据)和分解难度数据选择(基于三个指标:指令理解、响应置信度和响应正确性)进行基于分解的数据选择。使用真实医学数据集的实验结果表明,与现有方法相比,3DS 将准确率提高了 5.29% 以上。相关代码和数据集均已公开。