本論文は、医療などの専門分野における大規模言語モデル(LLM)の性能向上のための新しいデータ選択フレームワークである3DS(Decomposed Difficulty Data Selection)を提案する。従来のヒューリスティックベースのデータ選択方式はモデルの知識分布を考慮せず、ノイズ、重複、無関係なデータを含む問題を指摘し、3DSはモデルの知識分布に合わせてデータを選択して効率的なドメイン適応を達成する。これは、Prompt-Driven Data Selection(モデルの内部知識に基づいて無関係または重複したデータフィルタリング)とDecomposed Difficulty Data Selection(Instruction Understanding、Response Confidence、Response Correctnessの3つの指標を活用した困難分解ベースのデータ選択)の2段階で構成されます。実際の医療データセットを用いた実験の結果、従来方式より精度を5.29%以上向上させたことを示す。コードとデータセットは公開されています。