Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

3DS: Medical Domain Adaptation of LLMs via Decomposed Difficulty-based Data Selection

Created by
  • Haebom

作者

Hongxin Ding, Yue Fang, Runchuan Zhu, Xinke Jiang, Jinyang Zhang, Yongxin Xu, Xu Chu, Junfeng Zhao, Yasha Wang

概要

本論文は、医療などの専門分野における大規模言語モデル(LLM)の性能向上のための新しいデータ選択フレームワークである3DS(Decomposed Difficulty Data Selection)を提案する。従来のヒューリスティックベースのデータ選択方式はモデルの知識分布を考慮せず、ノイズ、重複、無関係なデータを含む問題を指摘し、3DSはモデルの知識分布に合わせてデータを選択して効率的なドメイン適応を達成する。これは、Prompt-Driven Data Selection(モデルの内部知識に基づいて無関係または重複したデータフィルタリング)とDecomposed Difficulty Data Selection(Instruction Understanding、Response Confidence、Response Correctnessの3つの指標を活用した困難分解ベースのデータ選択)の2段階で構成されます。実際の医療データセットを用いた実験の結果、従来方式より精度を5.29%以上向上させたことを示す。コードとデータセットは公開されています。

Takeaways、Limitations

Takeaways:
モデル中心のデータ選択戦略によってLLMのドメイン適応性能を改善できることを示した。
難易度分解ベースのデータ選択によって学習効率を向上させる方法を提示します。
医療分野を含む専門分野におけるLLMの利用可能性を拡大。
オープンコードとデータセット公開による研究の再現性と拡張性の向上
Limitations:
提案された困難分解指標の一般化の可能性に関するさらなる研究が必要である。
他のドメインに対する適用性と一般化性能の評価が必要
3DSフレームワークの計算コストと効率に関するさらなる分析が必要です。
特定のドメイン(医療)に対する実験結果のみが提示され、他のドメインでの性能一般化の有無は追加の検証が必要。
👍