MedCOD: Enhancing English-to-Spanish Medical Translation of Large Language Models Using Enriched Chain-of-Dictionary Framework
Created by
Haebom
作者
Md Shahidul Salim, Lian Fu, Arav Adikesh Ramakrishnan, Zonghai Yao, Hong Yu
概要
MedCODは、特定の分野の構造化された知識を大規模言語モデル(LLM)に統合することで、英語からスペイン語の医学翻訳を改善するために設計されたハイブリッドフレームワークです。 UMLS(Unified Medical Language System)とLLM-as-Knowledge-Base(LLM-KB)パラダイムのドメイン固有の知識を統合し、構造化されたプロンプトと微調整を強化します。 2,999の英語スペイン語のMedlinePlusの記事の並列の束と構造化された医学的文脈で注釈付き100文のテストセットを構成しました。多言語変換、医学同義語、およびUMLSから派生した定義を組み込んだ構造化プロンプトとLoRAベースの微調整を使用して、4つのオープンソースLLM(Phi-4、Qwen2.5-14B、Qwen2.5-7BおよびLLaMA-3.1-8B)を評価しました。実験結果は、MedCODがすべてのモデルで翻訳品質を大幅に向上させることを示しています。たとえば、MedCODと微調整を使用したPhi-4は、BLEU 44.23、chrF ++ 28.91、COMET 0.863を達成し、GPT-4oおよびGPT-4o-miniなどの強力な基準モデルを上回りました。除去研究は、MedCODプロンプトとモデル適応の両方が独立してパフォーマンスの向上に貢献し、それらの組み合わせが最高の改善をもたらすことを確認します。これらの結果は、構造化された知識統合が医学翻訳作業のためのLLMを改善する可能性を強調します。