この論文は、退院教育と呼ばれる患者ケアの重要で十分に研究されていない部分に焦点を当てています。従来の大規模言語モデル(LLM)ベンチマークは、診療中の診断推論に焦点を当てていますが、診療後の患者支援能力は評価できないことを指摘しています。研究者は、LLMの退院教育者の役割を果たす能力を評価する新しいベンチマークであるDischargeSimを提案します。 DischargeSimは、さまざまな心理社会的特性(健康情報の理解、教育レベル、感情など)を持つLLMベースの医師エージェントと患者エージェントの間の診療後の多重会話をシミュレートします。相互作用は、6つの臨床的に基づいた退院トピックを中心に構成されており、会話品質(自動およびLLM判定評価)、パーソナライズされた文書生成(自由形式の要約および構造化AHRQチェックリストを含む)、および患者の理解度(選択式試験)の3つの軸に沿って評価されます。 18のLLMの実験結果は、退院教育能力に大きな違いがあり、患者の特性によってパフォーマンスが大きく異なることを示しています。特に、モデルサイズは常により良いトレーニング結果につながるわけではなく、戦略の使用とコンテンツ優先順位の設定との間の矛盾を強調します。 DischargeSimは、診療後の臨床教育でLLMをベンチマークし、公正で個人化された患者サポートを促進するための第一歩を提示します。