虽然 GPT-4o 和 o1 等大规模语言模型 (LLM) 在各种医疗保健基准的临床自然语言处理 (NLP) 任务中展现出卓越的性能,但两项重要的 NLP 任务——从护士口述中提取结构化表格报告以及从医患问诊中提取医疗指令——由于数据稀缺和敏感性,仍未得到充分研究。本文使用私有和开源临床数据集研究这两项任务,评估开源和封闭式 LLM 的性能,并分析每种模型的优势和局限性。此外,我们提出了一种基于代理的流程,用于生成逼真且不敏感的护士口述,从而实现临床观察的结构化提取。为了支持相关研究,我们发布了 SYNUR 和 SIMORD,它们分别是用于提取护理观察结果和提取医疗指令的首个开源数据集。