本文介绍了瑞士地标判决摘要 (SLDS) 数据集,该数据集包含瑞士联邦法院的 20,000 份判决书。每份判决书均包含德语、法语和意大利语的判例摘要(摘要)。研究人员对 Qwen2.5、Llama 3.2 和 Phi-3.5 等开源模型进行了微调,并将其性能与 GPT-4o、Claude 3.5 Sonnet 和 DeepSeek R1 等大规模模型进行了比较。虽然使用 LLM-as-a-Judge 框架的微调模型在词汇相似性方面表现更佳,但大规模模型能够生成更准确、更一致的法律摘要。有趣的是,专注于推理的模型并未始终表现出优势,这表明在这项任务中,事实准确性比深度推理更为重要。SLDS 数据集采用 CC BY 4.0 许可发布,旨在支持未来多语言法律摘要领域的研究。