每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

大型语言模型在国际天文学和天体物理学奥林匹克竞赛(I​​OAA)上获得金牌

Created by
  • Haebom

作者

Lucas Carrit Delgado Pinheiro、Ziru Chen、Bruno Caixeta Piazza、Ness Shroff、梁迎宾、丁远森、孙欢

大纲

本文系统地对五款基于国际天文与天体物理奥林匹克竞赛 (IOAA) 考试的 LLM 模型进行了基准测试,旨在探索大规模语言模型 (LLM) 在天文学研究中的潜力,并评估其执行实际研究所需的复杂推理任务的能力。Gemini 2.5 Pro 和 GPT-5 在理论考试中取得了顶尖的表现,但在数据分析考试中却表现出了性能差距,所有模型在概念推理、几何推理和空间可视化方面都存在不足。

Takeaways,Limitations

Takeaways:
LLM在理论考试中可以达到人类水平的表现。
Gemini 2.5 Pro 和 GPT-5 在 IOAA 理论考试中取得了金牌成绩。
GPT-5 在数据分析测试中也表现良好。
Limitations:
概念推理、几何推理和空间可视化技能方面持续存在弱点。
数据分析测试中模型之间的性能差异较大。
LLM 需要改进,才能成为天文学研究的自主工具。
👍