AstroAlertBench: Evaluating the Accuracy, Reasoning, and Honesty of Multimodal LLMs in Astronomical Classification

작성자

Haebom

카테고리

비어 있음

저자

Claire Chen, Jiabao Sean Xiao, Shuze Daniel Liu, Facundo Perez Paolino, Luke Handley, Theophile Jegou du Laz, Ricky Nilsson, Alice Zou, Matthew Graham, Ashish Mahabal

💡 개요

본 연구는 천문학 분야에서 멀티모달 대규모 언어 모델(LLM)의 성능을 평가하기 위한 새로운 벤치마크인 AstroAlertBench를 제안합니다. AstroAlertBench는 복잡한 천문학적 데이터를 이해하고 분류하는 LLM의 정확성, 추론 능력, 그리고 자기 평가 능력(정직성)을 다단계로 평가합니다. Zwicky Transient Facility(ZTF)의 실제 관측 데이터 1,500건을 사용하여 13개의 최첨단 LLM을 평가했으며, 높은 정확도가 반드시 모델의 신뢰성을 보장하지는 않음을 발견했습니다.

🔑 시사점 및 한계

•

멀티모달 LLM은 방대한 천문학 데이터를 처리하는 데 잠재력을 보여주지만, 전문적인 과학적 분류와 해석 가능한 추론 능력은 여전히 개선이 필요합니다.

•

모델의 '정직성', 즉 스스로의 추론을 평가하는 능력은 실제 응용 분야에서의 신뢰성을 판단하는 데 중요한 지표가 될 수 있습니다.

•

본 연구는 인간 참여형 평가 프로토콜을 초기화하여 향후 커뮤니티 규모의 참여를 위한 기반을 마련했으며, 이는 향후 천문학 분야의 LLM 개발에 중요한 방향을 제시합니다.

•

현재 벤치마크는 ZTF 데이터에 국한되어 있으며, 다양한 천문학적 이벤트와 데이터셋을 포괄하는 확장 연구가 필요합니다.

PDF 보기

Slashpage로 제작됨