본 논문은 대규모 언어 모델(LLM)의 과학적 연구 발견 능력, 특히 고품질 연구 가설 발견 능력을 평가하기 위한 최초의 대규모 벤치마크를 제시합니다. 12개 학문 분야의 2024년에 발표된 논문에서 연구 질문, 배경 조사, 영감, 가설 등의 중요 구성 요소를 자동으로 추출하는 프레임워크를 개발하여, LLM의 가설 생성 능력을 '영감 검색', '가설 구성', '가설 순위 매기기' 세 가지 하위 작업으로 평가합니다. LLM의 사전 훈련 데이터와의 중복을 최소화하기 위해 2024년에 발표된 논문만을 사용하며, 전문가 검증을 통해 정확성을 확인합니다. 평가 결과, LLM은 특히 분포 외 작업인 '영감 검색'에서 우수한 성능을 보이며, 최소한의 인간 개입으로 혁신적인 가설을 대규모로 생성하는 '연구 가설 광산' 역할을 할 수 있음을 시사합니다.