본 논문은 대규모 언어 모델(LLM)의 과학적 연구 지원 능력, 특히 고품질 연구 가설 발견 능력을 평가하기 위한 최초의 대규모 벤치마크를 제시합니다. 12개 학문 분야의 2024년에 출판된 논문에서 연구 질문, 배경 조사, 영감, 가설 등의 중요 요소를 자동으로 추출하는 프레임워크를 개발하고, 전문가 검증을 통해 정확성을 확인했습니다. LLM의 성능 평가는 영감 검색, 가설 구성, 가설 순위 매기기 등 과학적 발견의 하위 작업들을 포함하며, LLM이 새로운 지식 연관성을 제시하는 능력을 보여주는 결과를 얻었습니다. 이는 LLM이 최소한의 인간 개입으로 혁신적인 가설을 대규모로 생성하는 "연구 가설 광산" 역할을 할 수 있음을 시사합니다.