본 논문은 대규모 언어 모델(LLM)이 화학 분야에서 새로운 유효한 연구 가설을 자동으로 발견할 수 있는지 여부를 조사한다. 연구 질문과 배경 조사만으로, 연구 질문의 영역에 제한 없이 가설 발견 가능성을 평가한다. 화학 전문가와의 논의를 통해 대부분의 화학 가설은 배경과 여러 영감에서 도출될 수 있다는 가정을 설정하고, 이를 바탕으로 세 가지 하위 질문 (1. 배경 질문으로부터 LLM이 적절한 영감을 얻을 수 있는가? 2. 배경과 영감으로 LLM이 가설을 도출할 수 있는가? 3. LLM이 좋은 가설을 식별하고 순위를 매길 수 있는가?)으로 문제를 분해한다. 2024년 Nature, Science 또는 유사 학술지에 게재된 51편의 화학 논문을 바탕으로 배경, 영감, 가설로 구성된 벤치마크를 구축하고, 2023년까지의 데이터로 훈련된 LLM을 사용하여 배경과 대규모 화학 문헌 자료(ground truth inspiration papers)만으로 가설 재발견을 시도한다. 세 가지 하위 질문을 반영하는 LLM 기반 다중 에이전트 프레임워크를 개발하여, ground truth 가설과 매우 유사한 많은 가설을 재발견하고 주요 혁신을 포괄하는 결과를 얻었다.