본 논문은 대규모 언어 모델(LLM)이 화학 분야에서 독자적으로 새로운 유효한 가설을 생성할 수 있는지 여부를 조사한다. 연구 배경(질문 및/또는 조사)만 주어진 상황에서 LLM이 고품질 화학 가설을 발견할 수 있는지에 대한 연구이다. 가설 발견이 어려운 문제라는 점을 인지하고, 대부분의 화학 가설은 연구 배경과 영감의 집합으로 구성될 수 있다는 기본적인 가정에 근거한 공식적인 수학적 분해를 제안한다. 이 분해는 영감 검색, 영감을 사용한 가설 구성, 가설 순위 지정이라는 세 가지 실용적인 하위 작업으로 이어지며, 이는 전체 과학적 발견 작업에 대한 충분한 하위 작업 집합을 구성한다. 본 논문에서는 이 수학적 분해를 직접 구현한 에이전트 LLM 프레임워크인 MOOSE-Chem을 개발한다. 2024년 1월 이후 출판 및 온라인으로 공개된 51편의 고영향력 화학 논문으로 구성된 벤치마크를 사용하여 프레임워크를 평가하며, 각 논문은 박사 학위를 가진 화학자들이 배경, 영감, 가설을 수동으로 주석 처리했다. MOOSE-Chem은 지상 진실과 유사성이 높은 많은 가설을 재발견하고 핵심 혁신을 성공적으로 포착하며, 2024년 이전의 지식 차단 날짜를 가진 LLM을 사용하여 데이터 오염을 방지한다. 마지막으로, 본질적으로 분포 외 특성을 가진 작업인 영감 검색에서 LLM의 놀라울 정도로 높은 정확도를 바탕으로, LLM이 인간이 아직 인식하지 못한 잠재적인 과학적 지식 연관성을 이미 암호화하고 있을 수 있다는 대담한 가정을 제안한다.