ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Created by

Haebom

저자

Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

💡 개요

대규모 언어 모델(LLM)이 과학 연구 지원 잠재력을 보여주지만, 헌정된 벤치마크 부재로 고품질 연구 가설 발견 능력이 검증되지 못했습니다. 이에 본 논문은 영감 검색, 가설 구성, 가설 순위 매기기라는 과학 발견 하위 작업을 포괄하는 최초의 대규모 벤치마크인 ResearchBench를 제안합니다. 12개 분야의 논문에서 연구 질문, 배경 조사, 영감, 가설 등의 핵심 요소를 자동 추출하고 2024년 이후 발행된 최신 논문에 집중하여 데이터 오염을 방지했습니다.

🔑 시사점 및 한계

•

LLM은 특히 아웃-오브-분포(out-of-distribution) 작업인 영감 검색에서 뛰어난 성능을 보여, 새로운 지식 연관성을 발굴할 수 있는 잠재력을 시사합니다.

•

ResearchBench는 LLM의 과학적 발견 능력을 객관적으로 평가할 수 있는 최초의 대규모 벤치마크로서, 향후 LLM 연구 방향 설정에 중요한 기여를 합니다.

•

가설 구성 및 순위 매기기 작업에 대한 LLM의 성능은 아직 초기 단계이며, 이러한 작업에서의 성능 향상 및 자동화가 향후 연구 과제로 남아 있습니다.

PDF 보기

Made with Slashpage