Measuring Scientific Capabilities of Language Models with a Systems Biology Dry Lab
Created by
Haebom
저자
Haonan Duan, Stephen Zhewen Lu, Caitlin Fiona Harrigan, Nishkrit Desai, Jiarui Lu, Micha{\l} Koziarski, Leonardo Cotta, Chris J. Maddison
개요
본 논문은 대규모 언어 모델(LLM)의 과학적 능력, 특히 생물학 분야에서 복잡한 시스템을 교란하여 기저 시스템을 밝히는 실험 설계 및 결과 해석 능력을 평가하는 새로운 벤치마크인 SciGym을 제시한다. 기존의 습식 실험의 어려움(전문 지식, 시간, 장비)을 극복하기 위해 시스템 생물학 마크업 언어로 인코딩된 건식 실험 환경을 구축하여 시뮬레이션 데이터를 생성한다. 6개의 최첨단 LLM을 137개의 소규모 시스템에 대해 평가한 결과, 성능이 우수한 모델도 시스템 복잡성이 증가함에 따라 성능이 크게 저하되는 것을 확인하여 LLM의 과학적 능력 향상의 여지가 큼을 시사한다. 총 350개의 시스템을 공개하여 연구에 활용할 수 있도록 했다.
시사점, 한계점
•
시사점:
◦
LLM의 과학적 능력, 특히 실험 설계 및 결과 해석 능력 평가를 위한 새로운 벤치마크 SciGym 제시.