BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology
Created by
Haebom
Category
Empty
저자
Ludovico Mitchener, Jon M Laurent, Benjamin Tenmann, Siddharth Narayanan, Geemi P Wellawatte, Andrew White, Lorenzo Sani, Samuel G Rodriques
개요
BixBench는 실제 생물학적 데이터 분석 시나리오 50개 이상과 약 300개의 관련 오픈 답변 질문으로 구성된 새로운 바이오인포매틱스 벤치마크 데이터셋입니다. LLM 기반 에이전트가 생물학적 데이터셋을 탐색하고, 다단계 분석 과정을 수행하며, 분석 결과를 해석하는 능력을 측정하기 위해 설계되었습니다. GPT-4o 및 Claude 3.5 Sonnet과 같은 최첨단 LLM을 사용하여 BixBench를 평가한 결과, 오픈 답변 방식에서는 17%의 정확도에 그쳤고, 객관식 문제에서는 무작위 수준의 성능을 보였습니다. 이는 최첨단 모델의 한계를 보여주는 것이며, BixBench를 통해 엄격한 바이오인포매틱스 분석을 수행하고 과학적 발견을 가속화할 수 있는 에이전트 개발을 촉진하고자 합니다.