본 연구는 2022년 11월부터 2025년 4월 사이에 출시된 27개의 최첨단 거대 언어 모델(LLM)을 분자생물학, 유전학, 클로닝, 바이러스학 및 생물 안보를 포함한 8가지 다양한 생물학 벤치마크에서 체계적으로 평가했습니다. 각 벤치마크당 10번의 독립적인 실행을 통해 평가되었으며, 그 결과 생물학적 능력이 극적으로 향상되었음을 보여줍니다. 특히 바이러스학 능력 테스트의 텍스트 전용 하위 집합에서 최고 모델의 성능은 연구 기간 동안 4배 이상 향상되었으며, 현재 최고 모델은 전문 바이러스학자보다 두 배나 더 나은 성능을 보입니다. LAB-Bench Cloning Scenarios 및 GPQA와 WMDP의 생물학 하위 집합을 포함한 다른 어려운 벤치마크에서도 여러 모델이 전문가 수준의 성능에 도달하거나 능가했습니다. 예상과 달리, 사고 연쇄(chain-of-thought)는 제로샷 평가보다 성능을 크게 향상시키지 못했지만, o3-mini 및 Claude 3.7 Sonnet의 확장된 추론 기능은 추론 스케일링에 의해 예측된 대로 일반적으로 성능을 향상시켰습니다. PubMedQA와 MMLU 및 WMDP 생물학 하위 집합과 같은 벤치마크는 100%를 훨씬 밑도는 성능 정체를 보였는데, 이는 벤치마크 포화 및 기본 벤치마크 데이터의 오류를 시사합니다. 이 분석은 AI 시스템이 계속 발전함에 따라 더욱 정교한 평가 방법론이 필요함을 강조합니다.