본 연구는 2022년 11월부터 2025년 4월 사이에 출시된 27개의 최첨단 대규모 언어 모델(LLM)을 분자생물학, 유전학, 클로닝, 바이러스학 및 생물 안보를 포함한 8가지 생물학 벤치마크를 사용하여 체계적으로 평가했습니다. 각 벤치마크당 10번의 독립적인 실행을 통해 평가되었으며, 그 결과 생물학적 능력의 극적인 향상을 보여주었습니다. 특히 바이러스학 능력 테스트의 텍스트 전용 하위 집합에서 최고 모델의 성능은 연구 기간 동안 4배 이상 증가했으며, OpenAI의 o3는 전문 바이러스 학자보다 두 배나 더 나은 성능을 보였습니다. GPQA 및 WMDP의 생물학 하위 집합과 LAB-Bench CloningScenarios를 포함한 다른 어려운 벤치마크에서도 여러 모델이 전문가 수준의 성능에 도달하거나 능가했습니다. 예상과 달리, 사고 연쇄(chain-of-thought)는 제로샷 평가보다 성능을 크게 향상시키지 못했지만, o3-mini 및 Claude 3.7 Sonnet의 확장된 추론 기능은 예측된 추론 확장에 따라 일반적으로 성능을 향상시켰습니다. PubMedQA와 MMLU 및 WMDP 생물학 하위 집합과 같은 벤치마크는 100%를 훨씬 밑도는 성능 정체를 보였는데, 이는 벤치마크 포화 및 기본 벤치마크 데이터의 오류를 시사합니다. 이 분석은 AI 시스템이 계속 발전함에 따라 더욱 정교한 평가 방법론의 필요성을 강조합니다.