본 연구는 분자생물학, 유전학, 클로닝, 바이러스학 및 생물 안보를 포함한 8가지 생물학 벤치마크를 통해 27개의 최첨단 거대 언어 모델(LLM)을 체계적으로 평가했습니다. 2022년 11월부터 2025년 4월 사이에 주요 AI 개발사에서 출시된 모델들을 벤치마크당 10번의 독립적인 실행을 통해 평가했습니다. 그 결과, 생물학적 능력이 극적으로 향상되었음을 보여줍니다. 연구 기간 동안 바이러스학 능력 테스트의 텍스트 전용 하위 집합에서 최고 모델의 성능이 4배 이상 증가했으며, OpenAI의 o3는 전문 바이러스학자보다 두 배나 더 나은 성능을 보였습니다. GPQA 및 WMDP의 생물학 하위 집합과 LAB-Bench CloningScenarios를 포함한 다른 어려운 벤치마크에서 여러 모델이 전문가 수준의 성능에 도달하거나 능가했습니다. 예상과 달리, 사고 연쇄(chain-of-thought)는 제로샷 평가보다 성능을 크게 향상시키지 못했지만, o3-mini 및 Claude 3.7 Sonnet의 확장 추론 기능은 추론 스케일링에 의해 예측된 대로 일반적으로 성능을 향상시켰습니다. PubMedQA와 MMLU 및 WMDP 생물학 하위 집합과 같은 벤치마크는 100%를 크게 밑도는 성능 정체를 보였는데, 이는 벤치마크 포화 및 기본 벤치마크 데이터의 오류를 시사합니다. 이 분석은 AI 시스템이 계속 발전함에 따라 더욱 정교한 평가 방법론의 필요성을 강조합니다.