[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMs Outperform Experts on Challenging Biology Benchmarks

Created by
  • Haebom

저자

Lennart Justen

개요

본 연구는 분자생물학, 유전학, 클로닝, 바이러스학 및 생물 안보를 포함한 8가지 생물학 벤치마크를 통해 27개의 최첨단 거대 언어 모델(LLM)을 체계적으로 평가했습니다. 2022년 11월부터 2025년 4월 사이에 주요 AI 개발사에서 출시된 모델들을 벤치마크당 10번의 독립적인 실행을 통해 평가했습니다. 그 결과, 생물학적 능력이 극적으로 향상되었음을 보여줍니다. 연구 기간 동안 바이러스학 능력 테스트의 텍스트 전용 하위 집합에서 최고 모델의 성능이 4배 이상 증가했으며, OpenAI의 o3는 전문 바이러스학자보다 두 배나 더 나은 성능을 보였습니다. GPQA 및 WMDP의 생물학 하위 집합과 LAB-Bench CloningScenarios를 포함한 다른 어려운 벤치마크에서 여러 모델이 전문가 수준의 성능에 도달하거나 능가했습니다. 예상과 달리, 사고 연쇄(chain-of-thought)는 제로샷 평가보다 성능을 크게 향상시키지 못했지만, o3-mini 및 Claude 3.7 Sonnet의 확장 추론 기능은 추론 스케일링에 의해 예측된 대로 일반적으로 성능을 향상시켰습니다. PubMedQA와 MMLU 및 WMDP 생물학 하위 집합과 같은 벤치마크는 100%를 크게 밑도는 성능 정체를 보였는데, 이는 벤치마크 포화 및 기본 벤치마크 데이터의 오류를 시사합니다. 이 분석은 AI 시스템이 계속 발전함에 따라 더욱 정교한 평가 방법론의 필요성을 강조합니다.

시사점, 한계점

시사점:
최첨단 LLM의 생물학적 능력이 괄목할 만큼 향상되었음.
일부 모델은 특정 생물학 벤치마크에서 전문가 수준의 성능을 능가함.
확장 추론 기능이 성능 향상에 기여함.
AI 기반 생물학 연구의 발전 가능성을 보여줌.
한계점:
일부 벤치마크의 성능 정체는 벤치마크의 한계 또는 데이터 오류를 시사함.
사고 연쇄(chain-of-thought)가 성능 향상에 미치는 영향이 미미함.
더욱 정교한 평가 방법론의 필요성.
벤치마크 데이터의 오류 가능성.
👍