본 논문은 파운데이션 모델의 과학적 이해 능력을 평가하기 위해 고안된 동적 벤치마크인 Ever-Evolving Science Exam (EESE)를 소개한다. EESE는 데이터 유출 위험과 대규모 테스트로 인한 비효율성을 해결하기 위해 개발되었으며, 5개의 분야와 500개 이상의 세부 분야에 걸쳐 10만 개 이상의 문제-정답 쌍으로 구성된 비공개 EESE-Pool과, 유출에 강하고 적은 비용으로 평가할 수 있도록 주기적으로 업데이트되는 500개의 문제로 구성된 EESE로 이루어져 있다. 32개의 모델에 대한 실험을 통해 EESE가 과학 분야와 인지 차원에서 모델의 강점과 약점을 효과적으로 구별해냄을 확인했다.