PhysGym은 대규모 언어 모델(LLM) 기반 에이전트의 과학적 발견 능력을 평가하기 위한 새로운 벤치마크 및 시뮬레이션 플랫폼입니다. 특히 환경의 복잡성 변화에 대한 대처 능력과 사전 지식 활용 능력을 평가하는 데 중점을 두고 있습니다. PhysGym은 에이전트에게 제공되는 사전 지식의 수준을 정교하게 제어할 수 있다는 점이 주요 특징입니다. 상호 작용적인 물리 시뮬레이션으로 구성되어 있으며, 에이전트는 환경을 능동적으로 조사하고, 제약 조건 하에서 순차적으로 데이터를 수집하고, 기저에 깔린 물리 법칙에 대한 가설을 수립해야 합니다. 표준화된 평가 프로토콜과 지표를 제공하여 가설의 정확성과 모델의 충실도를 평가합니다. 기준 LLM의 결과를 제시하여 다양한 사전 지식과 작업 복잡성에 따른 능력 차이를 보여줍니다.