EnvTrace는 물리 시스템의 동작을 완벽하게 포착할 수 없는 표준, 무상태 알고리즘 벤치마크를 넘어선 방법을 필요로 하는, 기기 제어를 위한 대형 언어 모델 (LLM) 평가를 위해 개발된 시뮬레이션 기반 방법론입니다. EnvTrace는 실행 추적을 평가하여 의미론적 코드 동등성을 평가합니다. 빔라인 제어 로직 디지털 트윈을 사용하여 기기 제어 코드의 평가를 용이하게 하며, 디지털 트윈 자체는 실시간 실험의 사전 실행 유효성 검사도 가능하게 합니다. 30개 이상의 LLM을 추적 정렬을 사용하여 평가하여 주요 행동 차원에서 기능적 정확성에 대한 다면적 점수를 생성했습니다. 그 결과, 많은 최고 수준의 모델이 신속한 제어 코드 생성에서 인간 수준의 성능에 근접할 수 있음이 밝혀졌습니다. 이는 LLM과 디지털 트윈이 공생적으로 작동하는 광범위한 비전의 첫 번째 단계입니다. LLM은 직관적인 제어와 에이전트 오케스트레이션을 제공하고, 디지털 트윈은 안전하고 높은 충실도의 환경을 제공하여 자율적인 구현 AI를 향한 길을 열어줍니다.