Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EnvTrace: Simulation-Based Semantic Evaluation of LLM Code via Execution Trace Alignment -- Demonstrated at Synchrotron Beamlines

Created by
  • Haebom
Category
Empty

저자

Noah van der Vleuten, Anthony Flores, Shray Mathur, Max Rakitin, Thomas Hopkins, Kevin G. Yager, Esther H. R. Tsai

개요

EnvTrace는 물리 시스템의 동작을 완벽하게 포착할 수 없는 표준, 무상태 알고리즘 벤치마크를 넘어선 방법을 필요로 하는, 기기 제어를 위한 대형 언어 모델 (LLM) 평가를 위해 개발된 시뮬레이션 기반 방법론입니다. EnvTrace는 실행 추적을 평가하여 의미론적 코드 동등성을 평가합니다. 빔라인 제어 로직 디지털 트윈을 사용하여 기기 제어 코드의 평가를 용이하게 하며, 디지털 트윈 자체는 실시간 실험의 사전 실행 유효성 검사도 가능하게 합니다. 30개 이상의 LLM을 추적 정렬을 사용하여 평가하여 주요 행동 차원에서 기능적 정확성에 대한 다면적 점수를 생성했습니다. 그 결과, 많은 최고 수준의 모델이 신속한 제어 코드 생성에서 인간 수준의 성능에 근접할 수 있음이 밝혀졌습니다. 이는 LLM과 디지털 트윈이 공생적으로 작동하는 광범위한 비전의 첫 번째 단계입니다. LLM은 직관적인 제어와 에이전트 오케스트레이션을 제공하고, 디지털 트윈은 안전하고 높은 충실도의 환경을 제공하여 자율적인 구현 AI를 향한 길을 열어줍니다.

시사점, 한계점

시사점:
LLM을 활용한 기기 제어 코드 생성에서 인간 수준의 성능에 근접하는 모델이 존재함을 확인했습니다.
디지털 트윈을 활용하여 실험 전 코드 검증 및 LLM의 성능 평가를 수행하는 새로운 방법론을 제시했습니다.
LLM과 디지털 트윈의 융합을 통한 자율적 구현 AI 개발의 가능성을 제시했습니다.
한계점:
논문에서 구체적인 한계점은 명시되어 있지 않습니다.
👍