Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Created by

Haebom

저자

Victor May, Aaditya Salgarkar, Yishan Wang, Diganta Misra, Huu Nguyen

💡 개요

본 연구는 도구 사용 LLM 에이전트의 훈련 방식과 실제 실행 환경 간의 간극을 조명합니다. 에이전트가 추론과 Python 실행을 번갈아 수행할 때, 실행 환경에서는 이전 단계의 상태가 유지되지만 일반적인 훈련 방식은 이를 간과하고 상태 유지 메커니즘을 학습시키지 않았습니다. 연구팀은 절차적으로 생성된 'Opaque Knapsack'이라는 최적화 과제를 통해 상태 유지의 중요성을 분석했으며, 훈련 시 상태 유지를 명시적으로 학습시킨 에이전트가 실제 실행 환경에서 더 효율적이고 안정적임을 입증했습니다.

🔑 시사점 및 한계

•

훈련 데이터의 실행 의미론(execution semantics)과 실제 추론 시점의 런타임 상태 유지가 일치해야 에이전트의 효율성과 안정성을 높일 수 있습니다.

•

상태 유지 메커니즘을 훈련 시점에 학습시키면, 런타임에서의 불필요한 상태 재계산이나 오류 발생을 줄여 토큰 사용량과 수행 안정성을 개선할 수 있습니다.

•

본 연구는 특정 유형의 최적화 문제에 국한되었으므로, 다양한 실제 적용 시나리오에서의 상태 유지 학습 효과에 대한 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage